الرؤية الحاسوبية… كيف ترى الآلات العالم من حولنا؟

آخر تحديث 11 يوليو 2020

9 د

على الرغم من أنَّ التجارب الأولى في مجال الرؤية الحاسوبية Computer vision بدأت في الخمسينات من القرن الماضي، وتم استخدامها لأول مرّة تجاريًا للتمييز بين النص المكتوب بالحاسوب والمكتوب بخط اليد بحلول السبعينات، إلا أنَّ مجال وتطبيقات الرؤية الحاسوبية تطوّرت بصورة كبيرة اليوم، من المتوقّع بحلول عام 2022 أنْ يصل حجم الإنفاق في رؤية أجهزة الحواسيب وسوق الأجهزة العالمية إلى 48.6 مليار دولار أمريكي -رقم ضخم بالطبع!- فقد أصبحت الرؤية الحاسوبية جزءًا مهمًا في حياتنا التقنية اليوم.

قبل الخوض في الرؤية الحاسوبية لنتحدّث قليلًا عن بعض المفاهيم الأساسية المُرتبطة بها.

لو طُلب منك تسمية الأشياء في الصورة أدناه، فمن المتوقّع أنْ تكون إجابتك: غطاء المائدة، السلّة، العشب، الصبي، الفتاة، الرجل، المرأة، زجاجة عصير البرتقال، الطماطم، الخس والأطباق من دون التفكير في الإجابة مرّتين، وإذا قيل لك أنْ تصف حدث الصورة أدناه فغالبًا ستقول: صورة لنزهة عائلية من دون التفكير في الأمر أيضًا مرّة أخرى.

هذه الأسئلة سهلة للغاية ويمكن لأيِّ شخص لديه ذكاء أقلّ من المتوسّط وتجاوز عمره سن السادسة أو السابعة أنْ ينجح في الإجابة عليها لكن مع ذلك الأمر لا يبدو بمثل هذه البساطة والسهولة عزيزي القارئ، حيث تحدث عمليّات معقدة للغاية في الدماغ البشريّ، تجعلنا ندرك الأشياء في الصورة بسرعة وثقة وذلك ما يسمى بالرؤية البشريّة أو الـ Human vision.

إنَّ رؤيتنا البشرية للأشياء المحيطة بنا هي جزء معقّد للغاية من التقنية العضوية التي تشمل العينين والقشرة البصرية، لكنّها تأخذ في الاعتبار أيضًا النماذج العقلية للأشياء، وفهمنا المجرّد للمفاهيم والتجارب الشخصية من خلال المليارات والتريليونات من عمليات التفاعلات التي قُمنا بها في حياتنا بهذا العالم.

مع التطوّر التقني الهائل اليوم يمكن للمعدّات الرقمية التقاط الصور بدقّة عالية وتفاصيل تفوق بكثير نظام الرؤية البشرية، كما يمكن لأجهزة الحواسيب اكتشاف وقياس الفرق بين الألوان بدقّة عالية جدًا، لكن فهم محتوى تلك الصور مشكلة واجهتها أجهزة الحواسيب الكلاسيكية وظلت عصيّة عليها لعقود طويلة، إنَّ الصورة أعلاه بالنسبة لجهاز الحاسوب عبارة عن مجموعة من البكسلات أو القيم العددية التي تُمثّل الألوان.

ما هي الرؤية الحاسوبية Computer vision؟

الرؤية الحاسوبية أو الـ Computer vision هي من مجالات علوم الحوسبة الحديثة، وشكل من أشكال الذكاء الاصطناعي، تساعد هذه التقنية على رؤية العالم وتحليل البيانات المرئية ثم اتخاذ قرارات منها أو اكتساب فهم حول البيئة والعالم، بالإضافة إلى تحديد ومعالجة الأشياء مثل الصور ومقاطع الفيديو بنفس الطريقة التي يَفعلها البشر، حتى وقتٍ قريبٍ كانت الرؤية الحاسوبية تعمل بقدرة محدودة، إلّا أنَّ كمية البيانات الرقمية الهائلة التي نُنتجها اليوم مثّلت إحدى العوامل الرئيسية الدافعة وراء تطورّ الرؤية الحاسوبية.

يحتوي عالمنا على عددٍ لا يُحصى من بيانات الصور ومقاطع الفيديو من خلال الكاميرات المدمجة في أجهزتنا المحمولة وحدها، كما تتضمّن أيضًا بيانات من أجهزة الاستشعار الحرارية أو الأشعة تحت الحمراء ومصادر أخرى، إلى جانب كمّية ضخمة من البيانات المرئية -تتم مشاركة أكثر من ثلاثة مليار صورة عبر الإنترنت يوميًا- فإنَّ قدرة الحوسبة المطلوبة لتحليل البيانات يمكن الوصول إليها اليوم بسهولة بفضل الرؤية الحاسوبية.

اقرأ أيضًا: كيف تغيرت صناعة الأزياء مؤخرًا؟ وهل تشكل التكنولوجيا الحل الوحيد للحفاظ على هذه الصناعة حاليًا؟

ومع النمو الكبير لمجال الرؤية الحاسوبية Computer vision المتوافقة مع الأجهزة الحديثة بواسطة الخوارزميات والابتكارات الجديدة في التعلّم العميق والشبكات العصبية، زادت معدّلات الدقة في تحديد وتحليل الأشياء، ففي أقل من عقد -عشرة أعوام- وصلت أنظمة الحواسيب إلى دقة 99% بدلًا عن 50% حيث تمكّن هذا المجال من تحقيق قفزات كبيرة في السنوات الأخيرة وتجاوز البشر في بعض المهام بفضل استجابته السريعة للمُدخلات المرئية.

كيف تعمل الرؤية الحاسوبية Computer vision؟

من أجل تحقيق قدرات الذكاء الاصطناعي، تُعتبر قوة الرؤية المُعطاة للحواسيب إحدى أهم المكونات الأساسية لمحاكاة عمل الرؤية البشرية تحتاج الحواسيب إلى الحصول على الصور والفيديوهات لمعالجتها وتحليلها وفهمها.

استطاعت الرؤية الحاسوبية تحقيق نمو هائل في هذا المجال بفضل عملية التعلّم التكرارية، والتي أصبحت مُمكنة مع الشبكات العصبية حيث تبدأ بمجموعة بيانات مُنظّمة بمعلومات تساعد الحاسوب أو الجهاز على تعلّم موضوع معيّن لنأخذ مثالًا بسيطًا، إذا كان الهدف من الرؤية الحاسوبية Computer vision هو تحديد مقاطع الفيديو التي تظهر فيها القِطط، فإنَّ مجموعة البيانات التي تستخدمها الشبكات العصبية تحتاج إلى الحصول على صور ومقاطع فيديو للقِطط بالإضافة إلى نماذج أخرى بدون قِطط.

كما يجب تمييز كلّ صورة ببيانات وصفية تُشير إلى الإجابة الصحيحة وعندما تعمل الشبكة العصبية عبر هذه البيانات والإشارات يتم العثور أخيرًا على صورة أو فيديو بداخلها قِطّة، إنَّ ردود الفعل التي تتلقّاها الرؤية الحاسوبية للقِطّة بخصوص ما إذا كانت الإجابة صحيحة أم لا تُساعد في تحسين هذه الرؤية، حيث تستخدم الشبكات العصبية خاصية التعرّف على الأنماط لتمييز العديد من القطع المختلفة للصورة، بعكس المُبرمج الذي يُحدّد السمات التي تكوّن القِطّة مثل امتلاك الذيل وشعيرات الشارب الطويلة التي تتميز بها.

تطوّر الرؤية الحاسوبية Computer vision عبر التاريخ

قبل ظهور التعلّم العميق كانت المهام التي يُمكن أنْ تؤديها الرؤية الحاسوبية محدودة للغاية، وتتطلّب الكثير من الترميز اليدوي والجهد من قِبل المطوّرين، فعلى سبيل المثال، إذا أردت إجراء خاصية التعرّف على الوجه سيتعيّن عليك تنفيذ الخطوات التالية:

إنشاء قاعدة بيانات: كان عليك التقاط صور فردية لجميع العناصر التي تريد تتبّعها بتنسيق محدد.
تعليقات توضيحية: بالنسبة لكل صورة فردية، يجب عليك إدخال عدة نقاط بيانات رئيسية مثل المسافة بين العينين، وعرض جسر الأنف، والمسافة بين الشفة العليا والأنف، وعشرات القياسات الأخرى التي تُحدّد الخصائص الفريدة لكلِّ شخص.
التقاط صور جديدة: يتعيّن عليك التقاط صور جديدة سواء من الصور الفوتوغرافية أو محتوى الفيديو وتُخضعها لعملية القياس مرة أخرى، مع تحديد النقاط الرئيسية في الصورة ومراعاة الزاوية التي تم التقاط الصورة بها.

بعد كل هذا العمل والترميز اليدوي يستطيع التطبيق أو البرنامج أخيرًا من مقارنة القياسات في الصور الجديدة بالقياسات المخزّنة في قاعدة بياناته، وإخبارك ما إذا كان يتوافق مع أيِّ من الملفّات الشخصية التي كان يتعقّبها، من خلال هذا التصميم كان هناك القليل من الأتمتة المعنية لأنّه يتم تنفيذ معظم العمل يدويًا وهامش الخطأ في البرنامج أو التطبيق كبير جدًا.

قدّم التعلّم الآلي نهج مختلف عن الترميز اليدوي، لحل مشكلات الرؤية الحاسوبية Computer vision، حيث لم يَعُدْ هناك حاجة مُلحة للمطوّرين في تشفير كلّ قاعدة في تطبيقات الرؤية الحاسوبية بشكلٍ يدوي، وبدلًا من ذلك قاموا ببرمجة الميزات، وهي تطبيقات أصغر تستطيع اكتشاف أنماط مُعيّنة في الصور، ثم استخدموا خوارزمية التعلّم الإحصائي مثل الانحدار الخطي، الانحدار اللوجستي، أشجار القرار لاكتشاف الأنماط وتصنيف الصور واكتشاف العناصر التي تحتويها كما ساعد التعلّم الآلي في حل العديد من المشكلات التي كانت تمثّل عقبة تاريخية لأدوات ومناهج تطوير البرمجيات الكلاسيكية.

اقرأ أيضًا: هل يستطيع هاتف OnePlus 8 Pro اختراق الملابس والرؤية من خلالها؟

أما التعلّم العميق فيتّبع نهج مختلف تمامًا عن النهجين السابقين للقيام بتعلّم الآلة في مجال الرؤية الحاسوبية Computer vision، حيث يعتمد على الشبكات العصبية التي يمكنها حل أيِّ مشكلة يتم توضيحها من خلال الأمثلة، عندما تُوفّر شبكة عصبية تحتوي على العديد من الأمثلة المصنّفة لنوع معيّن من البيانات، سيتمكّن التعلّم العميق من استخراج الأنماط الشائعة بين تلكَ الأمثلة بسهولة وتحويلها إلى معادلة رياضية تُساعد أيضًا في تصنيف أجزاء من المعلومات في المستقبل.

يتطلّب إنشاء تطبيق التعرّف على الوجه -من خلال التعلّم العميق فقط- تطوير أو اختيار خوارزمية تمَّ إنشاؤها مُسبقًا، وتدريبها بأمثلة على وجوه الأشخاص ليتعيّن عليها اكتشافها، ومن خلال الأمثلة الكافية تستطيع الشبكة العصبية اكتشاف الوجوه، من دون المزيد من الإرشادات حول السمات أو القياسات للعناصر، يُعتبر التعلّم العميق طريقة فعّالة للغاية للقيام بالرؤية الحاسوبية، وهامش الخطأ فيه قليل جدًا مقارنةً بالطريقتين السابقتين.

أمثلة حول تطبيقات الرؤية الحاسوبية Computer vision

فيما يلي بعض الأمثلة المهمّة للرؤية الحاسوبية في الحياة العملية اليوم:

المركبات ذاتية القيادة

الرؤية الحاسوبية Computer vision ضرورية لتمكين السيّارات ذاتية القيادة من السّير في الطُرقات بكفاءة عالية، حيث يستخدم مُصنّعي السيارات -مثل تسلا وبي ام دبليو وفولفو وأودي- كاميرات متعدّدة وأجهزة الليدار والرادار، بالإضافة إلى أجهزة الاستشعار بالموجات فوق الصوتية للحصول على صور من البيئةحتى لتتمكّن السيارات ذاتية القيادة من اكتشاف الأشياء المحيطة بها والعلامات والإشارات المرورية للقيادةِ بأمان.

تطبيق جُوجل للترجمة

كُلّ ما عليك فعله لقراءة الإشارات المكتوبة بلغة أجنبية، هو توجيه كاميرا هاتفك الذكيّ إلى الكلمات والسماح لتطبيق جوجل بإخبارك ما تعنيه هذه الكلمات باللغة التي تُريدها على الفور، وذلك بإستخدام بعض أدوات الرؤية الحاسوبية Computer vision مثل خاصية التعرّف البصري على الأحرف، والواقع المُعزّز لإعطاء ترجمة دقيقة.

التعرّف على الوجه

تأتي الصين في طليعة استخدام هذه التقنية بين جميع دول العالم، حيث تستخدمها في عمل الشرطة وبوّابات الدفع ونقاط التفتيش الأمنية في المطار، والمواقع الحكومية وغيرها من التطبيقات الأخرى.

الرعاية الصحّية

نظرًا لأنَّ 90% من البيانات الطبّية تعتمد على الصور فهناك عدد كبير من الاستخدامات الواسعة للرؤية الحاسوبية في مجال الطبّ، تتضمن طُرق التشخيص الطبّي الحديثة، وتحليل الأشعة السينية، والتصوير الشعاعي للثدي وغيرها من عمليات المسح الصورية لمراقبة حالات المرضى، وتحديد المشاكل الصحّية في وقتٍ مُبكّر، بالإضافة إلى المساعدة في عمليّات الجراحة، من المتوقّع أنْ تستفيد المؤسسات الطبّية من الرؤية الحاسوبية Computer vision في مجال الرعاية الصحّية بشكل أكبر في المستقبل.

تتبّع الأنشطة الرياضية

تحليل مباريات كرة القدم والأنشطة الرياضية الأخرى المُتلفزة أمرٌ شائع منذ فترة طويلة، ساهمت الرؤية الحاسوبية Computer vision أيضًا في تطوير وتسهيل عملية التحليل والإستراتيجيات بدقة وكفاءة عالية، من خلال تتبّع اللاعبين وتقييم مستوياتهم. عن طريق أجهزة الاستشعار المختلفة الموجودة في الملاعب والميادين الرياضية، وإخراجها في صورة معلومات إحصائية.

الزراعة

في معرض الإلكترونيات الاستهلاكية (CES) الذي يُقام سنويًا في مدينة لاس فيجاس الأمريكية، تم الكشف عام 2019 عن حصّادة شبه ذاتية تستخدم الذكاء الاصطناعي والرؤية الحاسوبية لتحليل جودة الحبوب أثناء حصادها، وإيجاد طريقة فعّالة لإنتاج المحاصيل بجودة عالية، ذلك من خلال تحديد الأعشاب الضارة بحيث يمكنها رش مبيدات الأعشاب عليها مباشرةً بدلًا عن المحاصيل، وبفضل تقنية الرؤية الحاسوبية Computer vision المتوفّرة في مثل هذه الحصّادات، فمن المتوقّع أنْ تُقلّل من كمّية استخدام مبيدات الأعشاب بنسبة تُقارب 90%.

الصناعة

تُساعد الرؤية الحاسوبية Computer vision في جعل الشركات الصناعية تعمل بشكل أكثر أمانًا وفاعلية بطرق متنوّعة، وتُعتبر الصيانة التنبؤية إحدى الأمثلة على ذلك، حيث يتم مُراقبة المعدّات الصناعية من خلال الرؤية الحاسوبية للتدخل السريع قبل حدوث عطل قد يتسبّب في تعطيل سير العمل، كما تتم أيضًا مراقبة عملية التعبئة وجودة المنتج التي تُساهم في تقليل عدد المنتجات المشوّهة أو المعيبة.

وأخيرًا…

مع استمرار تطوّر تقنية الرؤية الحاسوبية Computer vision، وتفوقّها في المهام التي تحتاج إلى دقة عالية في التحليل وسرعة الاستجابة مقارنةً بالرؤية البشرية، سيركّز العامل البشري في المستقبل أكثر على المهام الإدارية، بينما ستتم أتمتة جميع العمليات التي تعتمد على مفهوم التعرّف على الصور وتحليلها في القطاعات الحكومية والخاصة.

عبَّر عن رأيك

إحرص أن يكون تعليقك موضوعيّاً ومفيداً، حافظ على سُمعتكَ الرقميَّةواحترم الكاتب والأعضاء والقُرّاء.