تقنية

أنظمة الذكاء الصنعي تستخدم المنطقَ لحلِّ المشكلات مثل الإنسان..!

يُعرَض على طفلة صورةٌ تحوي أشكالًا مختلفة، ويُطلب منها إيجادُ الدائرة الحمراء الكبيرة للوصول إلى الجواب، فتنجز الطفلة خطوات قليلة من التفكير:

أوّلًا؛ البحث عن كلِّ الأشياء الكبيرة، ثمَّ العثور على الأشياء الكبيرة ذات اللون الأحمر.

وأخيرًا؛ اختيار الشكل الأحمر الكبير الذي يمثِّل الدائرة.

*نتعلَّم عن طريقِ العقل كيفيّةَ تفسير العالم؛ وكذلك تفعل الشبكات العصبونية.

في الوقت الحالي؛ طوّر فريق من الباحثين من مختبرِ لينكولن في جامعة (MIT للذكاء وتقنيّات اتّخاذ القرار) شبكةً عصبونيةً تؤدّي خطوات تفكير شبيهة بالإنسان؛ للإجابة عن أسئلةٍ عن محتويات الصور.

أُطلق على هذا النموذج اسم شبكات ذات تصميم يحقِّق الشفافيةَ، وتُدعى Transparency by Design Networks أو TbD Nets؛ وهو ما يجعل عمليةَ التفكير عمليةً بصرية في أثناء حلّ المشكلات، ممّا يسمح للمحلّلين البشريين بتفسيرِ عملية صنع القرار. ويحقّق هذا النموذج أداءً أفضل من أفضلِ الشبكات البصرية الموجودة حاليًّا.

كان فهم كيفيّة وصول الشبكة العصبونية إلى قراراتِها تحدّيًا طويل الأمد للباحثين في مجالِ الذكاء الصنعي (AI). وكما يوحي اسمها (العصبي)؛ فإنَّ الشبكات العصبونية هي أنظمة الذكاء الصنعي المستوحاة من الدماغ، والتي تهدف إلى استنساخِ الطريقة التي يتعلَّم بها البشر، وهي تتكوّن من طبقات الدخل والخرج وطبقاتٍ بينها تُحوِّل الدخلَ إلى خرجٍ صحيح.

لقد نمت بعضُ الشبكات العصبونية العميقة إلى درجة أنّه من المستحيل عمليًّا اتّباع عملية التحوُّل هذه؛ وهو السبب في تسميتِها بأنظمة “الصندوق الأسود”، مع ما يحيط بها من غموض حتّى بالنسبة إلى المهندسين الذين يبنونها.

مع TbD-net؛ يهدف المطوّرون إلى جعلِ هذه العمليات الداخلية واضحة، فالشفافية مهمّة لأنّها تسمح للبشر بتفسيرِ نتائج الذكاء الصنعي.

وعلى سبيل المثال؛ من المهمّ أن نعرف ما هو الفرق بين المشاة وعلامة التوقّف بالنسبة إلى الشبكة العصبونية.. وعند أيّة نقطة على امتدادِ سلسلة التفكير تَرى هذه الشبكاتُ تلك الفروقات.

وتسمح هذه الأفكار للباحثين بتعليمِ الشبكة العصبونية كيفيّة تصحيح أيّ افتراضات غير صحيحة، لكنَّ مطوّري TbD-net يقولون إنَّ أفضل الشبكات العصبونية اليوم تفتقر إلى آليةِ فعّالة تساعد البشر على فهمِ عملية تفكيرها.

تمكّنت مجموعة مختبر لينكولن من سدِّ الفجوة بين الأداء وقابلية التفسير مع TbD-net، وأحد مفاتيح نظامها هو مجموعة من “الوحدات النمطية”؛ وهي شبكات عصبونية صغيرة متخصّصة في أداءِ مهام فرعية محدّدة.

وعندما تُسأَل TbD-net سؤالَ استدلال بصري عن صورةٍ ما، فإنّها تفسّر السؤالَ في المهام الفرعية وتعيِّن الوحدةَ المناسبة لحلِّ السؤال – مثل العمال في خطِّ التجميع.

وتستخدم TbD-net تقنيةَ الذكاء الصنعي: واحدة تفسّر أسئلةَ اللغة البشرية وتقسِّم هذه الجمل إلى مهام فرعية، تليها تقنيّاتُ الذكاء الصنعي المتعدّدة التي تفسّر الصور.

يقول ماجومدار: “تحويل مشكلة معقّدة إلى مشكلات فرعية أصغر يمكن حلُّ كلٍّ منها حلًّا مستقلًّا؛ هو وسيلة قوية وبديهية للتفكير”.

وتُصوَّر كلُّ وحدة نمطية بصريًّا في ما يسمّى “قناع الانتباه”؛ ويعرض قناع الانتباه خريطةً حرارية من النقاط على الأشكال الموجودة في الصورة التي تحدّدها الوحدة بوصفِها إجابتها، هذه المرئيّات تسمح للمحلّل البشري برؤيةِ كيف تفسّرُ وحدة ما الصورة.

خذ على سبيلِ المثال السؤال الآتي الذي طرحته TbD-net:

“في هذه الصورة.. ما هو لون المكعّب المعدني الكبير؟”

من أجلِ الإجابة عن السؤال؛ تحدّد الوحدة النمطية الأولى كائناتٍ كبيرة فقط، ممّا يُنتِج قناعَ انتباه بهذه الأشياء الكبيرة التي قد برزت؛ وتأخذ الوحدة النمطية التالية هذا الناتجَ وتكتشف أيًّا من تلك الأجسام -التي قد حُدِّدت بحجمِ الوحدة النمطية السابقة- هي معدنية أيضًا، ثمَّ يُرسَل خرج الوحدة إلى الوحدة التالية والتي تحدّد أيًّا من هذه الأجسام المعدنية الكبيرة هي مكعَّبٌ أيضًا، ويُرسَل هذا الخرج إلى وحدة يمكنها تحديد لون الكائنات، والناتج النهائي لـ TbD-net هو “أحمر”؛ وهي الإجابة الصحيحة عن السؤال.

وعند الاختبار حقّقت TbD-net نتائجًا تفوق نماذجَ التفكير البصري الأفضل أداءً.

قيّم الباحثون النموذج عن طريقِ استخدامِ مجموعة بيانات مرئية للردِّ على أسئلة تتألّف من 70،000 صورة تدريبية و 700،000 سؤال، إلى جانبِ مجموعة اختبارات وتُحقَّق من 15000 صورة و 150،000 سؤال.

وحقّق النموذج الأولي دقّةَ اختبار بنسبة 98.7 في المائة في مجموعةِ البيانات؛ والتي تفيد -حسب الباحثين- بأنّ ذلك يتفوّق بكثير على الأساليب القائمة على الشبكات العصبونية الأخرى.

والأهمُّ من ذلك؛ تمكّن الباحثون بعد ذلك من تحسينِ هذه النتائج بسببِ ميزة نموذجهم الأساسية؛ الشفافية.

وعن طريقِ النظر إلى أقنعةِ الانتباه التي تنتجها الوحدات؛ يمكن أن نرى أين حصلت الأخطاء، ثم صقلَ النموذج..! وقد كانت نتيجة الأداء النهائية بعد صقلِ النموذج دقيقةً بنسبة 99.1 في المئة.

يقول ماسكاركا: “يقدِّم نموذجنا خرجًا واضحًا قابلًا للتفسير في كلِّ مرحلة من مراحلِ عملية التفكير المنطقي”.

وتُعدُّ الترجمة الفورية ذات قيمة خاصة إذا ما نُشرَت خوارزميات التعلّم العميقة جنبًا إلى جنب مع البشر؛ للمساعدة على التعامل مع المهام المعقّدة في العالم الحقيقي. ومن أجلِ بناء الثقة في هذه الأنظمة؛ سوف يحتاج المستخدمون إلى القدرة على فحصِ عملية الاستدلال حتَّى يتمكّنوا من فهمِ: لماذا وكيف يمكن أن يقدِّم نموذج ما تنبؤاتٍ خاطئة!

ويقول بول ميتزجر؛ رئيس مجموعة تقنيّات المعلومات والتقنيّات: إنّ البحث “جزءٌ من عملِ مختبر لينكولن حتّى يصبح رائدًا عالميًّا في مجالِ البحث التطبيقي الآلي والذكاء الصنعي، الذي يعزِّز التعاونَ بين البشر والآلات.”

ووُصفت تفاصيل هذا العمل في الورقة البحثية “الشفافية بالتصميم: سدّ الفجوة بين الأداء والتفسير في التفكير البصري”؛ والتي قُدِّمت في هذا الصيف – في مؤتمرِ رؤية الحاسوب والتعرُّف إلى الأنماط (CVPR).

ولا يزال الطريق طويلًا أمام الباحثين في المجال لتحسينِ هذه التقنية واستغلالها في تطبيقات الحياة من السيارات ذاتية القيادة إلى أنظمة الترجمة الفورية وغيرها؛ لكنّ ما لا ريب فيه هو أنّ هذه التقنية ستكون ذاتَ أهمية كبيرة في المستقبل؛ لِما تقدِّمه من حلول للعديد من المشكلات التقنية المتعلّقة بفهمِ كيفية عمل الأنظمة الذكية.

المصدر:
هنا

اظهر المزيد

مقالات ذات صلة

اترك رد

شاهد أيضاً

إغلاق
إغلاق