خوارزمية “التّعلم العميق” تهزم البشر في اختبارات الذكاء
قبل حوالي 100 عام، قام الطبيب الألماني ويليام شتيرن William Stern بتوصيف اختبار “مُحصلة الذكاء Intelligent Quotient” كطريقةٍ من أجل تقييم الذكاء البشري. منذ ذلك الوقت، أصبح اختبار الذكاء – الذي يُرمز له اختصاراً بـ IQ Test – أحد الخصائص الأساسية في الحياة الحديثة والذي يتم استخدامه على نطاقٍ واسع من أجل تحديد مدى مُلائمة قدرة الأطفال على الدخول إلى المدارس، وكذلك قدرة البالغين على تأدية المهام والوظائف المختلفة.
تتضمن اختبارات تقييم الذكاء ثلاثة تصنيفات أساسية: الصنف الأول هو الأسئلة المنطقية، مثل التّعرف على نمطٍ محدد ضمن سلسلة من الصور المتتالية. الصنف الثاني هو الأسئلة الرياضية مثل العثور على نمطٍ محدد من بين سلسلة طويلة من الأرقام. الصنف الثالث هو أسئلة المنطق اللفظي Verbal Reasoning، والتي تعتمد على إجراء المقاربات Analogies، وعمليات التّصنيف Classifications، وإيجاد المُترادفات اللغوية Synonyms، والمتضادات اللغوية Antonyms.
وفيما يتعلق بالذكاء الاصطناعي وتطوير قدرة الآلات على التفكير واتخاذ القرار، فإن اختبار الذكاء هو أيضاً أحد ميادين البحث والتطوير. يُمكن القول أنه لا يوجد مشكلة كبيرة في تطوير قدرة الآلة على إجراء اختبارات الأسئلة المنطقية، أو إجراء اختبارات الأسئلة الرياضية، وذلك بسبب التطوّر الكبير الحاصل بمجال خوارزميات التّعرف على الأنماط Pattern Recognition وتحديدها. المُشكلة هي في قدرة الحواسيب والآلات على إجراء النمط الثالث من اختبارات الذكاء، وهو اختبار المنطق اللفظي، وذلك كونه يتطلب مهاماً عقلية وإدراكية أقوى من مُجرّد العثور على نمط أو شكل من بين سلسلة صور، أو إيجاد النمط الذي يحكم سلسلة من الأرقام. اختبارات المنطق اللفظي تتضمن قراءة نصوص طويلة، واستخلاص أهم المعلومات منها، ومن ثم الإجابة على الأسئلة التي تكون استنتاجية حول النص، أي أن السؤال لا يكون حول كلمة محددة أو جملة محددة، بل غالباً ما يكون استنتاجياً حول جملة معينة من النص، أو حول النص بأكمله، وهذا ما يجعل من الاختبار يتطلب مهاماً إدراكية أعلى.
هذا الأمر هو ما تصدى له هوازينغ وانغ Huazheng Wang من جامعة العلوم والتقنية في الصين، وبين غاو Bin Gao من مركز أبحاث شركة مايكروسوفت في بيجينغ. لم تكن الحواسيب أبداً جيدة في مثل هكذا نمط من الاختبارات، أي اختبارات الذكاء والمنطق اللفظي، حيث تشير معظم الإحصائيات المتعلقة بأداء أجهزة وبرمجيات معالجة اللغات الطبيعية Natural Language Processing إلى أنها ضعيفة جداً بمجال أسئلة المنطق اللفظي، وذات معدل أداء أقل بكثير من متوسط أداء البشر الطبيعي.
إلا أن كل هذا قد تغير اليوم، وذلك بفضل العمل الجديد الذي تم إنجازه من قبل هوازينغ وزملاؤه، الذين تمكنوا من تطوير آلة تعلم عميق قادرة على تأدية اختبارات المنطق اللفظي بأداءٍ يتجاوز متوسط أداء البشر، وذلك للمرة الأولى.
خلال السنوات السابقة، قام علماء الحواسيب باستخدام تقنيات التنقيب عن البيانات Data Mining من أجل تحليل أجزاءٍ كبيرة من النصوص، وذلك بهدف إيجاد الروابط بين الكلمات المشكلة لهذه النصوص. هذا الأمر قدم للعلماء مساعدة من أجل الحصول على إحصاءاتٍ دقيقة تتعلق بأنماط الكلمات، مثل كم مرة ستتكرر كلمة معينة بجانب الكلمات الأخرى. انطلاقاً من هذه المعلومات، يمكن العمل على تطوير تقنيات استنتاج لكيفية ترابط الكلمات مع بعضها البعض، ولو كانت موجودة ضمن أجزاءٍ كبيرة وضخمة.
النتيجة النهائية لهذه الأعمال، هي أنه يمكن التعامل مع الكلمات على أنها أشعة Vectors ضمن فضاءٍ متعدد الأبعاد، وهذا يعني أنه يمكن التعامل مع الكلمات بواسطة الرياضيات: مقارنة الكلمات، جمعها، طرحها، وذلك مثلها مثل أي شعاع رياضي آخر. هذا الأمر يقود إلى علاقات ارتباطية من النمط التالي:
ملك – رجل + امرأة = ملكة.
أثبت المنهج البسيط السابق فعالية كبيرة، وشركة غوغل تستخدمه بشكلٍ كبير في عمليات الترجمة الآلية للغات وذلك عبر افتراض أن تتابع الكلمات ضمن لغاتٍ مختلفة، والتي يتم تمثيلها باستخدام نفس الشعاع (كشعاع تعريف الملك السابق) هي متكافئة بالمعنى، وهذا يعني أن هذه الأشعة ستكون ترجمة لبعضها البعض، طالما أنها تتكون من نفس التتابع الشعاعي، ولو أنها ضمن لغات مختلفة.
السلبية الأساسية المتعلقة بهذا المنهج هو أنه يفترض أن الكلمة الواحدة لها معنى واحد ويتم تمثيلها عبر شعاعٍ وحيد. بالعودة لاختبارات المنطق اللفظي، فإننا سنجد أن مثل هكذا منهج لن يكون جيداً من أجل جعل أي نظام حاسوبي يقوم بتنفيذ اختبار منطق لفظي بشكلٍ جيد، لأن اختبارات المنطق اللفظي تركز بشكلٍ كبير على الكلمات التي تحمل عدة معاني بنفس الوقت.
قام هوازينغ وزملاؤه بتعقب هذه المشكلة مستخدمين الطريقة التالية: قاموا بأخذ كل كلمة، ومن ثم النظر للكلمات الأخرى التي غالباً ما تظهر بجانبها، وذلك ضمن أجزاء كبيرة من النصوص. قاموا باستخدام خوارزمية محددة من أجل معرفة كيف تتجمع هذه الكلمات مع بعضها البعض ضمن “عناقيد Clusters”. المرحلة الأخيرة كانت بأخذ المعاني المختلفة لكل كلمة اعتماداً على القواميس، ومن ثم مطابقة هذه المعاني مع الكلمات ضمن العناقيد.
يمكن إجراء العملية السابقة بشكلٍ آليّ لأن التعاريف الموجودة في القواميس تتضمن جملاً بسيطة توضح الاستخدامات المختلفة لكل كلمة، وبالتالي، وعبر حساب التمثيل الشعاعي لهذه الجمل ومن ثم مقارنتها مع التمثيل الشعاعي للكلمات ضمن العناقيد، سيكون من الممكن إجراء مطابقة فيما بينها.
النتيجة النهائية لهذه العملية هي الحصول على طريقةٍ فعالة للتعرف على المعاني المختلفة التي يمكن للكلمة الواحدة أن تمتلكها.
من أجل جعل نظامهم الحاسوبي أكثر ذكاءً، ومن أجل التغلب على صعوبات اختبارات المنطق اللفظي، قام هوازينغ وزملاؤه بإضافة ميزة إضافية، وهي تحديد التصنيف الذي يقع السؤال ضمنه، وتضمين استراتيجية حل لكل صنف من أصناف الأسئلة، وهذا الأمر سيساعد بشكلٍ كبير لأن كل صنف من الأسئلة سيرتبط مع عناقيد معينة من الكلمات والمفردات المرتبطة به.
كمثال على الأسئلة التي تتضمن التشابه الجزئي Analogie، يمكن أخذ السؤال التالي:
“التعادل الحراري Isothem” بالنسبة لدرجة الحرارة، هي مثل “تعادل الضغط Isobar” بالنسبة لـ :
(1) الغلاف الجوي (2) الرياح (3) الضغط (4) خط العرض (5) التيار
أو كمثال آخر:
قم بتحديد كلمتين من الكلمات الموجودة ضمن أقواس، والتي يمكن لها أن تشكل رابط مع الكلمات المسطرة:
(1) فصل (كتاب، قراءة، آية). (2) مثّل (مسرح، جمهور، لعب)
بالنسبة للأسئلة المتعلقة بتصنيف الكلمات Word Classification، يمكن أخذ المثال التالي:
ما هي الكلمة الغريبة بين الكلمات التالية: (1) هدوء (2) استرخاء (3) صامت (4) أملس
يوجد أيضاً العديد من الأمثلة على أسئلة المنطق اللفظي، مثل الأسئلة المتعلقة بالبحث عن المترادفات اللغوية Synonyms، أو المتضادات اللغوية Antonyms. بكل الأحوال، فإن الهدف من تحديد أصناف الأسئلة هو تدريب خوارزمية تعلم الآلة على كلٍ منها، بحيث تستطيع الخوارزمية تحديد طبيعة الأسئلة، والبحث عن عناقيد الكلمات المرتبطة بكل نمط من أنماط الأسئلة، والإجابة على السؤال بأفضل شكل ممكن.
بالنهاية، قام الفريق بمقارنة خوارزمية التعلم العميق التي قاموا ببنائها مع الطرق الخوارزمية الأخرى التي تهدف لحل أسئلة المنطق اللفظي، وأيضاً مع القدرات البشرية الطبيعية. ولأجل القيام بذلك، قاموا بطرح الأسئلة على 200 متطوع، والمذهل أن النتيجة النهائية كانت أن خوارزميتهم الآلية قد تفوقت بالأداء بمقدارٍ قليل على المُعدّل الوسطي لأداء المتطوعين البشر.
عادةً ما يرتبط أداء البشر باختبارات المنطق اللفظي بخلفيتهم التعليمية، حيث يلاحظ أن الأشخاص الذين يحملون شهادة التعليم الثانوي يقدمون أداءً منخفضاً مقارنة بالأشخاص الذين يحملون شهادة تعليم جامعي، أو شهادات تعليم عالي. ويقول هوازينغ أن نظامهم الجديد يمتلك مستوى ذكاء يتراوح ما بين ذكاء الأشخاص الذين يمتلكون شهادة جامعية أولى، والأشخاص الذين يحملون درجة الماجستير.
في الوقت الحالي، تكتسح تقنيات التعلم العميق مجال علوم الحاسب بشكلٍ كبير، ويعتقد أن الثورة التقنية الكبيرة التي ستحدثها هذه التقنية لا تزال في مراحلها الأولى. لا يمكن الجزم على وجه التحديد إلى أين من الممكن أن نصل بفضل هذه التقنيات الذكية، ولكن بكل تأكيد، فإن عالم النفس الألماني ويليام شتيرن – أول من قدم مفهوم اختبارات الذكاء قبل 100 عام – سيكون مذهولاً.
للاطلاع على الورقة البحثية المنشورة الخاصة بالبحث: اضغط هنا
مصدر المقال: اضغط هنا
للمزيد من المقالات حول مفهوم التعلم العميق والذكاء الاصطناعي:
خورازمية التعلم العميق تستطيع دراسة حي ما بشكلٍ أفضل من البشر
متعة تعلم الآلة: اعرف عمرك مع تطبيق How-Old من شركة مايكروسوفت
هل تستطيع الآلات التفكير؟ إساءة تعريف البشر على أنهم آلات في اختبار تورينغ