لماذا يستهلك الذكاء الاصطناعي الكثير من الطاقة؟

ماريو رحال03/01/2021

362 9 دقائق

مدخل: مشكلة لا يريد أحد التكلم عنها

أجبرت شركة جوجل العملاقة في شهر ديسمبر/كانون الأول من سنة 2020 الباحثة تيمنيت جيبرو على ترك الشركة بعد أن اشتكت علانيةً من قيام جوجل بإجبارها على التخلي عن ورقةٍ بحثية أشارت فيها للمخاطر المتعلقة بأنظمة معالجة اللغة الطبيعية Natural Language Processing – أحد أنماط الذكاء الاصطناعي – والمستخدمة بكثرة في محرك بحث جوجل وغيرها من منتجات تحليل اللغة.

من بين المخاطر التي تمت الإشارة إليها هو البصمة الكربونية الكبيرة المترافقة مع تطوير هذا النمط من أنظمة الذكاء الاصطناعي. تُشير بعض التقديرات إلى أن تدريب نموذج ذكاء اصطناعي يوّلد نفس كمية ثاني أوكسيد الكربون الناتجة عن إنتاج خمس سيارات وقيادتها خلال المدة الوسطية لاستخدامها.

اقرأوا أيضاً: الذكاء الاصطناعي يحل معادلة شرودينجر

كايت ساينكو Kate Saenko باحثة بارزة في مجال الذكاء الاصطناعي في جامعة بوسطن، وهي على ألفة واطلاع مباشر بكلفة أبحاث الذكاء الاصطناعيّ، على صعيد المتطلبات المالية ومتطلبات الطاقة، وعبر هذا المقال، تقوم كايت بالإجابة على سؤالٍ أساسيّ يرتبط بواقع ومستقبل الذكاء الاصطناعيّ: لماذا أصبحت نماذج الذكاء الاصطناعيّ نهمة للطاقة، وكيف تختلف نماذج الذكاء الاصطناعيّ عن العمليات الحوسبية في مخدمات البيانات التقليدية؟

عمليات التدريب الحالية غير كفؤة

تتضمن الوظائف التي يتم تنفيذها في مخدمات البيانات أموراً مثل بث الفيديوهات وضمان تبادل رسائل البريد الإلكتروني وتبادل التفاعل على وسائط التواصل الاجتماعيّ. تختلف مثل هكذا مهام عن الوظائف التي تقوم نماذج الذكاء الاصطناعيّ بتنفيذها لأن هذه النماذج تحتاج لقراءة كميات كبيرة من البيانات حتى تتعلم كيف تفهمها؛ أي حتى يتم تدريب نموذج الذكاء الاصطناعيّ، وهذا هو السبب الأساسيّ الذي يجعل نماذج الذكاء الاصطناعيّ نهمة للطاقة.

تُعتبر عملية تدريب نماذج الاصطناعيّ غير كفؤة من ناحية استهلاك الطاقة مقياساً بالآلية التي يتعلم عبرها البشر، حيث تعتمد أنظمة الذكاء الاصطناعيّ الحديثة على الشبكات العصبونية، وهي بدورها عبارة عن عمليات حوسبية رياضية تُقلد آلية عمل العصبونات في الدماغ البشري. قوة ارتباط عصبون في الشبكة العصبونية الاصطناعية عبارة عن بارامتر رياضي يُعرف باسم الوزن Weight. بحالة وظيفة مثل فهم اللغة، تبدأ الشبكة العصبونية عملها انطلاقاً من أوزان عشوائية، أي قيم عشوائية غير محددة للبارامترات التي تحدد قوة ترابط العصبونات مع بعضها البعض، ومن ثم تقوم الشبكة بتعديل قيم هذه الأوزان حتى الوصول للخرج المطلوب والصحيح.

من الطرق الشائعة لتدريب الشبكات العصبونية المختصة بفهم اللغة هي إدخال كميات كبيرة من النصوص من مواقع مثل موسوعة ويكيبيديا أو المواقع الإخبارية الرسمية مع تظليل كلمات معينة، ومن ثم يُطلب من الشبكة العصبونية محاولة التعرف على الكلمات المظللة. يمكن أخذ مثال بسيط مثل جملة “هذا الكلب جميل” بحيث تكون كلمة “جميل” هي الكلمة المظللة. في البداية لن تكون الشبكة قادرة على التعرف على الكلمة المطلوبة، ولكن بعد عدد كبير من التعديلات التي تتم عبر إدخال الكثير من النصوص ومعالجتها ومقارنتها، ستتغير قيم أوزان الوصلات بين العصبونات وستبدأ الشبكة بتكوين قدرة على تمييز الأنماط بين البيانات المدخلة إليها حتى تصل لدرجة دقة معينة تتيح لها التعرف على الكلمة المطلوبة بدقة.

أحد النماذج المعروفة في مجال معالجة اللغة الطبيعية هو بيرت (BERT: Biderctional Encoder Representations from Transformers) وقد استخدم 3.3 مليار كلمة إنجليزية من مقالات موسوعة ويكيبيديا أثناء عملية تدريبه لفهم ومعالجة النصوص، وأكثر من ذلك، تطلبت عملية التدريب إدخال هذه الكمية الضخمة من البيانات 40 مرة. بالمقارنة، تتطلب عملية تعلم الطفل الكلام حوالي 45 مليون كلمة عند سن الخامسة بشكلٍ وسطيّ، وهو معدّل أقل بـ 3000 مرة من المعدل الذي تطلبه نموذج بيرت.

البحث عن البنية الصحيحة

تعتبر نماذج الذكاء الاصطناعيّ في مجال معالجة اللغات مكلفة من ناحية بنائها، وذلك لأن هذه النماذج تخضع لعمليات تدريب عديدة خلال تطويرها، وهذا لأن الباحثين يريدون العثور على أفضل بنية للشبكة العصبونية، أي عدد العصبونات التي تتكون منها الشبكات وعدد الوصلات بين هذه العصبونات ومدى سرعة تغير البارامترات خلال عملية التدريب. بزيادة عدد البُنى والاحتمالات التي يتم تجريبها يستطيع الباحثون تعزيز دقة الشبكة. لا يتطلب الدماغ البشريّ مثل هكذا إجرائية، أي الحاجة للبحث عن البنية الأمثل وذلك لأن هيكلية دماغنا مبنية مسبقاً ومُحسنة عبر سنين طويلة من التطور.

تتنافس الشركات والهيئات البحثية والأكاديمية في مجال الذكاء الاصطناعيّ، وهنالك ضغطٌ كبير من أجل تحسين دقة النماذج الحالية، وحتى تحسن بسيط مثل تعزيز دقة النموذج بمقدار 1% في مهام مثل الترجمة الآلية يُعتبر أمراً هاماً ويؤدي للحصول على منشوراتٍ علمية جيدة ومنتجات تطبيقية وعملية أفضل. ولكن من أجل الحصول على هذه الزيادة البسيطة – أي تحسين الدقة بمقدار 1% – قد يحتاج الباحثون لتدريب النموذج آلاف المرّات، وكل مرة مع بنية مختلفة، حتى يتم العثور على البنية الأمثل.

في هذا السياق، قام مجموعة من الباحثين في جامعة ماساتشوستس آمهرست بتقدير كلفة تدريب نماذج الذكاء الاصطناعيّ من ناحية استهلاكها للطاقة، وذلك عبر قياس استهلاك الطاقة من العتاد المستخدم أثناء عملية التدريب. وجد الباحثون أن تدريب نموذج مثل بيرت لمرةٍ واحدة سيؤدي لإنتاج نفس كمية الكربون التي يوّلدها سفر شخص واحد على متن طائرة بين مدينتي نيويورك وسان فرانسيسكو، وفي حال تدريب النموذج لمراتٍ عدة عبر تغييراتٍ طفيفة في بنية النموذج (عدد العصبونات، الوصلات، الأوزان…الخ) فإن استهلاك الطاقة الكليّ سيعادل سفر 315 شخص على متن طائرة من طراز بوينج 747 بين مدينتي نيويورك وسان فرانسيسكو.

أكبر وأكثر سخونة

تعاني نماذج الذكاء الاصطناعيّ من مشاكل أخرى: إنها أكبر مما يجب أن تكون عليه، وهي تنمو بشكلٍ متزايد سنة تلو الأخرى. يمتلك أحد نماذج الذكاء الاصطناعيّ المختصة بمعالجة اللغة 1.5 مليار وزن (بارامتر) ضمن شبكته (يُعرف هذا النموذج باسم GPT-2 وهو شبيه بنموذج بيرت)، وبالنسبة لنموذجٍ آخر مثل GPT-3 والذي جلب اهتماماً كبيراً بسبب دقته العالية، فإن عدد أوزانه يبلغ 175 مليار.

اكتشف الباحثون أن امتلاك شبكاتٍ عصبونية أضخم سيؤدي إلى تحسين الدقة، حتى لو لم يكن هنالك حاجة لاستخدام كامل الشبكة، أو أن الجزء المفيد الفعلي يشغل حجماً ضئيلاً من الحجم الكليّ للشبكة. يحدث أمرٌ مشابه في دماغ الأطفال عندما يتم تشكيل وصلات بين العصبونات ومن ثم يتم تخفيض عددها، والفرق هنا أن الدماغ الحيوي أكثر كفاءة بكثير من ناحية استهلاك الطاقة بالمقارنة مع الشبكات العصبونية الاصطناعية.

يتم تدريب وتعليم نماذج الذكاء الاصطناعيّ باستخدام عتادٍ حاسوبيّ متخصص مثل وحدات المعالجة الرسومية GPUs، والتي بدورها تستهلك كمياتٍ أكبر من الطاقة بالمقارنة مع وحدات المعالجة المركزية CPUs. إذا كنت تمتلك حاسوباً مخصص لألعاب الفيديو Gaming Laptop، فإنه من المرجح وجود وحدة معالجة رسومية ضمن جهازك، وذلك من أجل إنشاء عرض رسومي وبصري أفضل، ولكنك ستُلاحظ أيضاً أن مثل هكذا حاسوب يوّلد كمياتٍ أكبر من الحرارة مقارنةً مع الحواسيب الأخرى.

يعني كل ما سبق أن تطوير نماذج ذكاء اصطناعي متقدمة هو أمرٌ يُضيف كميات كبيرة من الكربون، وطالما أننا لا نقوم بتوليد الطاقة من مصادر نظيفة بنسبة 100%، فإن تقدم وتطور نماذج وبرمجيات الذكاء الاصطناعيّ ستعيق المساعي والأهداف المتعلقة بخفض انبعاثات غازات الدفيئة وإبطاء التحوّل المناخي. الكلفة المالية المصاحبة لتقدم الذكاء الاصطناعيّ تزداد أيضاً بشكلٍ كبير بشكلٍ سيجعل عدد قليل من المخابر والشركات قادر على تحملها، وهذه المخابر أو الشركات هي التي ستحدد نوع نماذج الذكاء الاصطناعي التي سيتم تطويرها.

تنفيذ أكثر باستخدام الأقل

ما الذي يعنيه كل هذا بالنسبة لمستقبل أبحاث الذكاء الاصطناعيّ؟ ليست الأمور بالسوء الذي تبدو عليه، فقد تنخفض كلفة تدريب نماذج الذكاء الاصطناعيّ مع نشوء وظهور طرق وآليات تدريب أكثر كفاءة، وبشكلٍ مشابه، تم توقع أن استهلاك مخدمات البيانات للطاقة سيتزايد على نحوٍ جنونيّ في السنوات الأخيرة، إلا أن هذا الأمر لم يحصل نظراً للتحسينات التي تم إنجازها في مجال كفاءة استهلاك مراكز البيانات للطاقة عن طريق استخدام عتادٍ حاسوبيّ أكثر كفاءة ونظم تبريد متقدمة.

هنالك أيضاً مقايضة هامة ما بين الكلفة الطاقية لتدريب نماذج الذكاء الاصطناعيّ والكلفة الطاقية لاستخدامها؛ عبر استهلاك طاقةٍ كبيرة أثناء عملية التدريب قد نحصل على نموذج كفؤ وذو حجمٍ صغير، وهذا يعني أن النموذج النهائيّ قد يمتلك حجماً صغيراً، ونظراً لكونه سيستخدم مراتٍ عديدة فإن هذا سيعني توفير كمياتٍ كبيرة من الطاقة.

ضمن العمل المخبريّ والبحثيّ الذي تقوم به كايت ساينكو تم تجريب طرق جديدة لجعل نماذج الذكاء الاصطناعيّ ذات حجمٍ أصغر عبر مشاركة الأوزان أو استخدام نفس الأوزان ضمن أجزاء مختلفة من الشبكة، وهي الشبكات التي أطلق عليها سم الشبكات ذات البُنى المراوغة Shapeshifter Networks، وذلك لأنه يمكن إعادة تخصيص مجموعة صغيرة من الأوزان لتستخدم في شبكاتٍ أكبر وذات أشكال وبنى مختلفة. أظهرت دراسات أخرى أن طريقة مشاركة الأوزان لها أداء أفضل خلال نفس زمن التدريب.

يجب على مجتمع الذكاء الاصطناعيّ استثمار موارد إضافية في مجال تطوير طرق وآليات تدريب كفؤة من ناحية استهلاك الطاقة، وإن لم يحصل ذلك فإن النتيجة ستكون المخاطرة بتحول الذكاء الاصطناعيّ لمجالٍ مسيطر عليه من قبل فئة محددة والتي تستطيع تحمل الكلف العالية المرافقة له، كما أنها ستستطيع وضع خارطة معينة لهذا المجال، وهذا يتضمن اختيار النماذج التي سيتم تطويرها ونوعية البيانات التي سيتم استخدامها في عمليات التدريب والمجالات والتطبيقات التي سيتم استخدام نماذج الذكاء الاصطناعيّ فيها.

المصدر: [The Conversation]

الوسوم

ماريو رحال03/01/2021

362 9 دقائق

مدخل: مشكلة لا يريد أحد التكلم عنها

عمليات التدريب الحالية غير كفؤة

البحث عن البنية الصحيحة

أكبر وأكثر سخونة

تنفيذ أكثر باستخدام الأقل

ماريو رحال

مقالات ذات صلة

ما هي متطلبات أن تصبح الحواسيب واعية؟

كيف تعمل اللوحة اللمسية في جهازك المحمول؟

إطلاق برنامج FREEPDK15 لتطوير تصاميم الشرائح الحاسوبية

الأمن، الحماية، وإنترنت الأشياء

تعليق واحد