عُلماء الذكاء الاصطناعي... لماذا يعشقون ألعاب الفيديو؟

نشر في 26-06-2017

تتعدد أسباب رواج ألعاب الفيديو بين الطلاب في مجال الذكاء الاصطناعي: يستعملها البعض كأدوات تدريبية لاستخدامها في عالم الواقع، بينما يظنّ البعض الآخر أنها تساعده على فهم طريقة تقسيم مشكلة الذكاء إلى أجزاء صغيرة وقابلة للتحكم، بعدما لوحظ أن الألعاب تتطلّب مهارات معرفية مختلفة. بناءً على هاتين الملاحظتين، يظنّ آخرون حتى الآن أن الألعاب تساعدهم على تطوير نظرية مناسبة عن الذكاء الاصطناعي (أو حتى الطبيعي). مزيد من التفاصيل عرضتها «إيكونوميست».

في السنة الماضية واجه أرتور فيليبويتز، عالِم حاسوب في جامعة «برنستون» في الولايات المتحدة الأميركية، مشكلة مع لافتات التوقف. هو يُعلّم السيارات أن تشاهد العالم وتفسّره ويعطيها مجال رؤية يسمح لها بالقيادة من دون مساعدة. لكنها ستحتاج إلى القدرة على تحديد لافتات التوقف. لتحقيق هذه الغاية، حاول أن يدرّب نظاماً مناسباً من الحلول الحسابية. كان ذلك التدريب يعني عرض صور كثيرة للافتات التوقف في ظروف مختلفة أمام ذلك النظام (أو الحاسوب الذي يُشغّله): لافتات قديمة ولافتات جديدة، ولافتات نظيفة وأخرى قذرة، ولافتات مغطاة جزئياً بشاحنات أو مبانٍ، ولافتات في أماكن مشمسة وممطرة وضبابية، ولافتات في النهار والغسق والليل.

كان يصعب الحصول على تلك الصور كلها من مكتبات الصور، وكان الخروج إلى العالم لتصويرها شخصياً ليكون عملاً شاقاً. لذا لجأ د. فيليبويتز إلى لعبة Grand Theft Auto V، أحدث إصدار من سلسلة ألعاب فيديو معروفة. هذه اللعبة مثيرة للجدل بسبب تجسيدها الواقعي للجرائم وأعمال العنف. لكن اعتبرها الدكتور مثالية لأنها تشمل لافتات توقف واقعية. من خلال تعديل برنامجها، أقنعها بإنتاج آلاف الصور التي تجسّد تلك اللافتات، في أنواع الظروف كافة، كي يستوعبها نظامه الحسابي.

تشكّل لافتات التوقف التي استعملها د. فيليبويتز مثالاً على سبب انجذاب طلاب الذكاء الاصطناعي (رؤية الآلات نموذج من ذلك الذكاء) إلى ألعاب الفيديو.

تعليم القيادة

لا بد من تعديل الألعاب أولاً كي يتمكّن برنامج محوسب آخر من استعمالها مباشرةً بدل أن يشاهد البشر العملية على الشاشة. يمكن تحويل لعبة Grand Theft Auto V مثلاً من مصدر لصور لافتات الطرقات إلى أداة لمحاكاة القيادة في المركبات ذاتية التحكم عبر إلحاقها ببرنامج اسمه Deep Drive. تسمح هذه العملية لبرامج القيادة والملاحة في تلك المركبات بالسيطرة على الوضع: هذه الطريقة أقل كلفة وأكثر أماناً من نشر السيارات على الطرقات عشوائياً لاختبار برمجيات القيادة.

بدأت شركات الألعاب تدرك هذه النقطة. في يونيو 2015 مثلاً، أطلقت «مايكروسوفت» «مشروع مالمو»، منصة لتطوير الذكاء الاصطناعي بناءً على لعبة «بناء العالم» الشهيرة Minecraft التي اشترتها حديثاً. في نوفمبر 2016، قامت شركة Activision Blizzard، التي اشترت لعبة الخيال العلمي الاستراتيجية Starcraft II حيث يبني اللاعبون جيوشاً بشرية وفضائية ويقودونها، بإعلان مماثل بالتعاون مع شركة DeepMind التي تُعنى بالذكاء الاصطناعي وتملكها الشركة القابضة التابعة لغوغل Alphabet.

من خلال إطلاق «مشروع مالمو»، تأمل شركة «مايكروسوفت» بأن تُعلّم برنامج الذكاء الاصطناعي التعاون مع البشر. لتحقيق هذه الغاية، تحاول رئيسة المشروع كاتجا هوفمان أن تستعمل لعبة Minecraft لابتكار مساعِد شخصي متقدّم. تريد الأخيرة اختراع برنامج يستطيع استباق ما يريده عامل التشغيل البشري ومساعدته على تحقيق هدفه. تشكّل لعبة Minecraft أرضية مثالية للتجارب كونها أكثر بساطة من عالم الواقع لكنها تبقى معقدة بما يكفي كي تبدو مثيرة للاهتمام. تستعملها د. هوفمان وزملاؤها مثلاً لتعليم الحاسوب أن يفهم حاجته إلى التعاون مع لاعب بشري لالتقاط فريسة افتراضية. لما كانت الآلة تعجز عن فهم التعليمات المكتوبة، فيجب أن تتعلّم معنى التعاون عبر مشاهدة أفعال زملائها البشر في اللعبة.

مشكلة الذكاء

لكن لا يستفيد الذكاء الاصطناعي من ألعاب الفيديو كأدوات للتدرّب على عالم الواقع فحسب. لما كانت الألعاب كافة تتطلب مهارات مختلفة، فيمكن أن يقسّم الباحثون مشكلة الذكاء. في عام 2015، أصدرت شركة DeepMind دراسة تَصِف كيف درّب الباحثون شبكة عصبية اصطناعية (برنامج مبنٍ على بنية الدماغ البيولوجي) كي تشارك في عشرات الألعاب المختلفة التي أصدرتها شركة Atari الرائدة في ألعاب الفيديو خلال السبعينيات والثمانينيات.

تبيّن أن الشبكة تجد صعوبة متزايدة في التحكم ببعض الألعاب. كانت Breakout سهلة كونها أشبه بنسخة من لعبة كرة المضرب التي يشارك فيها لاعب واحد. يتعلق الهدف بسحق كتل عائمة عبر ضربها بِكرة مرتدّة. يمكن أن يقوم اللاعب بأحد الخيارين التاليَين: تحريك «المضرب» يساراً أو يميناً. إذا فشل سيُعاقَب فوراً (يؤدي تفويت الكرة إلى خسارة حياة اللاعب). لكن يُقابَل النجاح بمكافأة فورية (يزيد مجموع النقاط عند سحق كل كتلة). كان هذا الخليط من البساطة والتفاعل الفوري مناسباً للشبكة العصبية في DeepMind، فقد أتقنت لعبة Breakout لدرجة أنها سجلت نقاطاً تفوق مجموع خبير بشري بالألعاب بعشرة أضعاف.

عمد الباحثون في شركة DeepMind إلى تعديل أنظمتهم الحسابية لزيادة فضول النظام من خلال تقديم مكافآت إضافية في مقابل عمليات الاستكشاف وخوض التجارب. هذا ما جعله أكثر ميلاً إلى إيجاد استراتيجيات فاعلة تعطي منافع لا تتّضح فوراً. لا تقتصر تلك المقاربة على إتقان المهارات في العالم الافتراضي، بل يمكن تطبيقها أيضاً في عالم الواقع. استُعمل نظام الحلول الحسابية في شركة DeepMind مثلاً في مراكز بيانات تابعة لشركة «غوغل» حيث طوّر طرائق لتخفيض استهلاك الطاقة بنسبة 40 %. يمكن أن نشاهد مهمات مماثلة على شكل ألعاب بحد ذاتها. لتخفيض استعمال الطاقة في مركز البيانات، يمكن أن تُعدّل الشبكة عناصر مثل إعدادات مضخة التبريد وعمليات توزيع الحمولات تزامناً مع مراقبة مستوى استعمال الطاقة. يشير تراجع «مجموع النقاط» إلى تحسّن أداء النظام.

تجسيد الحقيقة

في الوقت الراهن، يشبه تعديل أهداف برنامج الألعاب وتمكينه من إدارة ميزانية الطاقة في مركز البيانات تعليمه لعبة جديدة منذ البداية لأن الشبكة العصبية الأصلية في شركة DeepMind تستطيع أن تتعلم لعبة واحدة في كل مرة. كي تفهم Breakout مثلاً، يجب أن تنسى كل ما تعرفه عن Space Invaders. يشكِّل فقدان الذاكرة جزءاً من طبيعة الشبكات العصبية الاصطناعية وهو ما يميّزها عن الأدمغة الحقيقية. تتعلّم الشبكات عبر التعديلات التي تشمل النظام كله وتستهدف نقاط قوة الروابط القائمة بين الخلايا العصبية الافتراضية التي تتألف منها. يكفي أن تتغيّر المهمة التي يجب أن تتعلمها كي تُمحى شبكة الروابط القديمة تدريجاً. لكن يذكر الباحثون في الدراسة التي نُشرت في مارس أن المبرمجين في شركة DeepMind اكتشفوا كيفية تجاوز هذه المشكلة والسماح للشبكة بإتقان ألعاب متعددة في الوقت نفسه مثلما يفعل الدماغ الحقيقي. إنه تقدم بارز نحو مفهوم «تطبيق المعارف» الذي يشكّل موضوعاً محورياً في البحوث المرتبطة بالذكاء الاصطناعي (يشير ذلك المفهوم إلى القدرة على استعمال أنماط سلوكية معينة في سياق يختلف عن سياق تعلّمها).

مثل تشغيل حس الفضول وتأخير المكافآت، يطبِّق البشر المعارف على مهمات مختلفة بكل سلاسة بينما تجد الآلات صعوبة في هذا المجال. نكرر أن الألعاب تؤدي دوراً مهماً في مجال البحوث. مثلاً، نظّم جوليان توغيليوس من جامعة نيويورك تحدياً اسمه «مسابقة الذكاء الاصطناعي العام بين ألعاب الفيديو». يجب أن يبتكر المشاركون برنامجاً واحداً يستطيع أن يشارك، بمستوى منطقي من الكفاءة، في عشر ألعاب فيديو مختلفة لا يعرفها البرنامج ولا من صمّمه. لتنفيذ هذه العملية، يجب أن يتقن البرنامج مهارات عدة، كالتخطيط والاستكشاف واتخاذ القرارات، وأن يطبّقها على مشاكل لم يواجهها سابقاً.

لكن رغم إتقان مبدأ تطبيق المعارف، سيبقى ابتكار ذكاء اصطناعي مفيد نشاطاً تدريجياً. يريد الباحثون أن يجدوا نظرية كامنة حول طريقة تحقيق هذا الهدف بشكل منهجي. يحمل خيار محتمل اسم «الإدراك المُتجسّد»: وفق هذه النظرية، يجب أن يتعلّم النظام من تجاربه بالكامل بدل محاولة تصميم ذكاء وتحويله إلى برنامج منذ البداية.

تدعم د. هوفمان هذه المقاربة وتعتبر ألعاب الفيديو منصّات مثالية لاستكشاف تلك الفكرة. في محاولات سابقة لدراسة الإدراك المتجسّد خلال الثمانينيات، تلقّت روبوتات أجهزة استشعار وبدأت تتعلم عبر التجول والاصطدام بالأغراض، بما يشبه ما يحصل على أرض الواقع. حقق الباحثون حينها بعض النجاح بفضل هذه المقاربة، لكنهم واجهوا مشاكل في تقييم تجاربهم. في هذا المجال، يقول ديفيد سيلفر الذي يعمل في شركة DeepMind: «الروبوتات مزوّدة بمعدات وعجلات ومحركات وابتكارات معقدة مماثلة. في النهاية سنهدر وقتاً طويلاً في أعمال الصيانة».

خوض اللعبة

يمكن أن تُنظّم ألعاب الفيديو هذه العملية. الروبوت الافتراضي في العالم الافتراضي بلا وزن ولا يحمل قطعاً متحركة، لذا لا يحتاج إلى صيانة. ولن يتطلب تعديله لتغيير خصائصه كسر المفكات وتجزئتها. بل يكفي بعض النقرات على لوحة المفاتيح.

كذلك يمكن تغيير بيئته بسهولة. لم يعد تحويل مسار المتاهات يعني تلحيم صفائح معدنية أو إلصاق جدران بلاستيكية. يستطيع الحاسوب أن يدير آلاف عمليات المحاكاة في وقت واحد، ما يسمح لمجموعات كبيرة من الروبوتات الافتراضية بتجربة المهمات مراراً وتكراراً، فتتعلّم مع كل محاولة جديدة. لكن لا يُعتبر هذا النوع من الاختبارات التي تكون واسعة النطاق وتسمح بمراقبة مسار التعلم وفهمه عملياً عند استعمال آلات حقيقية.

بحسب ديميس هاسابيس، مؤسس شركة DeepMind، يتعلق جانب مهم بالتأكد من عدم قدرة الروبوت الافتراضي على الغش. يجب أن يتنقل عبر استعمال المعلومات التي تستطيع أجهزة استشعاره الافتراضية جمعها. لا يمكن استراق النظر على مشاهد من تجربة المحاكاة. إذا أراد ذلك الروبوت أن يتعلم كيفية التجول حول هرم مليء بالمخاطر في لعبة Montezuma’s Revenge أو في مدينة «لوس سانتوس» الخيالية في لعبة Grand Theft Auto، يجب أن يفهم مكان وجوده وما يحصل من حوله انطلاقاً مما «يشاهده» بدل أن يطلب من الحاسوب الذي يُشغّل اللعبة أن يعطيه الإحداثيات التي يحتاج إليها. إنها المقاربة التي تطبّقها شركة DeepMind حين تدرّب البرامج على ألعاب الفيديو.

ستكون دراسة الإدراك المُتجسّد بهذه الطريقة خلاصة منطقية لطريقة تشغيل الألعاب في مجال الذكاء الاصطناعي. تبدو المقاربة مناسبة. يكفي أن نشاهد صغار أي كائنات ذكية، بدءاً من الكلاب وصولاً إلى البشر، كي نلاحظ أنها تُطوّر ما يشبه الإدراك المُتجسّد عن طريق اللعب. لم يحصل التطور بمساعدة الحواسيب حين بلغ هذه المرحلة من التقدم. لكن تتعلق النقطة الأساسية في هذا النشاط، في العالمَين الافتراضي والطبيعي معاً، بتحضير اللاعبين لخوض أكبر لعبة على الإطلاق: الواقع!