حقق نموذج جديد للذكاء الاصطناعي (AI) للتو نتائج على المستوى البشري في اختبار مصمم لقياس “الذكاء العام”.
في 20 ديسمبر، سجل نظام o3 الخاص بـ OpenAI 85% في معيار ARC-AGI، وهو أعلى بكثير من أفضل نتيجة سابقة للذكاء الاصطناعي بلغت 55% وعلى قدم المساواة مع متوسط النتيجة البشرية. كما أنها حصلت على درجات جيدة في اختبار رياضيات صعب للغاية.
إن إنشاء ذكاء اصطناعي عام، أو AGI، هو الهدف المعلن لجميع مختبرات أبحاث الذكاء الاصطناعي الكبرى. للوهلة الأولى، يبدو أن OpenAI قد خطت على الأقل خطوة مهمة نحو هذا الهدف.
على الرغم من استمرار الشكوك، يشعر العديد من الباحثين والمطورين في مجال الذكاء الاصطناعي أن شيئًا ما قد تغير. بالنسبة للكثيرين، يبدو احتمال الذكاء الاصطناعي العام الآن أكثر واقعية وإلحاحًا وأقرب مما كان متوقعًا. هل هم على حق؟
التعميم والذكاء
لفهم ما تعنيه نتيجة o3، عليك أن تفهم ما يعنيه اختبار ARC-AGI. من الناحية الفنية، يعد هذا اختبارًا لـ “كفاءة العينة” لنظام الذكاء الاصطناعي في التكيف مع شيء جديد – كم عدد الأمثلة على الموقف الجديد الذي يحتاج النظام إلى رؤيته لمعرفة كيفية عمله.
نظام الذكاء الاصطناعي مثل ChatGPT (GPT-4) ليس فعالاً للغاية في استخدام العينات. لقد تم “تدريبها” على ملايين الأمثلة من النصوص البشرية، وبناء “قواعد” احتمالية حول مجموعات الكلمات الأكثر احتمالية.
والنتيجة جيدة جدًا في المهام الشائعة. إنه سيئ في المهام غير الشائعة، لأنه يحتوي على بيانات أقل (عينات أقل) حول تلك المهام.
وإلى أن تتمكن أنظمة الذكاء الاصطناعي من التعلم من عدد صغير من الأمثلة والتكيف مع كفاءة أكبر في العينة، فلن يتم استخدامها إلا في المهام المتكررة للغاية وتلك التي يكون فيها الفشل العرضي مقبولاً.
تُعرف القدرة على حل المشكلات غير المعروفة أو الجديدة بدقة من خلال عينات محدودة من البيانات بالقدرة على التعميم. ويعتبر على نطاق واسع عنصرًا ضروريًا، بل وأساسيًا، للذكاء.
الشبكات والأنماط
اختبارات معيار ARC-AGI لعينة التكيف الفعال باستخدام مشاكل مربعة صغيرة مثل تلك الموجودة أدناه. يحتاج الذكاء الاصطناعي إلى اكتشاف النمط الذي يحول الشبكة الموجودة على اليسار إلى الشبكة الموجودة على اليمين.
كل سؤال يعطي ثلاثة أمثلة للتعلم منها. يحتاج نظام الذكاء الاصطناعي بعد ذلك إلى معرفة القواعد التي “تعمم” من الأمثلة الثلاثة إلى المثال الرابع.
تشبه هذه الاختبارات إلى حد كبير اختبارات الذكاء التي قد تتذكرها أحيانًا من المدرسة.
قواعد ضعيفة والتكيف
لا نعرف بالضبط كيف قامت OpenAI بذلك، لكن النتائج تشير إلى أن نموذج o3 قابل للتكيف بدرجة كبيرة. ومن خلال أمثلة قليلة فقط، يجد القواعد التي يمكن تعميمها.
لمعرفة نمط ما، لا ينبغي لنا أن نضع أي افتراضات غير ضرورية، أو أن نكون أكثر تحديدًا مما يجب أن نكون عليه حقًا. من الناحية النظرية، إذا تمكنت من تحديد القواعد “الأضعف” التي تفعل ما تريد، فقد قمت بتعظيم قدرتك على التكيف مع المواقف الجديدة.
ماذا نعني بأضعف القواعد؟ التعريف الفني معقد، ولكن القواعد الأضعف عادة ما تكون تلك التي يمكن وصفها في عبارات أبسط.
في المثال أعلاه، قد يكون التعبير الإنجليزي البسيط عن القاعدة شيئًا مثل: “أي شكل به خط بارز سينتقل إلى نهاية هذا الخط و”يغطي” أي أشكال أخرى يتداخل معها.”
البحث في سلاسل الفكر؟
على الرغم من أننا لا نعرف كيف حققت OpenAI هذه النتيجة حتى الآن، إلا أنه يبدو من غير المرجح أنهم قاموا بتحسين نظام o3 عمدًا للعثور على قواعد ضعيفة. ومع ذلك، لتحقيق النجاح في مهام ARC-AGI، يجب العثور عليها.
نحن نعلم أن OpenAI بدأت بإصدار للأغراض العامة من نموذج o3 (والذي يختلف عن معظم النماذج الأخرى، لأنه يمكن أن يقضي المزيد من الوقت في “التفكير” في الأسئلة الصعبة) ثم قام بتدريبه خصيصًا لاختبار ARC-AGI.
يعتقد الباحث الفرنسي في مجال الذكاء الاصطناعي فرانسوا شوليه، الذي صمم المعيار، أن o3 يبحث من خلال “سلاسل فكرية” مختلفة تصف خطوات حل المهمة. ومن ثم سيختار “الأفضل” وفقًا لبعض القواعد المحددة بشكل فضفاض، أو “الاسترشادي”.
لن يختلف هذا عن الطريقة التي قام بها نظام AlphaGo من Google بالبحث في تسلسلات مختلفة محتملة من الحركات للتغلب على بطل Go العالمي.
يمكنك التفكير في سلاسل التفكير هذه مثل البرامج التي تناسب الأمثلة. بالطبع، إذا كان مثل برنامج Go-playing AI، فإنه يحتاج إلى قاعدة إرشادية أو فضفاضة لتحديد البرنامج الأفضل.
يمكن أن يكون هناك الآلاف من البرامج المختلفة التي تبدو صالحة بنفس القدر. يمكن أن يكون هذا الاستدلال هو “اختيار الأضعف” أو “اختيار الأبسط”.
ومع ذلك، إذا كان الأمر مثل AlphaGo، فقد كان لديهم ببساطة ذكاء اصطناعي لإنشاء إرشاد. كانت هذه هي العملية بالنسبة لـ AlphaGo. قامت Google بتدريب نموذج لتقييم تسلسلات مختلفة من التحركات على أنها أفضل أو أسوأ من غيرها.
ما لا نعرفه بعد
والسؤال إذن هو: هل هذا أقرب حقًا إلى الذكاء الاصطناعي العام؟ إذا كانت هذه هي الطريقة التي يعمل بها o3، فقد لا يكون النموذج الأساسي أفضل بكثير من النماذج السابقة.
قد لا تكون المفاهيم التي يتعلمها النموذج من اللغة أكثر ملاءمة للتعميم من ذي قبل. بدلاً من ذلك، ربما نشهد فقط “سلسلة أفكار” أكثر عمومية تم العثور عليها من خلال الخطوات الإضافية لتدريب إرشادي متخصص في هذا الاختبار. والدليل، كما هو الحال دائما، سيكون في الحلوى.
يبقى كل شيء تقريبًا عن o3 غير معروف. لقد اقتصرت OpenAI على الكشف عن عدد قليل من العروض الإعلامية والاختبارات المبكرة لعدد قليل من الباحثين والمختبرات ومؤسسات سلامة الذكاء الاصطناعي.
سيتطلب الفهم الحقيقي لإمكانيات o3 عملاً مكثفًا، بما في ذلك التقييمات، وفهم توزيع قدراتها، وعدد مرات فشلها، وعدد مرات نجاحها.
عندما يتم إصدار o3 أخيرًا، سيكون لدينا فكرة أفضل بكثير عما إذا كان قابلاً للتكيف تقريبًا مثل الإنسان العادي.
إذا كان الأمر كذلك، فقد يكون له تأثير اقتصادي ثوري ضخم، إيذانا ببدء حقبة جديدة من الذكاء المتسارع للتحسين الذاتي. وسوف نحتاج إلى وضع معايير جديدة للذكاء الاصطناعي العام ذاته، والنظر الجدي في الكيفية التي ينبغي أن يُدار بها.
إذا لم يكن الأمر كذلك، فستظل هذه نتيجة مثيرة للإعجاب. ومع ذلك، ستبقى الحياة اليومية كما هي إلى حد كبير.
مايكل تيموثي بينيت، طالب دكتوراه، كلية الحاسبات، الجامعة الوطنية الأسترالية وإيليا بيريير، زميل أبحاث في مركز ستانفورد لتكنولوجيا الكم المسؤولة، جامعة ستانفورد
تم إعادة نشر هذه المقالة من The Conversation بموجب ترخيص المشاع الإبداعي. إقرأ المقال الأصلي.