في ختام حدث البث المباشر لمدة 12 يومًا من OpenAI، كشف الرئيس التنفيذي سام ألتمان عن نموذج الأساس التالي، وخليفة عائلة o1 التي تم الإعلان عنها مؤخرًا من الذكاء الاصطناعي المنطقي، والتي يطلق عليها اسم o3 و03-mini.
لا، لن تصاب بالجنون، لقد تخطى OpenAI مباشرة فوق o2، وذلك على ما يبدو لتجنب انتهاك حقوق الطبع والنشر لمزود الاتصالات البريطاني O2.
على الرغم من أن نماذج o3 الجديدة لم يتم طرحها للعامة حتى الآن ولا توجد معلومات حول متى سيتم دمجها في ChatGPT، إلا أنها متاحة الآن للاختبار بواسطة باحثين في مجال السلامة والأمن.
يعد o3، أحدث نموذج تفكير لدينا، إنجازًا كبيرًا، مع تحسين الدالة التدريجية وفقًا لأصعب معاييرنا. لقد بدأنا اختبارات السلامة والفريق الأحمر الآن. https://t.co/4XlK1iHxFK
– جريج بروكمان (@gdb) 20 ديسمبر 2024
تعمل عائلة o3، مثل عائلة o1 التي سبقتها، بشكل مختلف عن النماذج التوليدية التقليدية حيث أنها ستتحقق داخليًا من إجاباتها قبل تقديمها للمستخدم. في حين أن هذه التقنية تعمل على إبطاء وقت استجابة النموذج في أي مكان من بضع ثوانٍ إلى بضع دقائق، فإن إجاباته على الاستفسارات المعقدة في العلوم والرياضيات والترميز تميل إلى أن تكون أكثر دقة وموثوقية مما قد تحصل عليه من GPT-4. بالإضافة إلى ذلك، فإن النموذج قادر فعليًا على شرح أسبابه بشفافية حول كيفية وصوله إلى نتيجته.
يمكن للمستخدمين أيضًا ضبط مقدار الوقت الذي يقضيه النموذج يدويًا في التفكير في المشكلة عن طريق الاختيار بين الحوسبة المنخفضة والمتوسطة والعالية مع قيام الإعداد الأعلى بإرجاع الإجابات الأكثر اكتمالاً. هذا الأداء لا يأتي بثمن بخس، انتبه. يقال إن المعالجة بالحوسبة العالية ستكلف آلاف الدولارات لكل مهمة، حسبما كتب فرانسوا شوليه، المؤسس المشارك لـ ARC-AGI، في منشور X يوم الجمعة.
أعلنت OpenAI اليوم عن o3، نموذج الاستدلال من الجيل التالي. لقد عملنا مع OpenAI لاختباره على ARC-AGI، ونعتقد أنه يمثل إنجازًا كبيرًا في جعل الذكاء الاصطناعي يتكيف مع المهام الجديدة.
لقد حصل على 75.7% في التقييم شبه الخاص في وضع الحوسبة المنخفضة (مقابل 20 دولارًا لكل مهمة… pic.twitter.com/ESQ9CNVCEA
– فرانسوا شوليت (@fcholet) 20 ديسمبر 2024
يقال إن عائلة نماذج الاستدلال الجديدة تقدم أداءً محسنًا بشكل ملحوظ حتى مقارنة بـ o1، والتي ظهرت لأول مرة في سبتمبر، في الاختبارات القياسية الأكثر تحديًا في الصناعة. وفقًا للشركة، تتفوق o3 على سابقتها بما يقرب من 23 نقطة مئوية في اختبار البرمجة المعتمد من SWE-Bench وتسجل أكثر من 60 نقطة أعلى من o1 في معيار Codeforce. سجل النموذج الجديد أيضًا نسبة مذهلة بلغت 96.7% في اختبار AIME 2024 للرياضيات، ولم يغب سوى سؤال واحد، وتفوق على الخبراء البشريين في اختبار GPQA Diamond، حيث حصل على درجة 87.7%. والأكثر إثارة للإعجاب هو أن 03 قد حل أكثر من ربع المشكلات المقدمة في اختبار EpochAI Frontier Math، حيث كافحت النماذج الأخرى لحل أكثر من 2% منها بشكل صحيح.
تشير OpenAI إلى أن النماذج التي استعرضتها يوم الجمعة لا تزال إصدارات مبكرة وأن “النتائج النهائية قد تتطور مع مزيد من التدريب بعد التدريب”. بالإضافة إلى ذلك، قامت الشركة بدمج إجراءات السلامة الجديدة “المواءمة التداولية” في منهجية التدريب الخاصة بـ o3. أظهر نموذج الاستدلال o1 عادة مثيرة للقلق تتمثل في محاولة خداع المقيمين البشريين بمعدل أعلى من أنظمة الذكاء الاصطناعي التقليدية مثل GPT-4o، أو Gemini، أو Claude؛ تعتقد OpenAI أن حواجز الحماية الجديدة ستساعد في تقليل تلك الاتجاهات في o3.
يمكن لأعضاء مجتمع البحث المهتمين بتجربة o3-mini لأنفسهم التسجيل للوصول إلى قائمة انتظار OpenAI.