تثير OpenAI نموذج الاستدلال o3 "المبتكر" للجيل التالي

في ختام حدث البث المباشر لمدة 12 يومًا من OpenAI، كشف الرئيس التنفيذي سام ألتمان عن نموذج الأساس التالي، وخليفة عائلة o1 التي تم الإعلان عنها مؤخرًا من الذكاء الاصطناعي المنطقي، والتي يطلق عليها اسم o3 و03-mini.

لا، لن تصاب بالجنون، لقد تخطى OpenAI مباشرة فوق o2، وذلك على ما يبدو لتجنب انتهاك حقوق الطبع والنشر لمزود الاتصالات البريطاني O2.

على الرغم من أن نماذج o3 الجديدة لم يتم طرحها للعامة حتى الآن ولا توجد معلومات حول متى سيتم دمجها في ChatGPT، إلا أنها متاحة الآن للاختبار بواسطة باحثين في مجال السلامة والأمن.

يعد o3، أحدث نموذج تفكير لدينا، إنجازًا كبيرًا، مع تحسين الدالة التدريجية وفقًا لأصعب معاييرنا. لقد بدأنا اختبارات السلامة والفريق الأحمر الآن. https://t.co/4XlK1iHxFK

– جريج بروكمان (@gdb) 20 ديسمبر 2024

تعمل عائلة o3، مثل عائلة o1 التي سبقتها، بشكل مختلف عن النماذج التوليدية التقليدية حيث أنها ستتحقق داخليًا من إجاباتها قبل تقديمها للمستخدم. في حين أن هذه التقنية تعمل على إبطاء وقت استجابة النموذج في أي مكان من بضع ثوانٍ إلى بضع دقائق، فإن إجاباته على الاستفسارات المعقدة في العلوم والرياضيات والترميز تميل إلى أن تكون أكثر دقة وموثوقية مما قد تحصل عليه من GPT-4. بالإضافة إلى ذلك، فإن النموذج قادر فعليًا على شرح أسبابه بشفافية حول كيفية وصوله إلى نتيجته.

يمكن للمستخدمين أيضًا ضبط مقدار الوقت الذي يقضيه النموذج يدويًا في التفكير في المشكلة عن طريق الاختيار بين الحوسبة المنخفضة والمتوسطة والعالية مع قيام الإعداد الأعلى بإرجاع الإجابات الأكثر اكتمالاً. هذا الأداء لا يأتي بثمن بخس، انتبه. يقال إن المعالجة بالحوسبة العالية ستكلف آلاف الدولارات لكل مهمة، حسبما كتب فرانسوا شوليه، المؤسس المشارك لـ ARC-AGI، في منشور X يوم الجمعة.

أعلنت OpenAI اليوم عن o3، نموذج الاستدلال من الجيل التالي. لقد عملنا مع OpenAI لاختباره على ARC-AGI، ونعتقد أنه يمثل إنجازًا كبيرًا في جعل الذكاء الاصطناعي يتكيف مع المهام الجديدة.

لقد حصل على 75.7% في التقييم شبه الخاص في وضع الحوسبة المنخفضة (مقابل 20 دولارًا لكل مهمة… pic.twitter.com/ESQ9CNVCEA

– فرانسوا شوليت (@fcholet) 20 ديسمبر 2024

يقال إن عائلة نماذج الاستدلال الجديدة تقدم أداءً محسنًا بشكل ملحوظ حتى مقارنة بـ o1، والتي ظهرت لأول مرة في سبتمبر، في الاختبارات القياسية الأكثر تحديًا في الصناعة. وفقًا للشركة، تتفوق o3 على سابقتها بما يقرب من 23 نقطة مئوية في اختبار البرمجة المعتمد من SWE-Bench وتسجل أكثر من 60 نقطة أعلى من o1 في معيار Codeforce. سجل النموذج الجديد أيضًا نسبة مذهلة بلغت 96.7% في اختبار AIME 2024 للرياضيات، ولم يغب سوى سؤال واحد، وتفوق على الخبراء البشريين في اختبار GPQA Diamond، حيث حصل على درجة 87.7%. والأكثر إثارة للإعجاب هو أن 03 قد حل أكثر من ربع المشكلات المقدمة في اختبار EpochAI Frontier Math، حيث كافحت النماذج الأخرى لحل أكثر من 2% منها بشكل صحيح.

تشير OpenAI إلى أن النماذج التي استعرضتها يوم الجمعة لا تزال إصدارات مبكرة وأن “النتائج النهائية قد تتطور مع مزيد من التدريب بعد التدريب”. بالإضافة إلى ذلك، قامت الشركة بدمج إجراءات السلامة الجديدة “المواءمة التداولية” في منهجية التدريب الخاصة بـ o3. أظهر نموذج الاستدلال o1 عادة مثيرة للقلق تتمثل في محاولة خداع المقيمين البشريين بمعدل أعلى من أنظمة الذكاء الاصطناعي التقليدية مثل GPT-4o، أو Gemini، أو Claude؛ تعتقد OpenAI أن حواجز الحماية الجديدة ستساعد في تقليل تلك الاتجاهات في o3.

يمكن لأعضاء مجتمع البحث المهتمين بتجربة o3-mini لأنفسهم التسجيل للوصول إلى قائمة انتظار OpenAI.

مقالات قد تهمك

آخر فرصة: سعر ويندوز 11 برو 13 دولارًا ليوم واحد فقط.

قبل شراء MacBook Neo.. إليك 7 مزايا غائبة عن أرخص حاسوب محمول من آبل

تشير اختبارات أولية إلى أن تقييم “ChatGPT Health” لبيانات اللياقة قد يثير قلقًا غير مبرر.

تشير اختبارات أولية إلى أن تقييم “ChatGPT Health” لبيانات اللياقة قد يثير قلقًا غير مبرر.

يمكن لصور جوجل الآن تضمين صوت في مقاطع الفيديو المُنشأة.

تهدف جوجل إلى تمكين متصفح كروم من تحديد محتوى الويب المُنشأ بشريًا أو بالذكاء الاصطناعي.

تكشف الأبحاث آلية عمل إضافات (Chrome) البسيطة في تعزيز الخصوصية.

تقرير سبلنك: الذكاء الاصطناعي الوكيل يعيد تشكيل أولويات رؤساء أمن المعلومات

تفويلة تطلق خدمة NFC لسداد رسوم الطرق والموازين لشاحنات النقل في مصر

ياهو سكاوت (Yahoo Scout) محرك إجابات بالذكاء الاصطناعي ينافس بيربلكستي وخدمات جوجل.

شاومي تطلق Xiaomi 17 وXiaomi 17 Ultra مع تصاعد أزمة أسعار الذاكرة في 2026

لا تشترِ هذه الطابعة ثلاثية الأبعاد لمجرد عرضها للبيع: بدائل متاحة.

مقارنة بين Samsung Galaxy Z Fold 6 و Galaxy S24 Ultra: لا تخطئ

سامسونج جالكسي S25: الأخبار والسعر المتوقع وتاريخ الإصدار والمزيد

يحصل iPhone على أول تطبيق إباحي أصلي له

كل ما تريد معرفته عن Reacher الموسم الثالث

Samsung Galaxy Watch 7: الأخبار والسعر المشاع وتاريخ الإصدار والمزيد

إليك أحدث أكواد فري فاير Free Fire Codes المجانية 2025 وشرح طريقة تفعيلها

شات جي بي تي العقل الاصطناعي الذي بدأ يفكر كالبشر

شات جي بي تي بدون تسجيل.. ChatGPT مجانا بالعربي

رائج الآن

إليك أحدث أكواد فري فاير Free Fire Codes المجانية 2025 وشرح طريقة تفعيلها

شات جي بي تي العقل الاصطناعي الذي بدأ يفكر كالبشر

شات جي بي تي بدون تسجيل.. ChatGPT مجانا بالعربي

اختيارات المحرر

آخر فرصة: سعر ويندوز 11 برو 13 دولارًا ليوم واحد فقط.

قبل شراء MacBook Neo.. إليك 7 مزايا غائبة عن أرخص حاسوب محمول من آبل

تشير اختبارات أولية إلى أن تقييم “ChatGPT Health” لبيانات اللياقة قد يثير قلقًا غير مبرر.

خدمة الإشعارات البريدية

مقالات قد تهمك

تثير OpenAI نموذج الاستدلال o3 “المبتكر” للجيل التالي

المقالات ذات الصلة

خدمة الإشعارات البريدية