تتمتع نماذج الذكاء الاصطناعي الذي طوره فريق DeepMind من Google و Openai بتقدير جديد يمكنهم إضافته إلى قائمة إنجازاتهم: لقد هزموا بعض المدارس الثانوية في الرياضيات. ادعت كلتا الشركتين أنه يحقق ميدالية ذهبية في أولمبياد الرياضيات الدولية لهذا العام (IMO) ، وهي واحدة من أصعب المسابقات لطلاب المدارس الثانوية التي تتطلع إلى إثبات براعتهم الرياضية.
يدعو أولمبياد كبار الطلاب من جميع أنحاء العالم للمشاركة في امتحان يتطلب منهم حل عدد من مشاكل الرياضيات المعقدة متعددة الخطوات. يستغرق الطلاب امتحانات لمدة أربع ساعات ونصف على مدار يومين ، مكلفين بحل ما مجموعه ستة أسئلة في المجموع مع قيم النقاط المخصصة لاستكمال أجزاء مختلفة من المشكلات. حلت النماذج من DeepMind و Openai خمسة من أصل ستة الإجابات تمامًا ، حيث سجل ما مجموعه 35 نقطة من 42 نقطة ممكنة ، وهو ما يكفي للذهب. ما مجموعه 67 مشاركا من البشر في 630 شاركوا أيضا إلى المنزل شرف الذهب.
هناك القليل من الحشائش التي لا علاقة لها بالنتائج ، فقط سلوك الشركات. تمت دعوة DeepMind للمشاركة في IMO وأعلن عن الذهب يوم الاثنين في منشور مدونة ، بعد إصدار المنظمة للنتائج الرسمية للمشاركين في الطلاب. وفقًا لـ Implikator.ai ، لم يدخل Openai بالفعل IMO. بدلاً من ذلك ، استغرق الأمر المشاكل ، التي تم نشرها على الملأ حتى يتمكن الآخرون من أخذ صدع في حلها ، ومعالجةها بمفردهم. أعلنت Openai عن أن لديها أداءً على مستوى الذهب ، والذي لا يمكن التحقق منه بالفعل من قبل IMO لأنه لم يشارك. أيضًا ، أعلنت الشركة عن درجاتها خلال عطلة نهاية الأسبوع بدلاً من الانتظار يوم الاثنين (عند نشر الدرجات الرسمية) ضد رغبات IMO ، التي طلبت من الشركات عدم سرقة الأضواء من الطلاب.
شاركت النماذج المستخدمة لحل هذه المشكلات في الامتحان بنفس الطريقة التي قام بها الطلاب. تم منحهم 4.5 ساعات لكل اختبار ولم يُسمح لهم باستخدام أي أدوات خارجية أو الوصول إلى الإنترنت. والجدير بالذكر أنه يبدو أن كلتا الشركتين استخدمتا منظمة العفو الدولية للأغراض العامة بدلاً من النماذج المتخصصة ، والتي سبق لها أن كانت أفضل بكثير من النماذج التي تفعل كل شيء.
حقيقة جديرة بالملاحظة حول مطالبات هذه الشركات على المركز الأول: لم يكن النموذج الذي حقق الذهب (أو ، كما تعلمون ، الذهب الذي يتم إدارته ذاتيًا) متاحًا للجمهور. في الواقع ، قامت النماذج العامة بعمل فظيع في هذه المهمة. قام الباحثون بتشغيل الأسئلة من خلال Gemini 2.5 Pro و Grok-4 و Openai O4 ، ولم يتمكن أي منهم من تسجيل أعلى من 13 نقطة ، وهو أقل من الـ 19 اللازمة لاتخاذ ميدالية برونزية.
لا يزال هناك الكثير من الشكوك حول النتائج ، وحقيقة أن النماذج المتوفرة للجمهور كانت تقترح بشكل سيء أن هناك فجوة في الأدوات التي يمكننا الوصول إليها وما يمكن أن يفعله نموذج أكثر دقة ، والذي يجب أن يؤدي بحق إلى أسئلة حول سبب عدم توصيل تلك النماذج الأذنين أو توفيرها على نطاق واسع. ولكن لا يزال هناك اثنين من الوجبات السريعة المهمة هنا: نماذج المختبر تتحسن في مشاكل التفكير ، ويتم تشغيل Openai بواسطة مجموعة من العزاب الذين لم يتمكنوا من الانتظار لسرقة المجد من بعض المراهقين.