خدع Meta على معيار الذكاء الاصطناعي ، وهذا أمر فرحان. وفقًا لـ Kylie Robison at the Verge ، بدأت الشكوك تتسرب بعد أن أصدرت Meta نموذجين جديدين من الذكاء الاصطناعى استنادًا إلى نموذج اللغة Llama 4 الكبير خلال عطلة نهاية الأسبوع. النماذج الجديدة هي الكشفية ، وهو نموذج أصغر مخصص للاستعلامات السريعة ، ومافريك ، والذي من المفترض أن يكون منافسًا فائقة الكفاءة لنماذج أكثر شهرة مثل Openai's GPT-4O (Harbinger of Miyazaki Apocalypse).
في منشور المدونة ، أعلن عنهم ، فعلت Meta ما تقوم به كل شركة منظمة العفو الدولية الآن بإصدار رئيسي. لقد أسقطوا مجموعة كاملة من البيانات الفنية للغاية للتفاخر حول كيف كان Meta's AI أكثر ذكاءً وأكثر كفاءة من النماذج من الشركات المرتبطة بشكل أفضل بـ AI: Google و Openai و Anthropic. تُغمر منشورات الإصدار هذه دائمًا في البيانات التقنية والمعايير الفنية العميقة التي تعتبر مفيدة للغاية للباحثين والأكثر من الذكاء الاصطناعي ، ولكن نوعًا ما لا جدوى بالنسبة لنا. لم يكن إعلان Meta مختلفًا.
لكن الكثير من هاجس الذكاء الاصطناعى لاحظوا على الفور نتيجة معيارية مروعة واحدة تم تسليط الضوء عليها في منصبه. حصل مافريك على درجة ELO 1417 في LMARENA. LMARENA هي أداة قياس تعاونية مفتوحة المصدر حيث يمكن للمستخدمين التصويت على أفضل الإخراج. النتيجة الأعلى هي أفضل ووضع مافريك 1417 في المركز الثاني على لوحة المتصدرين في Lmarena ، أعلى من GPT-4O مباشرة وأقل من Gemini 2.5 Pro. اندلع النظام البيئي AI بأكمله مع مفاجأة في النتائج.
ثم بدأوا في الحفر ، وأشاروا بسرعة إلى أنه في الطباعة الدقيقة ، اعترف Meta بأن طراز مافريك الذي كان يسحق على Lmarena كان مختلفًا عن الإصدار الذي يمكن للمستخدمين الوصول إليه. قامت الشركة برمجة هذا النموذج ليكون أكثر من المعتاد. بشكل فعال أنه سحر المعيار في الخضوع.
لا يبدو أن Lmarena كان سعيدًا بالهجوم على السحر. “إن تفسير ميتا لسياستنا لم يتطابق مع ما نتوقعه من مقدمي الخدمات النماذج” ، قال في بيان عن X. “كان يجب أن يكون Meta أكثر وضوحًا أن” Llama-4-Maverick-03-26–خبرة “كان نموذجًا مخصصًا لتحسين التفضيل البشري. ونتيجة لذلك ، فإننا نتحديث سياساتنا المتصورة لتقييمنا في المستقبل.
أنا أحب تفاؤل Lmarena هنا لأن ألعاب المعيار يبدو وكأنه حق مرور في تكنولوجيا المستهلك وأظن أن هذا الاتجاه سيستمر. لقد قمت بتغطية تكنولوجيا المستهلكين لأكثر من عقد من الزمان ، وظهرت ذات مرة واحدة من أكثر مختبرات المعايير الواسعة في هذه الصناعة ، ورأيت الكثير من صانعي الهاتف والكمبيوتر المحمول يحاولون جميع أنواع الحيل لعصير درجاتهم. لقد أفسدوا سطوع العرض لعمر أفضل للبطارية ويشحنون إصدارات خالية من أجهزة bloatware من أجهزة الكمبيوتر المحمولة للمراجعين للحصول على درجات أفضل للأداء.
الآن نماذج الذكاء الاصطناعى تحصل على مزيد من الدردشة لعصير درجاتها أيضا. والسبب في أنني أظن أن هذا لن يكون آخر درجة زراعية بعناية هو أن هذه الشركات الآن يائسة لتمييز نماذج لغتها الكبيرة عن بعضها البعض. إذا كان كل طراز يمكن أن يساعدك في كتابة ورقة إنجليزية غزر قبل خمس دقائق من الفصل ، فستحتاج إلى سبب آخر لتمييز تفضيلاتك. “يستخدم نموذجتي طاقة أقل وينجز المهمة بنسبة 2.46 ٪ بشكل أسرع” ، قد لا يبدو أن أكبر تفاخر للجميع ، لكنه يهم. لا يزال هذا أسرع بنسبة 2.46 ٪ من أي شخص آخر.
مع استمرار هذه AIS في النضج إلى منتجات فعلية مواجهة للمستهلك ، سنبدأ في رؤية المزيد من التباهي القياسي. نأمل أن نرى الأشياء الأخرى أيضًا. ستبدأ واجهات المستخدم في التغيير ، ستصبح متاجر أخرق مثل قسم GPT في تطبيق ChatGPT أكثر شيوعًا. ستحتاج هذه الشركات إلى إثبات سبب كون نماذجها أفضل النماذج والمعايير وحدها لن تفعل ذلك. ليس عندما يتمكن روبوت شاتتي من لعب النظام بسهولة.