كشفت شركة LG AI Research عن Exaone Deep ، وهو نموذج التفكير يتفوق في حل المشكلات المعقدة عبر الرياضيات والعلوم والترميز.
سلطت الشركة الضوء على التحدي العالمي في إنشاء نماذج التفكير المتقدمة ، مشيرة إلى أنه حاليًا ، لا تتابع سوى عدد قليل من المنظمات ذات النماذج الأساسية بنشاط هذه المنطقة المعقدة. يهدف Exaone Deep إلى التنافس مباشرة مع هذه النماذج الرائدة ، حيث يعرض مستوى تنافسيًا من قدرة التفكير.
ركزت شركة LG AI Research جهودها على تحسين قدرات التفكير في Exaone Deep بشكل كبير في المجالات الأساسية. يوضح النموذج أيضًا قدرة قوية على فهم وتطبيق المعرفة عبر مجموعة أوسع من الموضوعات.
معايير الأداء التي أصدرتها LG AI Research مثيرة للإعجاب:
- رياضيات: تفوق نموذج Exaone Deep 32B على نموذج منافس ، على الرغم من كونه 5 ٪ فقط من حجمه ، في معيار الرياضيات المتطلب. علاوة على ذلك ، حققت إصدارات 7.8b و 2.4b المركز الأول في جميع معايير الرياضيات الرئيسية لأحجام النماذج الخاصة بها.
- العلم والترميز: في هذه المناطق ، حصلت النماذج العميقة لـ Exaone (7.8b و 2.4b) على المركز الأول في جميع المعايير الرئيسية.
- MMLU (فهم لغة متعددة المهام ضخمة): حقق طراز 32B درجة 83.0 على معايير MMLU ، والتي تدعي LG AI Research هي أفضل أداء بين النماذج الكورية المحلية.
لقد حظيت قدرات نموذج Exaone Deep 32B بالفعل بتقدير دولي.
بعد فترة وجيزة من إصدارها ، تم تضمينه في قائمة “نماذج الذكاء الاصطناعى” من قبل مؤسسة الأبحاث غير الربحية التي تتخذ من الولايات المتحدة مقراً لها ، Epoch AI. تضع هذه القائمة Exaone عميقًا إلى جانب سلفها ، Exaone 3.5 ، مما يجعل LG الكيان الكوري الوحيد مع النماذج المعروضة في هذه القائمة المرموقة في العامين الماضيين.
براعة الرياضيات
أظهرت Exaone Deep مهارات التفكير الرياضي الاستثنائي عبر أحجامها النموذجية المختلفة (32B ، 7.8B ، و 2.4B). في التقييمات القائمة على منهج الرياضيات في العام الدراسي 2025 ، تفوقت جميع النماذج الثلاثة على نماذج التفكير العالمية ذات الحجم المماثل.
حقق نموذج 32B درجة 94.5 في اختبار كفاءة الرياضيات العامة و 90.0 في امتحان الرياضيات الدعائية الأمريكية (AIME) 2024 ، وهو اختبار مؤهل للأوليمبياد الرياضي الأمريكي.
في AIME 2025 ، تطابق طراز 32B مع أداء Deepseek-R1-نموذج 671B أكبر بكثير. تعرض هذه النتيجة التعلم الفعال لـ Exaone Deep وقدرات التفكير المنطقي القوي ، خاصة عند التعامل مع المشكلات الرياضية الصعبة.
حققت الطرز الأصغر 7.8b و 2.4b أيضًا التصنيفات الأعلى في المعايير الرئيسية لنماذج خفيفة الوزن وعلى الأجهزة ، على التوالي. سجل طراز 7.8b 94.8 على معيار MATH-500 و 59.6 في AIME 2025 ، في حين حقق نموذج 2.4B الدرجات 92.3 و 47.9 في نفس التقييمات.
التميز في العلوم والترميز
كما عرض Exaone Deep قدرات رائعة في التفكير العلمي المهني وترميز البرامج.
سجل نموذج 32B 66.1 في اختبار GPQA Diamond ، والذي يقيم مهارات حل المشكلات في الفيزياء والكيمياء والبيولوجيا على مستوى الدكتوراه. في تقييم LiveCodeBench ، الذي يقيس كفاءة الترميز ، حقق النموذج درجة قدرها 59.5 ، مما يشير إلى إمكاناته في تطبيقات عالية المستوى في هذه المجالات الخبراء.
واصلت طرازات 7.8b و 2.4b هذا الاتجاه من الأداء القوي ، وكلاهما يحصل على المركز الأول في معايير GPQA Diamond و LiveCodeBench ضمن فئات الحجم الخاصة بهما. يعتمد هذا الإنجاز على نجاح طراز Exaone 3.5 2.4B ، والذي كان يتصدر مسبقًا لقراءة LLM Huging Face في قسم Edge.
المعرفة العامة المعززة
إلى جانب قدراتها المتخصصة في التفكير ، أظهرت Exaone Deep أيضًا تحسين الأداء في فهم المعرفة العامة.
حقق نموذج 32B درجة رائعة من 83.0 على معيار MMLU ، حيث وضعه كنموذج محلي أفضل أداء في هذا التقييم الشامل. يشير هذا إلى أن تحسينات تفكير Exaone Deep تتجاوز المجالات المحددة وتساهم في فهم أوسع لمختلف الموضوعات.
يعتقد LG AI Research أن تطورات التفكير في Exaone Deep تمثل قفزة نحو مستقبل حيث يمكن لمنظمة العفو الدولية التعامل مع المشكلات المعقدة بشكل متزايد والمساهمة في إثراء وتبسيط حياة الإنسان من خلال البحث والابتكار المستمر.
انظر أيضا: Baidu يقوض نماذج منافسة الذكاء الاصطناعي مع Ernie 4.5 و Ernie X1

هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الكبيرة من قادة الصناعة؟ تحقق من AI و Big Data Expo الذي يقام في أمستردام ، كاليفورنيا ، ولندن. تم تحديد الحدث الشامل مع الأحداث الرائدة الأخرى بما في ذلك مؤتمر الأتمتة الذكي ، و blockx ، وأسبوع التحول الرقمي ، ومعرض Cyber Security & Cloud.
استكشاف أحداث وندوات الويب القادمة الأخرى التي تعمل بها TechForge هنا.