Alibaba Qwen QWQ-32B: عرض التعلم التعزيز المقلي

كشف فريق QWEN في Alibaba عن QWQ-32B ، وهو نموذج AI معلمة 32 مليار الذي يوضح أداء Deepseek-R1 أكبر بكثير. يسلط هذا الاختراق الضوء على إمكانات التعلم التعزيز (RL) على نماذج الأساس القوية.

نجح فريق QWEN في دمج قدرات الوكيل في نموذج التفكير ، مما يتيح له التفكير بشكل نقدي ، واستخدام الأدوات ، وتكييف تفكيره بناءً على ردود الفعل البيئية.

“تحجيم RL لديه القدرة على تعزيز أداء النموذج بما يتجاوز أساليب ما قبل التدريب التقليدية وما بعد التدريب” ، صرح الفريق. “لقد أظهرت الدراسات الحديثة أن RL يمكن أن يحسن بشكل كبير قدرات التفكير في النماذج.”

يحقق QWQ-32B أداءً مماثلًا لـ Deepseek-R1 ، والذي يضم 671 مليار معلمة (بتنشيط 37 مليار) ، وهو شهادة على فعالية RL عند تطبيقها على نماذج أساس قوية تم تجهيزها على المعرفة العالمية الواسعة. تؤكد هذه النتيجة الرائعة على إمكانات RL لسد الفجوة بين حجم النموذج والأداء.

تم تقييم النموذج عبر مجموعة من المعايير ، بما في ذلك AIME24 و LiveCodeBench و LiveBench و Ifeval و BFCL ، المصممة لتقييم التفكير الرياضي ، وكفاءة الترميز ، وقدرات حل المشكلات العامة.

تسلط النتائج الضوء على أداء QWQ-32B مقارنة بالنماذج الرائدة الأخرى ، بما في ذلك Deepseek-R1-Dewen-32b ، و Deepseek-R1-Dreilled-LALAMA-70B ، و O1-MINI ، و DEEPSEEK-R1 الأصلي.

النتائج القياسية:

AIME24: حقق QWQ-32B 79.5 ، خلف Deepseek-R1-6718’s 79.8 ، ولكن قبل أن يكون Openal-O1-Mini's 63.6 ونماذج مقطرة.
LiveCodeBench: سجل QWQ-32B 63.4 ، مرة أخرى عن كثب من قبل Deepseek-R1-6718's 65.9 ، وتجاوز النماذج المقطرة و 53.8 Openal-O1-Mini.
LiveBench: حقق QWQ-32B 73.1 ، مع تسجيل Deepseek-R1-6718 71.6 ، وتفوق على النماذج المقطرة و 57.5 Openal-O1-Mini.
ifeval: سجل QWQ-32B 83.9 ، بالقرب من Deepseek-R1-6718 83.3 ، وقيادة النماذج المقطرة و 59.1 Openal-O1-Mini.
BFCL: حقق QWQ-32B 66.4 ، مع تسجيل Deepseek-R1-6718 62.8 ، مما يدل على الرصاص على النماذج المقطرة و 49.3 Openal-O1-Mini.

تضمنت نهج فريق Qwen نقطة تفتيش بارد وعملية RL متعددة المراحل مدفوعة بالمكافآت القائمة على النتائج. ركزت المرحلة الأولية على توسيع نطاق RL لمهام الرياضيات والترميز ، مع استخدام التحقق من الدقة وخوادم تنفيذ التعليمات البرمجية. توسعت المرحلة الثانية لتشمل القدرات العامة ، ودمج المكافآت من نماذج المكافآت العامة والتحققات القائمة على القواعد.

“نجد أن هذه المرحلة من تدريب RL مع كمية صغيرة من الخطوات يمكن أن تزيد من أداء القدرات العامة الأخرى ، مثل التعليمات التالية ، والتوافق مع التفضيل البشري ، وأداء الوكيل ، دون انخفاض كبير في الأداء في الرياضيات والترميز” ، أوضح الفريق.

QWQ-32B مفتوح الوزن ومتوفر على Hugging Face و ModelsCope بموجب ترخيص Apache 2.0 ، ويمكن الوصول إليه أيضًا عبر Qwen Chat. ينظر فريق QWEN إلى هذا على أنه خطوة أولية في تحجيم RL لتعزيز قدرات التفكير ويهدف إلى زيادة استكشاف تكامل الوكلاء مع RL للتفكير الطويل الأفق.

“بينما نعمل على تطوير الجيل القادم من QWEN ، نحن واثقون من أن الجمع بين نماذج الأساس الأقوى مع RL التي تعمل بالموارد الحسابية المقيدة سيؤكدنا من تحقيق الذكاء العام الاصطناعي (AGI) ،” قال الفريق.

انظر أيضا: Deepgram Nova-3 Medical: نموذج الكلام من الذكاء الاصطناعي يقطع أخطاء نسخ الرعاية الصحية

هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الكبيرة من قادة الصناعة؟ تحقق من AI و Big Data Expo الذي يقام في أمستردام ، كاليفورنيا ، ولندن. تم تحديد الحدث الشامل مع الأحداث الرائدة الأخرى بما في ذلك مؤتمر الأتمتة الذكي ، و blockx ، وأسبوع التحول الرقمي ، ومعرض Cyber Security & Cloud.

استكشاف أحداث وندوات الويب الأخرى القادمة التي تعمل بها TechForge هنا.

مقالات قد تهمك

كيف تصبح خبيرًا في الأرصاد الجوية في الفناء الخلفي باستخدام بعض الأدوات البسيطة

يمكن للطلاب والمستقلين والفرق الصغيرة الحصول على مجموعة مكتبية كاملة مقابل 29.99 دولارًا مدى الحياة

إنه اليوم الأخير للحصول على ترخيص مدى الحياة لـ Microsoft Office Pro 2021 مقابل 40 دولارًا فقط

أداة Google AI تحدد الدوافع الجينية للسرطان

ماذا لو كان الذكاء الاصطناعي هو فقاعة الدوت كوم التالية؟

كوريا الجنوبية تلغي برنامج الكتب المدرسية الخاص بالذكاء الاصطناعي

نموذج الذكاء الاصطناعي ذو تريليون معلمة: إطلاق Ling-1T من Ant Group

تعمل MHRA على تسريع الموجة التالية من أدوات الذكاء الاصطناعي لرعاية المرضى

تعمل وحدات معالجة الرسومات NVIDIA على تشغيل خدمات الذكاء الاصطناعي للمؤسسات من الجيل التالي من Oracle

يعمل الذكاء الاصطناعي الوكيل لشركة Huawei على تشغيل الأتمتة الصناعية

13% فقط لديهم إستراتيجية ذكاء اصطناعي قوية وهم يتفوقون على المنافسين

تلتزم Salesforce بمبلغ 15 مليار دولار لتعزيز نمو الذكاء الاصطناعي في سان فرانسيسكو

كيفية تسجيل مقاطع فيديو محمية بدون شاشة سوداء

سامسونج جالكسي S25: الأخبار والسعر المتوقع وتاريخ الإصدار والمزيد

كل ما تريد معرفته عن Reacher الموسم الثالث

Samsung Galaxy Watch 7: الأخبار والسعر المشاع وتاريخ الإصدار والمزيد

يحصل iPhone على أول تطبيق إباحي أصلي له

إنجازات ذكية من حكومة أبوظبي في “جيتكس جلوبال 2025”.. 15 شراكة تكتب فصلًا جديدًا في التحوّل الذكي

كيفية تسجيل مقاطع فيديو محمية بدون شاشة سوداء

استخدم chatgpt بالعربي مجانا بدون تسجيل

رائج الآن

إنجازات ذكية من حكومة أبوظبي في “جيتكس جلوبال 2025”.. 15 شراكة تكتب فصلًا جديدًا في التحوّل الذكي

كيفية تسجيل مقاطع فيديو محمية بدون شاشة سوداء

استخدم chatgpt بالعربي مجانا بدون تسجيل

اختيارات المحرر

كيف تصبح خبيرًا في الأرصاد الجوية في الفناء الخلفي باستخدام بعض الأدوات البسيطة

يمكن للطلاب والمستقلين والفرق الصغيرة الحصول على مجموعة مكتبية كاملة مقابل 29.99 دولارًا مدى الحياة

إنه اليوم الأخير للحصول على ترخيص مدى الحياة لـ Microsoft Office Pro 2021 مقابل 40 دولارًا فقط

خدمة الإشعارات البريدية

مقالات قد تهمك

Alibaba Qwen QWQ-32B: عرض التعلم التعزيز المقلي

المقالات ذات الصلة

خدمة الإشعارات البريدية