كشفت DeepSeek النقاب عن الجيل الأول من نماذج DeepSeek-R1 و DeepSeek-R1-Zero المصممة للتعامل مع مهام التفكير المعقدة.
يتم تدريب DeepSeek-R1-Zero فقط من خلال التعلم المعزز واسع النطاق (RL) دون الاعتماد على الضبط الدقيق الخاضع للإشراف (SFT) كخطوة أولية. ووفقا لـ DeepSeek، أدى هذا النهج إلى الظهور الطبيعي “للعديد من سلوكيات التفكير القوية والمثيرة للاهتمام”، بما في ذلك التحقق من الذات، والتفكير، وتوليد سلاسل فكرية واسعة النطاق (CoT).
وأوضح باحثو DeepSeek: “من الجدير بالذكر أن (DeepSeek-R1-Zero) هو أول بحث مفتوح للتحقق من إمكانية تحفيز القدرات الاستدلالية لماجستير القانون فقط من خلال RL، دون الحاجة إلى SFT”. لا يؤكد هذا الإنجاز الهام على الأسس المبتكرة للنموذج فحسب، بل يمهد الطريق أيضًا للتطورات التي تركز على RL في استدلال الذكاء الاصطناعي.
ومع ذلك، فإن قدرات DeepSeek-R1-Zero تأتي مع بعض القيود. وتشمل التحديات الرئيسية “التكرار الذي لا نهاية له، وضعف إمكانية القراءة، واختلاط اللغات”، والتي يمكن أن تشكل عقبات كبيرة في تطبيقات العالم الحقيقي. ولمعالجة أوجه القصور هذه، طورت DeepSeek نموذجها الرئيسي: DeepSeek-R1.
تقديم DeepSeek-R1
يعتمد DeepSeek-R1 على سابقه من خلال دمج بيانات البداية الباردة قبل تدريب RL. تعمل خطوة التدريب المسبق الإضافية هذه على تحسين قدرات الاستدلال الخاصة بالنموذج وحل العديد من القيود المذكورة في DeepSeek-R1-Zero.
ومن الجدير بالذكر أن DeepSeek-R1 يحقق أداءً مشابهًا لنظام o1 الذي نال استحسانًا كبيرًا من OpenAI في الرياضيات والبرمجة ومهام الاستدلال العام، مما عزز مكانته كمنافس رائد.
اختارت DeepSeek فتح المصدر لكل من DeepSeek-R1-Zero و DeepSeek-R1 بالإضافة إلى ستة نماذج مقطرة أصغر. ومن بين هذه الأجهزة، أظهر DeepSeek-R1-Distill-Qwen-32B نتائج استثنائية، حتى أنه تفوق على أداء OpenAI's o1-mini عبر معايير متعددة.
- MATH-500 (Pass@1): حقق DeepSeek-R1 نسبة 97.3%، متفوقًا على OpenAI (96.4%) والمنافسين الرئيسيين الآخرين.
- LiveCodeBench (Pass@1-COT): سجلت النسخة المقطرة DeepSeek-R1-Distill-Qwen-32B نسبة 57.2%، وهو أداء متميز بين النماذج الأصغر حجمًا.
- AIME 2024 (Pass@1): حقق DeepSeek-R1 نسبة 79.8%، مما يضع معيارًا مثيرًا للإعجاب في حل المشكلات الرياضية.
خط أنابيب لصالح الصناعة الأوسع
لقد شاركت DeepSeek رؤى حول مسارها الصارم لتطوير نموذج الاستدلال، والذي يدمج مزيجًا من الضبط الدقيق والتعلم المعزز تحت الإشراف.
وفقًا للشركة، تتضمن العملية مرحلتين SFT لتأسيس قدرات التفكير المنطقي وغير المنطقي، بالإضافة إلى مرحلتين RL مصممتين لاكتشاف أنماط التفكير المتقدمة ومواءمة هذه القدرات مع التفضيلات البشرية.
“نعتقد أن خط الأنابيب سيفيد الصناعة من خلال إنشاء نماذج أفضل،” لاحظ DeepSeek، في إشارة إلى إمكانات منهجيتهم لإلهام التقدم المستقبلي عبر قطاع الذكاء الاصطناعي.
أحد الإنجازات البارزة لنهجهم الذي يركز على RL هو قدرة DeepSeek-R1-Zero على تنفيذ أنماط تفكير معقدة دون تعليمات بشرية مسبقة – وهو الأول من نوعه لمجتمع أبحاث الذكاء الاصطناعي مفتوح المصدر.
أهمية التقطير
كما سلط باحثو DeepSeek الضوء على أهمية التقطير، أي عملية نقل القدرات الاستدلالية من النماذج الأكبر حجمًا إلى نماذج أصغر وأكثر كفاءة، وهي استراتيجية فتحت الباب أمام مكاسب الأداء حتى بالنسبة للتكوينات الأصغر حجمًا.
تمكنت الإصدارات المقطرة الأصغر حجمًا من DeepSeek-R1 – مثل الإصدارات 1.5B و7B و14B – من الاحتفاظ بميزاتها الخاصة في التطبيقات المتخصصة. يمكن للنماذج المقطرة أن تتفوق على النتائج التي تم تحقيقها من خلال تدريب RL على نماذج ذات أحجام مماثلة.
🔥 المكافأة: نماذج مقطرة مفتوحة المصدر!
🔬 مقطر من DeepSeek-R1، 6 نماذج صغيرة مفتوحة المصدر بالكامل
📏 نماذج 32B و70B على قدم المساواة مع OpenAI-o1-mini
🤝 تمكين مجتمع المصادر المفتوحة🌍 تجاوز حدود **الذكاء الاصطناعي المفتوح**!
🐋2/ن pic.twitter.com/tfXLM2xtZZ
– ديب سيك (@deepseek_ai) 20 يناير 2025
بالنسبة للباحثين، تتوفر هذه النماذج المقطرة في تكوينات تتراوح من 1.5 مليار إلى 70 مليار معلمة، مما يدعم بنيات Qwen2.5 وLlama3. تتيح هذه المرونة الاستخدام المتنوع عبر مجموعة واسعة من المهام، بدءًا من البرمجة وحتى فهم اللغة الطبيعية.
اعتمدت DeepSeek ترخيص MIT لمستودعها وأوزانها، مما أدى إلى توسيع أذونات الاستخدام التجاري والتعديلات النهائية. يُسمح بالأعمال المشتقة، مثل استخدام DeepSeek-R1 لتدريب نماذج اللغات الكبيرة الأخرى (LLMs). ومع ذلك، يجب على مستخدمي نماذج مقطرة محددة التأكد من الامتثال لتراخيص النماذج الأساسية الأصلية، مثل تراخيص Apache 2.0 وLlama3.
(تصوير براتيك كاتيال)
أنظر أيضا: تعمل Microsoft على تطوير اكتشاف المواد باستخدام MatterGen
هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الضخمة من قادة الصناعة؟ اطلع على معرض الذكاء الاصطناعي والبيانات الضخمة الذي يقام في أمستردام وكاليفورنيا ولندن. ويقام هذا الحدث الشامل في موقع مشترك مع أحداث رائدة أخرى بما في ذلك مؤتمر الأتمتة الذكية، وBlockX، وأسبوع التحول الرقمي، ومعرض الأمن السيبراني والسحابي.
استكشف الأحداث والندوات عبر الإنترنت القادمة الأخرى المتعلقة بتكنولوجيا المؤسسات والمدعومة من TechForge هنا.