تذكر عندما هزت Deepseek لفترة وجيزة صناعة الذكاء الاصطناعي بأكملها من خلال إطلاق نموذج لغتها الكبير ، R1 ، الذي تم تدريبه على جزء صغير من الأموال التي يتدفقها Openai وغيرها من اللاعبين الكبار في نماذجهم؟ بفضل ورقة جديدة نشرتها فريق Deepseek AI في المجلة طبيعة، نعلم أخيرًا ما الذي يتطلبه الأمر لتدريب Deepseek 1: 294،000 دولار و 512 رقائق Nvidia H800. والسبب في ذلك ، يبدو ، هو بسبب استخدام الفريق لتقنيات التعلم التعليمية القائمة على التجربة والخطأ.
يجب تدريب معظم نماذج الذكاء الاصطناعى المكلفة بأداء مهام التفكير على البيانات والمظاهرات المذبكات البشرية “لتعلم” كيفية حل بعض المشكلات ، وهي مكلفة وتستغرق وقتًا طويلاً حيث يتم إعطاء النماذج مهامًا أكثر تحديًا. وجد Deepseek أنه يمكن أن يحسن التفكير والمخرجات في نموذجها ببساطة عن طريق تحفيزه على إجراء عملية تجريبية وخطأ حتى تحصل على الإجابة الصحيحة.
في مقال يرافق الورقة ، شرح مساعد أستاذ بجامعة كارنيجي ميلون دافني إيبوليتو وطالب الدكتوراه في دكتوراه Zhang طريقة التعزيز من خلال مقارنتها مع طفل يلعب لعبة فيديو: “مع انحراف الطفل عن ذلك ، فإنهم يتشكلون في العائد على الدرجات. حصل Deepseek-R1 على درجة عالية عندما أجبت على الأسئلة بشكل صحيح ودرجة منخفضة عندما أعطت إجابات خاطئة. “
أظهرت الأبحاث السابقة أن استخدام نهج المطالبة-مثل LLM لتقديم شرح خطوة بخطوة لكيفية وصوله إلى إخراجها-يمنح إجابات أكثر دقة. لكن فريق Deepseek اكتشف طريقة للحصول على إجابات أفضل من خلال التعزيز من خلال تعيين نظام تسجيل للمخرجات التي أنتجها R1. هذا يعمل بشكل جيد بشكل خاص مع أسئلة الرياضيات والبرمجة ، والتي عادة ما يكون لها إجابة صحيحة. باستخدام هذه الطريقة بدلاً من التفكير الموجهة للإنسان ، تمكنت LLM من التوصل إلى نتيجة صحيحة من تلقاء نفسها لأنها سعت إلى الدرجات الأعلى.
على الرغم من أن مخرجات هذه الطريقة تبدو أكثر دقة ، إلا أنها تعشق عملية “التفكير” في الجهاز أكثر قليلاً بالنسبة للبشر الذين يحاولون متابعته. عند طلب إنتاج مسار التفكير لإجابته ، فإن النموذج في بعض الأحيان يتحول ذهابًا وإيابًا بين اللغة الإنجليزية والصينية. كما أنتجت تفسيرات كانت 10000 كلمة أو أكثر. كانت الطريقة أيضًا وظيفية بشكل خاص فقط للإجابات ذات الإجابات الصحيحة أو الخاطئة الواضحة بدلاً من المطالبات الأكثر دقة أو ذاتية.
بغض النظر ، إنها نافذة مثيرة للاهتمام حول مدى تمكن Deepseek من التنافس على ميزانية أصغر. ومع ذلك ، فإن الشركة نفسها لديها الكثير من الشكوك المحيطة بها بسبب قربها المتصور من الحكومة الصينية. في الآونة الأخيرة ، أظهر الباحثون لصحيفة واشنطن بوست أن نموذج الشركة سيرفض إنتاج رمز مع عيوب أمنية كبيرة عندما يشير المطاردة إلى أنهم يعملون مع مجموعات تعتبرها الحكومة الصينية حساسة. ووجد الباحثون أيضًا أن النموذج يصفق رمزًا أقل أمانًا عندما يُطلب منهم إنتاج عمل لصالح التبت أو تايوان أو حركة فالون غونغ الدينية أو الدولة الإسلامية.