لقد حلت شركة Deepseek من الذكاء الاصطناعى الصيني مشكلة تحبط باحثو الذكاء الاصطناعي لعدة سنوات. يمكن أن يحسن طفرة في نماذج مكافآت الذكاء الاصطناعى بشكل كبير كيف تسبب أنظمة الذكاء الاصطناعي والرد على الأسئلة.
بالشراكة مع باحثو جامعة تينغهوا ، أنشأ ديبسيك تقنية مفصلة في ورقة بحثية بعنوان “تحجيم وقت الاستدلال لنمذجة المكافآت العامة”. إنه يوضح كيف يتفوق نهج جديد على الأساليب الحالية وكيف “حقق الفريق” أداء تنافسي “مقارنة بنماذج المكافآت العامة القوية.
يركز الابتكار على تعزيز كيفية تعلم أنظمة الذكاء الاصطناعى من التفضيلات البشرية – وهو جانب مهم لإنشاء ذكاء أكثر فائدة ومحاذاة.
ما هي نماذج مكافأة الذكاء الاصطناعى ، ولماذا يهم؟
نماذج مكافأة الذكاء الاصطناعى هي مكونات مهمة في التعلم التعزيز لنماذج اللغة الكبيرة. أنها توفر إشارات التغذية المرتدة التي تساعد على توجيه سلوك الذكاء الاصطناعى تجاه النتائج المفضلة. بعبارات أبسط ، تشبه نماذج المكافآت المعلمين الرقميين الذين يساعدون منظمة العفو الدولية على فهم ما يريده البشر من ردودهم.
“نمذجة المكافآت هي عملية توجه LLM نحو التفضيلات البشرية” ، تقول ورقة Deepseek. تصبح نمذجة المكافآت مهمة حيث تصبح أنظمة الذكاء الاصطناعى أكثر تطوراً ويتم نشرها في سيناريوهات تتجاوز مهام إجابة الأسئلة البسيطة.
يعالج الابتكار من Deepseek التحدي المتمثل في الحصول على إشارات مكافأة دقيقة لـ LLMs في مجالات مختلفة. في حين أن نماذج المكافآت الحالية تعمل بشكل جيد للأسئلة التي يمكن التحقق منها أو القواعد الاصطناعية ، فإنها تكافح في المجالات العامة حيث تكون المعايير أكثر تنوعًا وتعقيدًا.
النهج المزدوج: كيف تعمل طريقة Deepseek
يجمع نهج Deepseek بين طريقتين:
- نمذجة المكافآت التوليدية (GRM): يتيح هذا النهج المرونة في أنواع المدخلات المختلفة ويسمح بالتوسع أثناء وقت الاستدلال. على عكس المقاربات العددية أو شبه الفقرية السابقة ، يوفر GRM تمثيلًا أكثر ثراءً للمكافآت من خلال اللغة.
- ضبط النقد المُعتمد على الذات (SPCT): طريقة تعليمية تعزز سلوكيات مكافأة القابلة للتطوير في GRMS من خلال التعلم التعزيز عبر الإنترنت ، وهي طريقة تولد مبادئ.
أوضح أحد مؤلفي الورقة من جامعة Tsinghua و Deepseek-Ai ، Zijun Liu ، أن مزيج الأساليب يسمح بإنشاء مبادئ استنادًا إلى استعلام الإدخال واستجابات ، وعملية توليد المكافآت بشكل تكيفي “.
يعد هذا النهج ذا قيمة خاصة بالنسبة لإمكانية “تحجيم وقت الاستدلال”-تحسين الأداء عن طريق زيادة الموارد الحسابية أثناء الاستدلال وليس فقط أثناء التدريب.
وجد الباحثون أن أساليبهم يمكن أن تحقق نتائج أفضل من خلال زيادة أخذ العينات ، مما يتيح للنماذج توليد مكافآت أفضل بمزيد من الحوسبة.
الآثار المترتبة على صناعة الذكاء الاصطناعي
يأتي ابتكار Deepseek في وقت مهم في تطوير الذكاء الاصطناعي. تنص الورقة على أن “التعلم التعزيز (RL) قد تم اعتماده على نطاق واسع في ما بعد التدريب لنماذج اللغة الكبيرة (…) على نطاق واسع” ، مما يؤدي إلى “تحسينات ملحوظة في محاذاة القيمة البشرية ، والتفكير طويل الأجل ، والتكيف مع البيئة مع LLMS.”
يمكن أن يكون النهج الجديد لمكافأة نمذجة العديد من الآثار:
- ردود الفعل أكثر دقة: من خلال إنشاء نماذج مكافأة أفضل ، يمكن أن تتلقى أنظمة الذكاء الاصطناعى ملاحظات أكثر دقة حول مخرجاتها ، مما يؤدي إلى تحسين الاستجابات بمرور الوقت.
- زيادة القدرة على التكيف: تعني القدرة على توسيع أداء النموذج أثناء الاستدلال أن أنظمة الذكاء الاصطناعى يمكن أن تتكيف مع القيود والمتطلبات الحسابية المختلفة.
- تطبيق أوسع: يمكن أن تعمل الأنظمة بشكل أفضل في مجموعة أوسع من المهام من خلال تحسين نمذجة المكافآت للمجالات العامة.
- استخدام الموارد الأكثر كفاءة: يوضح البحث أن تحجيم وقت الاستدلال مع طريقة Deepseek قد يتفوق على حجم حجم النموذج في وقت التدريب ، مما قد يسمح للنماذج الأصغر بأداء نماذج مماثلة مع موارد وقت الاستدلال المناسبة.
تأثير ديبسيك المتزايد
يضيف التطوير الأخير إلى ملف تعريف Deepseek الصاعد في Global AI. تأسست شركة Hangzhou في عام 2023 من قبل رجل الأعمال Liang Wenfeng ، وقد صنعت شركة Hangzhou مع نماذج V3 ونماذج التفكير R1.
قامت الشركة بترقية طراز V3 (Deepseek-V3-0324) مؤخرًا ، والتي قالت الشركة إن “إمكانيات التفكير المعززة ، وتطوير الويب الأمامي الأمامي وترقية الكفاءة في الكتابة الصينية”. التزمت Deepseek بمفتوح الذكاء الاصطناعى ، حيث أطلق خمسة مستودعات من الكود في فبراير والتي تسمح للمطورين بمراجعة التطوير والمساهمة به.
بينما تستمر التكهنات حول الإفراج المحتمل لـ Deepseek-R2 (خليفة R1)- رويترز لقد تكهن في تواريخ الإصدار المحتملة – لم تعلق Deepseek في قنواتها الرسمية.
ما هو التالي لنماذج مكافأة الذكاء الاصطناعي؟
وفقًا للباحثين ، تعتزم Deepseek جعل نماذج GRM مفتوحة المصدر ، على الرغم من عدم توفير جدول زمني محدد. سيؤدي التعليم المفتوح إلى تسريع التقدم في هذا المجال من خلال السماح بتجريب أوسع مع نماذج المكافآت.
مع استمرار التعلم التعزيز في لعب دور مهم في تطوير الذكاء الاصطناعي ، من المحتمل أن يكون للتقدم في نمذجة المكافآت مثل تلك الموجودة في عمل Deepseek و Tsinghua تأثير على قدرات وسلوك أنظمة الذكاء الاصطناعي.
يوضح العمل على نماذج مكافآت الذكاء الاصطناعى أن الابتكارات في كيفية تعلم النماذج يمكن أن تكون مهمة زيادة حجمها. من خلال التركيز على جودة التغذية المرتدة وقابلية التوسع ، يعالج Deepseek أحد التحديات الأساسية لإنشاء الذكاء الاصطناعى الذي يفهم ويتوافق مع التفضيلات البشرية بشكل أفضل.
انظر أيضًا: Deepseek Arruption: Depanning AI Innovation يضيق الفجوة التكنولوجية العالمية
هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الكبيرة من قادة الصناعة؟ تحقق من AI و Big Data Expo الذي يقام في أمستردام ، كاليفورنيا ، ولندن. تم تحديد الحدث الشامل مع الأحداث الرائدة الأخرى بما في ذلك مؤتمر الأتمتة الذكي ، و blockx ، وأسبوع التحول الرقمي ، ومعرض Cyber Security & Cloud.
استكشاف أحداث وندوات الويب القادمة الأخرى التي تعمل بها TechForge هنا.