انفجرت شركة Deepseek الصينية AI في دورة الأخبار خلال عطلة نهاية الأسبوع بعد استبدالها بـ Openai's ChatGPT كأبرز تنزيل في متجر تطبيقات Apple. جاء نجاحها التجاري بعد نشر العديد من الأوراق التي أعلنت فيها Deepseek أن أحدث نماذج R1 – والتي تكلفت الشركة أقل بكثير بالنسبة للشركة لاستخدامها – وهي تساوي ، وفي بعض الحالات تتجاوز ، أفضل نماذج Openai المتاحة للجمهور.
إذن ما الذي فعله Deepseek هذا Openai العميق لم يفعله؟ من الصعب أن نقول على وجه اليقين لأن Openai كان إلى حد كبير حول كيفية تدريب نموذج GPT-O1 ، الرائد السابق في مجموعة متنوعة من الاختبارات القياسية. ولكن هناك بعض الاختلافات الواضحة في أساليب الشركات وغيرها من المجالات التي يبدو أن ديبسيك قد حققت اختراقات رائعة.
ربما يكون الفرق الأكبر – وبالتأكيد الفرق الذي أرسل مخزونات صانعي الرقائق مثل Nvidia التي تراجع يوم الاثنين – هو أن Deepseek يخلق نماذج تنافسية بشكل أكثر كفاءة من نظرائها الأكبر.
تم تصميم أحدث طرازات “التفكير” من شركة R1 و R1-Zero للشركة على رأس نموذج V3 الخاص بـ Deepseek ، والذي قالت الشركة إنه مدرب بأقل من 6 ملايين دولار في تكاليف الحوسبة باستخدام أجهزة NVIDIA الأقدم (وهو أمر قانوني للشركات الصينية لشراء ، على عكس الرقائق الحديثة للشركة). وبالمقارنة ، قال الرئيس التنفيذي لشركة Openai Sam Altman إن GPT-4 ، ولا حتى أفضل نموذج أساسي للشركة ، يكلف أكثر من 100 مليون دولار للتدريب.
أخبر كارل فرونوند ، مؤسس شركة تحليل الصناعة ، Cambrian AI Research ، Gizmodo أن السياسات الأمريكية مثل الحظر الأخير على مبيعات الرقائق المتقدمة إلى الصين قد أجبرت شركات مثل Deepseek على تحسين بنية نماذجها بدلاً من إلقاء الأموال على أجهزة أفضل و مراكز البيانات بحجم مانهاتن.
وقال فريوند: “يمكنك بناء نموذج بسرعة أو يمكنك القيام بالعمل الشاق لبناءه بكفاءة”. “سيكون التأثير على الشركات الغربية هو أنهم سيضطرون إلى القيام بالعمل الشاق الذي لم يكونوا على استعداد للقيام به.”
لم يخترع Deepseek معظم تقنيات التحسين التي استخدمها. بعض ، مثل استخدام تنسيقات البيانات التي تستخدم ذاكرة أقل ، تم اقتراحها من قبل منافسيها الأكبر. إن الصورة التي تنشأ من أوراق Deepseek – حتى بالنسبة للقراء الجهلة تقنيًا – هي فريق قام بسحب كل أداة يمكن أن تجدها لجعل التدريب تتطلب ذاكرة الحوسبة أقل وتصميم بنية النموذج الخاصة بها لتكون فعالة قدر الإمكان على الأجهزة القديمة كانت استخدام.
كان Openai أول مطور يقدم ما يسمى نماذج التفكير ، والتي تستخدم تقنية تسمى سلسلة الفكرة التي تحاكي طريقة التجارب والخطأ للبشر لحل المشكلات لإكمال المهام المعقدة ، وخاصة في الرياضيات والترميز. لم تقل الشركة كيف فعلت ذلك بالضبط.
ديبسيك ، من ناحية أخرى ، وضعت عمليتها.
في الماضي ، تم تحسين نماذج الذكاء الاصطناعي التوليدي من خلال دمج ما يعرف باسم التعلم التعزيز مع التعليقات البشرية (RLHF). يصف البشر الخصائص الجيدة والسيئة لمجموعة من استجابات الذكاء الاصطناعى والنموذج يتم تحفيزه لمحاكاة الخصائص الجيدة ، مثل الدقة والتماسك.
كان الابتكار الكبير لـ Deepseek في بناء نماذج R1 الخاصة به هو التخلص من التعليقات البشرية وتصميم خوارزميةها للتعرف على أخطائها وتصحيحها. “DeepSeekr1-Zero يوضح قدرات مثل التعريف الذاتي والتفكير والتوليد
كتب الباحثون: “الجدير بالذكر ، إنه
أول بحث مفتوح للتحقق من أنه يمكن تحفيز قدرات التفكير في (نماذج اللغة الكبيرة) بحتة من خلال (التعلم التعزيز). “
نتائج نهج التعلم التعزيز الخالص لم تكن مثالية. كان من الصعب في بعض الأحيان قراءة مخرجات طراز R1-Zero والتبديل بين اللغات. أنشأت Deepseek خط أنابيب تدريب جديد يتضمن كمية صغيرة نسبيًا من البيانات المسمى لدفع النموذج في الاتجاه المفضل مع عدة جولات من تعلم التعزيز الخالص. يتفوق النموذج الناتج ، R1 ، على نموذج GPT-O1 من Openai على العديد من مجموعات مشاكل الرياضيات والترميز المصممة للبشر.
وقال بيل هاناس وهوي ميي تشانغ ، خبراء في التكنولوجيا والسياسة الصينية في مركز جورج تاون للأمن والتكنولوجيا الناشئة ، إن الصين تراقب عن كثب الاختراقات التكنولوجية والممارسات للشركات الغربية التي ساعدت شركاتها في إيجاد حلول للسياسات الأمريكية مثل الحظر الذي يحظر الرقائق التي تحظرها. تم تصميمها لإعطاء الشركات الأمريكية ميزة.
وقالوا إن نجاح ديبسيك ليس بالأمر السيئ بالنسبة للصناعة المحلية ، لكنه “دعوة للاستيقاظ لنا شركات الذكاء الاصطناعى المهووسين بحلول هائلة (ومكلفة). “بذل المزيد من الجهد بأقل” يدعم النهج الذي تم اتخاذه في العديد من المختبرات الصينية الممولة من الدولة. “