قبل بضعة أشهر ، كان الرهان الكبير في وول ستريت على الذكاء الاصطناعى التوليدي لحظة من الحساب عندما وصل ديبسيك إلى مكان الحادث. على الرغم من طبيعتها الخاضعة للرقابة الشديدة ، فقد أثبت المصدر المفتوح Deepseek أن نموذج AI المنطقي الحدودي لا يتطلب بالضرورة مليارات الدولارات ويمكن سحبه على موارد متواضعة.
وسرعان ما وجدت تبنيًا تجاريًا من قبل العمالقة مثل Huawei و Oppo و Vivo ، في حين أن أمثال Microsoft و Alibaba و Tencent سرعان ما أعطوها مكانًا على منصاتهم. الآن ، فإن الهدف التالي للشركة الصينية الصينية هو تحفيز نماذج الذكاء الاصطناعى ذاتيا والتي تستخدم نهجا لائحة القاضي لتحسين أنفسهم.
في ورقة ما قبل الطباعة (عبر بلومبرج) ، يصف الباحثون في ديبسيك وجامعة تسينغهوا الصينية نهجًا جديدًا يمكن أن يجعل نماذج الذكاء الاصطناعى أكثر ذكاءً وكفاءة في أزياء ذاتية التفسير. تسمى التكنولوجيا الأساسية ضبط النقد المبدئي (SPCT) ، ويعرف النهج من الناحية الفنية بنمذجة المكافآت التوليدية (GRM).
في أبسط المصطلحات ، يشبه إلى حد ما إنشاء حلقة ملاحظات في الوقت الفعلي. يتم تحسين نموذج الذكاء الاصطناعي بشكل أساسي عن طريق زيادة حجم النموذج أثناء التدريب. يتطلب ذلك الكثير من العمل البشري وحساب الموارد. تقترح Deepseek نظامًا حيث يأتي “القاضي” الأساسي مع مجموعة من الانتقادات والمبادئ الخاصة به لنموذج الذكاء الاصطناعى لأنه يعد إجابة لاستعلام المستخدم.
ثم تتم مقارنة هذه المجموعة من الانتقادات والمبادئ مع القواعد الثابتة المحددة في قلب نموذج الذكاء الاصطناعي والنتيجة المرجوة. إذا كانت هناك درجة عالية من المطابقة ، يتم إنشاء إشارة المكافأة ، والتي توجه فعليًا منظمة العفو الدولية لأداء أفضل في الدورة التالية.
يشير الخبراء وراء الورقة إلى الجيل القادم من نماذج الذكاء الاصطناعى ذاتيا مثل Deepseek-Grm. تشير المعايير المدرجة في الورقة إلى أن هذه النماذج تؤدي أفضل من طرازات Gemini من Google و Meta's Llama و Openai's GPT-4O. يقول ديبسيك إن طرازات الذكاء الاصطناعى من الجيل التالي سيتم إصدارها عبر قناة المصدر المفتوح.
تحسين الذكاء الذاتي؟

لقد رسم موضوع الذكاء الاصطناعى الذي يمكن أن يحسن نفسه بعض الملاحظات الطموحة والمثيرة للجدل. جادل الرئيس التنفيذي السابق لشركة Google ، إريك شميدت ، بأننا قد نحتاج إلى مفتاح قتل لمثل هذه الأنظمة. ونقل عن شميدت قوله من قبل Fortune: “عندما يتمكن النظام من التنفيذ الذاتي ، نحتاج إلى التفكير بجدية في فصله”.
إن مفهوم منظمة العفو الدولية ذاتية التفريغ الذاتي ليست مفهومًا جديدًا. تعود فكرة آلة فائقة الذكاء ، والتي هي قادرة لاحقًا على صنع آلات أفضل ، في الواقع على عودة إلى عالم الرياضيات IJ في عام 1965. في عام 2007 ، افترض خبير الذكاء الاصطناعي Eliezer Yudkowsky عن الذكاء الذاتي ، وهو “مصمم للاستفادة الذاتية ، والتعديل الذاتي ، والتعرف ذاتيًا”.
في عام 2024 ، قامت Sakana AI في اليابان بتفصيل مفهوم “عالم الذكاء الاصطناعي” حول نظام قادر على تمرير خط الأنابيب بأكمله لورقة بحث من البداية إلى النهاية. في ورقة بحثية نشرت في مارس من هذا العام ، كشف خبراء Meta عن نماذج لغوية لتجميع الذات حيث تعمل الذكاء الاصطناعى نفسها كقاضٍ لتقديم المكافآت أثناء التدريب.
شهدت الاختبارات الداخلية لـ META على نموذج Llama 2 AI باستخدام تقنية التجديد الذاتي الجديد أنها تتفوق على منافسيها مثل Claude 2 و Google's Gemini Pro و Openai's GPT-4. تفصيل الأنثروبور المدعوم من Amazon ما أطلقوا عليه اسم المكافأة ، وهي عملية غير متوقعة “حيث يقوم نموذج مباشرة بتعديل آلية المكافآت الخاصة به”.
Google ليست بعيدة جدًا عن الفكرة. في دراسة نشرت في مجلة Nature Journal في وقت سابق من هذا الشهر ، عرض الخبراء في Google Deepmind خوارزمية منظمة العفو الدولية تسمى Dreamer والتي يمكن أن تضعف ذاتيًا ، باستخدام لعبة Minecraft كمثال تمرين.
يعمل الخبراء في IBM على مقاربتهم الخاصة التي تسمى التدريب الاستنتاجي ، حيث يستخدم نموذج الذكاء الاصطناعى ردوده ويقيمها مقابل بيانات التدريب لتحسين نفسها. الفرضية كلها ، ومع ذلك ، ليست كل أشعة الشمس وأقواس قزح.
تشير الأبحاث إلى أنه عندما تحاول نماذج الذكاء الاصطناعى تدريب نفسها على البيانات الاصطناعية التي تم إنشاؤها ذاتيا ، فإنها تؤدي إلى عيوب معروفة بالعامية باسم “انهيار النموذج”. سيكون من المثير للاهتمام أن نرى مدى تنفيذ الفكرة العميقة ، وما إذا كان يمكن أن تفعل ذلك بطريقة أكثر مقتصدًا من منافسيها من الغرب.