أصدرت Deep Cogito العديد من نماذج اللغة الكبيرة المفتوحة (LLMS) التي تتفوق على المنافسين ويدعي أنها تمثل خطوة نحو تحقيق الإلغاء العام.
أطلقت الشركة التي تتخذ من سان فرانسيسكو مقراً لها ، والتي تنص على أن “بناء سوبرايتينس العام” ، أطلقت إصدارات معاينة من LLMS بأحجام المعلمات 3B و 8B و 14B و 32B و 70B. يؤكد Deep Cogito أن “كل نموذج يتفوق على أفضل النماذج المفتوحة المتاحة من نفس الحجم ، بما في ذلك نظيراتها من LAMA و DEEPSEEK و QWEN ، عبر معظم المعايير القياسية”.
بشكل مثير للإعجاب ، فإن طراز 70B من Deep Cogito يتجاوز أداء نموذج Llama 4 109B Mixperts (MOE) الذي تم إصداره مؤخرًا.
التقطير المكرر والتضخيم (IDA)
المركزية في هذا الإصدار هي منهجية تدريب جديدة تسمى التقطير المتكرر والتضخيم (IDA).
يصف Deep Cogito IDA بأنه “استراتيجية محاذاة قابلة للتطوير وفعالة للألواح العامة باستخدام التحسين الذاتي التكراري”. تهدف هذه التقنية إلى التغلب على القيود المتأصلة في نماذج تدريب LLM الحالية ، حيث غالبًا ما يتم تخصيص ذكاء النموذج من خلال قدرات نماذج “المشرف” الأكبر أو القيمين البشريين.
تتضمن عملية IDA خطوتين رئيسيتين تكررت مرارًا وتكرارًا:
- التضخيم: استخدام المزيد من الحساب لتمكين النموذج من استخلاص حلول أو قدرات أفضل ، على غرار تقنيات التفكير المتقدمة.
- التقطير: استيعاب هذه القدرات المتضخمة مرة أخرى في معلمات النموذج.
يقول Deep Cogito إن هذا يخلق “حلقة ردود فعل إيجابية” حيث يتجه موارد الذكاء النموذجية بشكل مباشر مع الموارد الحسابية وكفاءة عملية IDA ، بدلاً من أن تكون محدودة بدقة من قبل الذكاء المشرف.
“عندما ندرس أنظمة superintligent ،” تلاحظ البحث ، تشير إلى نجاحات مثل Alphago ، “نجد مكونين رئيسيين مكّن هذا الاختراق: التفكير المتقدم والتحسين الذاتي التكراري”. يتم تقديم IDA كوسيلة لدمج كل من تدريب LLM.
تدعي Deep Cogito أن IDA فعال ، حيث ذكر تم تطوير النماذج الجديدة من قبل فريق صغير في حوالي 75 يومًا. كما أنها تسلط الضوء على قابلية التوسع المحتملة لـ IDA مقارنة بطرق مثل التعلم التعزيز من التعليقات البشرية (RLHF) أو التقطير القياسي من نماذج أكبر.
كدليل ، تشير الشركة إلى نموذجها 70B الذي يتفوق على LAMA 3.3 70B (المقطر من نموذج 405B) و LLAMA 4 SCOUT 109B (المقطر من نموذج المعلمة 2T).
قدرات وأداء نماذج كوجيتو العميقة
يتم تحسين نماذج Cogito التي تم إصدارها حديثًا – استنادًا إلى نقاط التفتيش LAMA و QWEN – للترميز ، ومكالمات الوظائف ، وحالات الاستخدام الوظيفي.
الميزة الرئيسية هي وظيفتها المزدوجة: “يمكن لكل نموذج الإجابة مباشرة (LLM القياسية) ، أو الانعكاس الذاتي قبل الرد (مثل نماذج التفكير)” ، على غرار القدرات التي شوهدت في نماذج مثل Claude 3.5. ومع ذلك ، يلاحظ Deep Cogito أنها “لم يتم تحسينها لسلاسل التفكير الطويلة جدًا” ، مشيرين إلى تفضيل المستخدم للحصول على إجابات أسرع وكفاءة تقطير السلاسل الأقصر.
يتم توفير نتائج قياسية واسعة ، مقارنة نماذج Cogito مع النماذج المفتوحة المتخصصة في الحجم في كل من أوضاع الاستدلال المباشرة (القياسية).
عبر مختلف المعايير (MMLU ، MMLU-PRO ، ARC ، GSM8K ، MATH ، إلخ) وأحجام النماذج (3B ، 8B ، 14B ، 32B ، 70B ،) تظهر نماذج Cogito مكاسب مهمة بشكل عام على نظيرات مثل Llama 3.1/3.2/3.3 و Qwen 2.5 ، وخاصة في وضع المنطق.
على سبيل المثال ، يحقق طراز Cogito 70B 91.73 ٪ على MMLU في الوضع القياسي (+6.40 ٪ مقابل Llama 3.3 70B) و 91.00 ٪ في وضع التفكير (+4.40 ٪ مقابل Deepseek R1 Distill 70b). عشرات LiveBench تظهر أيضا تحسينات.
فيما يلي معايير نماذج 14B لمقارنة متوسطة الحجم:
في حين أن الاعتراف بالمعايير لا يحصل على فائدة في العالم الحقيقي ، فإن Deep Cogito تعبر عن ثقتها في الأداء العملي.
تم تصنيف هذا الإصدار على أنه معاينة ، حيث ذكرت Cogito العميق أنها “لا تزال في المراحل المبكرة من منحنى التحجيم هذا. يخططون لإطلاق نقاط التفتيش المحسنة للأحجام الحالية وإدخال نماذج MOE أكبر (109B ، 400B ، 671B) “في الأسابيع / الشهور المقبلة”. جميع النماذج المستقبلية ستكون أيضًا مفتوحة المصدر.
(تصوير بيترو ماتيا)
انظر أيضا: يستهدف Alibaba Cloud نمو AI العالمي مع نماذج وأدوات جديدة

هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الكبيرة من قادة الصناعة؟ تحقق من AI و Big Data Expo الذي يقام في أمستردام ، كاليفورنيا ، ولندن. تم تحديد الحدث الشامل مع الأحداث الرائدة الأخرى بما في ذلك مؤتمر الأتمتة الذكي ، و blockx ، وأسبوع التحول الرقمي ، ومعرض Cyber Security & Cloud.
استكشاف أحداث وندوات الويب القادمة الأخرى التي تعمل بها TechForge هنا.