المشكلة رقم 1: LLMs الصغيرة غبية
غالبًا ما يتفاخر LLMs Open الأحدث بالتحسينات القياسية الكبيرة ، وكان هذا هو الحال بالتأكيد مع Deepseek-R1 ، والتي اقتربت من Openai's O1 في بعض المعايير.
لكن النموذج الذي تقوم بتشغيله على الكمبيوتر المحمول في Windows ليس هو نفسه الذي يسجل علامات عالية. إنه نموذج أصغر وأكثر تكثيفًا – والإصدارات الأصغر من نماذج اللغة الكبيرة ليست ذكية للغاية.
انظر فقط إلى ما حدث عندما سألت Deepseek-R1-Llama-8b كيف عبر الدجاج الطريق:
هذا السؤال البسيط – وأجيب LLM المتجول – يمر كيف يمكن للموديلات الأصغر أن تنطلق بسهولة من القضبان. وغالبًا ما يفشلون في ملاحظة السياق أو التقاط الفروق الدقيقة التي يجب أن تبدو واضحة.
في الواقع ، تشير الأبحاث الحديثة إلى أن نماذج لغة كبيرة أقل ذكاءً مع إمكانات التفكير عرضة لمثل هذه الأعطال. لقد كتبت مؤخرًا عن مسألة التفكير في نماذج التفكير في الذكاء الاصطناعي وكيف تؤدي إلى زيادة التكاليف الحسابية.
سأعترف بأن مثال الدجاج سخيف. ماذا عن جربنا مهمة أكثر عملية؟ مثل ترميز موقع ويب بسيط في HTML. لقد قمت بإنشاء سيرة ذاتية خيالية باستخدام Sonnet Claude 3.7 ، ثم طلبت من QWEN2.5-7B-instruction إنشاء موقع ويب HTML استنادًا إلى السيرة الذاتية.
كانت النتائج بعيدة عن الرائعة:

لكي نكون منصفين ، إنه أفضل مما يمكنني إنشاؤه إذا جلستني على جهاز كمبيوتر بدون اتصال بالإنترنت وطلبت مني ترميز موقع ويب مشابه. ومع ذلك ، لا أعتقد أن معظم الناس يرغبون في استخدام هذه السيرة الذاتية لتمثيل أنفسهم عبر الإنترنت.
يمكن أن يولد نموذج أكبر وأكثر ذكاءً ، مثل كلود 3.7 Sonnet من الإنسان ، موقع ويب عالي الجودة. لا يزال بإمكاني انتقادها ، لكن مشكلاتي ستكون أكثر دقة وأقل علاقة مع العيوب الصارخة. على عكس ناتج Qwen ، أتوقع أن يكون الكثير من الأشخاص سعداء باستخدام موقع الويب الذي تم إنشاؤه لتمثيل أنفسهم عبر الإنترنت.
وبالنسبة لي ، هذا ليس تكهنات. هذا في الواقع ما حدث. منذ عدة أشهر ، تخلت عن WordPress وانتقلت إلى موقع HTML بسيط تم ترميزه بواسطة Claude 3.5 Sonnet.