أعلنت شركة Nvidia، التي تبني بعضًا من وحدات معالجة الرسوميات الأكثر رواجًا في صناعة الذكاء الاصطناعي، أنها أصدرت نموذجًا لغويًا كبيرًا مفتوح المصدر يُقال إنه يعمل على قدم المساواة مع النماذج الرائدة المملوكة من OpenAI وAnthropic وMeta وGoogle.
قدمت الشركة عائلة NVLM 1.0 الجديدة في ورقة بيضاء تم إصدارها مؤخرًا، ويتصدرها نموذج NVLM-D-72B الذي يحتوي على 72 مليار معلمة. “نحن نقدم NVLM 1.0، وهي عائلة من نماذج اللغات الكبيرة متعددة الوسائط من الدرجة الأولى التي تحقق أحدث النتائج في مهام لغة الرؤية، وتنافس النماذج المسجلة الملكية الرائدة (على سبيل المثال، GPT-4o) ونماذج الوصول المفتوح، “كتب الباحثون.
تقديم NVLM 1.0، وهي عائلة من برامج LLM متعددة الوسائط من الدرجة الأولى التي تحقق أحدث النتائج في مهام لغة الرؤية، وتنافس نماذج الملكية الرائدة (على سبيل المثال، GPT-4o) ونماذج الوصول المفتوح (على سبيل المثال، InternVL 2 ).
ومن اللافت للنظر أن NVLM 1.0 يُظهر تحسينًا للنص فقط … pic.twitter.com/yKGyOqHnsp– وي بينغ (@_weiping) 18 سبتمبر 2024
احصل على تحليلك الأسبوعي للتقنية الكامنة وراء ألعاب الكمبيوتر
ويقال إن عائلة النماذج الجديدة قادرة بالفعل على “تعدد الوسائط على مستوى الإنتاج”، مع أداء استثنائي عبر مجموعة متنوعة من مهام الرؤية واللغة، بالإضافة إلى استجابات محسنة قائمة على النصوص مقارنة بماجستير القانون الأساسي الذي تعتمد عليه عائلة NVLM. وأوضح الباحثون: “ولتحقيق ذلك، نقوم بصياغة ودمج مجموعة بيانات نصية عالية الجودة في التدريب متعدد الوسائط، إلى جانب كمية كبيرة من البيانات الرياضية والاستدلالية متعددة الوسائط، مما يؤدي إلى تعزيز قدرات الرياضيات والترميز عبر الأساليب”.
والنتيجة هي ماجستير في القانون يمكنه أن يشرح بسهولة سبب كون الميم مضحكًا كما يمكنه حل المعادلات الرياضية المعقدة خطوة بخطوة. تمكنت Nvidia أيضًا من زيادة دقة النص فقط للنموذج بمتوسط 4.3 نقطة عبر معايير الصناعة الشائعة، وذلك بفضل أسلوب التدريب متعدد الوسائط.
تبدو شركة Nvidia جادة بشأن ضمان أن هذا النموذج يلبي أحدث تعريف لمبادرة المصدر المفتوح لـ “المصدر المفتوح” ليس فقط من خلال إتاحة أوزان التدريب الخاصة بها للمراجعة العامة، ولكن أيضًا من خلال الوعد بإصدار الكود المصدري للنموذج في المستقبل القريب. يعد هذا خروجًا ملحوظًا عن تصرفات المنافسين مثل OpenAI وGoogle، الذين يحرسون بغيرة تفاصيل أوزان شهادات الماجستير في القانون وكود المصدر الخاصين بهم. ومن خلال القيام بذلك، وضعت Nvidia عائلة NVLM بحيث لا تتنافس بالضرورة بشكل مباشر مع ChatGPT-4o وGemini 1.5 Pro، بل تعمل كأساس لمطوري الطرف الثالث لبناء روبوتات الدردشة وتطبيقات الذكاء الاصطناعي الخاصة بهم.