تعمل مايكروسوفت على توسيع عائلة النماذج اللغوية الصغيرة Phi-3 من خلال تقديم Phi-3-vision.
وعلى عكس أشقائه، لا يركز Phi-3-vision على النص فحسب، بل إنه نموذج متعدد الوسائط يمكنه تحليل الصور وفهمها أيضًا.
ويضم هذا النموذج مقدار 4.2 معلمة، وهو مصمم للأجهزة المحمولة ويتفوق في مهام التفكير البصري العامة.
وأطلقت جوجل في الأسبوع الماضي نموذجها اللغوي الصغير المتعدد الوسائط، ويقدم PaliGemma إمكانات مماثلة، مع أنه يحتوي مقدار 3 مليارات معلمة، وهو أصغر قليلًا من نموذج مايكروسوفت.
ويعد Phi-3-vision نموذجًا لغويًا صغيرًا متعدد الوسائط، وتشير المعلمات إلى مدى تعقيد النموذج ومقدار التدريب الذي يفهمه.
ويمكن للمستخدمين طرح أسئلة على Phi-3-vision بخصوص الصور أو المخططات، ويقدم النموذج اللغوي المصغر إجابات دقيقة.
ويتفوق Phi-3-vision في تحليل الصور واستيعابها مع أنه ليس أداة لتوليد الصور، مثل DALL-E أو Stable Diffusion.
وعلى عكس نماذج توليد الصور، فإن Phi-3-vision لا يولد الصور، مع أنه قادر على فهم ما هو موجود في الصورة وتحليله للمستخدم.
ويأتي Phi-3-vision في أعقاب Phi-3-mini، وهو أصغر عضو في عائلة Phi-3 مزود بمقدار 3.8 مليار معلمة.
وتتضمن عائلة مايكروسوفت الكاملة من النماذج اللغوية الصغيرة الآن Phi-3-mini و Phi-3-vision و Phi-3-small و Phi-3-medium.
ويعكس هذا التركيز على النماذج اللغوية الصغيرة اتجاهًا متزايدًا في تطوير الذكاء الاصطناعي.
وتتطلب النماذج اللغوية الصغيرة طاقة معالجة وذاكرة أقل، مما يجعلها مثالية للأجهزة المحمولة والبيئات الأخرى ذات الموارد المحدودة.
وطرح مطورو نماذج الذكاء الاصطناعي نماذج ذكاء اصطناعي صغيرة، مثل Phi-3، مع تزايد طلب استخدام خدمات الذكاء الاصطناعي الفعالة من ناحية التكلفة والحوسبة.
وتستخدم النماذج الصغيرة لتشغيل مزايا الذكاء الاصطناعي عبر أجهزة، مثل الهواتف والحواسيب المحمولة، دون الحاجة إلى استهلاك الكثير من الذاكرة.
وقد شهدت مايكروسوفت نجاحًا في هذا النهج، إذ تفيد التقارير بأن نموذجها المسمى Orca-Math يتفوق على المنافسين الأكبر حجمًا في حل المسائل الرياضية، مثل Gemini Pro من جوجل.
وتوفر مايكروسوفت Phi-3-vision حاليًا للمعاينة، في حين يمكن الوصول إلى بقية عائلة النماذج اللغوية الصغيرة Phi-3 من خلال مكتبة نماذج Azure.