أطلقت ميتا أول نماذجها المفتوحة المصدر القادر على معالجة كل من الصور والنصوص، وذلك بعد شهرين فقط من إطلاق نموذج الذكاء الاصطناعي Llama 3.1، وتقول الشركة إن النموذج حقق حتى الآن نموًا قدره 10 أضعاف.
ويسمح النموذج الجديد Llama 3.2 للمطورين بإنشاء تطبيقات ذكاء اصطناعي متقدمة، مثل تطبيقات الواقع المعزز التي توفر فهمًا في الوقت الفعلي للفيديو، أو محركات البحث المرئية التي تفرز الصور بناءً على المحتوى، أو ميزة تحليل المستندات التي تلخص أجزاء طويلة من النص لك.
ويتضمن Llama 3.2 نموذجين للرؤية مكونين من 11 مليار معلمة و 90 مليار معلمة، بالإضافة إلى نموذجين نصيين مكونين من مليار معلمة و 3 مليارات معلمة تناسب الأجهزة المحمولة والأجهزة الطرفية.
وقال الرئيس التنفيذي لشركة ميتا، مارك زوكربيرج: “هذا هو أول نماذجنا المتعددة الوسائط والمفتوحة المصدر. يسمح هذا النموذج بتشغيل الكثير من التطبيقات التي تتطلب فهمًا بصريًا”.
ويبلغ طول سياق Llama 3.2 ما يصل إلى 128000 رمز مميز، مما يعني أنه يمكن للمستخدمين إدخال الكثير من النصوص.
ويدعم نموذجي الرؤية من Llama 3.2 حالات استخدام الصور، ويتمتعان بالقدرة على فهم المخططات والرسوم البيانية، وصور التعليقات التوضيحية، وتحديد الكائنات من أوصاف اللغة الطبيعية.
ويمكن للمستخدم أن يسأل في أي شهر شهدت شركته أفضل مبيعات، ويستنتج النموذج الإجابة بناءً على الرسوم البيانية المتاحة. كما يمكن للنموذج استخراج التفاصيل من الصور لإنشاء التسميات التوضيحية.
وفي الوقت نفسه، يمكن للنموذجين النصيين من Llama 3.2 مساعدة المطورين في بناء تطبيقات وكيلة مخصصة في بيئة خاصة، مثل تلخيص الرسائل أو إرسال دعوات التقويم للاجتماعات.
وتقول ميتا إنه من السهل على المطورين تشغيل النموذج الجديد. كما نشرت ميتا أول مرة توزيعات Llama stack الرسمية، مما يتيح للمطورين العمل مع النماذج في مجموعة متنوعة من البيئات، ويشمل ذلك الجهاز والسحابة والعقدة الفردية.
وقال زوكربيرج: “المصدر المفتوح هو الخيار الأكثر فعالية من ناحية التكلفة وقابلية التخصيص والموثوقية والأداء العالي، وبدأ المصدر المفتوح بالتحول إلى معيار صناعي”.
وتقول ميتا إن Llama 3.2 ينافس Claude 3 Haiku من أنثروبيك و GPT4o-mini من OpenAI في تعرف الصور ومهام الفهم البصري الأخرى.
وفي الوقت نفسه، يتفوق على Gemma و Phi 3.5-mini في مجالات، مثل متابعة التعليمات والتلخيص واستخدام الأدوات وإعادة الكتابة الفورية.
📣 Introducing Llama 3.2: Lightweight models for edge devices, vision models and more!
What’s new?
• Llama 3.2 1B & 3B models deliver state-of-the-art capabilities for their class for several on-device use cases — with support for @Arm, @MediaTek & @Qualcomm on day one.
•… pic.twitter.com/lx4N2qGSCe— AI at Meta (@AIatMeta) September 25, 2024