أصدرت ميتا معاينة لما قد يكون ردها على النماذج التي أصدرتها Frontier Labs، وذلك مع انتقال المنافسة في مجال الذكاء الاصطناعي التوليدي نحو النماذج المتعددة الوسائط.
وصممت الشركة النموذج الجديد المسمى Chameleon ليكون متعدد الوسائط في الأصل بدلًا من تجميع المكونات بأنماط مختلفة.
ولم تصدر ميتا بعد النموذج، مع أن تجاربها تظهر أنه يحقق أداءً متطورًا في مهام مختلفة، ويشمل ذلك التعليق على الصور والإجابة عن الأسئلة المرئية، مع الحفاظ على قدرته التنافسية في المهام النصية فقط.
وتفتح معمارية Chameleon الباب أمام تطبيقات الذكاء الاصطناعي الجديدة التي تتطلب فهمًا عميقًا للمعلومات المرئية والنصية.
ويعتمد Chameleon على نهج جديد لتدريب النماذج المتعددة الوسائط يعالج كلًا من النصوص والصور بصفتها رموزًا مميزة منفصلة.
وعلى عكس الطرق السابقة، يستخدم Chameleon معمارية المحولات الموحدة ويتخلى عن وحدات التشفير أو فك التشفير المنفصلة لطرائق مختلفة، كما هو مستخدم في معماريات أخرى، مثل Unified-IO 2.
وصممت ميتا النموذج للتعلم من مزيج متشابك من الصور والنصوص والتعليمات البرمجية والطرق الأخرى.
ويحول النموذج الصور إلى رموز مميزة منفصلة، كما تفعل النماذج اللغوية مع الكلمات. ويستخدم أيضًا مفردات موحدة تتكون من نصوص وصور وتعليمات برمجية.
وفقًا للباحثين، فإن النموذج الأكثر تشابهًا مع Chameleon هو Gemini، مع أن نموذج جوجل يستخدم وحدات فك ترميز الصور المنفصلة في مرحلة التوليد، في حين أن Chameleon هو نموذج شامل يعالج الرموز المميزة ويولدها.
ودرب الباحثون Chameleon على مرحلتين، مع مجموعة بيانات تحتوي مقدار 4.4 تريليون رمز مميز من النصوص وأزواج الصور والنصوص وتسلسلات من النصوص والصور المتداخلة.
ونجحت ميتا في تدريب Chameleon المكون من 34 مليار معلمة باستخدام مقدار 10 تريليون رمز مميز متعدد الوسائط.
ووفقا للتجارب المذكورة في الورقة، يستطيع Chameleon أداء مجموعة متنوعة من المهام النصية فقط والمهام المتعددة الوسائط.
وحقق Chameleon أداءً متطورًا فيما يتعلق بالإجابة عن الأسئلة المرئية ومعايير التعليق على الصور، وتفوق على النماذج الأخرى، مثل Flamingo و IDEFICS و Lava-1.5.
ويستطيع Chameleon توفير قدرات جديدة للاستدلال والتوليد المختلط الوسائط، وخاصة عندما تتوقع المطالبات استجابات مختلطة الوسائط مع تداخل النصوص والصور.
وفي أحد الاختبارات، أظهر ميتا أن المقيمين البشريين يفضلون Chameleon على Gemini Pro و GPT-4V من ناحية جودة الاستجابات المختلطة للأسئلة المفتوحة، أي الأسئلة التي تمزج الصور والنصوص.