أعلنت شركة Hugging Face عن إطلاق Idefics2، وهو نموذج متعدد الاستخدامات قادر على فهم وإنشاء استجابات نصية بناءً على الصور والنصوص. يضع النموذج معيارًا جديدًا للإجابة على الأسئلة المرئية، ووصف المحتوى المرئي، وإنشاء القصة من الصور، واستخراج معلومات المستند، وحتى إجراء العمليات الحسابية بناءً على المدخلات المرئية.
يتفوق Idefics2 على سابقه، Idefics1، بثمانية مليارات معلمة فقط وتعدد الاستخدامات الذي يوفره ترخيصه المفتوح (Apache 2.0)، إلى جانب قدرات التعرف البصري على الأحرف (OCR) المحسنة بشكل ملحوظ.
لا يعرض النموذج أداءً استثنائيًا في معايير الإجابة على الأسئلة المرئية فحسب، بل يحافظ أيضًا على مكانته في مواجهة معاصرين أكبر بكثير مثل LLava-Next-34B وMM1-30B-chat:
من أهم عوامل جاذبية Idefics2 هو تكاملها مع Hugging Face's Transformers منذ البداية، مما يضمن سهولة الضبط الدقيق لمجموعة واسعة من التطبيقات متعددة الوسائط. بالنسبة لأولئك الذين يتوقون للتعمق، تتوفر النماذج للتجربة على Hugging Face Hub.
إحدى الميزات البارزة في Idefics2 هي فلسفتها التدريبية الشاملة، التي تمزج مجموعات البيانات المتاحة بشكل مفتوح بما في ذلك مستندات الويب وأزواج التسميات التوضيحية للصور وبيانات التعرف الضوئي على الحروف. علاوة على ذلك، فهو يقدم مجموعة بيانات مبتكرة ومُحسَّنة يُطلق عليها اسم “The Cauldron”، والتي تدمج 50 مجموعة بيانات منسقة بدقة للتدريب على المحادثة متعدد الأوجه.
يعرض Idefics2 نهجًا محسنًا لمعالجة الصور، مع الحفاظ على الدقة الأصلية ونسب العرض إلى الارتفاع – وهو انحراف ملحوظ عن معايير تغيير الحجم التقليدية في رؤية الكمبيوتر. وتستفيد هندسته بشكل كبير من إمكانيات التعرف الضوئي على الحروف المتقدمة، حيث يقوم بنسخ المحتوى النصي داخل الصور والمستندات ببراعة، ويفتخر بأداء محسن في تفسير المخططات والأشكال.
يمثل تبسيط دمج الميزات المرئية في العمود الفقري للغة تحولًا عن بنية سابقتها، مع اعتماد تجميع المتلقي المتعلم وإسقاط طريقة MLP مما يعزز فعالية Idefics2 الشاملة.
يفتح هذا التقدم في نماذج لغة الرؤية آفاقًا جديدة لاستكشاف التفاعلات متعددة الوسائط، مع استعداد Idefics2 ليكون بمثابة أداة تأسيسية للمجتمع. تؤكد تحسينات الأداء والابتكارات التقنية على إمكانية الجمع بين البيانات المرئية والنصية في إنشاء أنظمة ذكاء اصطناعي متطورة ومدركة للسياق.
بالنسبة للمتحمسين والباحثين الذين يتطلعون إلى الاستفادة من قدرات Idefics2، يوفر Hugging Face ضبطًا تفصيليًا دقيقًا درس تعليمي.
أنظر أيضا: OpenAI يجعل GPT-4 Turbo مع Vision API متاحًا بشكل عام
هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الضخمة من قادة الصناعة؟ اطلع على معرض الذكاء الاصطناعي والبيانات الضخمة الذي يقام في أمستردام وكاليفورنيا ولندن. ويقام هذا الحدث الشامل في مكان مشترك مع الأحداث الرائدة الأخرى بما في ذلك BlockX، وأسبوع التحول الرقمي، ومعرض الأمن السيبراني والسحابي.
استكشف الأحداث والندوات عبر الإنترنت القادمة الأخرى المتعلقة بتكنولوجيا المؤسسات والمدعومة من TechForge هنا.