كشفت ميتا النقاب عن خمسة نماذج وأبحاث رئيسية جديدة للذكاء الاصطناعي، بما في ذلك الأنظمة متعددة الوسائط التي يمكنها معالجة النصوص والصور، ونماذج اللغة من الجيل التالي، وتوليد الموسيقى، واكتشاف الكلام بالذكاء الاصطناعي، والجهود المبذولة لتحسين التنوع في أنظمة الذكاء الاصطناعي.
تأتي الإصدارات من فريق Meta's Fundamental AI Research (FAIR) الذي ركز على تطوير الذكاء الاصطناعي من خلال البحث المفتوح والتعاون لأكثر من عقد من الزمان. مع الابتكار السريع للذكاء الاصطناعي، تعتقد ميتا أن العمل مع المجتمع العالمي أمر بالغ الأهمية.
قال ميتا: “من خلال مشاركة هذا البحث علنًا، نأمل أن نلهم التكرارات ونساعد في النهاية على تطوير الذكاء الاصطناعي بطريقة مسؤولة”.
الحرباء: معالجة النصوص والصور متعددة الوسائط
ومن بين الإصدارات المكونات الرئيسية لنماذج “Chameleon” الخاصة بشركة Meta بموجب ترخيص بحثي. Chameleon هي عائلة من النماذج متعددة الوسائط التي يمكنها فهم وإنشاء كل من النصوص والصور في وقت واحد – على عكس معظم نماذج اللغات الكبيرة التي تكون عادةً أحادية الوسائط.
وأوضح ميتا: “تمامًا كما يستطيع البشر معالجة الكلمات والصور في وقت واحد، يمكن لـ Chameleon معالجة وتقديم كل من الصورة والنص في نفس الوقت”. “يمكن لـ Chameleon أن يأخذ أي مجموعة من النصوص والصور كمدخلات ويخرج أيضًا أي مجموعة من النصوص والصور.”
حالات الاستخدام المحتملة لا حدود لها تقريبًا بدءًا من إنشاء تسميات توضيحية إبداعية ووصولاً إلى عرض مشاهد جديدة باستخدام النصوص والصور.
التنبؤ متعدد الرموز لتدريب أسرع على نماذج اللغة
أصدرت Meta أيضًا نماذج مدربة مسبقًا لإكمال التعليمات البرمجية التي تستخدم “التنبؤ متعدد الرموز” بموجب ترخيص بحث غير تجاري. يعد التدريب على نماذج اللغة التقليدية غير فعال من خلال التنبؤ بالكلمة التالية فقط. يمكن للنماذج متعددة الرموز التنبؤ بكلمات مستقبلية متعددة في وقت واحد للتدريب بشكل أسرع.
“على الرغم من أن النهج (الكلمة الواحدة) بسيط وقابل للتطوير، إلا أنه غير فعال أيضًا. قال ميتا: “إن الأمر يتطلب عدة أوامر من حيث الحجم من النصوص أكثر مما يحتاجه الأطفال لتعلم نفس الدرجة من الطلاقة اللغوية”.
JASCO: نموذج محسّن لتحويل النص إلى موسيقى
على الجانب الإبداعي، يسمح Meta’s JASCO بإنشاء مقاطع موسيقية من النص مع توفير المزيد من التحكم من خلال قبول المدخلات مثل الأوتار والإيقاعات.
“بينما تعتمد نماذج تحويل النص إلى موسيقى الحالية مثل MusicGen بشكل أساسي على مدخلات النص لتوليد الموسيقى، فإن نموذجنا الجديد، JASCO، قادر على قبول مدخلات مختلفة، مثل الأوتار أو الإيقاع، لتحسين التحكم في مخرجات الموسيقى المولدة”، أوضح ميتا. .
AudioSeal: الكشف عن الكلام الناتج عن الذكاء الاصطناعي
تدعي Meta أن AudioSeal هو أول نظام للعلامة المائية الصوتية مصمم لاكتشاف الكلام الناتج عن الذكاء الاصطناعي. يمكنه تحديد المقاطع المحددة التي تم إنشاؤها بواسطة الذكاء الاصطناعي ضمن مقاطع صوتية أكبر بما يصل إلى 485 مرة أسرع من الطرق السابقة.
“يتم إصدار AudioSeal بموجب ترخيص تجاري. قال ميتا: “إنها مجرد واحدة من عدة خطوط من الأبحاث المسؤولة التي شاركناها للمساعدة في منع إساءة استخدام أدوات الذكاء الاصطناعي التوليدية”.
تحسين تنوع تحويل النص إلى صورة
يهدف إصدار مهم آخر إلى تحسين تنوع نماذج تحويل النص إلى صورة والتي غالبًا ما تظهر تحيزات جغرافية وثقافية.
قامت Meta بتطوير مؤشرات تلقائية لتقييم الفوارق الجغرافية المحتملة وأجرت دراسة توضيحية كبيرة تزيد عن 65000 لفهم كيفية إدراك الناس للتمثيل الجغرافي على مستوى العالم.
وقال ميتا: “يتيح هذا المزيد من التنوع والتمثيل الأفضل في الصور التي ينشئها الذكاء الاصطناعي”. تم إصدار التعليمات البرمجية والشروح ذات الصلة للمساعدة في تحسين التنوع عبر النماذج التوليدية.
ومن خلال مشاركة هذه النماذج الرائدة علنًا، تقول ميتا إنها تأمل في تعزيز التعاون ودفع الابتكار داخل مجتمع الذكاء الاصطناعي.
(تصوير ديما سولومين)
أنظر أيضا: تقدم NVIDIA أحدث التطورات في الذكاء الاصطناعي المرئي
هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الضخمة من قادة الصناعة؟ اطلع على معرض الذكاء الاصطناعي والبيانات الضخمة الذي يقام في أمستردام وكاليفورنيا ولندن. ويقام هذا الحدث الشامل في موقع مشترك مع أحداث رائدة أخرى بما في ذلك مؤتمر الأتمتة الذكية، وBlockX، وأسبوع التحول الرقمي، ومعرض الأمن السيبراني والسحابي.
استكشف الأحداث والندوات عبر الإنترنت القادمة الأخرى المتعلقة بتكنولوجيا المؤسسات والمدعومة من TechForge هنا.