تكشف Meta عن خمسة نماذج للذكاء الاصطناعي للمعالجة متعددة الوسائط وتوليد الموسيقى والمزيد

كشفت ميتا النقاب عن خمسة نماذج وأبحاث رئيسية جديدة للذكاء الاصطناعي، بما في ذلك الأنظمة متعددة الوسائط التي يمكنها معالجة النصوص والصور، ونماذج اللغة من الجيل التالي، وتوليد الموسيقى، واكتشاف الكلام بالذكاء الاصطناعي، والجهود المبذولة لتحسين التنوع في أنظمة الذكاء الاصطناعي.

تأتي الإصدارات من فريق Meta's Fundamental AI Research (FAIR) الذي ركز على تطوير الذكاء الاصطناعي من خلال البحث المفتوح والتعاون لأكثر من عقد من الزمان. مع الابتكار السريع للذكاء الاصطناعي، تعتقد ميتا أن العمل مع المجتمع العالمي أمر بالغ الأهمية.

قال ميتا: “من خلال مشاركة هذا البحث علنًا، نأمل أن نلهم التكرارات ونساعد في النهاية على تطوير الذكاء الاصطناعي بطريقة مسؤولة”.

الحرباء: معالجة النصوص والصور متعددة الوسائط

ومن بين الإصدارات المكونات الرئيسية لنماذج “Chameleon” الخاصة بشركة Meta بموجب ترخيص بحثي. Chameleon هي عائلة من النماذج متعددة الوسائط التي يمكنها فهم وإنشاء كل من النصوص والصور في وقت واحد – على عكس معظم نماذج اللغات الكبيرة التي تكون عادةً أحادية الوسائط.

وأوضح ميتا: “تمامًا كما يستطيع البشر معالجة الكلمات والصور في وقت واحد، يمكن لـ Chameleon معالجة وتقديم كل من الصورة والنص في نفس الوقت”. “يمكن لـ Chameleon أن يأخذ أي مجموعة من النصوص والصور كمدخلات ويخرج أيضًا أي مجموعة من النصوص والصور.”

حالات الاستخدام المحتملة لا حدود لها تقريبًا بدءًا من إنشاء تسميات توضيحية إبداعية ووصولاً إلى عرض مشاهد جديدة باستخدام النصوص والصور.

التنبؤ متعدد الرموز لتدريب أسرع على نماذج اللغة

أصدرت Meta أيضًا نماذج مدربة مسبقًا لإكمال التعليمات البرمجية التي تستخدم “التنبؤ متعدد الرموز” بموجب ترخيص بحث غير تجاري. يعد التدريب على نماذج اللغة التقليدية غير فعال من خلال التنبؤ بالكلمة التالية فقط. يمكن للنماذج متعددة الرموز التنبؤ بكلمات مستقبلية متعددة في وقت واحد للتدريب بشكل أسرع.

“على الرغم من أن النهج (الكلمة الواحدة) بسيط وقابل للتطوير، إلا أنه غير فعال أيضًا. قال ميتا: “إن الأمر يتطلب عدة أوامر من حيث الحجم من النصوص أكثر مما يحتاجه الأطفال لتعلم نفس الدرجة من الطلاقة اللغوية”.

JASCO: نموذج محسّن لتحويل النص إلى موسيقى

على الجانب الإبداعي، يسمح Meta’s JASCO بإنشاء مقاطع موسيقية من النص مع توفير المزيد من التحكم من خلال قبول المدخلات مثل الأوتار والإيقاعات.

“بينما تعتمد نماذج تحويل النص إلى موسيقى الحالية مثل MusicGen بشكل أساسي على مدخلات النص لتوليد الموسيقى، فإن نموذجنا الجديد، JASCO، قادر على قبول مدخلات مختلفة، مثل الأوتار أو الإيقاع، لتحسين التحكم في مخرجات الموسيقى المولدة”، أوضح ميتا. .

AudioSeal: الكشف عن الكلام الناتج عن الذكاء الاصطناعي

تدعي Meta أن AudioSeal هو أول نظام للعلامة المائية الصوتية مصمم لاكتشاف الكلام الناتج عن الذكاء الاصطناعي. يمكنه تحديد المقاطع المحددة التي تم إنشاؤها بواسطة الذكاء الاصطناعي ضمن مقاطع صوتية أكبر بما يصل إلى 485 مرة أسرع من الطرق السابقة.

“يتم إصدار AudioSeal بموجب ترخيص تجاري. قال ميتا: “إنها مجرد واحدة من عدة خطوط من الأبحاث المسؤولة التي شاركناها للمساعدة في منع إساءة استخدام أدوات الذكاء الاصطناعي التوليدية”.

تحسين تنوع تحويل النص إلى صورة

يهدف إصدار مهم آخر إلى تحسين تنوع نماذج تحويل النص إلى صورة والتي غالبًا ما تظهر تحيزات جغرافية وثقافية.

قامت Meta بتطوير مؤشرات تلقائية لتقييم الفوارق الجغرافية المحتملة وأجرت دراسة توضيحية كبيرة تزيد عن 65000 لفهم كيفية إدراك الناس للتمثيل الجغرافي على مستوى العالم.

وقال ميتا: “يتيح هذا المزيد من التنوع والتمثيل الأفضل في الصور التي ينشئها الذكاء الاصطناعي”. تم إصدار التعليمات البرمجية والشروح ذات الصلة للمساعدة في تحسين التنوع عبر النماذج التوليدية.

ومن خلال مشاركة هذه النماذج الرائدة علنًا، تقول ميتا إنها تأمل في تعزيز التعاون ودفع الابتكار داخل مجتمع الذكاء الاصطناعي.

(تصوير ديما سولومين)

أنظر أيضا: تقدم NVIDIA أحدث التطورات في الذكاء الاصطناعي المرئي

هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الضخمة من قادة الصناعة؟ اطلع على معرض الذكاء الاصطناعي والبيانات الضخمة الذي يقام في أمستردام وكاليفورنيا ولندن. ويقام هذا الحدث الشامل في موقع مشترك مع أحداث رائدة أخرى بما في ذلك مؤتمر الأتمتة الذكية، وBlockX، وأسبوع التحول الرقمي، ومعرض الأمن السيبراني والسحابي.

استكشف الأحداث والندوات عبر الإنترنت القادمة الأخرى المتعلقة بتكنولوجيا المؤسسات والمدعومة من TechForge هنا.

العلامات: الذكاء الاصطناعي، الذكاء الاصطناعي، الصوت، الحرباء، عادل، جاسكو، ميتا، ميتا آي، النماذج، توليد الموسيقى، مفتوح المصدر، تحويل النص إلى صورة

مقالات قد تهمك

كيفية تحقيق أقصى استفادة من جهاز Kindle: أدوات مُفضلة.

MacBook Neo.. هل نجحت آبل في تقديم أرخص ماك بوك دون التضحية بالأداء؟

OpenAI في مرمى الانتقادات بعد صفقة البنتاغون وخطط تطوير “وضع البالغين”

يواجه كلود تقطير نموذج الذكاء الاصطناعي “على المستوى الصناعي”.

نوكيا وأمازون ويب سيرفيسز تجربان أتمتة الذكاء الاصطناعي لتقطيع شبكات الجيل الخامس (5G).

استكشاف الذكاء الاصطناعي في قطاع البيع بالتجزئة بآسيا والمحيط الهادئ.

كيف تدمج المؤسسات المالية الذكاء الاصطناعي في عمليات اتخاذ القرار.

يكشف (Murder Mystery 2) عن سلوك ناشئ للاعبين عبر الإنترنت.

يستهدف نموذج تنبؤ بالذكاء الاصطناعي تحسين كفاءة موارد الرعاية الصحية.

يقود الذكاء الاصطناعي التوكيلي (Agentic AI) العائد على الاستثمار المالي في أتمتة الحسابات الدائنة.

قراصنة مدعومون من دول يستغلون الذكاء الاصطناعي في هجمات سيبرانية: جوجل.

كيف يفصل المنطق والبحث عن تعزيز قابلية التوسع لعامل الذكاء الاصطناعي.

مقارنة بين Samsung Galaxy Z Fold 6 و Galaxy S24 Ultra: لا تخطئ

سامسونج جالكسي S25: الأخبار والسعر المتوقع وتاريخ الإصدار والمزيد

يحصل iPhone على أول تطبيق إباحي أصلي له

كل ما تريد معرفته عن Reacher الموسم الثالث

Samsung Galaxy Watch 7: الأخبار والسعر المشاع وتاريخ الإصدار والمزيد

إليك أحدث أكواد فري فاير Free Fire Codes المجانية 2025 وشرح طريقة تفعيلها

شات جي بي تي بدون تسجيل.. ChatGPT مجانا بالعربي

شات جي بي تي العقل الاصطناعي الذي بدأ يفكر كالبشر

رائج الآن