رحلة Meta للذكاء الاصطناعي ستأخذها حتمًا إلى عالم فيديو الذكاء الاصطناعي الناشئ. الآن، تمتلك الشركة التي يقودها مارك زوكربيرج Movie Gen، وهو مولد فيديو آخر قادر على إنشاء بعض مقاطع الفيديو الواقعية من خلال رسالة نصية قصيرة. تدعي Meta أن هذا مفيد لهوليوود كما هو الحال بالنسبة لمستخدمي Instagram العاديين، على الرغم من أنه غير متاح لأي شخص خارج Meta. يمكن لـ Movie Gen إنشاء الصوت وصنعه المولد المزيف العميق الأكثر قدرة الذي رأيناه حتى الآن.
في منشور بالمدونة، عرضت ميتا بعض الأمثلة على مقاطع الفيديو، بما في ذلك فرس نهر صغير سعيد يسبح تحت الماء، ويطفو بطريقة ما تحت السطح مباشرة ولا يعاني على ما يبدو من مشاكل في حبس أنفاسه. تعرض مقاطع فيديو أخرى طيور البطريق وهي ترتدي ملابس “فيكتورية” بأكمام وتنانير قصيرة جدًا بحيث لا تمثل تلك الفترة الزمنية. هناك مقطع فيديو آخر لامرأة تؤدي دور DJ بجوار الفهد الذي يشتت انتباهه بسبب الإيقاع بحيث لا يهتم بالخطر الحالي الذي يواجهه.
الجميع يدخلون إلى مساحة الفيديو التي يولدها الذكاء الاصطناعي. وفي هذا العام بالفعل، وعد كل من VASA-1 من Microsoft وSora من OpenAI بمقاطع فيديو “واقعية” يتم إنشاؤها من مطالبات نصية بسيطة. على الرغم من السخرية التي تعرض لها في شهر فبراير، إلا أن سورا لم ير النور بعد. يقدم Meta's Movie Gen عددًا قليلًا من الإمكانيات الإضافية مقارنة بالمنافسة، بما في ذلك تحرير الفيديو الموجود باستخدام مطالبة نصية، وإنشاء فيديو بناءً على صورة، وإضافة صوت تم إنشاؤه بواسطة الذكاء الاصطناعي إلى الفيديو الذي تم إنشاؤه.
تبدو مجموعة تحرير الفيديو جديدة بشكل خاص. إنه يعمل على مقاطع الفيديو التي تم إنشاؤها بالإضافة إلى اللقطات الواقعية. تدعي Meta أن نموذجها “يحافظ على المحتوى الأصلي” مع إضافة عناصر إلى اللقطات، سواء كانت خلفيات أو ملابس للشخصيات الرئيسية في المشهد. أظهر Meta كيف يمكنك أيضًا التقاط صور للأشخاص وإفلاتها في الأفلام التي تم إنشاؤها.
لدى Meta بالفعل نماذج لتوليد الموسيقى والصوت، لكن عملاق الوسائط الاجتماعية عرض بعض الأمثلة على مولد الصوت ذو المعلمة 13B الذي يضيف مؤثرات صوتية ومقاطع صوتية أعلى مقاطع الفيديو. يمكن أن يكون إدخال النص بسيطًا مثل “حفيف أوراق الشجر والأغصان المتساقطة” لإضافته إلى الفيديو الذي تم إنشاؤه لثعبان يتعرج على طول أرضية الغابة. يقتصر مولد الصوت حاليًا على 45 ثانية، لذلك لن يسجل أفلامًا كاملة. على الأقل، لن يكون الأمر كذلك بعد.
ولا، آسف، لا يمكنك استخدامه بعد. كتب كريس كوكس، كبير مسؤولي المنتجات في Meta، على Threads: “لسنا مستعدين لإصدار هذا كمنتج في أي وقت قريب – فهو لا يزال مكلفًا، ووقت الإنشاء طويل جدًا.”
في ورقتها البيضاء التي تناقش Movie Gen، قالت Meta إن مجموعة البرامج بأكملها تتكون من نماذج أساسية متعددة. أكبر نموذج فيديو تمتلكه الشركة هو نموذج محول ذو معلمة 30B بحد أقصى لطول السياق يصل إلى 73000 رمز فيديو. مولد الصوت هو نموذج أساسي لمعلمة 13B يمكنه تحويل الفيديو إلى الصوت والنص إلى الصوت.
من الصعب مقارنة ذلك بمولدات الفيديو التابعة لأكبر شركات الذكاء الاصطناعي، خاصة وأن OpenAI تدعي أن Sora يستخدم “بيانات تسمى التصحيحات، كل منها يشبه رمزًا مميزًا في GPT”. Meta هي واحدة من الشركات الكبرى القليلة التي لا تزال تصدر البيانات باستخدام أدوات الذكاء الاصطناعي الجديدة، وهي ممارسة تراجعت مع تحول الذكاء الاصطناعي إلى تسويق تجاري مفرط. على الرغم من ذلك، لا يقدم تقرير Meta فكرة كبيرة عن المكان الذي حصلت فيه على بيانات التدريب الخاصة بـ Movie Gen. وفي جميع الاحتمالات، جاء جزء من مجموعة البيانات من مقاطع فيديو مستخدمي Facebook. تستخدم Meta أيضًا الصور التي تلتقطها باستخدام نظارات Meta Ray-Ban الذكية لتدريب نماذج الذكاء الاصطناعي الخاصة بها.
لا يمكنك استخدام Movie Gen بعد. بدلاً من ذلك، تقدم مولدات أفلام الذكاء الاصطناعي الأخرى مثل RunwayML's Gen 3 عددًا محدودًا من الرموز المميزة لإنشاء مقاطع صغيرة قبل أن تحتاج إلى البدء في الدفع. أشار تقرير صادر عن 404 Media في وقت سابق من هذا العام إلى أن Runway قامت بتدريب الذكاء الاصطناعي الخاص بها من آلاف مقاطع الفيديو على YouTube، ومثل معظم الشركات الناشئة في مجال الذكاء الاصطناعي، لم تطلب الإذن مطلقًا قبل حذف هذا المحتوى.
قالت Meta إنها عملت بشكل وثيق مع صانعي الأفلام ومنتجي الفيديو عند إنشاء هذا النموذج وستواصل القيام بذلك أثناء عملها على Movie Gen. وتشير التقارير الصادرة في وقت سابق من هذا العام إلى أن الاستوديوهات تتقرب بالفعل من شركات الذكاء الاصطناعي. عملت شركة Independent Darling A24 مؤخرًا مع شركات رأس المال الاستثماري المتخصصة في الذكاء الاصطناعي، وبعضها مرتبط بـ OpenAI. على الجانب الآخر، يقال إن ميتا تجري محادثات مع نجوم هوليود مثل جودي دينش وأوكوافينا حول استخدام أصواتهم في مشاريع الذكاء الاصطناعي المستقبلية.