كشفت Meta عن Movie Gen، الفيديو متعدد الوسائط للموجة الثالثة، يوم الجمعة. يعد “بإنتاج مقاطع فيديو وأصوات مخصصة، وتحرير مقاطع الفيديو الموجودة، وتحويل صورتك الشخصية إلى فيديو فريد من نوعه”، بينما يتفوق في الأداء على نماذج مماثلة مثل Runway's Gen-3، أو Kling 1.5 من Kuaishou Technology، أو Sora من OpenAI.
يعتمد Meta Movie Gen على العمل السابق للشركة، أولاً باستخدام نماذج Make-A-Scene متعددة الوسائط، ثم نماذج أساس صورة Llama. Movie Gen عبارة عن مجموعة من كل هذه النماذج – على وجه التحديد، إنشاء الفيديو، وإنشاء الفيديو المخصص، والتحرير الدقيق للفيديو، وإنشاء الصوت – التي تعمل على تحسين التحكم الدقيق للمنشئ. وكتبت الشركة في منشور إعلانها: “نتوقع أن تتيح هذه النماذج العديد من المنتجات الجديدة التي يمكن أن تسرع الإبداع”.
بالنسبة لتوليد الفيديو، يعتمد Movie Gen على نموذج معلمة 30B الذي ينتج مقاطع تصل مدتها إلى 16 ثانية، وإن كان بمعدل 16 إطارًا في الثانية (fps). قال ميتا: “تستطيع هذه النماذج التفكير في حركة الجسم، والتفاعلات بين الموضوع والجسم، وحركة الكاميرا، ويمكنها تعلم حركات معقولة لمجموعة واسعة من المفاهيم، مما يجعلها نماذج حديثة في فئتها. ” باستخدام نفس النموذج، يمكن لـ Movie Gen إنشاء مقاطع فيديو مخصصة للمبدعين من الصور الثابتة.
يستخدم Meta نوعًا مختلفًا من نموذج إنشاء الفيديو الذي يستخدم كلاً من المدخلات المستندة إلى الفيديو والنص لتحرير المحتوى الذي ينشئه بدقة. يمكن أن يؤثر على كل من التعديلات المحلية مثل إضافة العناصر أو إزالتها أو استبدالها، والتحريرات العامة مثل تطبيق نمط سينمائي جديد. لتوليد الصوت، يعتمد Movie Gen على نموذج منفصل بمعلمة 13B يمكنه إنشاء ما يصل إلى 45 ثانية من الصوت – سواء كان ضجيجًا في الخلفية أو مؤثرات صوتية أو درجات موسيقية – أثناء مزامنة هذا المحتوى تلقائيًا مع الفيديو.
وفقًا للمستند التمهيدي لـ Meta، فاز Movie Gen باستمرار في اختبارات A/B مقابل أحدث تقنيات الذكاء الاصطناعي للفيديو بما في ذلك Gen3 وSora وKling 1.5 في فئة إنشاء الفيديو. كما تصدرت أيضًا برنامج ID-animator في إنشاء الفيديو المخصص وPika Labs Sound Gen في إنشاء الصوت. كما أنها تفوقت على Gen3 للمرة الثانية في قدرات تحرير الفيديو. استنادًا إلى مقاطع الفيديو التوضيحية التي شاهدناها حتى الآن، يتفوق Movie Gen أيضًا على الدفعة الحالية من مولدات الفيديو المجانية الاستخدام.
وتقول الشركة إنها تخطط “للعمل بشكل وثيق مع صانعي الأفلام والمبدعين لدمج تعليقاتهم” مع استمرارها في تطوير هذه النماذج، لكنها سارعت إلى الإشارة إلى أنها لا تنوي استبدال المبدعين من البشر بالذكاء الاصطناعي. وكتبت الشركة: “إننا نشارك هذا البحث لأننا نؤمن بقوة هذه التكنولوجيا لمساعدة الأشخاص على التعبير عن أنفسهم بطرق جديدة وتوفير الفرص للأشخاص الذين ربما لم تكن لديهم هذه الفرص لولا ذلك”. “أملنا هو أنه ربما في يوم من الأيام في المستقبل، ستتاح للجميع الفرصة لإضفاء الحيوية على رؤيتهم الفنية وإنشاء مقاطع فيديو وصوت عالية الوضوح باستخدام Movie Gen.”