كشف قسم DeepMind في جوجل النقاب عن الجيل الثاني من نموذج إنتاج الفيديو Veo يوم الاثنين، والذي يمكنه إنشاء مقاطع يصل طولها إلى دقيقتين وبدقة تصل إلى جودة 4K – أي ستة أضعاف الطول وأربعة أضعاف دقة المقاطع التي تبلغ مدتها 20 ثانية / 1080 بكسل. سورا يمكن أن تولد.
وبطبيعة الحال، هذه هي الحدود العليا النظرية لـ Veo 2. النموذج متاح حاليًا فقط على VideoFX، منصة توليد الفيديو التجريبية من Google، ولا تتجاوز مدة مقاطعه ثماني ثوانٍ وبدقة 720 بكسل. تم أيضًا إدراج VideoFX في قائمة الانتظار، لذلك لا يمكن لأي شخص تسجيل الدخول لتجربة Veo 2، على الرغم من أن الشركة أعلنت أنها ستقوم بتوسيع نطاق الوصول في الأسابيع المقبلة. وأشار متحدث باسم Google أيضًا إلى أن Veo 2 سيكون متاحًا على منصة Vertex AI بمجرد أن تتمكن الشركة من توسيع قدرات النموذج بشكل كافٍ.
قال إيلي كولينز لـ TechCrunch: “خلال الأشهر المقبلة، سنواصل التكرار بناءً على تعليقات المستخدمين، و(سنتطلع) إلى دمج إمكانات Veo 2 المحدثة في حالات الاستخدام المقنعة عبر نظام Google البيئي… نتوقع أن مشاركة المزيد من التحديثات في العام المقبل.
نعلن اليوم عن Veo 2: نموذجنا المتطور لإنشاء الفيديو الذي ينتج مقاطع واقعية وعالية الجودة من مطالبات نصية أو صورية. 🎥
نقوم أيضًا بإصدار نسخة محسنة من نموذج تحويل النص إلى صورة، Imagen 3 – متاح للاستخدام في ImageFX من خلال… pic.twitter.com/h6ejHaMUM4
– جوجل ديب مايند (@GoogleDeepMind) 16 ديسمبر 2024
يقال إن Veo 2 يحمل عددًا من المزايا مقارنة بأسلافه، بما في ذلك فهم أفضل للفيزياء (فكر في ديناميكيات السوائل الأفضل وتأثيرات الإضاءة/التظليل الأفضل) بالإضافة إلى القدرة على إنشاء مقاطع فيديو “أكثر وضوحًا”، حيث يتم إنشاء القوام والصور التي تم إنشاؤها أكثر وضوحًا وأقل عرضة للتشويش عند الحركة. ويقدم الطراز الجديد أيضًا عناصر تحكم محسنة في الكاميرا، مما يتيح للمستخدم تحديد موضع عدسة الكاميرا الافتراضية بدقة أكبر من ذي قبل.
كما لاحظ TechCrunch، فإن Veo 2 لم يتقن بعد عملية إنشاء الفيديو، على الرغم من أنه يبدو أقل هلوسة بكثير من المنافسين مثل Sora، أو Kling، أو Movie Gen، أو Gen 3 Alpha. وقال كولينز: “إن التماسك والاتساق هما مجالان للنمو”. “يمكن لشركة Veo أن تلتزم باستمرار بمطالبات لبضع دقائق، ولكن (لا يمكنها) الالتزام بمطالبات معقدة على مدى آفاق طويلة. وبالمثل، يمكن أن يشكل اتساق الشخصية تحديًا. هناك أيضًا مجال للتحسين في توليد تفاصيل معقدة، وحركات سريعة ومعقدة، والاستمرار في دفع حدود الواقعية.
أعلنت Google أيضًا عن تحسينات على Imagen 3 يوم الاثنين، مما مكن نموذج توليد الصور التجاري من إنشاء مخرجات “أكثر سطوعًا وأفضل تكوينًا”. سيقدم النموذج، المتوفر على ImageFX، أيضًا اقتراحات وصفية إضافية استنادًا إلى الكلمات الرئيسية في مطالبة المستخدم، حيث تنتج كل كلمة رئيسية قائمة منسدلة بالمصطلحات ذات الصلة.