أعلنت شركة جوجل نموذج الذكاء الاصطناعي التوليدي Veo الذي يمكنه توليد مقاطع فيديو عالية الجودة استنادًا إلى المطالبات النصية الخاصة بالمستخدمين، وذلك ضمن فعاليات مؤتمر المطورين Google I/O 2023.
وتزعم جوجل أن نموذج Veo لديه القدرة على فهم اللغة الطبيعية والدلالات البصرية على نحو متقدم، لإنشاء أي فيديو يدور في أذهان المستخدمين.
ويمكن إنشاء مقاطع فيديو عبر نموذج Veo لمدة تزيد على دقيقة وبدقة قدرها 1080 بكسلًا، وهو قادر أيضًا على فهم التقنيات السينمائية والبصرية، مثل مفهوم الفاصل الزمني، وفقًا لما ذكرته جوجل.
وتعاونت جوجل مع صانع الأفلام دونالد جلوفر واستوديوهات Gilga لإظهار قدرات نموذج Veo في محاكاة فيزياء العالم الحقيقي، وهو ما ظهر في مقطع فيديو ترويجي نشرته الشركة عبر يوتيوب.
وسيكون نموذج Veo متاحًا اليوم ضمن أداة VideoFX من جوجل لبعض منشئي المحتوى، وستُضاف أيضًا إلى يوتيوب Shorts ومنتجات أخرى تابعة للشركة.
وأعلنت جوجل أيضًا نموذج Imagen 3، وهو نموذج متطور لتحويل النص إلى صورة، وتزعم الشركة أنه النموذج “الأعلى جودة” لتحويل النص إلى صورة، وأنه يقدم درجة مذهلة من التفاصيل، وصورًا واقعية نابضة بالحياة، وعددًا أقل من الأخطاء.
وأضافت جوجل أن نموذج Imagen 3 بات يتعامل مع النصوص على نحو أفضل، وأنه أصبح أكثر ذكاءً في فهم التفاصيل في المطالبات الطويلة.
ومن جهة أخرى، فإن المجتمع التقني يتشوق إلى تجربة النماذج الجديدة من جوجل، ومقارنة أدائها بأداء نماذج شركة OpenAI المنافسة التي تمتلك نموذج Sora لتحويل النص إلى فيديو، ونموذج DALL-E 3 لتحويل النص إلى صور.
تابعنا