عرضت شركة Deep Mind أحدث النتائج من أبحاث الفيديو إلى الصوت التي أجرتها الذكاء الاصطناعي يوم الثلاثاء. إنه نظام جديد يجمع ما يراه على الشاشة مع المطالبة المكتوبة من المستخدم لإنشاء مقاطع صوتية متزامنة لمقطع فيديو معين.
يمكن إقران V2A AI بنماذج توليد الفيديو مثل Veo، كما كتب فريق الصوت التوليدي في Deep Mind في منشور بالمدونة، ويمكنه إنشاء مقاطع صوتية ومؤثرات صوتية وحتى حوار للحركة التي تظهر على الشاشة. علاوة على ذلك، تدعي شركة ديب مايند أن نظامها الجديد قادر على توليد “عدد غير محدود من المقاطع الصوتية لأي إدخال فيديو” عن طريق ضبط النموذج بمطالبات إيجابية وسلبية تشجع أو تثبط استخدام صوت معين، على التوالي.
يعمل النظام عن طريق تشفير وضغط إدخال الفيديو أولاً، والذي يستفيد منه نموذج الانتشار بعد ذلك لتحسين التأثيرات الصوتية المرغوبة بشكل متكرر من ضوضاء الخلفية بناءً على مطالبة النص الاختيارية للمستخدم ومن الإدخال المرئي. يتم أخيرًا فك تشفير إخراج الصوت هذا وتصديره كشكل موجي يمكن بعد ذلك إعادة دمجه مع إدخال الفيديو.
أفضل ما في الأمر هو أنه لا يتعين على المستخدم الدخول ومزامنة مسارات الصوت والفيديو يدويًا (اقرأ: بشكل ممل)، حيث يقوم نظام V2A بذلك تلقائيًا. كتب فريق Deep Mind: “من خلال التدريب على الفيديو والصوت والتعليقات التوضيحية الإضافية، تتعلم تقنيتنا ربط أحداث صوتية محددة بمشاهد مرئية مختلفة، مع الاستجابة للمعلومات المقدمة في التعليقات التوضيحية أو النصوص”.
لكن النظام لم يكتمل بعد. أولاً، تعتمد جودة الصوت الناتج على دقة إدخال الفيديو ويتعثر النظام عند وجود خلل في الفيديو أو تشوهات أخرى في الإدخال. وفقًا لفريق Deep Mind، تظل مزامنة الحوار مع المسار الصوتي تحديًا مستمرًا.
وأوضح الفريق أن “V2A يحاول توليد الكلام من نصوص الإدخال ومزامنته مع حركات شفاه الشخصيات”. “لكن نموذج توليد الفيديو المقترن قد لا يكون مشروطًا بالنصوص. وهذا يخلق عدم تطابق، مما يؤدي غالبًا إلى مزامنة الشفاه بشكل غريب، حيث أن نموذج الفيديو لا يولد حركات الفم التي تتطابق مع النص.
ولا يزال النظام بحاجة إلى الخضوع “لتقييمات واختبارات صارمة للسلامة” قبل أن يفكر الفريق في إطلاقه للجمهور. سيتم لصق كل مقطع فيديو وموسيقى تصويرية يتم إنشاؤها بواسطة هذا النظام بعلامات SynthID المائية الخاصة بـ Deep Mind. هذا النظام ليس نظام الذكاء الاصطناعي الوحيد المولد للصوت الموجود حاليًا في السوق. أسقطت Stability AI منتجًا مشابهًا الأسبوع الماضي فقط بينما أصدرت ElevenLabs أداة المؤثرات الصوتية الخاصة بها الشهر الماضي.