قام فريق في Tencent's Hunyuan Lab بإنشاء منظمة العفو الدولية الجديدة ، “Hunyuan Video-Foley” ، والتي تجلب أخيرًا صوتًا نابضًا بالحياة لإنشاء الفيديو الذي تم إنشاؤه. إنه مصمم للاستماع إلى مقاطع الفيديو وإنشاء الموسيقى التصويرية عالية الجودة متزامنة تمامًا مع الإجراء على الشاشة.
هل شاهدت مقطع فيديو تم إنشاؤه بواسطة AI وشعرت أن هناك شيئًا ما مفقودًا؟ قد تكون المرئيات مذهلة ، ولكن غالبًا ما يكون لها صمت غريب يكسر التعويذة. في صناعة السينما ، يُطلق على الصوت الذي يملأ هذا الصمت – حفيف الأوراق ، والتصاعد من الرعد ، وقرع الزجاج – فن فولي ، وهو حرفة مضنية تؤديها الخبراء.
إن مطابقة هذا المستوى من التفاصيل يمثل تحديًا كبيرًا لمنظمة العفو الدولية. لسنوات ، كافحت الأنظمة الآلية لإنشاء أصوات معقولة لمقاطع الفيديو.
كيف يتم حل Tencent الصوت الذي تم إنشاؤه بواسطة AI لمشكلة الفيديو؟
كان أحد أكبر الأسباب التي تُقدم فيها طرازات الفيديو إلى أوليو (V2A) في قسم الصوت هو ما يسميه الباحثون “اختلال التوازن في الطريقة”. في الأساس ، كان الذكاء الاصطناعى يستمع إلى مطالبات النص التي تم إعطاؤها أكثر مما كان يشاهد الفيديو الفعلي.
على سبيل المثال ، إذا أعطيت طرازًا مقطع فيديو لشاطئ مزدحم مع أشخاص يمشون ويطيرون طيور النورس ، لكن موجه النص قال فقط “صوت موجات المحيط” ، فمن المحتمل أن تحصل على صوت الأمواج. سوف تتجاهل الذكاء الاصطناعى خطوات في الرمال ودعوات الطيور ، مما يجعل المشهد يشعر بلا حياة.
علاوة على ذلك ، كانت جودة الصوت في كثير من الأحيان Subpar ، ولم يكن هناك ببساطة فيديو عالي الجودة مع صوت لتدريب النماذج بشكل فعال.
تعامل فريق Tencent's Hunyuan إلى هذه المشاكل من ثلاث زوايا مختلفة:
- أدرك Tencent أن الذكاء الاصطناعى بحاجة إلى تعليم أفضل ، لذلك قاموا ببناء مكتبة ضخمة من الفيديو والصوت والنص الضخمة التي تبلغ مساحتها 100000 ساعة. لقد أنشأوا خط أنابيب آلي تم تصفية محتوى منخفض الجودة من الإنترنت ، والتخلص من المقاطع بصمت طويل أو صوت مضغوط غامض ، مما يضمن أن الذكاء الاصطناعى المستفاد من أفضل المواد الممكنة.
- لقد صمموا بنية أكثر ذكاءً لمنظمة العفو الدولية. فكر في الأمر مثل تعليم النموذج لمهام متعددة بشكل صحيح. يولي النظام أولاً اهتمامًا وثيقًا بشكل لا يصدق إلى رابط Audio المرئي للحصول على التوقيت الصحيح تمامًا-مثل مطابقة خطوة خطوة إلى اللحظة التي يضرب فيها الحذاء الرصيف. بمجرد أن يتم قفل هذا التوقيت ، فإنه يدمج موجه النص لفهم المزاج العام وسياق المشهد. يضمن هذا النهج المزدوج عدم تجاهل التفاصيل المحددة للفيديو.
- لضمان أن الصوت كان عالي الجودة ، استخدموا استراتيجية تدريب تسمى محاذاة التمثيل (REPA). هذا يشبه وجود مهندس صوتي خبير ينظر باستمرار على كتف الذكاء الاصطناعى أثناء تدريبه. إنه يقارن عمل الذكاء الاصطناعى بميزات من طراز صوتي محترف مدرب مسبقًا لتوجيهه نحو إنتاج صوت أنظف وأكثر ثراءً وأكثر ثباتًا.
النتائج يتكلم صوت لأنفسهم
عندما اختبر Tencent Hunyuan Video-Foley ضد نماذج AI الرائدة الأخرى ، كانت نتائج الصوت واضحة. لم يكن فقط أن المقاييس القائمة على الكمبيوتر كانت أفضل ؛ قام المستمعون البشرون بتصنيف ناتجه باستمرار على أنه جودة أعلى ، ويتطابقون بشكل أفضل مع الفيديو ، وتوقيت أكثر دقة.
في جميع المجالات ، قدمت الذكاء الاصطناعى تحسينات في جعل الصوت يتطابق مع الإجراء على الشاشة ، سواء من حيث المحتوى أو التوقيت. تدعم النتائج عبر مجموعات بيانات التقييم المتعددة هذا:
يساعد عمل Tencent في سد الفجوة بين مقاطع الفيديو الصامتة من الذكاء الاصطناعي وتجربة عرض غامرة مع صوت الجودة. إنه يجلب سحر فن فولي إلى عالم إنشاء المحتوى الآلي ، والذي يمكن أن يكون قدرة قوية على صانعي الأفلام والرسوم المتحركة والمبدعين في كل مكان.
انظر أيضا: تحصل Google Vids على تجسيم AI وأدوات الصورة إلى الفيديو

هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الكبيرة من قادة الصناعة؟ تحقق من AI و Big Data Expo الذي يقام في أمستردام ، كاليفورنيا ، ولندن. يعد الحدث الشامل جزءًا من TechEx ويتم تحديده مع الأحداث التكنولوجية الرائدة الأخرى ، انقر هنا لمزيد من المعلومات.
AI News مدعومة من قبل Techforge Media. استكشاف أحداث وندوات الويب الأخرى القادمة هنا.