أصدر الباحثون في شركة مايكروسوفت ورقة بحثية هذا الأسبوع حول فاسا-1، أداة ذكاء اصطناعي جديدة يمكنها إنشاء مقطع فيديو مقنع لشخص يتحدث، باستخدام صورة ثابتة فقط. ليس لدى Microsoft خطط فورية لإصدار الأداة الجديدة للعامة، ولكنها مثيرة للإعجاب جدًا. حسنًا، إنه أمر مثير للإعجاب إذا لم تنظر عن كثب إلى الأسنان. مجرد إلقاء نظرة على تلك chompers.
يعمل نموذج VASA-1 عن طريق التقاط أي صورة ثابتة لوجه بشري – أو في الأمثلة نشرتها مايكروسوفت، وجه تم إنشاؤه بواسطة الذكاء الاصطناعي لشخص غير موجود بالفعل – وبعد تغذية ملف صوتي، يمكنه إنتاج فيديو متزامن يتضمن الفروق الدقيقة في الوجه والحركة ذات المظهر الطبيعي.
مرة أخرى، كل هذا مثير للإعجاب تمامًا، كما ترون في أحد مقاطع الفيديو التي قدمتها Microsoft أدناه. لكن المجال الوحيد الذي يبدو أن VASA-1 يعاني منه هو بروز الأسنان. إذا ركزت على الأسنان، فيمكن أن تحصل على جودة كرتونية، حيث تظهر متحركة قليلاً بطريقة لا تتناسب تمامًا مع الجودة الواقعية المفرطة لكل شيء آخر.
تصبح أسنان الفيديو الغريبة أكثر وضوحًا عندما تقوم بإبطاء كل شيء، كما فعل Gizmodo في صورة GIF أدناه. (قد يجعلك هذا تشعر بالسوء عند اختيار مظهر شخص ما حتى تتذكر أن الشخص الموجود أدناه غير موجود حرفيًا.)
يُظهر مقطع فيديو آخر قدمته شركة Microsoft، والذي يظهر أدناه، صفات مشابهة للرسوم المتحركة في الأسنان – على الرغم من أن الميزات الأخرى تبدو واقعية للغاية، خاصة عندما تتذكر أن المادة المصدر الوحيدة هي صورة ثابتة وملف صوتي.
لأي سبب كان، كانت الأسنان في مقاطع الفيديو التي تظهر الرجال أقل وضوحًا إلى حد ما، ربما لأن النموذج لم يُظهر الرجال وهم يفتحون أفواههم على نطاق واسع أثناء التحدث. لكن أي شخص ينظر عن كثب لا يزال بإمكانه الشعور بأن شيئًا ما ليس على ما يرام هنا.
أحد الأشياء الأكثر إثارة للاهتمام التي لاحظها الباحثون هو أن نموذجه يمكنه إنتاج فيديو عالي الجودة نسبيًا بسرعة كبيرة، وهو أمر تحبه مولدات الذكاء الاصطناعي الأخرى OpenAI سورا يقال أنهم كافحوا مع. في الواقع، تشير الورقة إلى زمن استجابة يبلغ 0.17 ثانية فقط على جهاز كمبيوتر مكتبي مزود ببطاقة NVIDIA واحدة. وحدة معالجة الرسومات RTX 4090.
وهذه السرعة هي الشيء الذي يمكنه تقديم مقاطع فيديو فورية لمجموعة متنوعة من التطبيقات، مثل خدمات الترجمة في الوقت الفعلي.
“لا توفر طريقتنا جودة فيديو عالية مع ديناميكيات واقعية للوجه والرأس فحسب، بل تدعم أيضًا إنشاء مقاطع فيديو بحجم 512 × 512 عبر الإنترنت بسرعة تصل إلى 40 إطارًا في الثانية مع زمن انتقال لا يُذكر لبدء التشغيل. إنه يمهد الطريق للتفاعلات في الوقت الفعلي مع الصور الرمزية النابضة بالحياة التي تحاكي سلوكيات المحادثة البشرية.
من الواضح أن الباحثين يدركون المخاطر التي ينطوي عليها هذا النوع من التكنولوجيا، وهو ما ربما يفسر سبب عدم إعلان شركة Microsoft عن خطط للإسراع بطرحها للجمهور حتى الآن. ومع ذلك، فقد حدد الباحثون أيضًا حالات الاستخدام التي يعتقدون أنها ستكون مفيدة للبشرية.
“إن الفوائد – مثل تعزيز المساواة التعليمية، وتحسين إمكانية الوصول للأفراد الذين يعانون من تحديات التواصل، وتقديم الرفقة أو الدعم العلاجي للمحتاجين، من بين أشياء أخرى كثيرة – تؤكد أهمية أبحاثنا والاستكشافات الأخرى ذات الصلة. نحن ملتزمون بتطوير الذكاء الاصطناعي بشكل مسؤول، بهدف تعزيز رفاهية الإنسان.
“نظرًا لهذا السياق، ليس لدينا أي خطط لإصدار عرض توضيحي عبر الإنترنت أو واجهة برمجة تطبيقات أو منتج أو تفاصيل تنفيذ إضافية أو أي عروض ذات صلة حتى نتأكد من استخدام التكنولوجيا بشكل مسؤول ووفقًا للوائح المناسبة.”
ربما تكون هذه فكرة جيدة، بالنظر إلى عدد من عمليات الاحتيال هذا ممكن مع هذا النوع من التكنولوجيا. ففي نهاية المطاف، تفصلنا سبعة أشهر فقط عن الانتخابات الرئاسية لعام 2024 في الولايات المتحدة. و ال تهديد الفاشية على مستوى العالم لا تختفي في أي وقت قريب. تشعر الإنسانية حقًا بأنها عاجزة أمام المنتجات المزيفة التي ينتجها الذكاء الاصطناعي في الوقت الحالي. وربما يتعين على الشركات الكبيرة مثل مايكروسوفت أن تفعل كل ما في وسعها للحد من الضرر المحتمل قبل أن يصبح كل شيء على الإنترنت مزيفًا.