في السنوات الأخيرة، أصبح وقت الاستماع الذي يتطلبه جزء من الذكاء الاصطناعي لاستنساخ صوت شخص ما أقصر فأقصر.
لقد كانت دقائق، والآن مجرد ثواني.
كشفت شركة OpenAI، وهي الشركة المدعومة من مايكروسوفت والتي تقف وراء روبوت المحادثة ChatGPT الفيروسي المولد للذكاء الاصطناعي، مؤخرًا أن تقنية استنساخ الصوت الخاصة بها تتطلب 15 ثانية فقط من المواد الصوتية لإعادة إنتاج صوت شخص ما.
وفي منشور على موقعها الإلكتروني، شاركت OpenAI معاينة صغيرة الحجم لنموذج يسمى Voice Engine، والذي تعمل على تطويره منذ أواخر عام 2022.
يعمل محرك الصوت عن طريق تغذيته بما لا يقل عن 15 ثانية من المواد المنطوقة. يستطيع المستخدم بعد ذلك إدخال النص لإنشاء ما تصفه OpenAI بأنه خطاب “عاطفي وواقعي” “يشبه المتحدث الأصلي إلى حد كبير”.
تصر شركة OpenAI على أنها تتخذ “نهجًا حذرًا ومستنيرًا لإصدار أوسع نطاقًا بسبب احتمالية إساءة استخدام الصوت الاصطناعي”، مضيفة أنها تريد “بدء حوار حول النشر المسؤول للأصوات الاصطناعية، وكيف يمكن للمجتمع التكيف مع هذه الأصوات الجديدة”. قدرات.”
وأضافت: “بناءً على هذه المحادثات ونتائج هذه الاختبارات صغيرة النطاق، سنتخذ قرارًا أكثر استنارة حول ما إذا كان سيتم نشر هذه التكنولوجيا على نطاق واسع وكيفية نشرها”.
إحدى إساءة الاستخدام التي يشير إليها OpenAI هي عملية احتيال يقوم بها بعض المجرمين بالفعل باستخدام تقنية مماثلة كانت متاحة للجمهور لبعض الوقت. يتضمن ذلك استنساخ صوت ثم الاتصال بصديق أو قريب لذلك الشخص لخداعه لتسليم النقود عبر التحويل المصرفي. هناك أيضًا مخاوف بشأن كيفية استخدام هذه التكنولوجيا في الانتخابات الرئاسية المقبلة، وهي قضية أبرزتها حادثة رفيعة المستوى حدثت مؤخرًا حيث طلبت مكالمة آلية باستخدام نسخة من صوت الرئيس جو بايدن من الناس عدم التصويت في الانتخابات التمهيدية في نيو هامبشاير في يناير.
هناك مصدر قلق آخر وهو كيف ستؤثر التكنولوجيا التي تتحسن بسرعة على سبل عيش الممثلين الصوتيين الذين يخشون أنه سيُطلب منهم بشكل متزايد التوقيع على حقوق أصواتهم حتى يمكن استخدام الذكاء الاصطناعي لإنشاء نسخة اصطناعية، مع تعويض عن مثل هذا العقد. من المحتمل أن يكون أقل بكثير مما لو طُلب من الممثل أداء المهمة شخصيًا.
وبالنظر إلى عمليات النشر الأكثر إيجابية لهذه التكنولوجيا، تقترح OpenAI أنه يمكن استخدامها لتقديم المساعدة في القراءة لغير القراء والأطفال الذين يستخدمون أصواتًا عاطفية تبدو طبيعية “تمثل نطاقًا أوسع من المتحدثين أكثر مما هو ممكن مع الأصوات المحددة مسبقًا” أيضًا. كترجمة فورية لمقاطع الفيديو والبودكاست، وهو أمر قامت شركة Spotify بتجربته بالفعل.
ويمكن استخدامه أيضًا لمساعدة المرضى الذين يفقدون أصواتهم تدريجيًا بسبب المرض على مواصلة التواصل باستخدام ما يبدو وكأنه أصواتهم.
لدى OpenAI بعض الأمثلة على الصوت الذي تم إنشاؤه بواسطة الذكاء الاصطناعي والصوت المرجعي على موقعها الإلكتروني ونحن على يقين من أنك ستوافق على ذلك، فهي رائعة جدًا.