OpenAI أعلنت يوم الجمعة عن أداة جديدة لاستنساخ الصوت تعتمد على الذكاء الاصطناعي تسمى Voice Engine. في حين أن الشركة فخورة بشكل واضح بإمكانيات هذه التكنولوجيا – حيث تروج لكيفية استخدامها لتوفير المساعدة في القراءة للأطفال وإعطاء صوت لأولئك الذين فقدوا صوتهم – فمن الواضح أن OpenAI متوترة للغاية بشأن كيفية إساءة استخدام ذلك. ولسبب وجيه.
وقالت الشركة في بيان يوم الجمعة: “إن OpenAI ملتزمة بتطوير ذكاء اصطناعي آمن ومفيد على نطاق واسع”، موضحة مخاوفها بوضوح في هذا الصدد. الجملة الأولى.
يستخدم Voice Engine بشكل أساسي نفس التقنية التي تقف وراء واجهة برمجة تطبيقات تحويل النص إلى كلام وChatGPT Voice، لكن هذا التطبيق للتكنولوجيا يدور حول استنساخ الصوت بدلاً من قراءة شيء بصوت عالٍ بنبرة شخص غريب ونبرة صوته. وتشير شركة OpenAI إلى أن تقنيتها استثنائية من حيث أنها تحتاج فقط إلى عينة مدتها 15 ثانية “لإنشاء أصوات عاطفية وواقعية”.
“اليوم نشارك الأفكار والنتائج الأولية من معاينة صغيرة النطاق لنموذج يسمى Voice Engine، والذي يستخدم إدخال النص وعينة صوتية واحدة مدتها 15 ثانية لإنشاء خطاب يبدو طبيعيًا يشبه إلى حد كبير المتحدث الأصلي،” الشركة كتب.
ليس من الواضح ما هو نوع بيانات التدريب التي تم استخدامها لبناء Voice Engine، وهو نقطة حساسة لشركات الذكاء الاصطناعي التي اتُهمت بانتهاك قوانين حقوق الطبع والنشر من خلال تدريب نماذجها على الأعمال المحمية. تقول شركات مثل OpenAI إن أساليب التدريب الخاصة بها تعتبر “استخدامًا عادلاً” بموجب قانون حقوق الطبع والنشر الأمريكي، لكن عددًا من أصحاب الحقوق رفعوا دعوى قضائية، واشتكوا من عدم حصولهم على تعويض مقابل عملهم.
يحتوي موقع OpenAI على أمثلة لمقاطع صوتية تم تغذيتها من خلال Voice Engine وهي جميلة لعنة مثيرة للإعجاب. القدرة على تغيير اللغة التي يتحدث بها شخص ما هي أيضًا رائعة جدًا. لكن لا يمكنك تجربتها بنفسك حتى الآن.
يوجد بالفعل عدد من أدوات استنساخ الصوت المتاحة مثل أحد عشر مختبرًا، والمترجمين مثل المتحدث. لكن OpenAI أصبحت عملاقًا منذ أن أطلقت ChatGPT علنًا لأول مرة في أواخر عام 2022. وبمجرد أن تجعل Voice Engine منتجًا متاحًا للجمهور (لا توجد معلومات عن تاريخ إصداره حتى الآن)، فقد يفتح الباب على مصراعيه لجميع أنواع الانتهاكات الجديدة. لم نحلم به قط.
وأشار بيان OpenAI يوم الجمعة إلى “أننا نتبع نهجًا حذرًا ومستنيرًا تجاه إصدار أوسع بسبب احتمالية إساءة استخدام الصوت الاصطناعي”، مشددًا على المخاوف التي تواجهها كل شركة كبرى الآن مع هذا النوع من تقنيات الذكاء الاصطناعي.
أحد الأمثلة المثيرة للقلق بشكل خاص لشخص يستخدم استنساخ الصوت بالذكاء الاصطناعي لأغراض شائنة حدث في وقت سابق من هذا العام باستخدام صوت الرئيس جو بايدن. قام ستيف كرامر، الذي عمل مع المرشح الرئاسي الديمقراطي دين فيليبس، باستنساخ صوت بايدن لإنشاء رسالة مفادها أنه لا ينبغي للناس أن يكلفوا أنفسهم عناء التصويت في الانتخابات التمهيدية في نيو هامبشاير. استخدم كرامر أداة ElevenLabs AI الصوتية وقام بذلك في “أقل من 30 دقيقة”، حيث أرسل رسالة robocall إلى حوالي 5000 شخص، وفقًا لـ واشنطن بوست.
وجاء في بيان OpenAI: “نأمل أن نبدأ حوارًا حول النشر المسؤول للأصوات الاصطناعية، وكيف يمكن للمجتمع أن يتكيف مع هذه القدرات الجديدة”. “استنادًا إلى هذه المحادثات ونتائج هذه الاختبارات صغيرة النطاق، سنتخذ قرارًا أكثر استنارة حول ما إذا كان سيتم نشر هذه التكنولوجيا على نطاق واسع وكيفية ذلك.”
وهذا، بطبيعة الحال، هو سيف ذو حدين لكل التكنولوجيا الجديدة. سيجد فنانو الاحتيال دائمًا طريقة لاستغلال الأدوات الناشئة لخداع الأشخاص وسحب أموالهم التي حصلوا عليها بشق الأنفس. لكنك لست بحاجة إلى استخدام أصوات مزيفة تم إنشاؤها بواسطة الذكاء الاصطناعي لخداع الأشخاص. كما أبلغنا في وقت سابق من هذا الأسبوع، فإن أحدث عمليات احتيال العملات المشفرة تستخدم تم تعيين ممثلين حقيقيين على موقع Fiverr لقراءة نص يساعد في بيع عملية الاحتيال الخاصة بهم على أنها أصلية.