كشف الرئيس التنفيذي والمؤسس المشارك لشركة OpenAI سام ألتمان على X (تويتر سابقًا) يوم الخميس أن ميزة Advanced Voice الخاصة بها ستبدأ في الطرح “الأسبوع المقبل”، على الرغم من أنها مخصصة فقط لعدد قليل من مشتركي ChatGPT-Plus.
وتخطط الشركة “لبدء مرحلة الإصدار التجريبي بمجموعة صغيرة من المستخدمين لجمع التعليقات والتوسع بناءً على ما نتعلمه”.
يبدأ طرح النسخة التجريبية لعدد أكبر من المشتركين في الأسبوع المقبل!
— سام التمان (@sama) 25 يوليو 2024
تم الإعلان عن Advanced Voice، الذي يلغي الحاجة إلى إرسال النص ويتيح للمستخدمين التحدث مباشرة مع الذكاء الاصطناعي كما لو كان شخص آخر يتحدث مع إنسان آخر، في مايو/أيار الماضي إلى جانب إصدار GPT-4o خلال حدث Spring Update الخاص بالشركة. وعلى عكس المساعدين الرقميين الحاليين مثل Siri وGoogle Assistant، اللذين لا يقدمان سوى إجابات جاهزة لاستفسارات المستخدم، يوفر Advanced Voice من ChatGPT استجابات شبيهة بالإنسان، وخالية من زمن الوصول تقريبًا، وبلغات متعددة.
يستطيع نموذج GPT-4o الاستجابة للمدخلات الصوتية في 320 ميلي ثانية في المتوسط، وهو ما يعادل سرعة استجابة البشر للمحادثات العادية. وكما يمكنك أن ترى في مقطع الفيديو التوضيحي أدناه، يمكن للنموذج التحدث مع مستخدمين متعددين في وقت واحد، وارتجال نقاط الحديث والأسئلة باللغتين الإنجليزية والبرتغالية، فضلاً عن نقلها بمشاعر إنسانية، بما في ذلك “الضحك”.
لم ترد أي أنباء حتى الآن عن كيفية اختيار الشركة للمشاركين في تجربة ألفا باستثناء كونهم مشتركين في ChatGPT Plus-tier مقابل 20 دولارًا شهريًا. كان من المقرر في الأصل إطلاق الإصدار التجريبي في يونيو، إلا أن هذا التاريخ تم تأجيله “للوصول إلى حد الإطلاق” وتحسين قدرته على اكتشاف ورفض أشكال المحتوى المحظورة، فضلاً عن دعم البنية التحتية لتكنولوجيا المعلومات الخاصة بالشركة لاستيعاب الزيادة المتوقعة في عدد المستخدمين.
وكما أعلنت الشركة في شهر يونيو/حزيران، فإن الطرح الكامل للميزة لن يحدث حتى هذا الخريف على الأقل، وسوف يعتمد توقيتها الدقيق، مرة أخرى، على “تلبية معايير السلامة والموثوقية العالية لدينا”.
إن منح ChatGPT القدرة على المحادثة بشكل طبيعي مع مستخدميه يعد تقدمًا هائلاً. إن التخلص من الحاجة إلى نافذة سياقية يقلل من متطلبات الأجهزة الخاصة بالمستخدم ويوسع التكاملات المحتملة وحالات الاستخدام للذكاء الاصطناعي (مثل زيادة الوصول إلى المستخدمين الذين يعانون من قيود الحركة أو البراعة).
ويمكن أن يساعد ذلك أيضاً في تسريع تبني التكنولوجيا من قبل الجمهور من خلال تقليل حاجز الدخول للمستخدمين الأقل خبرة في التكنولوجيا والذين يشعرون بالراحة في التفاعل مع أجهزة الكمبيوتر الخاصة بهم عبر “مرحباً سيري” ولكنهم يخافون من احتمال الهندسة السريعة.