في مؤتمر Meta Connect 2024 يوم الأربعاء، صعد الرئيس التنفيذي مارك زوكربيرج إلى المنصة لمناقشة أحدث التطورات التي حققتها شركته في مجال الذكاء الاصطناعي. وفي ما وصفه بأنه “ربما أكبر أخبار الذكاء الاصطناعي التي لدينا”، كشف زوكربيرج عن Natural Voice Interactions، وهو منافس مباشر لـ Gemini Live من Google وAdvanced Voice Mode من OpenAI.
وعلق زوكربيرج قائلاً: “أعتقد أن الصوت سيكون طريقة أكثر طبيعية للتفاعل مع الذكاء الاصطناعي من النص. أعتقد أنه لديه القدرة على أن يكون أحد (الطرق)، إن لم يكن الأكثر شيوعًا، التي نتفاعل بها جميعًا مع الذكاء الاصطناعي”. كما أعلن زوكربيرج أن الميزة الجديدة ستبدأ في طرحها للمستخدمين اليوم عبر جميع تطبيقات Meta الرئيسية بما في ذلك Instagram وWhatsApp وMessenger وFacebook.
وقال زوكربيرج: “تتميز Meta AI في هذه الفئة ليس فقط من خلال تقديم نماذج الذكاء الاصطناعي الحديثة، ولكن أيضًا من خلال الوصول غير المحدود إلى هذه النماذج للتكامل المجاني بسهولة في منتجاتنا وتطبيقاتنا المختلفة”. “Meta AI في طريقها لتصبح مساعد الذكاء الاصطناعي الأكثر استخدامًا في العالم. لقد وصلنا تقريبًا إلى 500 مليون مستخدم نشط شهريًا ولم نطلقها بعد في بعض البلدان الكبرى”.
كما هو الحال مع Gemini Live وAdvanced Voice Mode، تسمح التفاعلات الصوتية الطبيعية للمستخدمين بالتخلي عن مطالبات النص والتحدث مباشرة مع روبوت المحادثة. يمكن للمستخدمين التلعثم وتصحيح أنفسهم ومقاطعة الذكاء الاصطناعي والتحدث بشكل عام كما يفعلون مع إنسان آخر ولا يزال روبوت المحادثة يتابع المحادثة. ستسمح الميزة الجديدة أيضًا للمستخدمين باختيار صوت الذكاء الاصطناعي والاختيار من بين مجموعة متنوعة من المشاهير بما في ذلك جون سينا، وديم جودي دينش، وكريستين بيل، وكيجان مايكل كي، وأوكوافينا. قد تتذكر هذه التشكيلة من غزو Meta السابق للدردشة باللغة الطبيعية، والتي تم إغلاقها في أغسطس لأن المستخدمين وجدوا التفاعلات “مخيفة” و”سريالية”.
قدم زوكربيرج عرضًا حيًا للميزة على المسرح، حيث طرح على روبوت المحادثة سلسلة من الأسئلة السهلة التي أجاب عليها الذكاء الاصطناعي بشكل مرضٍ. بدا إيقاع حديثه متكلفًا بعض الشيء وأقل محادثة مما رأيناه من وضع الصوت المتقدم، لكنه كان لا يزال أفضل بكثير من التنغيمات الرتيبة التي تحصل عليها من استجابة Siri. ومع ذلك، لم يدرك هذا المراسل أن هذا هو الصوت المفترض أن يكون عليه إلا عندما أشار زوكربيرج إلى الذكاء الاصطناعي باسم Awkwafina.
كانت Natural Voice Interactions “ربما أكبر” أخبار الذكاء الاصطناعي التي تم الإعلان عنها يوم الأربعاء ولكنها لم تكن الإعلان الوحيد. كشف زوكربيرج أيضًا أن نموذج Meta's Llama قد وصل إلى الإصدار 3.2 نظرًا لأن النظام أصبح متعدد الوسائط. يمكن لـ Llama 3.2 11B و 90B (في إشارة إلى عدد المعلمات التي تم تدريب كل منها عليها) الآن تفسير المخططات والرسوم البيانية وتحديد الأصول داخل الصور بالإضافة إلى إنشاء تسميات توضيحية للصور.
لسوء الحظ، لن تكون هذه النماذج الجديدة متاحة في أوروبا. ويرجع هذا إلى ما صنفته ميتا على أنه بيئة تنظيمية “غير متوقعة” في الاتحاد الأوروبي، والتي تمنع الشركة من استخدام بيانات الأوروبيين لتدريب نماذج الذكاء الاصطناعي الخاصة بها. وتطلق الشركة زوجًا من النماذج خفيفة الوزن للغاية في أوروبا، والتي أطلق عليها اسم Llama 3.2 1B و3B، ولم يتم تدريب أي منهما على البيانات الأوروبية. تم تصميم هذه النماذج للهواتف الذكية وغيرها من الأجهزة الطرفية.
ولأسباب تبدو غير مفهومة، أعلنت شركة Meta أيضًا أنها تختبر ميزة جديدة ستحقن صورًا تم إنشاؤها بواسطة الذكاء الاصطناعي – قد تتضمن بعضها صورتك – مباشرة في موجزات Facebook و Instagram. ستحث هذه الصور “المتخيلة لك” المستخدمين على مشاركة الصورة كما هي أو تكرارها داخل التطبيق وفي الوقت الفعلي.
قال زوكربيرج: “أعتقد أن هذا الاتجاه كان موجودًا بمرور الوقت حيث بدأت الخلاصات كمحتوى أساسي وحصري للأشخاص الذين تتابعهم، وأصدقائك”. الحافة في مقابلة أجريت مؤخرًا، قال: “وإذا أضفت إلى ذلك طبقة من، حسنًا، سنعرض لك أيضًا محتوى تم إنشاؤه بواسطة نظام الذكاء الاصطناعي والذي قد يكون شيئًا يثير اهتمامك… يعتمد حجمه إلى حد ما على التنفيذ ومدى جودته”.