إذا كنت تصدق ما تريدك Google و Amazon أن تصدقك ، هذا هو عصر المساعدين الصوتيين … مرة أخرى. هذا الأسبوع ، كشفت كلتا الشركتين عن المزيد من التفاصيل حول مستقبل أنظمةهما الإيكولوجية المنزلية الذكية ، التي تركز على أشياءين: مكبرات صوت ذكية جديدة (بالطبع) في شكل منتجات Google Home ومنتجات صدى جديدة مع رقائق سليمة وأسرع أفضل ، ولكن ربما الأهم من ذلك ، محصولًا جديدًا ، ومن المفترض أن يكونوا قد تم ترقيتهم من المساعدين الصوتيين لتشغيلهم. بالنسبة إلى Google ، إنها Gemini للمنزل ، وللأمازون ، هناك Alexa+، وكلاهما يتم تغذيته من خلال التقدم في نماذج اللغة الكبيرة (LLMs) مثل تلك التي تستخدمها ChatGPT.
في تقدير كلتا الشركتين ، فإن Alexa+ و Gemini للمنزل ليسا فقط أجيال جديدة من المساعدين الصوتيين ، ولكن أولاً التوسع الأجيال الحقيقي منذ فجر المساعدين الصوتيين قبل 10 سنوات. مع هذا التوقع بعض الوعود الكبيرة. هذه المرة ، تقول الشركات ، ستتمكن من القيام بكل شيء. تريد أوبر؟ اطلبها مع Alexa+. هل تريد التحقق من الكاميرا المنزلية لترى ما كانت قططك حتى اليوم؟ اسأل الجوزاء. تريد إيقاف تشغيل كل ضوء ذكي في منزلك إلا واحد؟ حسنًا ، هذا شيء يمكنك في الحقيقة اطلب الآن بدلاً من الفوز بعدة أوامر على أمل أن تلتصق. كل هذا يبدو رائعا. هذا يبدو بالضبط نوع الحوسبة المحيطة التي تميزنا بها منذ أن تسللت المساعدين الصوتيين طريقهم إلى منازلنا منذ العصور. كل هذا يبدو مثاليًا للغاية ، كما أنه يبدو ، إذا كنت صادقًا ، كما يمكن أن يكون الفخار الكلي للقرف.
اسمحوا لي أن أكون واضحا: ليس لدي شك في أن chatbots يمكن أن تكون تحويلية في بعض النواحي. لقد رأينا بالفعل كيف يمكن تطبيقها على مجالات مثل البحث ، مما يسمح باستعلامات ومقارنات ومقارنات أكثر تعقيدًا. لقد رأينا قدراتها التوليدية عند الجمع بينها ونقلها إلى نماذج مثل Veo أو Sora. لقد رأينا كيف يمكنهم ترميز التطبيقات الأساسية من خلال كتابة فكرة في مربع نص. حتى لو كانت كل هذه القدرات بعيدة عن الكمال ، فقد رأينا أمثلة صعبة على كيفية عملها عندما تعمل بشكل جيد. المساعدين الصوتيين؟ حسنًا ، لدينا دليل أقل بكثير.
في خضم الضجة من Amazon هذا الأسبوع ، كان هناك إغفال صارخ واحد. على الرغم من أن Alexa+، مساعد الصوت من الجيل التالي ، كان متاحًا في وقت مبكر ، لم يكشف عندما تخطط لإصدار الترقية على نطاق أوسع بعد عام من هروبها. لا يزال في “الوصول المبكر” للعملاء الأمريكيين. هذا قد يعني الكثير من الأشياء ، من الواضح ؛ ربما تأخذ أمازون وقته وتأكد من ضبط الأمور قبل إطلاق أليكسا+ في العالم. ولكن على مستوى أكثر سخرية ، قد يعني ذلك أيضًا أن Alexa+ ليس جاهزًا تمامًا للبطولات الكبرى.
إعطاء مصداقية لتلك النظرية الأخيرة؟ سيري. تذكر عندما وعدت شركة Apple بإصدار وشيك من Siri من الجيل التالي من Siri كجزء من Apple Intelligence في يونيو 2024؟ نعم ، حسنًا ، لا يزال ليس هنا ، وليس هناك مؤشر حقيقي على متى سيصل. والسبب؟ حسنًا ، إذا أردنا أن نضع قبعات تفكيرنا ، فسيكون ذلك غير مستعد بعد. لاتخاذ هذا الاستدلال خطوة واحدة إلى الأمام: تتوقع المساعدين الصوتيين الذين يعملون في LLM الوظيفيين أن يكونوا أطول من شركات مثل Apple ، التي يمكن القول إنها أكثر شركة التكنولوجيا الموارد في العالم ، قد توقعت.
الآن ، ربما ستحصل Amazon أو Google على المزيد من الحظ على هذه الجبهة – لقد سكب Google على وجه الخصوص موارد هائلة في تقدم Gemini ، ولن يكون من غير المعقول التفكير في كل هذا الاهتمام والاستثمار يمكن أن يؤدي إلى نوع من الاختراق. ولكن لا يزال هناك الكثير لتكون متشككا. لقد حصلت مؤخرًا على إحاطة على منتجات Google Smart Home الجديدة ، بما في ذلك Gemini للمساعد المنزلي ، ووفقًا لـ Google ، فإن عملية تشبع مساعد صوت مع LLM ليست واضحة تمامًا كما تعتقد.
على الرغم من أن الجوزاء قد يكون رائعًا في فهم اللغة الطبيعية ، إلا أنه قد يكون في الواقع لا كن مثاليًا للقيام بالأشياء الأكثر بساطة ، مثل إيقاف تشغيل الأنوار الخاصة بك. على الرغم من أنها يمكن أن تكون مثيرة للإعجاب في بعض الأحيان ، فإنها تميل إلى التفكير والتفسير ، مما يجعلها جيدة لبعض المهام ، ولكن ليس ما تريده عندما يتعلق الأمر بالمنزل الذكي للخبز والزبدة.
أخبر أنيش كاتوكاران ، كبير مسؤولي المنتجات في Google Home و Nest ، Gizmodo أن الأوامر البسيطة يجب أن “تعمل 10 من أصل 10 مرات”.
بسبب هذه الاختلافات ، تقول Google إنها تفصل النماذج فعليًا في Gemini للمنزل ، مما يعني أن LLM الأكثر تقدماً ربما لن تقوم بتشغيل الأضواء وإيقافها أو إعداد أجهزة ضبط الوقت. عندما تقول “مهلا ، جوجل” ، ستكون الجوزاء المزيفة والأكثر تركيزًا على المهام-تلك التي ستستخدمها في أجهزة ضبط الوقت ، والأضواء ، وتشغيل الموسيقى ، وعمليات البحث السريعة على الويب ، وغيرها من الأشياء الأتمتة في المنزل الذكي العام. عندما تقول ، “يا Google ، دعنا نتحدث” ، ومع ذلك ، فإن Gemini for Home ينشط وضع Gemini Live الذي يستخدم المزيد من قوى اللغة الطبيعية في LLM للحصول على “دردشة” للمحادثة. هذا هو المكان الذي ستحصل فيه على مزيد من التفكير والإبداع لصنع وصفات على الطيران أو العصف الذهني لقضاء عطلة. في هذا الوضع مع Gemini Live ، ستكون الذكاء الاصطناعى “الاستماع” وأكثر تراكبًا ، مما يسمح لك بالتحدث بشكل طبيعي دون أن تشعر وكأنك تنبح باستمرار أوامر ثم تفعل شيئًا لك.
هذا يطرح السؤال: كم هو حقا الجوزاء في الطراز الأكثر غموضًا الذي ستستخدمه كل يوم؟ وكم هو متقدم حقًا؟ تجدر الإشارة أيضًا إلى أن Gemini for Home ، مثل Alexa+، في وقت مبكر من الوصول المبكر ، وقضية Google مع المساعدين الصوتيين التعديل التحديثي مع LLM ليست حصرية لجوزني – إنها نفس القضية التي تواجهها الشركات في جميع المجالات.
اسمع ، لست على استعداد فقط للانتهاء من البيض على وجهي في كتابة هذه الأشياء ، لكنني أنا على أمل أن أفعل. لدي ، مثل العديد من الآخرين ، لدي منزل ذكي مبسط بنفسي ، وقد واجهت (مثل العديد من الآخرين) إحباط واحباط استخدامه حتى في المهام البسيطة. أنا مستعد للجيل القادم من مساعدي الصوت ، حتى لو كان ذلك يعني أنني يجب أن أتخلى عن اشتراك شهري لاستخدامهم. ولكن على أمل أن أكون قد انتهى من العقد الطويل من الرغبة في المزيد ولكن باستمرار توقع أقل. لذلك ، في حالة Gemini و Alexa و Siri ، سأحتاج إلى رؤية النتائج قبل أن أشتري في Redo مساعد الصوت الكامل.