Soundhound AI ، وهو بالفعل لاعب رئيسي في المساعدين الصوتيين ، يعطي تقنيته الآن زوجًا من العيون.
تخيل القيادة عبر معلم ، وبدون سحب هاتفك ، وسأل سيارتك ، “ما هذا المبنى هناك؟” والحصول على إجابة فورية. هذا ما تبنيه Soundhound AI.
مع إطلاق Vision AI ، يجمع نظام Soundhound الجديد بين الصوت مع الصوت لإنشاء طريقة أكثر ذكاءً وأكثر طبيعية للتفاعل مع التكنولوجيا. الفكرة هي تقليد كيف عملنا كبشر ؛ نحن لا نستمع فقط إلى شخص ما ، ونحن نرى أيضًا إيماءاته وما يبحثون عنه.
من خلال جلب هذا الفهم السياقي نفسه إلى الذكاء الاصطناعي ، يأمل Soundhound في أن ينعم بالتجربة العادلة والمحبطة في كثير من الأحيان مع العديد من الأجهزة الذكية اليوم. تستهدف الشركة تطبيقات العالم الحقيقي حيث يمكن أن يحدث هذا المعنى المشترك فرقًا كبيرًا ، سواء كان ذلك في سيارتك التالية ، أو في مطعم Drive-Thru ، أو أرضية المصنع.
وقال كيفان موهجر ، الرئيس التنفيذي لشركة Soundhound AI: “في Soundhound ، نعتقد أن مستقبل الذكاء الاصطناعى ليس فقط متعددة الوسائط-إنه متكامل للغاية وسريع الاستجابة ومبني للتأثير في العالم الحقيقي.
“من خلال Vision AI ، نقوم بتوسيع قيادتنا في AI الصوتية والمحادثة لإعادة تعريف كيفية تفاعل البشر مع المنتجات والخدمات التي تقدمها الشركات واستخدامها.”
لذا ، كيف يعمل؟ يأخذ Vision AI موجزًا مباشرًا من الكاميرا ويصدرها مع تقنية صوت الشركة ، والتي تتفوق بالفعل في فهم الكلام الطبيعي. من خلال معالجة ما يراه وما يسمعه في نفس الوقت بالضبط ، يمكن للنظام أن يدرك نية المستخدم الحقيقية بطريقة لا يمكن أبدًا للمساعد الصوتي البسيط أبدًا.
فكر في ميكانيكي يرتدي نظارات ذكية يمكنه ببساطة النظر إلى جزء المحرك وطلب التعليمات ، وتلقي التوجيه المرئي والصوتي الفوري دون إلقاء أدواتهم. في أحد المتجر ، يمكن للموظف مسح الرفوف فقط من خلال النظر إليها للحصول على عدد المخزون في الوقت الفعلي. بالنسبة لبقية منا ، قد يعني ذلك وجود كشك في القيادة الذي يؤكد بصريًا طلبنا على الشاشة في اللحظة التي نقول فيها.
واحدة من أكبر المشكلات التقنية في إنشاء مثل هذا النظام هي ضمان مزامنة العناصر الصوتية والمرئية تمامًا. أي تأخر سيحطم وهم محادثة طبيعية.
علق براناف سينغ ، نائب الرئيس للهندسة في Soundhound AI: “مع Vision AI ، نحن ندمج الاعتراف البصري وذكاء المحادثة في تدفق واحد متزامن. كل إطار ، كل ندوة ، يتم تفسير كل نية داخل النظام البيئي نفسه ، حيث يتم تجارب مستخدمين أكثر طبيعية عبر السدود من السدود من الكوكات إلى المناصب المضمنة.
“هذا هو الابتكار عند تقاطع الذكاء والتنفيذ ، وتقديم الذكاء الاصطناعى الذي يرى ما تراه ، ويسمع ما تقوله ، ويستجيب في الوقت الحالي.”
بالنسبة للشركات التي تتبنى هذه التقنية ، فإن الوعد هو توفير خدمة أسرع ، وأخطاء أقل ، والعملاء الأكثر سعادة. يتعلق الأمر بإزالة الاحتكاك وجعل التكنولوجيا تبدو أقل كأداة يجب عليك تشغيلها وأكثر مثل الشريك الذي يساعدك على إنجاز الأمور.
هذه القدرة البصرية الجديدة ليست هي ترقية Soundhound الوحيدة التي يتم طرحها. كما قامت الشركة مؤخرًا بتحسين “دماغ” نظامها من خلال تحديث جديد ، Amelia 7.1. يجعل هذا التحسين وكلاء الذكاء الاصطناعي أسرع وأكثر دقة ، ويمنح الشركات مزيدًا من السيطرة والشفافية حول كيفية عملها.
من خلال الجمع بين البصر والصوت ، يهدف Soundhound إلى دفعنا إلى الاقتراب من عالم حيث يكون التفاعل مع الذكاء الاصطناعى سهلاً وبديهية مثل التحدث إلى شخص آخر.
(تصوير كريستيان لوي)
انظر أيضا: معهد آلان تورينج: العلوم الإنسانية هي مفتاح مستقبل الذكاء الاصطناعي
هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الكبيرة من قادة الصناعة؟ تحقق من AI و Big Data Expo الذي يقام في أمستردام ، كاليفورنيا ، ولندن. تم تحديد الحدث الشامل مع الأحداث الرائدة الأخرى بما في ذلك مؤتمر الأتمتة الذكي ، و blockx ، وأسبوع التحول الرقمي ، ومعرض Cyber Security & Cloud.
استكشاف أحداث وندوات الويب القادمة الأخرى التي تعمل بها TechForge هنا.