هل فقدت طريقك في مبنى مكتبي غير مألوف أو متجر كبير أو مستودع؟ ما عليك سوى سؤال الروبوت الأقرب إليك عن الاتجاهات.
قام فريق من الباحثين في جوجل بدمج قوى معالجة اللغة الطبيعية والرؤية الحاسوبية لتطوير وسيلة جديدة للملاحة الآلية كجزء من دراسة جديدة نشرت يوم الأربعاء.
في الأساس، شرع الفريق في تعليم الروبوت – في هذه الحالة الروبوت اليومي – كيفية التنقل عبر مساحة داخلية باستخدام مطالبات اللغة الطبيعية والمدخلات البصرية. كانت الملاحة الآلية تتطلب من الباحثين ليس فقط رسم خريطة للبيئة مسبقًا ولكن أيضًا توفير إحداثيات مادية محددة داخل المساحة لتوجيه الآلة. مكنت التطورات الأخيرة في ما يُعرف بالملاحة البصرية اللغوية المستخدمين من إعطاء الروبوتات أوامر باللغة الطبيعية ببساطة، مثل “اذهب إلى طاولة العمل”. يأخذ باحثو جوجل هذا المفهوم خطوة أبعد من خلال دمج قدرات متعددة الوسائط، بحيث يمكن للروبوت قبول تعليمات اللغة الطبيعية والصور في نفس الوقت.
على سبيل المثال، سيتمكن المستخدم في المستودع من عرض عنصر على الروبوت والسؤال، “على أي رف يوضع هذا العنصر؟” باستخدام قوة Gemini 1.5 Pro، تفسر الذكاء الاصطناعي كل من السؤال المنطوق والمعلومات المرئية لصياغة ليس فقط استجابة ولكن أيضًا مسار تنقل لقيادة المستخدم إلى المكان الصحيح على أرضية المستودع. تم اختبار الروبوتات أيضًا بأوامر مثل، “اصطحبني إلى غرفة الاجتماعات ذات الأبواب المزدوجة”، “أين يمكنني استعارة بعض مطهر اليدين”، و”أريد تخزين شيء ما بعيدًا عن أعين الجمهور. أين يجب أن أذهب؟”
أو في مقطع الفيديو الموجود على موقع إنستغرام أعلاه، يقوم أحد الباحثين بتنشيط النظام باستخدام “روبوت موافق” قبل أن يطلب إرشاده إلى مكان “يمكنه الرسم فيه”. ويرد الروبوت قائلا “امنحني دقيقة. التفكير مع جيميني …” قبل أن ينطلق بسرعة عبر مكتب ديب مايند الذي تبلغ مساحته 9000 قدم مربع بحثا عن سبورة بيضاء كبيرة مثبتة على الحائط.
ولكي نكون منصفين، فإن هذه الروبوتات الرائدة كانت على دراية بالفعل بتخطيط المساحات المكتبية. وقد استخدم الفريق تقنية تُعرف باسم “الملاحة التعليمية المتعددة الوسائط مع الجولات التوضيحية”. وقد تضمنت هذه التقنية قيام الفريق أولاً بتوجيه الروبوت يدويًا في جميع أنحاء المكتب، والإشارة إلى مناطق وميزات معينة باستخدام اللغة الطبيعية، على الرغم من أنه يمكن تحقيق نفس التأثير ببساطة عن طريق تسجيل مقطع فيديو للمساحة باستخدام هاتف ذكي. ومن هناك، يقوم الذكاء الاصطناعي بإنشاء رسم بياني طوبولوجي حيث يعمل على مطابقة ما تراه كاميراته مع “إطار الهدف” من مقطع الفيديو التوضيحي.
بعد ذلك، يستخدم الفريق سياسة ملاحة هرمية تعتمد على الرؤية واللغة والفعل (VLA)، والتي تجمع بين فهم البيئة والمنطق السليم، لتوجيه الذكاء الاصطناعي حول كيفية ترجمة طلبات المستخدم إلى إجراء ملاحي.
وكانت النتائج ناجحة للغاية حيث حققت الروبوتات معدلات نجاح بلغت 86% و90% من البداية إلى النهاية في مهام الملاحة التي كانت غير قابلة للتنفيذ في السابق والتي تنطوي على تفكير معقد وتعليمات مستخدم متعددة الوسائط في بيئة كبيرة في العالم الحقيقي”، كما كتب الباحثون.
ومع ذلك، فإنهم يدركون أنه لا يزال هناك مجال للتحسين، مشيرين إلى أن الروبوت لا يستطيع (حتى الآن) إجراء جولته التوضيحية بشكل مستقل، ويشيرون إلى أن وقت الاستدلال غير الملائم للذكاء الاصطناعي (الوقت الذي يستغرقه صياغة الاستجابة) والذي يتراوح من 10 إلى 30 ثانية يجعل التفاعل مع النظام دراسة في الصبر.