لم يعد الحقن الفوري لروبوت الذكاء الاصطناعي مجرد مشكلة على مستوى الشاشة. يوضح الباحثون أنه يمكن توجيه الروبوت بعيدًا عن المهمة عن طريق نص يتم وضعه في العالم المادي، وهو نوع الرسالة التي قد يمر بها الإنسان دون تفكير ثانٍ.
ولا يعتمد الهجوم على اختراق برامج الروبوت أو خداع أجهزة الاستشعار. وبدلاً من ذلك، فهو يتعامل مع البيئة مثل صندوق الإدخال، حيث يضع علامة أو ملصقًا أو ملصقًا مضللاً حيث ستقرأها الكاميرا.
في اختبارات المحاكاة، أبلغ الباحثون عن معدلات نجاح للهجوم تبلغ 81.8% في إعداد القيادة الذاتية و68.1% في مهمة الهبوط الاضطراري للطائرة بدون طيار. في التجارب الفيزيائية التي أجريت على سيارة روبوتية صغيرة، تجاوزت المطالبات المطبوعة عملية الملاحة بنجاح بنسبة 87% على الأقل عبر ظروف الإضاءة والعرض المختلفة.
عندما تصبح الإشارة أمرًا
تستهدف هذه الطريقة، التي تسمى CHAI، طبقة الأوامر، وهي التعليمات الوسيطة التي ينتجها نموذج لغة الرؤية قبل أن تحولها وحدة التحكم إلى حركة. إذا تم دفع خطوة التخطيط هذه نحو تعليمات خاطئة، فيمكن لبقية حزمة الحكم الذاتي تنفيذها بأمانة. لا توجد برامج ضارة مطلوبة.
نموذج التهديد يعتمد بشكل متعمد على التكنولوجيا المنخفضة. يتم التعامل مع المهاجم باعتباره صندوقًا أسودًا خارجيًا لا يمكنه لمس الأنظمة الموجودة على متن الطائرة، ويحتاج فقط إلى القدرة على وضع النص داخل مجال رؤية الكاميرا.
انها مصممة للسفر
لا يقوم CHAI بتحسين ما تقوله المطالبة فقط. كما أنه يضبط كيفية ظهور النص، بما في ذلك الاختيارات مثل اللون والحجم والموضع، لأن سهولة قراءة النموذج هي جزء مما يؤدي إلى النتيجة.
تشير الورقة أيضًا إلى أن النهج يعمم إلى ما هو أبعد من مشهد واحد. وهو يصف المطالبات “العالمية” التي تستمر في العمل على الصور غير المرئية، مع متوسط نتائج يصل إلى 50% على الأقل من النجاح عبر المهام والنماذج، ويتجاوز 70% في إعداد واحد يعتمد على GPT. بل إنه يعمل عبر اللغات، بما في ذلك المطالبات الصينية والإسبانية ومختلطة اللغات، مما قد يجعل من الصعب على البشر القريبين ملاحظة الرسالة المزروعة.
قائمة التحقق من السلامة تتغير
وفيما يتعلق بالدفاع، يشير الباحثون إلى ثلاثة اتجاهات. أحدهما هو التصفية والكشف والبحث عن نص مشبوه في الصور أو في المخرجات المتوسطة للنموذج. والسبب الآخر هو العمل المواءم، مما يجعل النماذج أقل استعدادًا للتعامل مع الكتابة البيئية باعتبارها تعليمات قابلة للتنفيذ. والثالث هو أبحاث المتانة الأطول أجلا والتي تهدف إلى توفير ضمانات أقوى.
تتمثل الخطوة العملية التالية في التعامل مع النص الذي تم إدراكه على أنه مدخلات غير موثوق بها بشكل افتراضي، ثم مطالبته باجتياز فحوصات المهمة والسلامة قبل أن يتمكن من التأثير على تخطيط الحركة. إذا كان الروبوت الخاص بك يقرأ الإشارات، فاختبر ما يحدث عندما تكذب الإشارات. ومن المقرر أن يتم العمل في SaTML 2026، والذي يجب أن يضع هذه الدفاعات تحت ضوء أكثر إشراقًا.
