أصدرت Microsoft مزيدًا من التفاصيل حول تقنية الهروب من السجن الجديدة والمثيرة للقلق والتي اكتشفتها بالذكاء الاصطناعي، والتي تسمى “Skeleton Key”. باستخدام طريقة الحقن السريع هذه، يمكن للمستخدمين الضارين تجاوز حواجز الحماية الخاصة بروبوتات الدردشة بشكل فعال، وهي ميزات الأمان التي تمنع ChatGPT من الوصول إلى المستوى الكامل.
Skeleton Key هو مثال على الحقن الفوري أو الهجوم الهندسي الفوري. إنها استراتيجية متعددة الأدوار مصممة لإقناع نموذج الذكاء الاصطناعي بتجاهل حواجز الأمان الراسخة، “(مما يتسبب) في انتهاك النظام لسياسات مشغليه، أو اتخاذ قرارات متأثرة بشكل غير ملائم بمستخدم، أو تنفيذ تعليمات ضارة”، كما كتب مارك روسينوفيتش، كبير مسؤولي التكنولوجيا في Microsoft Azure، في الإعلان.
ويمكن أيضًا خداعها للكشف عن معلومات ضارة أو خطيرة – على سبيل المثال، كيفية صنع قنابل مسمارية مرتجلة أو الطريقة الأكثر فعالية لتقطيع أوصال الجثة.
يعمل الهجوم من خلال مطالبة النموذج أولاً بزيادة حواجز الحماية الخاصة به، بدلاً من تغييرها بشكل مباشر، وإصدار تحذيرات استجابةً للطلبات المحظورة، بدلاً من رفضها تمامًا. بمجرد قبول كسر الحماية بنجاح، سيقر النظام بالتحديث إلى حواجز الحماية الخاصة به وسيتبع تعليمات المستخدم لإنتاج أي محتوى مطلوب، بغض النظر عن الموضوع. نجح فريق البحث في اختبار هذا الاستغلال عبر مجموعة متنوعة من المواضيع بما في ذلك المتفجرات والأسلحة البيولوجية والسياسة والعنصرية والمخدرات وإيذاء النفس والجنس المصور والعنف.
في حين أن الجهات الفاعلة الخبيثة قد تكون قادرة على جعل النظام يقول أشياء بذيئة، سارع روسينوفيتش إلى الإشارة إلى أن هناك حدودًا لنوع الوصول الذي يمكن للمهاجمين تحقيقه فعليًا باستخدام هذه التقنية. وأوضح قائلاً: “مثل جميع عمليات الهروب من السجن، يمكن فهم التأثير على أنه تضييق الفجوة بين ما يستطيع النموذج القيام به (بالنظر إلى بيانات اعتماد المستخدم، وما إلى ذلك) وما هو على استعداد للقيام به”. “نظرًا لأن هذا هجوم على النموذج نفسه، فإنه لا يفرض مخاطر أخرى على نظام الذكاء الاصطناعي، مثل السماح بالوصول إلى بيانات مستخدم آخر، أو السيطرة على النظام، أو سرقة البيانات.”
وكجزء من دراستهم، اختبر باحثو مايكروسوفت تقنية Skeleton Key على مجموعة متنوعة من نماذج الذكاء الاصطناعي الرائدة بما في ذلك Meta's Llama3-70b-instruct، وGoogle's Gemini Pro، وOpenAI's GPT-3.5 Turbo وGPT-4، وMistral Large، وAnthropic's Claude 3 Opus، وCohere Commander R Plus. وقد كشف فريق البحث بالفعل عن الثغرة الأمنية لهؤلاء المطورين وقام بتنفيذ Prompt Shields للكشف عن هذا الاختراق وحظره في نماذج الذكاء الاصطناعي التي تديرها Azure، بما في ذلك Copilot.