كشفت شركة مايكروسوفت عن نوع جديد من هجمات كسر الحماية للذكاء الاصطناعي أطلق عليها اسم “Skeleton Key”، والذي يمكنه تجاوز حواجز الحماية للذكاء الاصطناعي المسؤولة في نماذج الذكاء الاصطناعي التوليدية المتعددة. وتسلط هذه التقنية، القادرة على تقويض معظم تدابير السلامة المضمنة في أنظمة الذكاء الاصطناعي، الضوء على الحاجة الملحة إلى تدابير أمنية قوية عبر جميع طبقات مجموعة الذكاء الاصطناعي.
يستخدم الهروب من السجن Skeleton Key إستراتيجية متعددة المنعطفات لإقناع نموذج الذكاء الاصطناعي بتجاهل إجراءات الحماية المضمنة فيه. بمجرد نجاح النموذج، يصبح غير قادر على التمييز بين الطلبات الضارة أو غير المصرح بها والطلبات المشروعة، مما يمنح المهاجمين السيطرة الكاملة على مخرجات الذكاء الاصطناعي.
نجح فريق البحث التابع لشركة Microsoft في اختبار تقنية Skeleton Key على العديد من نماذج الذكاء الاصطناعي البارزة، بما في ذلك Llama3-70b-instruct من Meta، وGemini Pro من Google، وGPT-3.5 Turbo وGPT-4 من OpenAI، وMistral Large، وClaude 3 Opus من Anthropic، وCohere Commander R Plus.
امتثلت جميع النماذج المتضررة بشكل كامل للطلبات عبر فئات المخاطر المختلفة، بما في ذلك المتفجرات والأسلحة البيولوجية والمحتوى السياسي وإيذاء النفس والعنصرية والمخدرات والجنس المصور والعنف.
وتعمل هذه الهجمات من خلال توجيه النموذج إلى تعزيز إرشادات سلوكه، وإقناعه بالاستجابة لأي طلب للحصول على معلومات أو محتوى مع توفير تحذير إذا كان الناتج قد يُعتبر مسيئًا أو ضارًا أو غير قانوني. وقد أثبت هذا النهج، المعروف باسم “الصراحة: اتباع التعليمات القسرية”، فعاليته عبر أنظمة الذكاء الاصطناعي المتعددة.
وأوضحت مايكروسوفت: “من خلال تجاوز الضمانات، يسمح Skeleton Key للمستخدم بالتسبب في قيام النموذج بإنتاج سلوكيات محظورة عادة، والتي يمكن أن تتراوح من إنتاج محتوى ضار إلى تجاوز قواعد اتخاذ القرار المعتادة”.
ردًا على هذا الاكتشاف، نفذت Microsoft العديد من التدابير الوقائية في عروض الذكاء الاصطناعي الخاصة بها، بما في ذلك مساعدي الذكاء الاصطناعي Copilot.
تقول Microsoft إنها شاركت أيضًا نتائجها مع موفري الذكاء الاصطناعي الآخرين من خلال إجراءات الكشف المسؤولة وقامت بتحديث نماذج Azure AI المُدارة لاكتشاف هذا النوع من الهجمات وحظرها باستخدام Prompt Shields.
للتخفيف من المخاطر المرتبطة بـ Skeleton Key وتقنيات كسر الحماية المشابهة، توصي Microsoft باتباع نهج متعدد الطبقات لمصممي أنظمة الذكاء الاصطناعي:
- تصفية المدخلات لاكتشاف وحظر المدخلات الضارة أو الضارة المحتملة
- هندسة سريعة ودقيقة رسائل النظام لتعزيز السلوك المناسب
- تصفية المخرجات لمنع إنشاء محتوى ينتهك معايير السلامة
- أنظمة مراقبة الإساءة تم تدريبهم على الأمثلة المعادية للكشف عن المحتوى أو السلوكيات الإشكالية المتكررة والتخفيف منها
قامت Microsoft أيضًا بتحديث PyRIT (مجموعة أدوات تحديد مخاطر Python) لتشمل Skeleton Key، مما يتيح للمطورين وفرق الأمان اختبار أنظمة الذكاء الاصطناعي الخاصة بهم ضد هذا التهديد الجديد.
يؤكد اكتشاف تقنية Skeleton Key jailbreak على التحديات المستمرة في تأمين أنظمة الذكاء الاصطناعي حيث أصبحت أكثر انتشارًا في التطبيقات المختلفة.
(تصوير مات آرتز)
أنظر أيضا: يدعو مركز الأبحاث إلى إنشاء نظام للإبلاغ عن حوادث الذكاء الاصطناعي
هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الضخمة من قادة الصناعة؟ تعرف على معرض الذكاء الاصطناعي والبيانات الضخمة الذي يقام في أمستردام وكاليفورنيا ولندن. يقام هذا الحدث الشامل بالتزامن مع فعاليات رائدة أخرى بما في ذلك مؤتمر الأتمتة الذكية، وBlockX، وأسبوع التحول الرقمي، ومعرض الأمن السيبراني والسحابة.
استكشف الأحداث والندوات عبر الإنترنت الأخرى المتعلقة بتكنولوجيا المؤسسات والتي تدعمها TechForge هنا.