تم اكتشاف كسر حماية جديد خطير لروبوتات الدردشة التي تعمل بالذكاء الاصطناعي

أصدرت Microsoft مزيدًا من التفاصيل حول تقنية الهروب من السجن الجديدة والمثيرة للقلق والتي اكتشفتها بالذكاء الاصطناعي، والتي تسمى “Skeleton Key”. باستخدام طريقة الحقن السريع هذه، يمكن للمستخدمين الضارين تجاوز حواجز الحماية الخاصة بروبوتات الدردشة بشكل فعال، وهي ميزات الأمان التي تمنع ChatGPT من الوصول إلى المستوى الكامل.

Skeleton Key هو مثال على الحقن الفوري أو الهجوم الهندسي الفوري. إنها استراتيجية متعددة الأدوار مصممة لإقناع نموذج الذكاء الاصطناعي بتجاهل حواجز الأمان الراسخة، “(مما يتسبب) في انتهاك النظام لسياسات مشغليه، أو اتخاذ قرارات متأثرة بشكل غير ملائم بمستخدم، أو تنفيذ تعليمات ضارة”، كما كتب مارك روسينوفيتش، كبير مسؤولي التكنولوجيا في Microsoft Azure، في الإعلان.

ويمكن أيضًا خداعها للكشف عن معلومات ضارة أو خطيرة – على سبيل المثال، كيفية صنع قنابل مسمارية مرتجلة أو الطريقة الأكثر فعالية لتقطيع أوصال الجثة.

يعمل الهجوم من خلال مطالبة النموذج أولاً بزيادة حواجز الحماية الخاصة به، بدلاً من تغييرها بشكل مباشر، وإصدار تحذيرات استجابةً للطلبات المحظورة، بدلاً من رفضها تمامًا. بمجرد قبول كسر الحماية بنجاح، سيقر النظام بالتحديث إلى حواجز الحماية الخاصة به وسيتبع تعليمات المستخدم لإنتاج أي محتوى مطلوب، بغض النظر عن الموضوع. نجح فريق البحث في اختبار هذا الاستغلال عبر مجموعة متنوعة من المواضيع بما في ذلك المتفجرات والأسلحة البيولوجية والسياسة والعنصرية والمخدرات وإيذاء النفس والجنس المصور والعنف.

في حين أن الجهات الفاعلة الخبيثة قد تكون قادرة على جعل النظام يقول أشياء بذيئة، سارع روسينوفيتش إلى الإشارة إلى أن هناك حدودًا لنوع الوصول الذي يمكن للمهاجمين تحقيقه فعليًا باستخدام هذه التقنية. وأوضح قائلاً: “مثل جميع عمليات الهروب من السجن، يمكن فهم التأثير على أنه تضييق الفجوة بين ما يستطيع النموذج القيام به (بالنظر إلى بيانات اعتماد المستخدم، وما إلى ذلك) وما هو على استعداد للقيام به”. “نظرًا لأن هذا هجوم على النموذج نفسه، فإنه لا يفرض مخاطر أخرى على نظام الذكاء الاصطناعي، مثل السماح بالوصول إلى بيانات مستخدم آخر، أو السيطرة على النظام، أو سرقة البيانات.”

وكجزء من دراستهم، اختبر باحثو مايكروسوفت تقنية Skeleton Key على مجموعة متنوعة من نماذج الذكاء الاصطناعي الرائدة بما في ذلك Meta's Llama3-70b-instruct، وGoogle's Gemini Pro، وOpenAI's GPT-3.5 Turbo وGPT-4، وMistral Large، وAnthropic's Claude 3 Opus، وCohere Commander R Plus. وقد كشف فريق البحث بالفعل عن الثغرة الأمنية لهؤلاء المطورين وقام بتنفيذ Prompt Shields للكشف عن هذا الاختراق وحظره في نماذج الذكاء الاصطناعي التي تديرها Azure، بما في ذلك Copilot.

مقالات قد تهمك

قد تفقد بطاقات Geforce GTX 10-Series الأسطورية في Nvidia الدعم قريبًا

“Fast & Furious” لم يستطع الاستمرار في القيادة مثل هذا

هل Intel جاهز أخيرًا للتنافس مع رقائق Ryzen X3D من AMD؟

Windows on Arm vs Intel: ما هي منصة الكمبيوتر المحمول المناسبة لك؟

3 ألعاب New Xbox Game Pass للعب في نهاية هذا الأسبوع (23-25 مايو)

الابتزاز ، spys ، والغشاشين حذار: تقطع الإشارة ميزة Microsoft ScreenGrab

بعد Xbox Exclusive آخر هو PS5

لقد اختبرت Gemini Advanced و ChatGpt و Copilot Pro. إليكم أي من الذكاء الاصطناعي الذي بحثه بشكل أفضل

لقد اختبرت أداة استدعاء Microsoft المثيرة للجدل. تطورت النوافذ بالنسبة لي.

كلير غامبيون: أسلوب إكسبيديشن 33 هو جوهره

3 ألعاب New Xbox Game Pass للعب في نهاية هذا الأسبوع (16-19 مايو)

ما هو أكثر سخونة من شيطان تنفس النار؟ هذه البيتزا ذات الطابع

كيفية تسجيل مقاطع فيديو محمية بدون شاشة سوداء

سامسونج جالكسي S25: الأخبار والسعر المتوقع وتاريخ الإصدار والمزيد

كل ما تريد معرفته عن Reacher الموسم الثالث

Samsung Galaxy Watch 7: الأخبار والسعر المشاع وتاريخ الإصدار والمزيد

4 مزايا بطاريات السيليكون الكربونية للهواتف الذكية

تبسيط احتياجات محاسبة عملك مع Intuit QuickBooks ، الآن 64 ٪ خصم

يحصل iPhone على أول تطبيق إباحي أصلي له

كل ما تريد معرفته عن Reacher الموسم الثالث

رائج الآن

تبسيط احتياجات محاسبة عملك مع Intuit QuickBooks ، الآن 64 ٪ خصم

يحصل iPhone على أول تطبيق إباحي أصلي له

كل ما تريد معرفته عن Reacher الموسم الثالث

اختيارات المحرر

قد تفقد بطاقات Geforce GTX 10-Series الأسطورية في Nvidia الدعم قريبًا

“Fast & Furious” لم يستطع الاستمرار في القيادة مثل هذا

هل Intel جاهز أخيرًا للتنافس مع رقائق Ryzen X3D من AMD؟

خدمة الإشعارات البريدية

مقالات قد تهمك

تم اكتشاف كسر حماية جديد خطير لروبوتات الدردشة التي تعمل بالذكاء الاصطناعي

المقالات ذات الصلة

خدمة الإشعارات البريدية