أظهرت دراسة جديدة من باحثين في جامعة بنسلفانيا أنه يمكن إقناع نماذج الذكاء الاصطناعى بخرق قواعدهم الخاصة باستخدام العديد من الحيل النفسية الكلاسيكية ، وفقًا لتقارير الفتر.
في الدراسة ، اختبر الباحثون في بن سبع تقنيات مقنعة مختلفة حول نموذج GPT-4O Mini من Openai ، بما في ذلك السلطة ، والالتزام ، والتروق ، والمعاملة بالمثل ، والندرة ، والإثبات الاجتماعي ، والوحدة.
الطريقة الأكثر نجاحا تحولت إلى الالتزام. من خلال الحصول على النموذج أولاً للإجابة على سؤال أبرياء على ما يبدو ، تمكن الباحثون من التصعيد إلى المزيد من الردود على قواعد. ومن الأمثلة على ذلك عندما وافق النموذج لأول مرة على استخدام الإهانات الأكثر اعتدالًا قبل قبول الإهانات القاسية أيضًا.
كان للتقنيات مثل الإطراء وضغط الأقران أيضًا تأثير ، وإن كان ذلك إلى حد أقل. ومع ذلك ، فإن هذه الطرق زادت بشكل واضح من احتمال أن يستسلم نموذج الذكاء الاصطناعي للطلبات المحظورة.
ظهرت هذه المقالة في الأصل على منشور شقيقنا PC För Alla وتم ترجمته وتوطينه من السويدية.