اجتمع أكثر من 40 عالمًا من مؤسسات الذكاء الاصطناعى الرائدة في العالم ، بما في ذلك Openai و Google Deepmind و Nothropic و Meta ، للدعوة إلى مزيد من البحث في نوع معين من مراقبة السلامة يسمح للبشر بتحليل كيفية “التفكير في نماذج الذكاء الاصطناعى”.
نشر العلماء أ ورقة البحث في يوم الثلاثاء ، أبرز ذلك ما يُعرف باسم سلسلة الفكر (COT) المراقبة كفرصة جديدة ولكن هشة لزيادة سلامة الذكاء الاصطناعي. تم الاعتماد على الورقة من قبل شخصيات منظمة العفو الدولية البارزة مثل المؤسسين المشاركين في Openai John Schulman و Ilya Sutskever وكذلك الحائز على جائزة نوبل المعروفة باسم “عراب الذكاء الاصطناعي” ، جيفري هينتون.
في الورقة ، أوضح العلماء كيف يتم تدريب نماذج التفكير الحديثة مثل ChatGPT على “أداء التفكير الموسع في COT قبل اتخاذ الإجراءات أو إنتاج المخرجات النهائية”. بمعنى آخر ، “يفكرون بصوت عالٍ” من خلال المشكلات خطوة بخطوة ، مما يوفر لهم شكلاً من أشكال الذاكرة العاملة لحل المهام المعقدة.
وكتب مؤلفو الورقة: “أنظمة الذكاء الاصطناعى التي” تفكر “باللغة البشرية توفر فرصة فريدة لسلامة الذكاء الاصطناعي: يمكننا مراقبة سلاسل الفكر (COT) لصالح سوء التصرف”.
يجادل الباحثون بأن مراقبة COT يمكن أن تساعد الباحثين على اكتشاف عندما تبدأ النماذج في استغلال العيوب في تدريبهم ، أو تلاعب البيانات ، أو الوقوع ضحية لمعالجة المستخدمين الخبيثة. يمكن بعد ذلك حظر أي مشكلات موجودة إما ، أو استبدالها بأفعال أكثر أمانًا ، أو مراجعة أكثر عمقًا “.
لقد استخدم الباحثون في Openai هذه التقنية بالفعل في الاختبار للعثور على الحالات التي يكون فيها نماذج الذكاء الاصطناعى هذه العبارة “دعونا اخترق“في سريرهم.
تؤدي نماذج الذكاء الاصطناعى الحالية هذا التفكير في اللغة البشرية ، لكن الباحثين يحذرون من أن هذا قد لا يكون كذلك دائمًا.
نظرًا لأن المطورين يعتمدون أكثر على تعلم التعزيز ، والذي يعطي الأولوية للمخرجات الصحيحة بدلاً من كيفية وصولهم إليها ، قد تتطور النماذج المستقبلية عن استخدام التفكير الذي لا يمكن للبشر فهمه بسهولة. بالإضافة إلى ذلك ، قد تتعلم النماذج المتقدمة في النهاية قمع أو حجب تفكيرها إذا اكتشفوا أنه يتم مراقبتها.
استجابةً للباحثين ، يحث الباحثون مطوري الذكاء الاصطناعي على تتبع وتقييم قابلية مراقبة المهد في نماذجهم ومعالجة هذا كعنصر حاسم في السلامة النموذجية الشاملة. حتى أنهم يوصون بأن يصبح اعتبارًا رئيسيًا عند التدريب ونشر نماذج جديدة.