جزء مهم من عملية الحماية في OpenAI هو “الفريق الأحمر” – وهي منهجية منظمة تستخدم كلاً من المشاركين من البشر والذكاء الاصطناعي لاستكشاف المخاطر ونقاط الضعف المحتملة في الأنظمة الجديدة.
تاريخيًا، انخرطت شركة OpenAI في جهود الفريق الأحمر في الغالب من خلال الاختبار اليدوي، والذي يتضمن قيام الأفراد بالبحث عن نقاط الضعف. وقد تم استخدام هذا بشكل ملحوظ أثناء اختبار نموذج توليد الصور DALL · E 2 في أوائل عام 2022، حيث تمت دعوة خبراء خارجيين لتحديد المخاطر المحتملة. منذ ذلك الحين، قامت OpenAI بتوسيع وتحسين منهجياتها، ودمج الأساليب الآلية والمختلطة لتقييم أكثر شمولاً للمخاطر.
صرح OpenAI قائلاً: “نحن متفائلون بأننا نستطيع استخدام ذكاء اصطناعي أكثر قوة لتوسيع نطاق اكتشاف أخطاء النماذج”. يعود هذا التفاؤل إلى فكرة أن العمليات الآلية يمكن أن تساعد في تقييم النماذج وتدريبها لتكون أكثر أمانًا من خلال التعرف على الأنماط والأخطاء على نطاق أوسع.
في أحدث مساعيها للتقدم، تشارك OpenAI وثيقتين مهمتين حول الفريق الأحمر – ورقة بيضاء توضح بالتفصيل استراتيجيات المشاركة الخارجية ودراسة بحثية تقدم طريقة جديدة للفريق الأحمر الآلي. تهدف هذه المساهمات إلى تعزيز عملية ونتائج الفريق الأحمر، مما يؤدي في النهاية إلى تطبيقات ذكاء اصطناعي أكثر أمانًا ومسؤولية.
مع استمرار تطور الذكاء الاصطناعي، يعد فهم تجارب المستخدم وتحديد المخاطر مثل إساءة الاستخدام وسوء الاستخدام أمرًا بالغ الأهمية للباحثين والمطورين. يوفر الفريق الأحمر طريقة استباقية لتقييم هذه المخاطر، خاصة عند استكمالها برؤى من مجموعة من الخبراء الخارجيين المستقلين. ولا يساعد هذا النهج في وضع معايير فحسب، بل يسهل أيضًا تعزيز تقييمات السلامة بمرور الوقت.
اللمسة الإنسانية
شاركت OpenAI أربع خطوات أساسية في ورقتها البيضاء، “نهج OpenAI تجاه الفريق الأحمر الخارجي لنماذج وأنظمة الذكاء الاصطناعي،” لتصميم حملات فعالة للفريق الأحمر:
- تشكيل الفرق الحمراء: يعتمد اختيار أعضاء الفريق على أهداف الحملة. يتضمن هذا غالبًا أفرادًا ذوي وجهات نظر متنوعة، مثل الخبرة في العلوم الطبيعية والأمن السيبراني والسياسة الإقليمية، مما يضمن أن التقييمات تغطي النطاق اللازم.
- الوصول إلى الإصدارات النموذجية: إن توضيح إصدارات النموذج التي سيتمكن أعضاء الفريق الأحمر من الوصول إليها يمكن أن يؤثر على النتائج. قد تكشف نماذج المرحلة المبكرة عن المخاطر الكامنة، في حين أن الإصدارات الأكثر تطوراً يمكن أن تساعد في تحديد الثغرات في عمليات تخفيف السلامة المخطط لها.
- التوجيه والتوثيق: تعتمد التفاعلات الفعالة أثناء الحملات على تعليمات واضحة وواجهات مناسبة ووثائق منظمة. يتضمن ذلك وصف النماذج والضمانات الحالية وواجهات الاختبار والمبادئ التوجيهية لتسجيل النتائج.
- تجميع البيانات وتقييمها: بعد الحملة، يتم تقييم البيانات لتحديد ما إذا كانت الأمثلة تتوافق مع السياسات الحالية أو تتطلب تعديلات سلوكية جديدة. ثم تقوم البيانات التي تم تقييمها بإبلاغ التقييمات القابلة للتكرار للتحديثات المستقبلية.
تضمن أحد التطبيقات الحديثة لهذه المنهجية إعداد مجموعة نماذج OpenAI o1 للاستخدام العام، واختبار مدى مقاومتها لإساءة الاستخدام المحتملة وتقييم تطبيقها في مجالات مختلفة مثل التخطيط للهجمات في العالم الحقيقي، والعلوم الطبيعية، وأبحاث الذكاء الاصطناعي.
الفريق الأحمر الآلي
يسعى الفريق الأحمر الآلي إلى تحديد الحالات التي قد يفشل فيها الذكاء الاصطناعي، خاصة فيما يتعلق بالقضايا المتعلقة بالسلامة. تتفوق هذه الطريقة على نطاق واسع، وتنتج أمثلة عديدة للأخطاء المحتملة بسرعة. ومع ذلك، فقد كافحت الأساليب الآلية التقليدية في إنتاج استراتيجيات هجوم متنوعة وناجحة.
يقدم بحث OpenAI “الفريق الأحمر المتنوع والفعال مع المكافآت التي يتم إنشاؤها تلقائيًا والتعلم المعزز متعدد الخطوات”، وهي طريقة تشجع على المزيد من التنوع في استراتيجيات الهجوم مع الحفاظ على الفعالية.
تتضمن هذه الطريقة استخدام الذكاء الاصطناعي لإنشاء سيناريوهات مختلفة، مثل النصائح غير المشروعة، وتدريب نماذج الفريق الأحمر لتقييم هذه السيناريوهات بشكل نقدي. تكافئ هذه العملية التنوع والفعالية، وتعزز تقييمات السلامة الأكثر تنوعًا وشمولاً.
على الرغم من فوائده، فإن الفريق الأحمر له حدود. فهو يلتقط المخاطر في وقت محدد، والتي قد تتطور مع تطور نماذج الذكاء الاصطناعي. بالإضافة إلى ذلك، يمكن لعملية الفريق الأحمر أن تخلق عن غير قصد مخاطر معلوماتية، مما قد ينبه الجهات الفاعلة الضارة إلى نقاط الضعف غير المعروفة على نطاق واسع بعد. تتطلب إدارة هذه المخاطر بروتوكولات صارمة وإفصاحات مسؤولة.
في حين أن الفريق الأحمر لا يزال يلعب دورًا محوريًا في اكتشاف المخاطر وتقييمها، فإن OpenAI تعترف بضرورة دمج وجهات نظر عامة أوسع حول السلوكيات والسياسات المثالية للذكاء الاصطناعي لضمان توافق التكنولوجيا مع القيم والتوقعات المجتمعية.
أنظر أيضا: يقدم الاتحاد الأوروبي مسودة إرشادات تنظيمية لنماذج الذكاء الاصطناعي
هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الضخمة من قادة الصناعة؟ اطلع على معرض الذكاء الاصطناعي والبيانات الضخمة الذي يقام في أمستردام وكاليفورنيا ولندن. ويقام هذا الحدث الشامل في موقع مشترك مع أحداث رائدة أخرى بما في ذلك مؤتمر الأتمتة الذكية، وBlockX، وأسبوع التحول الرقمي، ومعرض الأمن السيبراني والسحابي.
استكشف الأحداث والندوات عبر الإنترنت القادمة الأخرى المتعلقة بتكنولوجيا المؤسسات والمدعومة من TechForge هنا.