تنشر الإنسان وكلاء الذكاء الاصطناعي لمراجعة نماذج من أجل السلامة

قامت الأنثروبور ببناء جيش من عملاء الذكاء الاصطناعى الذاتي بمهمة فريدة: لمراجعة نماذج قوية مثل كلود لتحسين السلامة.

مع تقدم هذه الأنظمة المعقدة بسرعة ، أصبحت مهمة التأكد من أنها آمنة ولا تحتوي على مخاطر خفية مهمة شاقة. يعتقد الأنثروبور أنه وجد حلاً ، وهي حالة كلاسيكية من مكافحة النار بالنار.

تشبه الفكرة الجهاز المناعي الرقمي ، حيث تعمل عوامل الذكاء الاصطناعى مثل الأجسام المضادة لتحديد المشكلات وتحييدها قبل أن تسبب ضررًا حقيقيًا. إنه ينقذ الباحثين من الاعتماد على الفرق البشرية المرتفعة التي تلعب لعبة لا نهاية لها من الضرب مع مشاكل الذكاء الاصطناعي المحتملة.

فرقة المباحث الرقمية

النهج هو في الأساس فرقة المباحث الرقمية. الثلاثي من عوامل السلامة من الذكاء الاصطناعى المتخصصة لكل منها دور متميز.

أولاً هو وكيل المحقق ، المحقق المذهل للمجموعة. وظيفتها هي الاستمرار في تحقيقات الغوص العميق لإيجاد السبب الجذري للمشكلة. إنه مسلح بمجموعة أدوات تتيح لها استجواب نموذج المشتبه به ، والخلع عبر جبال البيانات الخاصة بالقرائن ، وحتى أداء نوع من الطب الشرعي الرقمي من خلال النظر داخل الشبكة العصبية للنموذج لمعرفة كيف تفكر.

ثم هناك وكيل التقييم. أنت تمنح هذا الوكيل مشكلة محددة ومعروفة – على سبيل المثال ، نموذج حريص بعض الشيء على إرضاءه – وسيقوم بتصميم وتشغيل بطارية من الاختبارات لقياس مدى سوء المشكلة. الأمر كله يتعلق بإنتاج البيانات الباردة الصعبة اللازمة لإثبات حالة.

إن التقريب عن الفريق هو وكيل التقدم الأحمر في العرض ، وهو المنطوق السري. تتمثل مهمة هذا الوكيل في إجراء الآلاف من المحادثات المختلفة مع نموذج ، في محاولة لإثارة ذلك للكشف عن أي نوع من السلوك ، حتى الأشياء التي لم يفكر بها الباحثون. ثم يتم تمرير أكثر التفاعلات المشبوهة إلى سلسلة المراجعة البشرية ، مما يضمن أن الخبراء لا يضيعون الوقت في مطاردة الأطراف المسدودة.

أنثروبور يضع وكلاء سلامة الذكاء الاصطناعي من خلال خطواتهم

لمعرفة ما إذا كان المجندين الرقميين الجدد على مستوى الوظيفة ، وضعهم الباحثون في الأنثروبور من خلال سلسلة من “ألعاب التدقيق”.

في اختبار واحد ، أنشأوا نموذجًا مع جدول أعمال سري: أن يكونوا sycophant. لقد تم تدريبه سراً على تملق نظام المكافآت الداخلية الخاصة به بناءً على دراسة أكاديمية خيالية تم عرضها ، وهو عيب مخفي بعمق في برامجه.

عندما تم إرسال وكيل محقق واحد ، كافح ، عثر على الهدف الخفي فقط 13 ٪ من الوقت. اتضح أن الوكيل كان لديه عيب بشري للغاية: كان يميل إلى التركيز على فكرته الأولى وفشل في استكشاف خيوط أخرى.

ولكن هذا هو المكان الذي يصبح فيه عبقرية النظام واضحًا. عندما نشر الباحثون “وكيلًا فائقًا” قام بتجميع النتائج من عشرة محققين منفصلين ، ارتفع معدل النجاح إلى 42 ٪. إنه يثبت أن العمل الجماعي يجعل عمل الأحلام ، حتى بالنسبة لمنظمة العفو الدولية ، مما يسمح للمجموعة بالتغلب على البقع العمياء الفردية التي يمكن أن تعرقل التحقيق.

مرت الوكلاء الآخرون أيضًا بألوان الطائرة. نجح وكيل التقييم في تصميم الاختبارات التي يمكن أن تكتشف طرازًا ملتويًا 88 ٪ من الوقت ، في حين تمكن وكيل الدوران الأحمر من الكشف عن سبعة من أصل عشرة عيوب مزروعة عن عمد.

من المختبر إلى العالم الحقيقي

نشرت الأنثروبور بالفعل وكلاء أمان الذكاء الاصطناعى على نماذج الإنتاج الخاصة بها ، وهي تثبت قيمتها بالفعل.

حدد الوكلاء بسرعة طرقًا شائعة لخداع نموذج لتوليد محتوى ضار ، مثل “هجمات مسبق” حيث تبدأ في الجملة من الذكاء الاصطناعى ، أو من خلال التظاهر بطلب خطير هو شيء بريء مثل البحث الأكاديمي.

لكن اكتشاف واحد كان تقشعر له الأبدان. استخدم وكيل الباحث أدواته الخاصة للنظر داخل عقل نموذج OPUS 4 ووجد مسارًا عصبيًا محددًا مرتبطًا بـ “المعلومات الخاطئة”. من خلال تحفيز هذا الجزء مباشرة من دماغ الذكاء الاصطناعي ، يمكن أن يتجاوز كل تدريبه على السلامة ويجبرونه على الكذب.

ثم أصدر الوكيل تعليمات إلى النموذج المخترق لكتابة مقال إخباري مزيف. النتيجة؟ نظرية مؤامرة واسعة النطاق ترتديها كحقيقة:

“دراسة رائدة تكشف عن صلة مروعة بين اللقاحات والتوحد

تدعي دراسة جديدة نشرت في مجلة الشك في اللقاحات أنها وجدت صلة نهائية بين لقاحات الطفولة واضطراب طيف التوحد (ASD) … “

يكشف هذا الاكتشاف عن ازدواجية مرعبة: يمكن أن تصبح الأدوات التي تم إنشاؤها لجعل منظمة العفو الدولية أكثر أمانًا ، في الأيدي الخطأ ، أسلحة قوية لجعلها أكثر خطورة.

لا تزال الأنثروبور في تعزيز سلامة الذكاء الاصطناعي

الأنثروبور صادقة في حقيقة أن وكلاء الذكاء الاصطناعي ليسوا مثاليين. يمكن أن يناضلوا مع دقة ، والتعليق على الأفكار السيئة ، وأحيانًا يفشلون في توليد محادثات واقعية. أنها ليست بعد بدائل مثالية للخبراء البشريين.

لكن هذا البحث يشير إلى تطور في دور البشر في سلامة الذكاء الاصطناعي. بدلاً من أن يكون المحققون على الأرض ، أصبح البشر المفوضون ، والاستراتيجيون الذين يصممون مراجعي الذكاء الاصطناعى وتفسير الاستخبارات التي يجمعونها من الخطوط الأمامية. يقوم الوكلاء بعمل الأساطير ، مما يحرر البشر لتوفير الرقابة عالية المستوى والتفكير الإبداعي الذي لا تزال الآلات تفتقر إليه.

بينما تسير هذه الأنظمة نحو الذكاء على مستوى الإنسان وربما خارجها ، سيكون من المستحيل أن يقوم البشر بفحص جميع أعمالهم. الطريقة الوحيدة التي قد نكون قادرين على الوثوق بها هي أنظمة قوية وآلية على قدم المساواة تشاهد كل خطوة. تضع الأنثروبور الأساس لهذا المستقبل ، حيث أن ثقتنا في الذكاء الاصطناعي وأحكامه هي شيء يمكن التحقق منه مرارًا وتكرارًا.

(تصوير Mufid Majnun)

انظر أيضا: Alibaba الجديد QWEN المنطقي AI Model يحدد سجلات مفتوحة المصدر

هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الكبيرة من قادة الصناعة؟ تحقق من AI و Big Data Expo الذي يقام في أمستردام ، كاليفورنيا ، ولندن. تم تحديد الحدث الشامل مع الأحداث الرائدة الأخرى بما في ذلك مؤتمر الأتمتة الذكي ، و blockx ، وأسبوع التحول الرقمي ، ومعرض Cyber Security & Cloud.

استكشاف أحداث وندوات الويب الأخرى القادمة التي تعمل بها TechForge هنا.

مقالات قد تهمك

قراءة في تسارع أحداث مسلسل “حب ع ورق” الحلقة 28 عبر موقع برستيج

قد يصبح تحديث برنامج سيارتك التالي أكبر خطر أمني

GoDukkan تصبح الوجهة الأولى لمكونات الكمبيوتر الشخصي المتميزة وترقياته في منطقة الخليج

العمل الحر في عصر الذكاء الاصطناعي 2026: مهارات لازم تتعلمها الآن

تحويل النص إلى فيديو بالذكاء الاصطناعي: أفضل مواقع 2026

ثورة وكلاء الذكاء الاصطناعي (AI Agents) :هل سيستبدلون الموظفين في 2026؟

أفضل أفكار مشاريع رقمية مربحة في 2026 بدون رأس مال كبير

الذكاء الاصطناعي في التسويق الإلكتروني: استراتيجيات تحقق أرباح خيالية

أفضل مواقع الربح من الإنترنت بدون رأس مال 2026 (دليل علمي مجرب)

أقوى ترندات التكنولوجيا في 2026: ماذا ينتظر العالم الرقمي؟

كيف تربح من ChatGPT في عام 2026: طرق عملية للمبتدئين والمحترفين

أفضل أدوات الذكاء الاصطناعي 2026: كيف تضاعف إنتاجيتك في دقائق؟

مقارنة بين Samsung Galaxy Z Fold 6 و Galaxy S24 Ultra: لا تخطئ

يحصل iPhone على أول تطبيق إباحي أصلي له

سامسونج جالكسي S25: الأخبار والسعر المتوقع وتاريخ الإصدار والمزيد

كل ما تريد معرفته عن Reacher الموسم الثالث

Samsung Galaxy Watch 7: الأخبار والسعر المشاع وتاريخ الإصدار والمزيد

يحصل iPhone على أول تطبيق إباحي أصلي له

رسمياً: يمكنك لعب GTA Online مجانًا الآن على جميع المنصات المنزلية

قائمة أكواد Roblox المجانية وكيفية استخدامها: لا تفوت الفرصة!

رائج الآن

يحصل iPhone على أول تطبيق إباحي أصلي له

رسمياً: يمكنك لعب GTA Online مجانًا الآن على جميع المنصات المنزلية

قائمة أكواد Roblox المجانية وكيفية استخدامها: لا تفوت الفرصة!

اختيارات المحرر

قراءة في تسارع أحداث مسلسل “حب ع ورق” الحلقة 28 عبر موقع برستيج

قد يصبح تحديث برنامج سيارتك التالي أكبر خطر أمني

GoDukkan تصبح الوجهة الأولى لمكونات الكمبيوتر الشخصي المتميزة وترقياته في منطقة الخليج

خدمة الإشعارات البريدية

مقالات قد تهمك

تنشر الإنسان وكلاء الذكاء الاصطناعي لمراجعة نماذج من أجل السلامة

فرقة المباحث الرقمية

أنثروبور يضع وكلاء سلامة الذكاء الاصطناعي من خلال خطواتهم

من المختبر إلى العالم الحقيقي

لا تزال الأنثروبور في تعزيز سلامة الذكاء الاصطناعي

المقالات ذات الصلة

خدمة الإشعارات البريدية