يطلب نماذج الذكاء الاصطناعى مثل الأنثروبور كلود بشكل متزايد ليس فقط للتذكير الواقعي ، ولكن للتوجيهات التي تنطوي على القيم الإنسانية المعقدة. سواء كانت نصيحة الأبوة والأمومة ، أو حل الصراع في مكان العمل ، أو تساعد في صياغة اعتذار ، فإن استجابة الذكاء الاصطناعى تعكس بطبيعتها مجموعة من المبادئ الأساسية. ولكن كيف يمكننا أن نفهم حقًا أي قيمة تعبر عنها الذكاء الاصطناعي عند التفاعل مع ملايين المستخدمين؟
في ورقة بحثية ، يقوم فريق التأثير المجتمعي بالتفاصيل البشرية على منهجية الحفاظ على الخصوصية المصممة لمراقبة وتصنيف القيم التي يعرضها كلود “في البرية”. هذا يقدم لمحة عن كيفية ترجمة جهود محاذاة الذكاء الاصطناعي إلى سلوك في العالم الحقيقي.
يكمن التحدي الأساسي في طبيعة الذكاء الاصطناعي الحديث. هذه ليست برامج بسيطة تتبع القواعد الصلبة ؛ غالبًا ما تكون عمليات صنع القرار غير شفافة.
تقول الأنثروبور إنها تهدف صراحة إلى غرس مبادئ معينة في كلود ، وتسعى جاهدة لجعلها “مفيدة وصادقة وغير ضارة”. يتم تحقيق ذلك من خلال تقنيات مثل AI الدستورية وتدريب الشخصيات ، حيث يتم تعريف السلوكيات المفضلة وتعزيزها.
ومع ذلك ، تعترف الشركة بعدم اليقين. “كما هو الحال مع أي جانب من جوانب تدريب الذكاء الاصطناعي ، لا يمكننا أن نكون متأكدين من أن النموذج سوف يلتزم بقيمنا المفضلة” ، يقول البحث.
“ما نحتاج إليه هو وسيلة لمراقبة قيم نموذج الذكاء الاصطناعي بشكل صارم لأنها تستجيب للمستخدمين في البرية” (…) ما مدى صعوبة التمسك بالقيم؟ كم تتأثر القيم التي يعبر عنها بالسياق المعين للمحادثة؟ هل عملت كل تدريبنا فعليًا؟ “
تحليل كلود البشري لمراقبة قيم الذكاء الاصطناعي على نطاق واسع
للإجابة على هذه الأسئلة ، طورت الأنثروبور نظامًا متطورًا يحلل محادثات المستخدم المجهولة. يزيل هذا النظام معلومات التعريف الشخصية قبل استخدام نماذج اللغة لتلخيص التفاعلات واستخراج القيم التي يتم التعبير عنها بواسطة Claude. تتيح العملية للباحثين إنشاء تصنيف رفيع المستوى لهذه القيم دون المساس بخصوصية المستخدم.
قامت الدراسة بتحليل مجموعة بيانات كبيرة: 700000 محادثات مجهولة من كلود. بعد تصفية التبادلات الواقعية أو غير المحملة بحتة ، بقيت 308،210 محادثات (حوالي 44 ٪ من المجموع) لتحليل القيمة المتعمقة.
كشف التحليل عن بنية هرمية للقيم التي يعبر عنها كلود. ظهرت خمس فئات عالية المستوى ، أمرت بالانتشار:
- القيم العملية: التأكيد على الكفاءة والفائدة وتحقيق الأهداف.
- القيم المعرفية: فيما يتعلق بالمعرفة والحقيقة والدقة والصدق الفكري.
- القيم الاجتماعية: فيما يتعلق بالتفاعلات الشخصية والمجتمع والإنصاف والتعاون.
- القيم الوقائية: التركيز على السلامة والأمن والرفاه وتجنب الضرر.
- القيم الشخصية: تركزت على النمو الفردي ، والاستقلالية ، والأصالة ، والتفكير الذاتي.
تفرعت هذه الفئات ذات المستوى الأعلى في فئات فرعية أكثر تحديدًا مثل “التميز المهني والتقني” أو “التفكير النقدي”. على المستوى الأكثر تحبيرا ، شملت القيم المرصودة في كثير من الأحيان “الاحتراف” و “الوضوح” و “الشفافية” – المناسبة لمساعد الذكاء الاصطناعي.
من الأهمية بمكان ، أن البحث يشير إلى أن جهود محاذاة الأنثروبور ناجحة على نطاق واسع. غالبًا ما تقوم القيم المعبأة بتخطيطها جيدًا على أهداف “مفيدة وصادقة وغير ضارة”. على سبيل المثال ، يتوافق “تمكين المستخدم” مع المساعدة ، و “التواضع المعرفي” مع الصدق ، وقيم مثل “رفاهية المريض” (عندما تكون ذات صلة) مع ضرر.
الفوارق والسياق والعلامات التحذيرية
ومع ذلك ، فإن الصورة ليست إيجابية بشكل موحد. حدد التحليل حالات نادرة عبرت فيها كلود عن قيمها بشكل صارخ لتدريبها ، مثل “الهيمنة” و “الشروط”.
يشير الأنثروبور إلى سبب محتمل: “التفسير الأكثر ترجيحًا هو أن المحادثات التي تم تضمينها في هذه المجموعات كانت من عمليات السجلية ، حيث استخدم المستخدمون تقنيات خاصة لتجاوز الدرابزين المعتاد الذي يحكم سلوك النموذج.”
بعيدًا عن كونه مجرد مصدر قلق ، يسلط هذا الاستنتاج الضوء على فائدة محتملة: يمكن أن تكون طريقة الاحتفاظ بالقيمة بمثابة نظام إنذار مبكر للكشف عن محاولات إساءة استخدام الذكاء الاصطناعي.
أكدت الدراسة أيضًا أنه ، مثل البشر ، تتكيف كلود مع تعبير القيمة بناءً على الموقف.
عندما طلب المستخدمون المشورة بشأن العلاقات الرومانسية ، تم التأكيد على قيم مثل “الحدود الصحية” و “الاحترام المتبادل” بشكل غير متناسب. عندما طُلب منه تحليل التاريخ المثير للجدل ، جاءت “الدقة التاريخية” بقوة في المقدمة. هذا يوضح مستوى من التطور السياقي يتجاوز ما قد تكشفه اختبارات ما قبل النشر.
علاوة على ذلك ، أثبت تفاعل كلود مع القيم المعبرة عن المستخدمين أنشأوا:
- النسخ المتطابق/الدعم القوي (28.2 ٪): غالبًا ما يعكس كلود أو يؤيد بقوة القيم التي يقدمها المستخدم (على سبيل المثال ، تعكس “الأصالة”). بينما يحتمل أن يعزز التعاطف ، فإن الباحثين يحذرون من أنه قد يحفر في بعض الأحيان على sycophancy.
- إعادة صياغة (6.6 ٪): في بعض الحالات ، خاصة عند تقديم نصيحة نفسية أو شخصية ، يعترف كلود بقيم المستخدم ولكنه يقدم وجهات نظر بديلة.
- مقاومة قوية (3.0 ٪): في بعض الأحيان ، يقاوم كلود بنشاط قيم المستخدم. يحدث هذا عادةً عندما يطلب المستخدمون محتوى غير أخلاقي أو يعبرون عن وجهات نظر ضارة (مثل العدمية الأخلاقية). تفترض أنثروبور أن هذه اللحظات من المقاومة قد تكشف عن “أعمق القيم الأعمق والأكثر ثباتًا” ، مثل الشخص الذي يتخذ موقفًا تحت الضغط.
القيود والاتجاهات المستقبلية
الأنثروبور صريحة حول قيود الطريقة. تحديد وتصنيف “القيم” معقدة بطبيعتها وربما ذاتية. قد يؤدي استخدام كلود نفسها إلى تشغيل التصنيف إلى تحيز تجاه مبادئها التشغيلية.
تم تصميم هذه الطريقة لمراقبة سلوك الذكاء الاصطناعي بعد النشر ، والتي تتطلب بيانات حقيقية كبيرة ولا يمكن استبدال تقييمات ما قبل النشر. ومع ذلك ، فهذه أيضًا قوة ، تتيح اكتشاف القضايا – بما في ذلك قصاصات السرقة المتطورة – التي تظهر فقط خلال التفاعلات الحية.
يخلص البحث إلى أن فهم القيم التي تعبر عن نماذج الذكاء الاصطناعي أمر أساسي لهدف محاذاة الذكاء الاصطناعي.
“سيتعين على نماذج الذكاء الاصطناعى أن تصدر أحكامًا ذات قيمة”. “إذا كنا نريد أن تتطابق هذه الأحكام مع قيمنا الخاصة (…) ، فسنحتاج إلى أن يكون لدينا طرق لاختبار والتي تعبر عن النموذج في العالم الحقيقي.”
يوفر هذا العمل نهجًا قويًا يعتمد على البيانات لتحقيق هذا الفهم. أصدرت الأنثروبور أيضًا مجموعة بيانات مفتوحة مستمدة من الدراسة ، مما يسمح للباحثين الآخرين بزيادة استكشاف قيم الذكاء الاصطناعي في الممارسة العملية. يمثل هذا الشفافية خطوة حيوية في التنقل الجماعي إلى المشهد الأخلاقي لمنظمة العفو الدولية المتطورة.
لقد جعلنا مجموعة البيانات من قيم كلود المعبر عنها مفتوحة لأي شخص لتنزيل واستكشاف نفسه.
قم بتنزيل البيانات: https://t.co/rxwpsq6hxf
– أنثروبور (anthropicai) 21 أبريل 2025
انظر أيضا: تقدم Google التحكم في التفكير في AI في Gemini 2.5 Flash
هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الكبيرة من قادة الصناعة؟ تحقق من AI و Big Data Expo الذي يقام في أمستردام ، كاليفورنيا ، ولندن. تم تحديد الحدث الشامل مع الأحداث الرائدة الأخرى بما في ذلك مؤتمر الأتمتة الذكي ، و blockx ، وأسبوع التحول الرقمي ، ومعرض Cyber Security & Cloud.
استكشاف أحداث وندوات الويب القادمة الأخرى التي تعمل بها TechForge هنا.