التفاصيل الإنسانية استراتيجية سلامة الذكاء الاصطناعي

قامت الأنثروبور بتفصيل استراتيجية السلامة الخاصة بها لمحاولة الحفاظ على نموذج الذكاء الاصطناعي الشهير ، كلود ، مفيدًا مع تجنب الأضرار الإدامة.

أساسي في هذا الجهد هو فريق ضمانات الأنثروبور. الذين ليسوا مجموعة الدعم الفني المتوسط ، إنهم مزيج من خبراء السياسة وعلماء البيانات والمهندسين ومحللي التهديد الذين يعرفون مدى تفكير الجهات الفاعلة السيئة.

ومع ذلك ، فإن نهج الأنثروبور في السلامة ليس جدارًا واحدًا ولكنه يشبه القلعة ذات الطبقات المتعددة من الدفاع. كل شيء يبدأ بإنشاء القواعد الصحيحة وينتهي مع صيد تهديدات جديدة في البرية.

أولاً ، هي سياسة الاستخدام ، والتي هي في الأساس كتاب القواعد لكيفية عدم استخدام كلود ولا ينبغي استخدامه. إنه يقدم إرشادات واضحة حول القضايا الكبيرة مثل سلامة الانتخابات وسلامة الطفل ، وكذلك على استخدام كلود بمسؤولية في مجالات حساسة مثل التمويل أو الرعاية الصحية.

لتشكيل هذه القواعد ، يستخدم الفريق إطار ضرر موحد. هذا يساعدهم على التفكير من خلال أي آثار سلبية محتملة ، من الأذى المادي والنفسي إلى الأذى الاقتصادي والمجتمعي. إنه أقل من نظام تصنيف رسمي وأكثر من طريقة منظمة لوزن المخاطر عند اتخاذ القرارات. كما أنها تجلب خبراء خارجيين لاختبارات ضعف السياسة. يحاول هؤلاء المتخصصون في مجالات مثل الإرهاب وسلامة الطفل “كسر” كلود مع أسئلة صعبة لمعرفة أين توجد نقاط الضعف.

رأينا هذا في العمل خلال انتخابات الولايات المتحدة 2024. بعد العمل مع معهد الحوار الاستراتيجي ، أدركت الأنثروبور أن كلود قد يعطي معلومات التصويت القديمة. لذلك ، أضافوا لافتة توجه المستخدمين إلى Turbovote ، وهو مصدر موثوق به لمعلومات الانتخابات المحدثة وغير الحزبية.

تعليم كلود الصحيح من الخطأ

يعمل فريق Sofeguards للأنثروبور عن كثب مع المطورين الذين يتدربون كلود على بناء السلامة من البداية. هذا يعني تحديد أنواع الأشياء التي يجب على كلود ولا ينبغي أن يفعلها ، وتضمين هذه القيم في النموذج نفسه.

كما يتعاونون مع المتخصصين للحصول على هذا بشكل صحيح. على سبيل المثال ، من خلال الشراكة مع LOWERY ، قائد دعم الأزمات ، قاموا بتدريس كلود كيفية التعامل مع المحادثات الحساسة حول الصحة العقلية وإيذاء الذات بعناية ، بدلاً من رفض التحدث. هذا التدريب الدقيق هو السبب في أن كلود سيرفض طلبات المساعدة في الأنشطة غير القانونية أو كتابة التعليمات البرمجية الضارة أو إنشاء عمليات احتيال.

قبل أي إصدار جديد من Claude مباشرة ، يتم وضعه من خلال خطواته مع ثلاثة أنواع رئيسية من التقييم.

تقييمات السلامة: تحقق هذه الاختبارات ما إذا كان كلود يلتصق بالقواعد ، حتى في المحادثات الطويلة الصعبة.

تقييمات المخاطر: بالنسبة لمناطق المخاطر العالية حقًا مثل التهديدات الإلكترونية أو المخاطر البيولوجية ، يقوم الفريق بإجراء اختبارات متخصصة ، وغالبًا ما يكون بمساعدة من شركاء الحكومة والصناعة.

تقييمات التحيز: هذا كل شيء عن الإنصاف. يتحققون مما إذا كان كلود يقدم إجابات موثوقة ودقيقة للجميع ، أو اختبار التحيز السياسي أو ردود منحرف بناءً على أشياء مثل الجنس أو العرق.

يساعد هذا الاختبار المكثف الفريق على معرفة ما إذا كان التدريب عالقًا ويخبرهم إذا كانوا بحاجة إلى بناء حماية إضافية قبل الإطلاق.

استراتيجية سلامة الذكاء الاصطناعى الأنثروب

بمجرد خروج كلود في العالم ، يراقب مزيج من الأنظمة الآلية والمراجعين البشر عن المتاعب. الأداة الرئيسية هنا هي مجموعة من نماذج كلود المتخصصة تسمى “المصنفات” التي يتم تدريبها على اكتشاف انتهاكات سياسية محددة في الوقت الفعلي عند حدوثها.

إذا اكتشف المصنف مشكلة ، فيمكن أن يؤدي ذلك إلى إجراءات مختلفة. قد توجه استجابة كلود بعيدًا عن توليد شيء ضار ، مثل البريد العشوائي. بالنسبة للمجرمين المتكررين ، قد يصدر الفريق تحذيرات أو حتى إيقاف الحساب.

ينظر الفريق أيضًا إلى الصورة الأكبر. يستخدمون أدوات صديقة للخصوصية لاكتشاف الاتجاهات في كيفية استخدام كلود وتوظيف تقنيات مثل التلخيص الهرمي لاكتشاف سوء الاستخدام على نطاق واسع ، مثل حملات التأثير المنسقة. إنهم يبحثون باستمرار عن التهديدات الجديدة ، ويحفرون من خلال البيانات ، ومراقبة المنتديات التي قد تتسكع فيها الجهات الفاعلة السيئة.

ومع ذلك ، تقول الأنثروبور إنها تعرف أن ضمان سلامة الذكاء الاصطناعي ليس وظيفة يمكنهم القيام بها بمفردها. إنهم يعملون بنشاط مع الباحثين وصانعي السياسات والجمهور لبناء أفضل الضمانات الممكنة.

(صورة الرصاص من قبل نيك.

انظر أيضا: Suvianna Grecu ، منظمة العفو الدولية للتغيير: بدون قواعد ، مخاطر الذكاء الاصطناعي “أزمة الثقة”

هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الكبيرة من قادة الصناعة؟ تحقق من AI و Big Data Expo الذي يقام في أمستردام ، كاليفورنيا ، ولندن. تم تحديد الحدث الشامل مع الأحداث الرائدة الأخرى بما في ذلك مؤتمر الأتمتة الذكي ، و blockx ، وأسبوع التحول الرقمي ، ومعرض Cyber Security & Cloud.

استكشاف أحداث وندوات الويب القادمة الأخرى التي تعمل بها TechForge هنا.

مقالات قد تهمك

قراءة في تسارع أحداث مسلسل “حب ع ورق” الحلقة 28 عبر موقع برستيج

قد يصبح تحديث برنامج سيارتك التالي أكبر خطر أمني

GoDukkan تصبح الوجهة الأولى لمكونات الكمبيوتر الشخصي المتميزة وترقياته في منطقة الخليج

العمل الحر في عصر الذكاء الاصطناعي 2026: مهارات لازم تتعلمها الآن

تحويل النص إلى فيديو بالذكاء الاصطناعي: أفضل مواقع 2026

ثورة وكلاء الذكاء الاصطناعي (AI Agents) :هل سيستبدلون الموظفين في 2026؟

أفضل أفكار مشاريع رقمية مربحة في 2026 بدون رأس مال كبير

الذكاء الاصطناعي في التسويق الإلكتروني: استراتيجيات تحقق أرباح خيالية

أفضل مواقع الربح من الإنترنت بدون رأس مال 2026 (دليل علمي مجرب)

أقوى ترندات التكنولوجيا في 2026: ماذا ينتظر العالم الرقمي؟

كيف تربح من ChatGPT في عام 2026: طرق عملية للمبتدئين والمحترفين

أفضل أدوات الذكاء الاصطناعي 2026: كيف تضاعف إنتاجيتك في دقائق؟

مقارنة بين Samsung Galaxy Z Fold 6 و Galaxy S24 Ultra: لا تخطئ

يحصل iPhone على أول تطبيق إباحي أصلي له

سامسونج جالكسي S25: الأخبار والسعر المتوقع وتاريخ الإصدار والمزيد

كل ما تريد معرفته عن Reacher الموسم الثالث

Samsung Galaxy Watch 7: الأخبار والسعر المشاع وتاريخ الإصدار والمزيد

يحصل iPhone على أول تطبيق إباحي أصلي له

رسمياً: يمكنك لعب GTA Online مجانًا الآن على جميع المنصات المنزلية

قائمة أكواد Roblox المجانية وكيفية استخدامها: لا تفوت الفرصة!

رائج الآن

يحصل iPhone على أول تطبيق إباحي أصلي له

رسمياً: يمكنك لعب GTA Online مجانًا الآن على جميع المنصات المنزلية

قائمة أكواد Roblox المجانية وكيفية استخدامها: لا تفوت الفرصة!

اختيارات المحرر

قراءة في تسارع أحداث مسلسل “حب ع ورق” الحلقة 28 عبر موقع برستيج

قد يصبح تحديث برنامج سيارتك التالي أكبر خطر أمني

GoDukkan تصبح الوجهة الأولى لمكونات الكمبيوتر الشخصي المتميزة وترقياته في منطقة الخليج

خدمة الإشعارات البريدية

مقالات قد تهمك

التفاصيل الإنسانية استراتيجية سلامة الذكاء الاصطناعي

تعليم كلود الصحيح من الخطأ

استراتيجية سلامة الذكاء الاصطناعى الأنثروب

المقالات ذات الصلة

خدمة الإشعارات البريدية