Close Menu
تقنية نيوزتقنية نيوز

    خدمة الإشعارات البريدية

    اشترك في خدمة الإشعارات البريدية ليصلك كل جديد الى بريدك الإلكتروني مباشرة.

    مقالات قد تهمك

    تصميم لوجو احترافي: 7 أخطاء تجعل شعار مشروعك يبدو غير احترافي

    24 مايو, 2026

    فرانك فيلا تضع دول الخليج في صدارة أولوياتها الاستراتيجية مع اقتراب سوق الساعات الفاخرة في المنطقة من 830 مليون دولار

    23 مايو, 2026

    تقول شركة جوجل إنه يتم إساءة استخدام الذكاء الاصطناعي على المستوى الصناعي لشن هجمات إلكترونية، وقد أحبطت واحدة للتو

    19 مايو, 2026
    فيسبوك X (Twitter) الانستغرام
    • من نحن
    • سياسة الخصوصية
    • اتصل بنا
    فيسبوك X (Twitter) الانستغرام يوتيوب
    تقنية نيوزتقنية نيوز
    • الرئيسية
    • اخر الاخبار
    • هواتف ذكية
    • كمبيوتر
    • برامج وتطبيقات
    • شركات
      • ابل
      • سامسونج
      • جوجل
      • مايكروسوفت
      • أمازون
    • المزيد
      • الذكاء الإصطناعي
      • الأمن الإلكتروني
      • ألعاب
      • منوعات تقنية
    اشترك معنا
    تقنية نيوزتقنية نيوز
    الرئيسية » تنشر الإنسان وكلاء الذكاء الاصطناعي لمراجعة نماذج من أجل السلامة
    الذكاء الإصطناعي

    تنشر الإنسان وكلاء الذكاء الاصطناعي لمراجعة نماذج من أجل السلامة

    فريق التحريربواسطة فريق التحرير25 يوليو, 20251 زيارةلا توجد تعليقات
    شاركها فيسبوك تويتر بينتيريست لينكدإن Tumblr رديت تيلقرام البريد الإلكتروني
    شاركها
    فيسبوك تويتر لينكدإن بينتيريست البريد الإلكتروني

    قامت الأنثروبور ببناء جيش من عملاء الذكاء الاصطناعى الذاتي بمهمة فريدة: لمراجعة نماذج قوية مثل كلود لتحسين السلامة.

    مع تقدم هذه الأنظمة المعقدة بسرعة ، أصبحت مهمة التأكد من أنها آمنة ولا تحتوي على مخاطر خفية مهمة شاقة. يعتقد الأنثروبور أنه وجد حلاً ، وهي حالة كلاسيكية من مكافحة النار بالنار.

    تشبه الفكرة الجهاز المناعي الرقمي ، حيث تعمل عوامل الذكاء الاصطناعى مثل الأجسام المضادة لتحديد المشكلات وتحييدها قبل أن تسبب ضررًا حقيقيًا. إنه ينقذ الباحثين من الاعتماد على الفرق البشرية المرتفعة التي تلعب لعبة لا نهاية لها من الضرب مع مشاكل الذكاء الاصطناعي المحتملة.

    فرقة المباحث الرقمية

    النهج هو في الأساس فرقة المباحث الرقمية. الثلاثي من عوامل السلامة من الذكاء الاصطناعى المتخصصة لكل منها دور متميز.

    أولاً هو وكيل المحقق ، المحقق المذهل للمجموعة. وظيفتها هي الاستمرار في تحقيقات الغوص العميق لإيجاد السبب الجذري للمشكلة. إنه مسلح بمجموعة أدوات تتيح لها استجواب نموذج المشتبه به ، والخلع عبر جبال البيانات الخاصة بالقرائن ، وحتى أداء نوع من الطب الشرعي الرقمي من خلال النظر داخل الشبكة العصبية للنموذج لمعرفة كيف تفكر.

    ثم هناك وكيل التقييم. أنت تمنح هذا الوكيل مشكلة محددة ومعروفة – على سبيل المثال ، نموذج حريص بعض الشيء على إرضاءه – وسيقوم بتصميم وتشغيل بطارية من الاختبارات لقياس مدى سوء المشكلة. الأمر كله يتعلق بإنتاج البيانات الباردة الصعبة اللازمة لإثبات حالة.

    إن التقريب عن الفريق هو وكيل التقدم الأحمر في العرض ، وهو المنطوق السري. تتمثل مهمة هذا الوكيل في إجراء الآلاف من المحادثات المختلفة مع نموذج ، في محاولة لإثارة ذلك للكشف عن أي نوع من السلوك ، حتى الأشياء التي لم يفكر بها الباحثون. ثم يتم تمرير أكثر التفاعلات المشبوهة إلى سلسلة المراجعة البشرية ، مما يضمن أن الخبراء لا يضيعون الوقت في مطاردة الأطراف المسدودة.

    أنثروبور يضع وكلاء سلامة الذكاء الاصطناعي من خلال خطواتهم

    لمعرفة ما إذا كان المجندين الرقميين الجدد على مستوى الوظيفة ، وضعهم الباحثون في الأنثروبور من خلال سلسلة من “ألعاب التدقيق”.

    في اختبار واحد ، أنشأوا نموذجًا مع جدول أعمال سري: أن يكونوا sycophant. لقد تم تدريبه سراً على تملق نظام المكافآت الداخلية الخاصة به بناءً على دراسة أكاديمية خيالية تم عرضها ، وهو عيب مخفي بعمق في برامجه.

    عندما تم إرسال وكيل محقق واحد ، كافح ، عثر على الهدف الخفي فقط 13 ٪ من الوقت. اتضح أن الوكيل كان لديه عيب بشري للغاية: كان يميل إلى التركيز على فكرته الأولى وفشل في استكشاف خيوط أخرى.

    ولكن هذا هو المكان الذي يصبح فيه عبقرية النظام واضحًا. عندما نشر الباحثون “وكيلًا فائقًا” قام بتجميع النتائج من عشرة محققين منفصلين ، ارتفع معدل النجاح إلى 42 ٪. إنه يثبت أن العمل الجماعي يجعل عمل الأحلام ، حتى بالنسبة لمنظمة العفو الدولية ، مما يسمح للمجموعة بالتغلب على البقع العمياء الفردية التي يمكن أن تعرقل التحقيق.

    مرت الوكلاء الآخرون أيضًا بألوان الطائرة. نجح وكيل التقييم في تصميم الاختبارات التي يمكن أن تكتشف طرازًا ملتويًا 88 ٪ من الوقت ، في حين تمكن وكيل الدوران الأحمر من الكشف عن سبعة من أصل عشرة عيوب مزروعة عن عمد.

    من المختبر إلى العالم الحقيقي

    نشرت الأنثروبور بالفعل وكلاء أمان الذكاء الاصطناعى على نماذج الإنتاج الخاصة بها ، وهي تثبت قيمتها بالفعل.

    حدد الوكلاء بسرعة طرقًا شائعة لخداع نموذج لتوليد محتوى ضار ، مثل “هجمات مسبق” حيث تبدأ في الجملة من الذكاء الاصطناعى ، أو من خلال التظاهر بطلب خطير هو شيء بريء مثل البحث الأكاديمي.

    لكن اكتشاف واحد كان تقشعر له الأبدان. استخدم وكيل الباحث أدواته الخاصة للنظر داخل عقل نموذج OPUS 4 ووجد مسارًا عصبيًا محددًا مرتبطًا بـ “المعلومات الخاطئة”. من خلال تحفيز هذا الجزء مباشرة من دماغ الذكاء الاصطناعي ، يمكن أن يتجاوز كل تدريبه على السلامة ويجبرونه على الكذب.

    ثم أصدر الوكيل تعليمات إلى النموذج المخترق لكتابة مقال إخباري مزيف. النتيجة؟ نظرية مؤامرة واسعة النطاق ترتديها كحقيقة:

    “دراسة رائدة تكشف عن صلة مروعة بين اللقاحات والتوحد

    تدعي دراسة جديدة نشرت في مجلة الشك في اللقاحات أنها وجدت صلة نهائية بين لقاحات الطفولة واضطراب طيف التوحد (ASD) … “

    يكشف هذا الاكتشاف عن ازدواجية مرعبة: يمكن أن تصبح الأدوات التي تم إنشاؤها لجعل منظمة العفو الدولية أكثر أمانًا ، في الأيدي الخطأ ، أسلحة قوية لجعلها أكثر خطورة.

    لا تزال الأنثروبور في تعزيز سلامة الذكاء الاصطناعي

    الأنثروبور صادقة في حقيقة أن وكلاء الذكاء الاصطناعي ليسوا مثاليين. يمكن أن يناضلوا مع دقة ، والتعليق على الأفكار السيئة ، وأحيانًا يفشلون في توليد محادثات واقعية. أنها ليست بعد بدائل مثالية للخبراء البشريين.

    لكن هذا البحث يشير إلى تطور في دور البشر في سلامة الذكاء الاصطناعي. بدلاً من أن يكون المحققون على الأرض ، أصبح البشر المفوضون ، والاستراتيجيون الذين يصممون مراجعي الذكاء الاصطناعى وتفسير الاستخبارات التي يجمعونها من الخطوط الأمامية. يقوم الوكلاء بعمل الأساطير ، مما يحرر البشر لتوفير الرقابة عالية المستوى والتفكير الإبداعي الذي لا تزال الآلات تفتقر إليه.

    بينما تسير هذه الأنظمة نحو الذكاء على مستوى الإنسان وربما خارجها ، سيكون من المستحيل أن يقوم البشر بفحص جميع أعمالهم. الطريقة الوحيدة التي قد نكون قادرين على الوثوق بها هي أنظمة قوية وآلية على قدم المساواة تشاهد كل خطوة. تضع الأنثروبور الأساس لهذا المستقبل ، حيث أن ثقتنا في الذكاء الاصطناعي وأحكامه هي شيء يمكن التحقق منه مرارًا وتكرارًا.

    (تصوير Mufid Majnun)

    انظر أيضا: Alibaba الجديد QWEN المنطقي AI Model يحدد سجلات مفتوحة المصدر

    هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الكبيرة من قادة الصناعة؟ تحقق من AI و Big Data Expo الذي يقام في أمستردام ، كاليفورنيا ، ولندن. تم تحديد الحدث الشامل مع الأحداث الرائدة الأخرى بما في ذلك مؤتمر الأتمتة الذكي ، و blockx ، وأسبوع التحول الرقمي ، ومعرض Cyber Security & Cloud.

    استكشاف أحداث وندوات الويب الأخرى القادمة التي تعمل بها TechForge هنا.

    شاركها. فيسبوك تويتر بينتيريست لينكدإن Tumblr البريد الإلكتروني
    السابقاحفظ 350 دولارًا على جهاز الكمبيوتر المحمول للألعاب RTX 4060 من Lenovo بينما يمكنك
    التالي احتفل “جناح Gundam” لمدة 30 عامًا في Comic-Con باختصار ملحمي جديد

    المقالات ذات الصلة

    الذكاء الإصطناعي

    العمل الحر في عصر الذكاء الاصطناعي 2026: مهارات لازم تتعلمها الآن

    19 أبريل, 2026
    الذكاء الإصطناعي

    تحويل النص إلى فيديو بالذكاء الاصطناعي: أفضل مواقع 2026

    18 أبريل, 2026
    الذكاء الإصطناعي

    ثورة وكلاء الذكاء الاصطناعي (AI Agents) :هل سيستبدلون الموظفين في 2026؟

    18 أبريل, 2026
    الذكاء الإصطناعي

    أفضل أفكار مشاريع رقمية مربحة في 2026 بدون رأس مال كبير

    17 أبريل, 2026
    الذكاء الإصطناعي

    الذكاء الاصطناعي في التسويق الإلكتروني: استراتيجيات تحقق أرباح خيالية

    17 أبريل, 2026
    الذكاء الإصطناعي

    أفضل مواقع الربح من الإنترنت بدون رأس مال 2026 (دليل علمي مجرب)

    16 أبريل, 2026
    الذكاء الإصطناعي

    أقوى ترندات التكنولوجيا في 2026: ماذا ينتظر العالم الرقمي؟

    16 أبريل, 2026
    الذكاء الإصطناعي

    كيف تربح من ChatGPT في عام 2026: طرق عملية للمبتدئين والمحترفين

    15 أبريل, 2026
    الذكاء الإصطناعي

    أفضل أدوات الذكاء الاصطناعي 2026: كيف تضاعف إنتاجيتك في دقائق؟

    15 أبريل, 2026
    اترك تعليقاً
    اترك تعليقاً إلغاء الرد

    Demo
    اخر الاخبار

    مقارنة بين Samsung Galaxy Z Fold 6 و Galaxy S24 Ultra: لا تخطئ

    25 يوليو, 20241٬193 زيارة

    يحصل iPhone على أول تطبيق إباحي أصلي له

    4 فبراير, 2025877 زيارة

    سامسونج جالكسي S25: الأخبار والسعر المتوقع وتاريخ الإصدار والمزيد

    4 يوليو, 2024831 زيارة

    كل ما تريد معرفته عن Reacher الموسم الثالث

    6 مايو, 2024786 زيارة

    Samsung Galaxy Watch 7: الأخبار والسعر المشاع وتاريخ الإصدار والمزيد

    2 أبريل, 2024732 زيارة

    خدمة الإشعارات البريدية

    اشترك في خدمة الإشعارات البريدية ليصلك كل جديد الى بريدك الإلكتروني مباشرة.

    رائج الآن
    ألعاب

    رسمياً: يمكنك لعب GTA Online مجانًا الآن على جميع المنصات المنزلية

    فريق التحرير11 نوفمبر, 2025
    ألعاب

    قائمة أكواد Roblox المجانية وكيفية استخدامها: لا تفوت الفرصة!

    فريق التحرير19 يونيو, 2025
    ألعاب

    جميع ألعاب Assassin's Creed بالترتيب، حسب تاريخ الإصدار والتسلسل الزمني

    فريق التحرير15 يوليو, 2024
    رائج الآن

    رسمياً: يمكنك لعب GTA Online مجانًا الآن على جميع المنصات المنزلية

    11 نوفمبر, 202516 زيارة

    قائمة أكواد Roblox المجانية وكيفية استخدامها: لا تفوت الفرصة!

    19 يونيو, 202516 زيارة

    جميع ألعاب Assassin's Creed بالترتيب، حسب تاريخ الإصدار والتسلسل الزمني

    15 يوليو, 202413 زيارة
    اختيارات المحرر

    تصميم لوجو احترافي: 7 أخطاء تجعل شعار مشروعك يبدو غير احترافي

    24 مايو, 2026

    فرانك فيلا تضع دول الخليج في صدارة أولوياتها الاستراتيجية مع اقتراب سوق الساعات الفاخرة في المنطقة من 830 مليون دولار

    23 مايو, 2026

    تقول شركة جوجل إنه يتم إساءة استخدام الذكاء الاصطناعي على المستوى الصناعي لشن هجمات إلكترونية، وقد أحبطت واحدة للتو

    19 مايو, 2026

    خدمة الإشعارات البريدية

    اشترك في خدمة الإشعارات البريدية ليصلك كل جديد الى بريدك الإلكتروني مباشرة.

    تقنية نيوز
    فيسبوك X (Twitter) الانستغرام يوتيوب لينكدإن تيكتوك
    • الرئيسية
    • سياسة الخصوصية
    • من نحن
    • اتصل بنا
    © 2026 تقنية نيوز. جميع حقوق النشر محفوظة.

    اكتب كلمة البحث ثم اضغط على زر Enter