Close Menu
تقنية نيوزتقنية نيوز

    خدمة الإشعارات البريدية

    اشترك في خدمة الإشعارات البريدية ليصلك كل جديد الى بريدك الإلكتروني مباشرة.

    مقالات قد تهمك

    هل اختصار TAB ALT Windows 'ALT+مكسور لك؟ التحديث المارقة هو المسؤول

    2 يوليو, 2025

    يريدون الذكور على الإنترنت من أمريكا البيضاء أن تخشى زهران مامداني

    2 يوليو, 2025

    تحارب Microsoft هجمات “تفجير البريد الإلكتروني” مع تحديث أمنية Office 365

    2 يوليو, 2025
    فيسبوك X (Twitter) الانستغرام
    • من نحن
    • سياسة الخصوصية
    • اتصل بنا
    فيسبوك X (Twitter) الانستغرام يوتيوب
    تقنية نيوزتقنية نيوز
    • الرئيسية
    • اخر الاخبار
    • هواتف ذكية
    • كمبيوتر
    • برامج وتطبيقات
    • شركات
      • ابل
      • سامسونج
      • جوجل
      • مايكروسوفت
      • أمازون
    • المزيد
      • الذكاء الإصطناعي
      • الأمن الإلكتروني
      • ألعاب
      • منوعات تقنية
    اشترك معنا
    تقنية نيوزتقنية نيوز
    الرئيسية » إطار منظمة العفو الدولية يعالج عدم استقرار وكيل LLM
    الذكاء الإصطناعي

    إطار منظمة العفو الدولية يعالج عدم استقرار وكيل LLM

    فريق التحريربواسطة فريق التحرير24 أبريل, 20250 زيارةلا توجد تعليقات
    شاركها فيسبوك تويتر بينتيريست لينكدإن Tumblr رديت تيلقرام البريد الإلكتروني
    شاركها
    فيسبوك تويتر لينكدإن بينتيريست البريد الإلكتروني

    قدم الباحثون RAGEN ، وهو إطار منظمة العفو الدولية المصمم لمواجهة عدم استقرار وكيل LLM عند التعامل مع المواقف المعقدة.

    يعرض تدريب وكلاء الذكاء الاصطناعى عقبات كبيرة ، خاصة عندما تمتد القرارات على خطوات متعددة وتتضمن ردود فعل غير متوقعة من البيئة. بينما أظهر التعلم التعزيز (RL) وعدًا في المهام الثابتة مثل حل مشاكل الرياضيات أو توليد التعليمات البرمجية ، فقد تم استكشاف تطبيقه الديناميكي متعدد المنعطفات.

    في كلمته أمام هذه الفجوة ، اقترح فريق تعاوني من مؤسسات بما في ذلك جامعة نورث وسترن وجامعة ستانفورد ومايكروسوفت وجامعة نيويورك Starpo (تحسين سياسة التكاثرات التي تفكر في الولاية).

    يقدم Starpo نهجًا معممًا لوكلاء التدريب على مستوى المسار (أي أنه يحسن تسلسل التفاعلات بالكامل ، وليس فقط الإجراءات الفردية.)

    يرافق هذا RAGEN ، وهو نظام وحدات تم تصميمه لتنفيذ Starpo. يتيح ذلك تدريب وتقييم وكلاء LLM ، مع التركيز بشكل خاص على قدراتهم المنطقية بموجب RL. يوفر Ragen البنية التحتية اللازمة للطرح ، وتعيين المكافآت ، والتحسين في بيئات متعددة الدوران (المحدد عشوائيًا).

    البيئات البسيطة ، أقصى رؤية

    لعزل تحديات التعلم الأساسية من العوامل المربكة مثل المعرفة الواسعة أو الهندسة الخاصة بالمهمة ، قام الباحثون باختبار LLMs باستخدام RAGEN في ثلاث بيئات ألعاب رمزية قابلة للتحكم في أضيق القابلة للسيطرة:

    1. اللصوص: انعطف واحد ، لاختبار المهام العشوائية عن التفكير الرمزي الحساس للمخاطر. يختار الوكيل بين الخيارات (مثل “Phoenix” أو “Dragon” Arms) مع ملفات تعريف مختلفة وغير معروفة في البداية.
    2. سوكوبان: إن اللغز المتعدد وحتمية يتطلب التبصر والتخطيط ، لأن الإجراءات (صناديق الدفع) لا رجعة فيها.
    3. البحيرة المجمدة: يمكن أن تفشل مهمة التنقل في الشبكة المتعددة ، حيث يمكن أن تفشل محاولات الحركة بشكل عشوائي ، وتتطلب التخطيط في ظل عدم اليقين.

    تسمح هذه البيئات بتحليل واضح لكيفية تعلم الوكلاء لسياسات صنع القرار بحتة من خلال التفاعل.

    النتائج الرئيسية: الاستقرار ، التمرير ، والتفكير

    أسفرت الدراسة عن ثلاث نتائج مهمة فيما يتعلق بتدريب عوامل LLM المتطورة الذاتية:

    “فخ الصدى” والحاجة إلى الاستقرار

    تم تسمية مشكلة متكررة لوحظت خلال التدريب متعدد المنعطفات على “فخ الصدى”. سيتحسن الوكلاء في البداية ، لكنهم يعانون بعد ذلك من انهيار الأداء ، مما يدعى على أنماط التفكير المكافأة محليًا.

    تميز هذا بانهيار تباين المكافآت ، انخفاض الانتروبيا (مقياس من العشوائية/الاستكشاف) ، والمسامير المفاجئة في التدرجات (تشير إلى عدم استقرار التدريب). وشملت العلامات المبكرة قطرات في الانحراف المعياري للمكافآت وأنتروبيا الإخراج.

    لمكافحة هذا ، طور الفريق Starpo-S ، وهو نسخة مستقرة من الإطار. يتضمن Starpo-S:

    • تصفية المسار القائم على التباين: التركيز على التدريب على مثيلات المهمة حيث يظهر سلوك الوكيل عدم اليقين أعلى (تباين أعلى المكافآت) ، والتجاهل لاتجاهات منخفضة ، وأقل مفيدة. هذا تحسين الاستقرار والكفاءة.
    • دمج الناقد: باستخدام طرق مثل PPO (تحسين السياسة القريبة) ، والتي تستخدم “ناقد” لتقدير القيمة ، أظهرت عمومًا استقرارًا أفضل من الأساليب الخالية من الناقد مثل GRPO (تحسين السياسة النسبية للمجموعة) في معظم الاختبارات.
    • قطع مفصل وإزالة KL: التقنيات المقتبسة من أبحاث أخرى (DAPO) التي تنطوي على قطع غير متماثلة (مما يسمح بمزيد من التعلم العدواني من المكافآت الإيجابية) وإزالة عقوبات التباعد KL (تشجيع الاستكشاف) زيادة الاستقرار والأداء.

    تأخرت STARPO-S باستمرار من الانهيار وتحسين أداء المهمة النهائية مقارنة بفانيليا ستاربو.

    جودة التشغيل أمر بالغ الأهمية

    خصائص “التمرير” (مسارات التفاعل المحاكاة المستخدمة للتدريب) تؤثر بشكل كبير على التعلم. تشمل العوامل الرئيسية المحددة:

    • تنوع المهام: التدريب مع مجموعة متنوعة من الحالات الأولية (المطالبات) ، ولكن مع استجابات متعددة تم إنشاؤها لكل موجه ، تعميم الإيدز. يبدو أن البقعة الحلوة هي تنوع معتدل مما يتيح التباين بين النتائج المختلفة في سيناريوهات مماثلة.
    • تفاعل التفاعل: يتيح السماح بإجراءات متعددة لكل منعطف (حوالي 5-6 مثبتًا مثبتًا) التخطيط بشكل أفضل ضمن حد انعطاف ثابت ، دون تقديم الضوضاء المرتبطة بتسلسلات العمل الطويلة المفرطة.
    • تردد التراجع: إن استخدام التمرير الطازج الذي يحديث والذي يعكس السياسة الحالية للوكيل أمر حيوي. يؤدي أخذ العينات الأكثر شيوعًا (الاقتراب من إعداد “عبر الإنترنت”) إلى تقارب أسرع وتعميم أفضل عن طريق تقليل عدم تطابق السياسة.

    يعد الحفاظ على النضارة ، إلى جانب ميزانيات العمل المناسبة وتنوع المهام ، مفتاح التدريب المستقر.

    يتطلب التفكير تصميم مكافأة دقيقة

    ببساطة تطور النماذج إلى “التفكير” لا يضمن ظهور التفكير ذي معنى ، خاصة في المهام متعددة المنعطفات. وجدت الدراسة:

    • ساعدت آثار التفكير في التعميم في مهمة Bandit الأكثر بساطة وفرقة ، حتى عندما تتعارض الإشارات الرمزية مع المكافآت.
    • في المهام متعددة المنعطفات مثل سوكوبان ، كانت فوائد التفكير محدودة ، وانخفض طول شرائح “التفكير” باستمرار أثناء التدريب. غالبًا ما تراجع الوكلاء لتوجيه اختيار العمل أو إنتاج “التفكير الملموس” إذا لم تتبع المكافآت سوى نجاح المهمة ، مما يكشف عن “عدم تطابق بين الأفكار وحالات البيئة”.

    هذا يشير إلى أن المكافآت القياسية على مستوى المسار (غالبًا ما تكون متناثرة وقائمة على النتائج) غير كافية.

    “بدون إشارات المكافأة ذات الحبيبات الدقيقة والمنطق ، لا يكاد يكون العامل التفكير (S) من خلال RL متعددة المنعطفات.”

    يقترح الباحثون أن يستكشف العمل المستقبلي المكافآت التي تقيم صراحة جودة خطوات التفكير الوسيط ، وربما باستخدام العقوبات القائمة على التنسيق أو جودة التفسير المجزية ، بدلاً من النتائج النهائية فقط.

    Ragen و Starpo: خطوة نحو التطور الذاتي الذكاء الاصطناعي

    يمثل نظام Ragen و Starpo Framework خطوة نحو التدريب على وكلاء LLM التي يمكن أن تسبب والتكيف من خلال التفاعل في بيئات معقدة لا يمكن التنبؤ بها.

    يسلط هذا البحث الضوء على تحديات الاستقرار الفريدة التي تطرحها RL متعددة المنعطفات ويقدم استراتيجيات ملموسة-مثل تقنيات تصفية وتثبيت Starpo-S-لتخفيفها. كما أنه يؤكد الدور الحاسم لاستراتيجيات توليد البدء والحاجة إلى آليات مكافأة أكثر تطوراً لزراعة التفكير الحقيقي ، بدلاً من الاستراتيجيات السطحية أو الهلوسة.

    في حين أن الاعتراف بالقيود – بما في ذلك الحاجة إلى اختبار النماذج الأكبر والتحسين للمجالات دون مكافآت يمكن التحقق منها بسهولة – يفتح العمل “مسارًا قابلاً للتطوير ومبدئي لبناء أنظمة الذكاء الاصطناعى” في المجالات التي تتطلب التفاعل المعقد والنتائج التي يمكن التحقق منها ، مثل نظرية إثبات وهندسة البرمجيات والاكتشاف العلمي.

    (صورة بواسطة Gerd Altmann)

    انظر أيضا: كيف يحكم الذكاء الاصطناعي؟ الدراسات الإنسانية قيم كلود

    هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الكبيرة من قادة الصناعة؟ تحقق من AI و Big Data Expo الذي يقام في أمستردام ، كاليفورنيا ، ولندن. تم تحديد الحدث الشامل مع الأحداث الرائدة الأخرى بما في ذلك مؤتمر الأتمتة الذكي ، و blockx ، وأسبوع التحول الرقمي ، ومعرض Cyber ​​Security & Cloud.

    استكشاف أحداث وندوات الويب القادمة الأخرى التي تعمل بها TechForge هنا.

    شاركها. فيسبوك تويتر بينتيريست لينكدإن Tumblr البريد الإلكتروني
    السابقوفر ما يصل إلى 33 ٪ على بطاقات MicroSD عالية السرعة في Sandisk
    التالي أنا أستخدم مساعد صوت iOS الحيرة على جهاز iPhone الخاص بي ، وهو أفضل من Siri

    المقالات ذات الصلة

    الذكاء الإصطناعي

    فيضان الاهتمام بخطة Gigafactories في أوروبا

    1 يوليو, 2025
    الذكاء الإصطناعي

    هل يمكن للشبكة التعامل مع شهية الذكاء الاصطناعى المتزايدة؟

    30 يونيو, 2025
    الذكاء الإصطناعي

    استكشاف كيف تغيرت الذكاء الاصطناعى الحياة اليومية

    30 يونيو, 2025
    الذكاء الإصطناعي

    شركاء الوجه مع Groq للحصول على استنتاج نموذج الذكاء الاصطناعى فائق السرعة

    29 يونيو, 2025
    الذكاء الإصطناعي

    مستقبل منظمة العفو الدولية في الصين ولعبة هواوي الطويلة

    29 يونيو, 2025
    الذكاء الإصطناعي

    تبني الذكاء الاصطناعى ينضج ولكن تبقى عقبات النشر

    29 يونيو, 2025
    الذكاء الإصطناعي

    تلميحات Apple في AI Chip Design Automation Future Future

    29 يونيو, 2025
    الذكاء الإصطناعي

    مطالبة سابقة في المطالبة الجشع التي تخون سلامة الذكاء الاصطناعي

    29 يونيو, 2025
    الذكاء الإصطناعي

    Huawei Harmonyos 6 AI Agents Beta تم إصدارها للمطورين

    28 يونيو, 2025
    اترك تعليقاً
    اترك تعليقاً إلغاء الرد

    Demo
    اخر الاخبار

    كيفية تسجيل مقاطع فيديو محمية بدون شاشة سوداء

    31 يوليو, 2024909 زيارة

    سامسونج جالكسي S25: الأخبار والسعر المتوقع وتاريخ الإصدار والمزيد

    4 يوليو, 2024720 زيارة

    كل ما تريد معرفته عن Reacher الموسم الثالث

    6 مايو, 2024708 زيارة

    Samsung Galaxy Watch 7: الأخبار والسعر المشاع وتاريخ الإصدار والمزيد

    2 أبريل, 2024659 زيارة

    4 مزايا بطاريات السيليكون الكربونية للهواتف الذكية

    7 مارس, 2024506 زيارة

    خدمة الإشعارات البريدية

    اشترك في خدمة الإشعارات البريدية ليصلك كل جديد الى بريدك الإلكتروني مباشرة.

    رائج الآن
    اخر الاخبار

    تبسيط احتياجات محاسبة عملك مع Intuit QuickBooks ، الآن 64 ٪ خصم

    فريق التحرير28 أبريل, 2025
    اخر الاخبار

    يحصل iPhone على أول تطبيق إباحي أصلي له

    فريق التحرير4 فبراير, 2025
    أمازون

    كل ما تريد معرفته عن Reacher الموسم الثالث

    فريق التحرير6 مايو, 2024
    رائج الآن

    تبسيط احتياجات محاسبة عملك مع Intuit QuickBooks ، الآن 64 ٪ خصم

    28 أبريل, 202536 زيارة

    يحصل iPhone على أول تطبيق إباحي أصلي له

    4 فبراير, 202527 زيارة

    كل ما تريد معرفته عن Reacher الموسم الثالث

    6 مايو, 202418 زيارة
    اختيارات المحرر

    هل اختصار TAB ALT Windows 'ALT+مكسور لك؟ التحديث المارقة هو المسؤول

    2 يوليو, 2025

    يريدون الذكور على الإنترنت من أمريكا البيضاء أن تخشى زهران مامداني

    2 يوليو, 2025

    تحارب Microsoft هجمات “تفجير البريد الإلكتروني” مع تحديث أمنية Office 365

    2 يوليو, 2025

    خدمة الإشعارات البريدية

    اشترك في خدمة الإشعارات البريدية ليصلك كل جديد الى بريدك الإلكتروني مباشرة.

    تقنية نيوز
    فيسبوك X (Twitter) الانستغرام يوتيوب لينكدإن تيكتوك
    • الرئيسية
    • سياسة الخصوصية
    • من نحن
    • اتصل بنا
    © 2025 تقنية نيوز. جميع حقوق النشر محفوظة.

    اكتب كلمة البحث ثم اضغط على زر Enter