قدم الباحثون RAGEN ، وهو إطار منظمة العفو الدولية المصمم لمواجهة عدم استقرار وكيل LLM عند التعامل مع المواقف المعقدة.
يعرض تدريب وكلاء الذكاء الاصطناعى عقبات كبيرة ، خاصة عندما تمتد القرارات على خطوات متعددة وتتضمن ردود فعل غير متوقعة من البيئة. بينما أظهر التعلم التعزيز (RL) وعدًا في المهام الثابتة مثل حل مشاكل الرياضيات أو توليد التعليمات البرمجية ، فقد تم استكشاف تطبيقه الديناميكي متعدد المنعطفات.
في كلمته أمام هذه الفجوة ، اقترح فريق تعاوني من مؤسسات بما في ذلك جامعة نورث وسترن وجامعة ستانفورد ومايكروسوفت وجامعة نيويورك Starpo (تحسين سياسة التكاثرات التي تفكر في الولاية).
يقدم Starpo نهجًا معممًا لوكلاء التدريب على مستوى المسار (أي أنه يحسن تسلسل التفاعلات بالكامل ، وليس فقط الإجراءات الفردية.)
يرافق هذا RAGEN ، وهو نظام وحدات تم تصميمه لتنفيذ Starpo. يتيح ذلك تدريب وتقييم وكلاء LLM ، مع التركيز بشكل خاص على قدراتهم المنطقية بموجب RL. يوفر Ragen البنية التحتية اللازمة للطرح ، وتعيين المكافآت ، والتحسين في بيئات متعددة الدوران (المحدد عشوائيًا).
البيئات البسيطة ، أقصى رؤية
لعزل تحديات التعلم الأساسية من العوامل المربكة مثل المعرفة الواسعة أو الهندسة الخاصة بالمهمة ، قام الباحثون باختبار LLMs باستخدام RAGEN في ثلاث بيئات ألعاب رمزية قابلة للتحكم في أضيق القابلة للسيطرة:
- اللصوص: انعطف واحد ، لاختبار المهام العشوائية عن التفكير الرمزي الحساس للمخاطر. يختار الوكيل بين الخيارات (مثل “Phoenix” أو “Dragon” Arms) مع ملفات تعريف مختلفة وغير معروفة في البداية.
- سوكوبان: إن اللغز المتعدد وحتمية يتطلب التبصر والتخطيط ، لأن الإجراءات (صناديق الدفع) لا رجعة فيها.
- البحيرة المجمدة: يمكن أن تفشل مهمة التنقل في الشبكة المتعددة ، حيث يمكن أن تفشل محاولات الحركة بشكل عشوائي ، وتتطلب التخطيط في ظل عدم اليقين.
تسمح هذه البيئات بتحليل واضح لكيفية تعلم الوكلاء لسياسات صنع القرار بحتة من خلال التفاعل.
النتائج الرئيسية: الاستقرار ، التمرير ، والتفكير
أسفرت الدراسة عن ثلاث نتائج مهمة فيما يتعلق بتدريب عوامل LLM المتطورة الذاتية:
“فخ الصدى” والحاجة إلى الاستقرار
تم تسمية مشكلة متكررة لوحظت خلال التدريب متعدد المنعطفات على “فخ الصدى”. سيتحسن الوكلاء في البداية ، لكنهم يعانون بعد ذلك من انهيار الأداء ، مما يدعى على أنماط التفكير المكافأة محليًا.
تميز هذا بانهيار تباين المكافآت ، انخفاض الانتروبيا (مقياس من العشوائية/الاستكشاف) ، والمسامير المفاجئة في التدرجات (تشير إلى عدم استقرار التدريب). وشملت العلامات المبكرة قطرات في الانحراف المعياري للمكافآت وأنتروبيا الإخراج.
لمكافحة هذا ، طور الفريق Starpo-S ، وهو نسخة مستقرة من الإطار. يتضمن Starpo-S:
- تصفية المسار القائم على التباين: التركيز على التدريب على مثيلات المهمة حيث يظهر سلوك الوكيل عدم اليقين أعلى (تباين أعلى المكافآت) ، والتجاهل لاتجاهات منخفضة ، وأقل مفيدة. هذا تحسين الاستقرار والكفاءة.
- دمج الناقد: باستخدام طرق مثل PPO (تحسين السياسة القريبة) ، والتي تستخدم “ناقد” لتقدير القيمة ، أظهرت عمومًا استقرارًا أفضل من الأساليب الخالية من الناقد مثل GRPO (تحسين السياسة النسبية للمجموعة) في معظم الاختبارات.
- قطع مفصل وإزالة KL: التقنيات المقتبسة من أبحاث أخرى (DAPO) التي تنطوي على قطع غير متماثلة (مما يسمح بمزيد من التعلم العدواني من المكافآت الإيجابية) وإزالة عقوبات التباعد KL (تشجيع الاستكشاف) زيادة الاستقرار والأداء.
تأخرت STARPO-S باستمرار من الانهيار وتحسين أداء المهمة النهائية مقارنة بفانيليا ستاربو.
جودة التشغيل أمر بالغ الأهمية
خصائص “التمرير” (مسارات التفاعل المحاكاة المستخدمة للتدريب) تؤثر بشكل كبير على التعلم. تشمل العوامل الرئيسية المحددة:
- تنوع المهام: التدريب مع مجموعة متنوعة من الحالات الأولية (المطالبات) ، ولكن مع استجابات متعددة تم إنشاؤها لكل موجه ، تعميم الإيدز. يبدو أن البقعة الحلوة هي تنوع معتدل مما يتيح التباين بين النتائج المختلفة في سيناريوهات مماثلة.
- تفاعل التفاعل: يتيح السماح بإجراءات متعددة لكل منعطف (حوالي 5-6 مثبتًا مثبتًا) التخطيط بشكل أفضل ضمن حد انعطاف ثابت ، دون تقديم الضوضاء المرتبطة بتسلسلات العمل الطويلة المفرطة.
- تردد التراجع: إن استخدام التمرير الطازج الذي يحديث والذي يعكس السياسة الحالية للوكيل أمر حيوي. يؤدي أخذ العينات الأكثر شيوعًا (الاقتراب من إعداد “عبر الإنترنت”) إلى تقارب أسرع وتعميم أفضل عن طريق تقليل عدم تطابق السياسة.
يعد الحفاظ على النضارة ، إلى جانب ميزانيات العمل المناسبة وتنوع المهام ، مفتاح التدريب المستقر.
يتطلب التفكير تصميم مكافأة دقيقة
ببساطة تطور النماذج إلى “التفكير” لا يضمن ظهور التفكير ذي معنى ، خاصة في المهام متعددة المنعطفات. وجدت الدراسة:
- ساعدت آثار التفكير في التعميم في مهمة Bandit الأكثر بساطة وفرقة ، حتى عندما تتعارض الإشارات الرمزية مع المكافآت.
- في المهام متعددة المنعطفات مثل سوكوبان ، كانت فوائد التفكير محدودة ، وانخفض طول شرائح “التفكير” باستمرار أثناء التدريب. غالبًا ما تراجع الوكلاء لتوجيه اختيار العمل أو إنتاج “التفكير الملموس” إذا لم تتبع المكافآت سوى نجاح المهمة ، مما يكشف عن “عدم تطابق بين الأفكار وحالات البيئة”.
هذا يشير إلى أن المكافآت القياسية على مستوى المسار (غالبًا ما تكون متناثرة وقائمة على النتائج) غير كافية.
“بدون إشارات المكافأة ذات الحبيبات الدقيقة والمنطق ، لا يكاد يكون العامل التفكير (S) من خلال RL متعددة المنعطفات.”
يقترح الباحثون أن يستكشف العمل المستقبلي المكافآت التي تقيم صراحة جودة خطوات التفكير الوسيط ، وربما باستخدام العقوبات القائمة على التنسيق أو جودة التفسير المجزية ، بدلاً من النتائج النهائية فقط.
Ragen و Starpo: خطوة نحو التطور الذاتي الذكاء الاصطناعي
يمثل نظام Ragen و Starpo Framework خطوة نحو التدريب على وكلاء LLM التي يمكن أن تسبب والتكيف من خلال التفاعل في بيئات معقدة لا يمكن التنبؤ بها.
يسلط هذا البحث الضوء على تحديات الاستقرار الفريدة التي تطرحها RL متعددة المنعطفات ويقدم استراتيجيات ملموسة-مثل تقنيات تصفية وتثبيت Starpo-S-لتخفيفها. كما أنه يؤكد الدور الحاسم لاستراتيجيات توليد البدء والحاجة إلى آليات مكافأة أكثر تطوراً لزراعة التفكير الحقيقي ، بدلاً من الاستراتيجيات السطحية أو الهلوسة.
في حين أن الاعتراف بالقيود – بما في ذلك الحاجة إلى اختبار النماذج الأكبر والتحسين للمجالات دون مكافآت يمكن التحقق منها بسهولة – يفتح العمل “مسارًا قابلاً للتطوير ومبدئي لبناء أنظمة الذكاء الاصطناعى” في المجالات التي تتطلب التفاعل المعقد والنتائج التي يمكن التحقق منها ، مثل نظرية إثبات وهندسة البرمجيات والاكتشاف العلمي.
(صورة بواسطة Gerd Altmann)
انظر أيضا: كيف يحكم الذكاء الاصطناعي؟ الدراسات الإنسانية قيم كلود
هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الكبيرة من قادة الصناعة؟ تحقق من AI و Big Data Expo الذي يقام في أمستردام ، كاليفورنيا ، ولندن. تم تحديد الحدث الشامل مع الأحداث الرائدة الأخرى بما في ذلك مؤتمر الأتمتة الذكي ، و blockx ، وأسبوع التحول الرقمي ، ومعرض Cyber Security & Cloud.
استكشاف أحداث وندوات الويب القادمة الأخرى التي تعمل بها TechForge هنا.