Close Menu
تقنية نيوزتقنية نيوز

    خدمة الإشعارات البريدية

    اشترك في خدمة الإشعارات البريدية ليصلك كل جديد الى بريدك الإلكتروني مباشرة.

    مقالات قد تهمك

    عصر النقرات الصفرية.. لماذا تتراجع زيارات المواقع مع ثبات ترتيبها في جوجل؟

    26 أكتوبر, 2025

    من الواضح أن البعض منكم يحتاج إلى تذكير بعيد الهالوين بأن سيارات تيسلا لا تستطيع اكتشاف الأشباح

    26 أكتوبر, 2025

    اكتشاف نسخة نادرة ومبكرة جدًا من Uncharted: Drake’s Fortune!

    26 أكتوبر, 2025
    فيسبوك X (Twitter) الانستغرام
    • من نحن
    • سياسة الخصوصية
    • اتصل بنا
    فيسبوك X (Twitter) الانستغرام يوتيوب
    تقنية نيوزتقنية نيوز
    • الرئيسية
    • اخر الاخبار
    • هواتف ذكية
    • كمبيوتر
    • برامج وتطبيقات
    • شركات
      • ابل
      • سامسونج
      • جوجل
      • مايكروسوفت
      • أمازون
    • المزيد
      • الذكاء الإصطناعي
      • الأمن الإلكتروني
      • ألعاب
      • منوعات تقنية
    اشترك معنا
    تقنية نيوزتقنية نيوز
    الرئيسية » إطار منظمة العفو الدولية يعالج عدم استقرار وكيل LLM
    الذكاء الإصطناعي

    إطار منظمة العفو الدولية يعالج عدم استقرار وكيل LLM

    فريق التحريربواسطة فريق التحرير24 أبريل, 20250 زيارةلا توجد تعليقات
    شاركها فيسبوك تويتر بينتيريست لينكدإن Tumblr رديت تيلقرام البريد الإلكتروني
    شاركها
    فيسبوك تويتر لينكدإن بينتيريست البريد الإلكتروني

    قدم الباحثون RAGEN ، وهو إطار منظمة العفو الدولية المصمم لمواجهة عدم استقرار وكيل LLM عند التعامل مع المواقف المعقدة.

    يعرض تدريب وكلاء الذكاء الاصطناعى عقبات كبيرة ، خاصة عندما تمتد القرارات على خطوات متعددة وتتضمن ردود فعل غير متوقعة من البيئة. بينما أظهر التعلم التعزيز (RL) وعدًا في المهام الثابتة مثل حل مشاكل الرياضيات أو توليد التعليمات البرمجية ، فقد تم استكشاف تطبيقه الديناميكي متعدد المنعطفات.

    في كلمته أمام هذه الفجوة ، اقترح فريق تعاوني من مؤسسات بما في ذلك جامعة نورث وسترن وجامعة ستانفورد ومايكروسوفت وجامعة نيويورك Starpo (تحسين سياسة التكاثرات التي تفكر في الولاية).

    يقدم Starpo نهجًا معممًا لوكلاء التدريب على مستوى المسار (أي أنه يحسن تسلسل التفاعلات بالكامل ، وليس فقط الإجراءات الفردية.)

    يرافق هذا RAGEN ، وهو نظام وحدات تم تصميمه لتنفيذ Starpo. يتيح ذلك تدريب وتقييم وكلاء LLM ، مع التركيز بشكل خاص على قدراتهم المنطقية بموجب RL. يوفر Ragen البنية التحتية اللازمة للطرح ، وتعيين المكافآت ، والتحسين في بيئات متعددة الدوران (المحدد عشوائيًا).

    البيئات البسيطة ، أقصى رؤية

    لعزل تحديات التعلم الأساسية من العوامل المربكة مثل المعرفة الواسعة أو الهندسة الخاصة بالمهمة ، قام الباحثون باختبار LLMs باستخدام RAGEN في ثلاث بيئات ألعاب رمزية قابلة للتحكم في أضيق القابلة للسيطرة:

    1. اللصوص: انعطف واحد ، لاختبار المهام العشوائية عن التفكير الرمزي الحساس للمخاطر. يختار الوكيل بين الخيارات (مثل “Phoenix” أو “Dragon” Arms) مع ملفات تعريف مختلفة وغير معروفة في البداية.
    2. سوكوبان: إن اللغز المتعدد وحتمية يتطلب التبصر والتخطيط ، لأن الإجراءات (صناديق الدفع) لا رجعة فيها.
    3. البحيرة المجمدة: يمكن أن تفشل مهمة التنقل في الشبكة المتعددة ، حيث يمكن أن تفشل محاولات الحركة بشكل عشوائي ، وتتطلب التخطيط في ظل عدم اليقين.

    تسمح هذه البيئات بتحليل واضح لكيفية تعلم الوكلاء لسياسات صنع القرار بحتة من خلال التفاعل.

    النتائج الرئيسية: الاستقرار ، التمرير ، والتفكير

    أسفرت الدراسة عن ثلاث نتائج مهمة فيما يتعلق بتدريب عوامل LLM المتطورة الذاتية:

    “فخ الصدى” والحاجة إلى الاستقرار

    تم تسمية مشكلة متكررة لوحظت خلال التدريب متعدد المنعطفات على “فخ الصدى”. سيتحسن الوكلاء في البداية ، لكنهم يعانون بعد ذلك من انهيار الأداء ، مما يدعى على أنماط التفكير المكافأة محليًا.

    تميز هذا بانهيار تباين المكافآت ، انخفاض الانتروبيا (مقياس من العشوائية/الاستكشاف) ، والمسامير المفاجئة في التدرجات (تشير إلى عدم استقرار التدريب). وشملت العلامات المبكرة قطرات في الانحراف المعياري للمكافآت وأنتروبيا الإخراج.

    لمكافحة هذا ، طور الفريق Starpo-S ، وهو نسخة مستقرة من الإطار. يتضمن Starpo-S:

    • تصفية المسار القائم على التباين: التركيز على التدريب على مثيلات المهمة حيث يظهر سلوك الوكيل عدم اليقين أعلى (تباين أعلى المكافآت) ، والتجاهل لاتجاهات منخفضة ، وأقل مفيدة. هذا تحسين الاستقرار والكفاءة.
    • دمج الناقد: باستخدام طرق مثل PPO (تحسين السياسة القريبة) ، والتي تستخدم “ناقد” لتقدير القيمة ، أظهرت عمومًا استقرارًا أفضل من الأساليب الخالية من الناقد مثل GRPO (تحسين السياسة النسبية للمجموعة) في معظم الاختبارات.
    • قطع مفصل وإزالة KL: التقنيات المقتبسة من أبحاث أخرى (DAPO) التي تنطوي على قطع غير متماثلة (مما يسمح بمزيد من التعلم العدواني من المكافآت الإيجابية) وإزالة عقوبات التباعد KL (تشجيع الاستكشاف) زيادة الاستقرار والأداء.

    تأخرت STARPO-S باستمرار من الانهيار وتحسين أداء المهمة النهائية مقارنة بفانيليا ستاربو.

    جودة التشغيل أمر بالغ الأهمية

    خصائص “التمرير” (مسارات التفاعل المحاكاة المستخدمة للتدريب) تؤثر بشكل كبير على التعلم. تشمل العوامل الرئيسية المحددة:

    • تنوع المهام: التدريب مع مجموعة متنوعة من الحالات الأولية (المطالبات) ، ولكن مع استجابات متعددة تم إنشاؤها لكل موجه ، تعميم الإيدز. يبدو أن البقعة الحلوة هي تنوع معتدل مما يتيح التباين بين النتائج المختلفة في سيناريوهات مماثلة.
    • تفاعل التفاعل: يتيح السماح بإجراءات متعددة لكل منعطف (حوالي 5-6 مثبتًا مثبتًا) التخطيط بشكل أفضل ضمن حد انعطاف ثابت ، دون تقديم الضوضاء المرتبطة بتسلسلات العمل الطويلة المفرطة.
    • تردد التراجع: إن استخدام التمرير الطازج الذي يحديث والذي يعكس السياسة الحالية للوكيل أمر حيوي. يؤدي أخذ العينات الأكثر شيوعًا (الاقتراب من إعداد “عبر الإنترنت”) إلى تقارب أسرع وتعميم أفضل عن طريق تقليل عدم تطابق السياسة.

    يعد الحفاظ على النضارة ، إلى جانب ميزانيات العمل المناسبة وتنوع المهام ، مفتاح التدريب المستقر.

    يتطلب التفكير تصميم مكافأة دقيقة

    ببساطة تطور النماذج إلى “التفكير” لا يضمن ظهور التفكير ذي معنى ، خاصة في المهام متعددة المنعطفات. وجدت الدراسة:

    • ساعدت آثار التفكير في التعميم في مهمة Bandit الأكثر بساطة وفرقة ، حتى عندما تتعارض الإشارات الرمزية مع المكافآت.
    • في المهام متعددة المنعطفات مثل سوكوبان ، كانت فوائد التفكير محدودة ، وانخفض طول شرائح “التفكير” باستمرار أثناء التدريب. غالبًا ما تراجع الوكلاء لتوجيه اختيار العمل أو إنتاج “التفكير الملموس” إذا لم تتبع المكافآت سوى نجاح المهمة ، مما يكشف عن “عدم تطابق بين الأفكار وحالات البيئة”.

    هذا يشير إلى أن المكافآت القياسية على مستوى المسار (غالبًا ما تكون متناثرة وقائمة على النتائج) غير كافية.

    “بدون إشارات المكافأة ذات الحبيبات الدقيقة والمنطق ، لا يكاد يكون العامل التفكير (S) من خلال RL متعددة المنعطفات.”

    يقترح الباحثون أن يستكشف العمل المستقبلي المكافآت التي تقيم صراحة جودة خطوات التفكير الوسيط ، وربما باستخدام العقوبات القائمة على التنسيق أو جودة التفسير المجزية ، بدلاً من النتائج النهائية فقط.

    Ragen و Starpo: خطوة نحو التطور الذاتي الذكاء الاصطناعي

    يمثل نظام Ragen و Starpo Framework خطوة نحو التدريب على وكلاء LLM التي يمكن أن تسبب والتكيف من خلال التفاعل في بيئات معقدة لا يمكن التنبؤ بها.

    يسلط هذا البحث الضوء على تحديات الاستقرار الفريدة التي تطرحها RL متعددة المنعطفات ويقدم استراتيجيات ملموسة-مثل تقنيات تصفية وتثبيت Starpo-S-لتخفيفها. كما أنه يؤكد الدور الحاسم لاستراتيجيات توليد البدء والحاجة إلى آليات مكافأة أكثر تطوراً لزراعة التفكير الحقيقي ، بدلاً من الاستراتيجيات السطحية أو الهلوسة.

    في حين أن الاعتراف بالقيود – بما في ذلك الحاجة إلى اختبار النماذج الأكبر والتحسين للمجالات دون مكافآت يمكن التحقق منها بسهولة – يفتح العمل “مسارًا قابلاً للتطوير ومبدئي لبناء أنظمة الذكاء الاصطناعى” في المجالات التي تتطلب التفاعل المعقد والنتائج التي يمكن التحقق منها ، مثل نظرية إثبات وهندسة البرمجيات والاكتشاف العلمي.

    (صورة بواسطة Gerd Altmann)

    انظر أيضا: كيف يحكم الذكاء الاصطناعي؟ الدراسات الإنسانية قيم كلود

    هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الكبيرة من قادة الصناعة؟ تحقق من AI و Big Data Expo الذي يقام في أمستردام ، كاليفورنيا ، ولندن. تم تحديد الحدث الشامل مع الأحداث الرائدة الأخرى بما في ذلك مؤتمر الأتمتة الذكي ، و blockx ، وأسبوع التحول الرقمي ، ومعرض Cyber ​​Security & Cloud.

    استكشاف أحداث وندوات الويب القادمة الأخرى التي تعمل بها TechForge هنا.

    شاركها. فيسبوك تويتر بينتيريست لينكدإن Tumblr البريد الإلكتروني
    السابقوفر ما يصل إلى 33 ٪ على بطاقات MicroSD عالية السرعة في Sandisk
    التالي أنا أستخدم مساعد صوت iOS الحيرة على جهاز iPhone الخاص بي ، وهو أفضل من Siri

    المقالات ذات الصلة

    الذكاء الإصطناعي

    يقوم OpenAI بربط ChatGPT ببيانات المؤسسة لعرض المعرفة

    24 أكتوبر, 2025
    الذكاء الإصطناعي

    يشير توسع مادة TPU التي تبلغ قيمتها مليار دولار أمريكي إلى تحول استراتيجي في البنية التحتية للذكاء الاصطناعي للمؤسسات

    24 أكتوبر, 2025
    الذكاء الإصطناعي

    الحكم الذاتي في العالم الحقيقي؟ Druid AI يكشف النقاب عن “مصنع” وكيل الذكاء الاصطناعي

    23 أكتوبر, 2025
    الذكاء الإصطناعي

    كيف يمكن مقارنة “إضفاء الطابع الإنساني” على الذكاء الاصطناعي بالتحرير البشري؟

    23 أكتوبر, 2025
    الذكاء الإصطناعي

    تعمل إقامة بيانات OpenAI على تطوير حوكمة الذكاء الاصطناعي للمؤسسات

    23 أكتوبر, 2025
    الذكاء الإصطناعي

    لماذا يتم إطلاق Meta في حين لا يزال التوظيف؟

    23 أكتوبر, 2025
    الذكاء الإصطناعي

    دراسة التهديد الأمني ​​الرئيسي لمنظمة العفو الدولية

    22 أكتوبر, 2025
    الذكاء الإصطناعي

    يعمل الذكاء الاصطناعي على تغيير طريقة بناء الروابط لتحسين محركات البحث

    22 أكتوبر, 2025
    الذكاء الإصطناعي

    لا تزال الشركات تواجه تحدي بيانات الذكاء الاصطناعي

    21 أكتوبر, 2025
    اترك تعليقاً
    اترك تعليقاً إلغاء الرد

    Demo
    اخر الاخبار

    كيفية تسجيل مقاطع فيديو محمية بدون شاشة سوداء

    31 يوليو, 20241٬062 زيارة

    سامسونج جالكسي S25: الأخبار والسعر المتوقع وتاريخ الإصدار والمزيد

    4 يوليو, 2024794 زيارة

    كل ما تريد معرفته عن Reacher الموسم الثالث

    6 مايو, 2024766 زيارة

    Samsung Galaxy Watch 7: الأخبار والسعر المشاع وتاريخ الإصدار والمزيد

    2 أبريل, 2024715 زيارة

    يحصل iPhone على أول تطبيق إباحي أصلي له

    4 فبراير, 2025669 زيارة

    خدمة الإشعارات البريدية

    اشترك في خدمة الإشعارات البريدية ليصلك كل جديد الى بريدك الإلكتروني مباشرة.

    رائج الآن
    اخر الاخبار

    يحصل iPhone على أول تطبيق إباحي أصلي له

    فريق التحرير4 فبراير, 2025
    منوعات تقنية

    بجودة عالمية ودعم محلي غير مسبوق.. “كيرنو” الإماراتية ترسم ملامح جديدة لصناعة التقنية في الخليج

    فريق التحرير18 أكتوبر, 2025
    منوعات تقنية

    كلية الإمارات للتطوير التربوي تُطلق برنامج “آفاق”.. خطوة جديدة نحو تعليم أكثر ذكاءً

    فريق التحرير17 أكتوبر, 2025
    رائج الآن

    يحصل iPhone على أول تطبيق إباحي أصلي له

    4 فبراير, 202515 زيارة

    بجودة عالمية ودعم محلي غير مسبوق.. “كيرنو” الإماراتية ترسم ملامح جديدة لصناعة التقنية في الخليج

    18 أكتوبر, 202513 زيارة

    كلية الإمارات للتطوير التربوي تُطلق برنامج “آفاق”.. خطوة جديدة نحو تعليم أكثر ذكاءً

    17 أكتوبر, 202513 زيارة
    اختيارات المحرر

    عصر النقرات الصفرية.. لماذا تتراجع زيارات المواقع مع ثبات ترتيبها في جوجل؟

    26 أكتوبر, 2025

    من الواضح أن البعض منكم يحتاج إلى تذكير بعيد الهالوين بأن سيارات تيسلا لا تستطيع اكتشاف الأشباح

    26 أكتوبر, 2025

    اكتشاف نسخة نادرة ومبكرة جدًا من Uncharted: Drake’s Fortune!

    26 أكتوبر, 2025

    خدمة الإشعارات البريدية

    اشترك في خدمة الإشعارات البريدية ليصلك كل جديد الى بريدك الإلكتروني مباشرة.

    تقنية نيوز
    فيسبوك X (Twitter) الانستغرام يوتيوب لينكدإن تيكتوك
    • الرئيسية
    • سياسة الخصوصية
    • من نحن
    • اتصل بنا
    © 2025 تقنية نيوز. جميع حقوق النشر محفوظة.

    اكتب كلمة البحث ثم اضغط على زر Enter