
قدّم باحثون إطار عمل جديد للذكاء الاصطناعي يُسمى RAGEN، مُصمم لمواجهة عدم استقرار وكلاء نماذج اللغة الكبيرة (LLM) عند التعامل مع المواقف المعقدة. يُشكّل تدريب هؤلاء الوكلاء تحديات كبيرة، خاصةً عندما تمتد القرارات إلى خطوات متعددة وتتضمن ردودًا غير متوقعة من البيئة. بينما أظهر التعلم المعزز (RL) وعدًا في المهام الثابتة مثل حل مسائل الرياضيات أو توليد التعليمات البرمجية، إلا أن تطبيقه على تدريب الوكلاء الديناميكيين متعددي الأدوار كان أقل استكشافًا.
ولمعالجة هذه الفجوة، اقترح فريق تعاوني من مؤسسات منها جامعة نورث وسترن وجامعة ستانفورد ومايكروسوفت وجامعة نيويورك نهج StarPO (State-Thinking-Actions-Reward Policy Optimisation). يُقدّم StarPO نهجًا عامًا لتدريب الوكلاء على مستوى المسار (أي أنه يُحسّن تسلسل التفاعلات بأكمله، وليس مجرد الأفعال الفردية).
يُرافق ذلك RAGEN، وهو نظام وحدوي مُبني لتنفيذ StarPO. يُمكّن هذا من تدريب وتقييم وكلاء LLM، مع التركيز بشكل خاص على قدراتهم على التفكير المنطقي تحت RL. يُوفر RAGEN البنية التحتية اللازمة للانتشار، وتعيين المكافآت، والتحسين داخل بيئات متعددة الأدوار وعشوائية.
بيئات بسيطة، رؤى قصوى
لعزل تحديات التعلم الأساسية عن العوامل المُربكة مثل المعرفة المُسبقة الواسعة أو الهندسة الخاصة بالمهمة، اختبر الباحثون LLMs باستخدام RAGEN في ثلاث بيئات ألعاب رمزية مُبسطة وقابلة للتحكم:
Bandit: مهمة عشوائية ذات دور واحد تختبر التفكير الرمزي الحساس للمخاطر.
Sokoban: لغز حتمي متعدد الأدوار يتطلب التنبؤ والتخطيط، حيث أن الأفعال (دفع الصناديق) لا رجعة فيها.
Frozen Lake: مهمة ملاحة شبكية عشوائية متعددة الأدوار حيث يمكن أن تفشل محاولات الحركة بشكل عشوائي، مما يتطلب التخطيط في ظل عدم اليقين.
النتائج الرئيسية: الاستقرار، والانتشار، والتفكير المنطقي
أنتجت الدراسة ثلاث نتائج مهمة تتعلق بتدريب وكلاء LLM ذاتية التطور:
مصيدة الصدى والحاجة إلى الاستقرار: المشكلة المتكررة التي لوحظت أثناء تدريب RL متعدد الأدوار أُطلق عليها اسم “مصيدة الصدى”. تحسّنت الوكلاء في البداية، لكنها عانت من انهيار الأداء، مُفرطة في التكيّف مع أنماط التفكير المُكافأة محليًا. ولمكافحة ذلك، طوّر الفريق StarPO-S، وهو إصدار مُحسّن من الإطار. يُدمج StarPO-S:
تصفية مسارات قائمة على التباين: تركيز التدريب على حالات المهمة التي يُظهر فيها سلوك الوكيل عدم يقين أكبر (تباين مكافأة أعلى)، وتجاهل الانتشار منخفض التباين، والذي يُعدّ أقل إفادة.
دمج الناقد: أظهرت الطرق مثل PPO (Proximal Policy Optimisation)، التي تستخدم “ناقدًا” لتقدير القيمة، استقرارًا أفضل بشكل عام من الطرق الخالية من النقاد مثل GRPO (Group Relative Policy Optimisation) في معظم الاختبارات.
قصّ مُنفصل وإزالة KL: تقنيات مُكيّفة من أبحاث أخرى (DAPO) تتضمن القصّ غير المتماثل (السماح بتعلم أكثر عدوانية من المكافآت الإيجابية) وإزالة عقوبات اختلاف KL (تشجيع الاستكشاف) عززت الاستقرار والأداء أكثر.
جودة الانتشار أمر بالغ الأهمية: تؤثر خصائص “الانتشار” (مسارات التفاعل المُحاكاة المُستخدمة للتدريب) بشكل كبير على التعلم. العوامل الرئيسية المُحددة تشمل:
تنوع المهمة: التدريب مع مجموعة متنوعة من الحالات الأولية (المحفزات)، لكن مع توليد استجابات متعددة لكل مُحفز، يُساعد على التعميم.
دقة التفاعل: السماح بأفعال متعددة لكل دور يُمكّن من التخطيط الأفضل ضمن حد زمني مُحدد للدورة، دون إدخال الضوضاء المرتبطة بمتواليات الأفعال الطويلة للغاية.
تردد الانتشار: استخدام انتشار جديد وحديث يعكس سياسة الوكيل الحالية أمر حيوي.
يتطلب التفكير المنطقي تصميمًا دقيقًا للمكافآت: مجرد مطالبة النماذج بـ “التفكير” لا يضمن ظهور تفكير منطقي ذي مغزى، خاصةً في المهام متعددة الأدوار. وجدت الدراسة أن:
ساعدت آثار التفكير في التعميم في مهمة Bandit الأبسط ذات الدور الواحد، حتى عندما تعارضت الإشارات الرمزية مع المكافآت.
في المهام متعددة الأدوار مثل Sokoban، كانت فوائد التفكير المنطقي محدودة، وانخفض طول مقاطع “التفكير” باستمرار أثناء التدريب.
RAGEN و StarPO: خطوة نحو الذكاء الاصطناعي ذاتي التطور
يُمثّل نظام RAGEN وإطار عمل StarPO خطوة نحو تدريب وكلاء LLM القادرين على التفكير والتكيّف من خلال التفاعل في بيئات معقدة وغير متوقعة. تُبرز هذه الأبحاث تحديات الاستقرار الفريدة التي تُطرحها RL متعددة الأدوار، وتُقدّم استراتيجيات ملموسة – مثل تقنيات الترشيح والاستقرار في StarPO-S – للتخفيف منها. كما تُشدد على الدور الحاسم لاستراتيجيات توليد الانتشار والحاجة إلى آليات مكافآت أكثر تطوراً لتنمية التفكير الحقيقي، بدلاً من الاستراتيجيات السطحية أو الهلوسات.
هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي.