تقارير ومتابعاتتقنيات جديدة

محادثات متعددة المنعطفات مع التدريب الذاتي القائم على العمل

0:00


كتب – المحرر الإفتراضي

هل التفضيلات القائمة على الإجراء ضرورية؟ أحد العوامل الرئيسية في ACT هو أن الأزواج المتناقضة تبرز الاختلافات بين إجراءات المحادثة. في “Act w/ الإجراءات العشوائية” ، ندرس بالإضافة إلى ذلك أهمية اختيار الإجراء عن طريق أخذ عينات عشوائية على كل من الفوز والخسارة عند بناء زوج التفضيل ، ومراقبة هذا العمل الطبيعي.

هل نحتاج إلى أخذ عينات من السياسة؟ في “Act w/o أخذ العينات على الجودة” ، ندرس أهمية أخذ العينات على الجودة من خلال تقييم DPO العادي خارج السياسة على مجموعة البيانات كما تم إنشاؤها في المرحلة الأولى. بينما نلاحظ بعض التحسينات على SFT (على سبيل المثال ، من 69.0 إلى 74.8 Macro F1) ، فإن التحسينات الكلية تكون أكبر بكثير على sampling بشكل كامل. قد يكون هذا بسبب حقيقة أن الاستجابات السلبية خارج السياسة غير مضمونة للاستلقاء في مجموعة اللغة لنموذج السياسة ، وقد يكون من الصعب للغاية التغلب على تحول التوزيع من خلال التعلم خارج الجهاز.

هل محاكاة المسار ضرورية؟ ACT محاذاة أفضل مع محادثات متعددة بسبب محاكاة مسارها. بدون محاكاة متعددة المنعطفات ، يمكن النظر إلى نهجنا بشكل مشابه لمتغيرات DPO على الجودة مثل IRPO ، ولكن مع إشارة مكافأة خاصة بالمحادثة والتي تمثل إجراءات المحادثة والاستدلال على المهام. في “Act w/ sampling w/ o simulation” ، نجد أن هذه المحاكاة على مستوى المسار أمر بالغ الأهمية لتحسين الأداء متعدد المنعطفات ، وخاصة قدرة نموذج السياسة على التفكير في أسئلة التوضيح الخاصة بها.

هل نموذج ACT Admnostic؟ يتم الحصول على النموذج الأساسي في تجاربنا الرئيسية ، Zephyr ، عن طريق مواءمة Mistral. في “Act with Unaligned Foundation Models” ، نلاحظ وجود فجوة في الأداء من 6.5 Action F1 و 4.3 مسار F1 بعد ضبط ACT للنموذجين. ومع ذلك ، فإن نتائجنا التي توضح أن ACT يمكن أن يحسن الأداء بغض النظر عن التوافق الموجود مسبقًا مع التعليقات البشرية ، على الرغم من أنه يمكن أن يساعد كهيئة محسّنة للنموذج. بشكل عام ، نجد أن تحسين أداء النموذج الأساسي مع ACT هو نموذج لاأدري.


هذا المحتوي تم بالكامل عن طريق أدوات الذكاء الإصطناعي

مقالات ذات صلة

زر الذهاب إلى الأعلى

Main Heading Goes Here
Sub Heading Goes Here

No, thank you. I do not want.
100% secure your website.
Powered by
Main Heading Goes Here
Sub Heading Goes Here

No, thank you. I do not want.
100% secure your website.