تقييم تقدم LLMs على حل المشكلات العلمية

كتب – المحرر الإفتراضي
التقييمات البرمجية والنموذجية
تتنوع المهام في الكوري ولديها شرائح توضيحية أرضية في شكل مختلط وغير متجانس ، على سبيل المثال ، مثل jsons أو معادلات اللاتكس أو ملفات yaml أو نص الشكل الحر. يعد تقييم توليد الشكل الحر أمرًا صعبًا لأن الإجابات غالبًا ما تكون وصفية ، وحتى عندما يتم تحديد التنسيق ، كما في معظم حالاتنا ، يمكن أن يكون للاستجابة لكل حقل أشكال مختلفة. على سبيل المثال ، قد يتم في بعض الأحيان تحديد نقاط شبكة المواد على أنها “((صو سو ص) “وفي أوقات أخرى” “ص × س × ص “. وبالتالي ، بالإضافة إلى مقاييس التقييم البرنمجي ، مثل Rouge-L ، وصول التقاطع (المستخدمة في Biogr) ، ونسبة الهوية (المستخدمة في PDB) ، نقترح مقاييس تقييم قائمة على النماذج.
(1) LMSCORE: يطالب LLM بسؤال عن مدى توافق التنبؤات على الحقيقة الأرضية على مقياس من 3 نقاط: “جيد” إذا كان للتنبؤ بقليل من الأخطاء الطفيفة ، “حسنًا” إذا كان هناك العديد من الأخطاء البسيطة ، و “سيئة” إذا كانت هناك أخطاء كبيرة. نحن نعتبر المتوسط المرجح لعشرات احتمالية السجل من الرموز لإنتاج ثقة نهائية.
(2) LLMSIM: يستخدم في مهام الاسترجاع حيث نطلب من النموذج استخراج العديد من التفاصيل بشكل شامل ، على سبيل المثال ، الواصفات وخصائص وقيم المواد من وثيقة بحثية ، ونوفر كقائمة غير مرتبة من القواميس أو السجلات. نحن نستخدم موجه سلسلة الفكر (COT) يطلب من LLM النظر في كل سجل الحقيقة الأرضية وتحديد السجلات المتوقعة التي تتطابق بشكل صحيح مع كل حقل (مفتاح) وقيمة الحقيقة الأساسية. بمجرد مطابقة سجلات الحقيقة الأرضية مع السجلات المتوقعة ، يمكننا بعد ذلك قياس الدقة والاستدعاء لمهمة الاسترجاع ، وحساب متوسط الدقة المتوسطة والاستدعاء ودرجات F1 في جميع المستندات.