دور السياق الكافي

كتب – المحرر الإفتراضي
يعزز الجيل المعزز للاسترجاع نماذج لغة كبيرة (LLMS) من خلال تزويدها بالسياق الخارجي ذي الصلة. على سبيل المثال ، عند استخدام نظام خرقة لمهمة إجابات أسئلة (QA) ، تتلقى LLM سياقًا قد يكون مزيجًا من المعلومات من مصادر متعددة ، مثل صفحات الويب العامة أو شركة المستندات الخاصة أو الرسوم البيانية المعرفة. من الناحية المثالية ، تنتج LLM الإجابة الصحيحة أو تستجيب بـ “لا أعرف” إذا كانت هناك معلومات أساسية معينة غير موجودة.
يتمثل أحد التحديات الرئيسية في أنظمة RAG في أنها قد تضلل المستخدم هلام (وبالتالي غير صحيحة) المعلومات. التحدي الآخر هو أن معظم العمل السابق ينظر فقط إلى كيفية مناسب السياق هو استعلام المستخدم. لكننا نعتقد أن أهمية السياق وحدها هي الشيء الخطأ الذي يجب قياسه – نريد حقًا معرفة ما إذا كان يوفر معلومات كافية للـ LLM للإجابة على السؤال أم لا.
في “السياق الكافي: عدسة جديدة على أنظمة التوليد المعززة للاسترجاع” ، والتي ظهرت في ICLR 2025 ، ندرس فكرة “السياق الكافي” في أنظمة الخرقة. نوضح أنه من الممكن معرفة متى لدى LLM معلومات كافية لتقديم إجابة صحيحة على سؤال. ندرس الدور الذي يلعبه السياق (أو عدم وجوده) في الدقة الواقعية ، ونطور طريقة لقياس كمية الكفاءة في السياق لـ LLMs. يتيح لنا مقاربتنا التحقيق في العوامل التي تؤثر على أداء أنظمة الخرقة وتحليل متى ولماذا تنجح أو تفشل.
علاوة على ذلك ، استخدمنا هذه الأفكار لإطلاق LLM RENTER في محرك Rag Vertex AI. تتيح ميزة لدينا للمستخدمين إعادة تشغيل المقتطفات التي تم استردادها بناءً على أهميتها للاستعلام ، مما يؤدي إلى مقاييس استرجاع أفضل (على سبيل المثال ، NDCG) ودقة نظام خرقة أفضل.