
طوّر باحثون من معهد ماساتشوستس للتكنولوجيا (MIT)، ومعمل MIT-IBM Watson للذكاء الاصطناعي، ومختبرات أبحاث IBM، طريقةً جديدةً تُمكّن نماذج اللغات الكبيرة (LLMs) من تنقية مُخرجاتها اللغوية ذاتيًا دون التأثير على سلاسة النصوص. وتُسمّى هذه الطريقة “الاستدلال الذاتي المُنضبط” (Self-Disciplined Autoregressive Sampling – SASA).
على عكس الطرق الأخرى لتنقية اللغة، تُحدّد خوارزمية فك التشفير في SASA حدودًا بين المساحات الفرعية السامة وغير السامة داخل التمثيل الداخلي لنموذج LLM، دون تغيير معلمات النموذج أو الحاجة لإعادة التدريب أو استخدام نموذج مكافأة خارجي. خلال عملية الاستنتاج، تقيم الخوارزمية قيمة السمية في العبارة المُولّدة جزئيًا: الرموز (الكلمات) المُولّدة والمتقبّلة بالفعل، إلى جانب كل رمز جديد محتمل يمكن اختياره بناءً على قربه من حدود المُصنّف. ثمّ، تختار خيارًا لكلمةٍ يضع العبارة في المساحة غير السامة، مُقدّمةً بذلك طريقةً سريعة وفعّالة لتوليد لغة أقل سمية.
تعتمد الطريقة على بناء مُصنّف خطي يعمل على الفضاء الفرعي المُتعلم من غُمر (embeddings) الـ LLM. عندما يتمّ تدريب نماذج الـ LLMs، يتمّ وضع الكلمات ذات المعاني المُتشابهة قريبةً من بعضها في الفضاء المُتجهي، وبعيدةً عن الكلمات غير المُتشابهة. افترض الباحثون أنّ غُمر الـ LLM سيُلتقط أيضًا معلوماتٍ سياقية، والتي يمكن استخدامها للتنقية. استخدم الباحثون مجموعات بيانات تحتوي على مُحفّزات (النصف الأول من جملة أو فكرة)، واستجابات (إكمال الجملة)، وتعليقاتٍ بشرية، مثل سامّ أو غير سامّ، مُفضّل أو غير مُفضّل، مع علاماتٍ مستمرة من 0 إلى 1، مُشيراً إلى زيادة السمية. ثمّ تمّ تطبيق مُصنّف بايزي مثالي لِلتعلّم ورسم خطٍ مجازيًا بين المساحات الفرعية الثنائية داخل غُمر الجمل، مُمثّلةً بقيمٍ مُوجبة (مساحة غير سامة) وأرقامٍ سالبة (مساحة سامة).
يعمل نظام SASA ثمّ بإعادة وزن احتمالات الاستدلال لِلرّموز الجديدة المحتملة بناءً على قيمتها ومسافة العبارة المُولّدة إلى المُصنّف، مع هدف البقاء قريبًا من توزيع الاستدلال الأصلي.
أظهرت النتائج أنّ SASA حقّقت انخفاضًا كبيرًا في توليد اللغة السمية، مُقدّمةً أداءً مُشابهًا لِـRAD، وهي تقنية متطورة لنماذج المكافآت الخارجية. ومع ذلك، لُوحظ بشكلٍ عامّ أنّ التنقية الأقوى ترافقت مع انخفاض في السلاسة.
يُمثّل هذا العمل خطوةً مُهمّةً نحو نماذج لغاتٍ كبيرة أكثر أمانًا وإيجابية، مُساهماً في بناء أنظمة ذكاء اصطناعي أكثر انسجامًا مع القيم البشرية.
هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي.