LLMs لضرب مع خصوصية تفاضلية على مستوى المستخدم

كتب – المحرر الإفتراضي
جعل هذه الخوارزميات تعمل من أجل LLMS
إذا قمنا بتشغيل هذه الخوارزميات “خارج الصندوق” لـ LLMS ، فإن الأمور تسير بشكل سيء. لذلك ، توصلنا إلى تحسينات على الخوارزميات التي تحدد المشكلات الرئيسية في تشغيلها “خارج الصندوق”.
بالنسبة إلى ELS ، كان علينا أن نذهب من ضمانات DP على مستوى المثال إلى ضمانات DP على مستوى المستخدم. وجدنا أن العمل السابق كان يضيف أوامر ذات ضوضاء أكبر مما كان ضروريًا بالفعل. تمكنا من إثبات أنه يمكننا إضافة ضوضاء أقل بكثير ، مما يجعل النموذج أفضل بكثير مع الحفاظ على ضمانات الخصوصية نفسها.
بالنسبة لكل من ELS و ULS ، كان علينا معرفة كيفية تحسين ملزمة المساهمة. يتمثل الخيار “الافتراضي” في اختيار مساهمة ملزمة لكل مستخدم يرضي بالفعل ؛ هذا هو ، نحن لا نفعل أي معالجة مسبقة. ومع ذلك ، قد يساهم بعض المستخدمين بكمية كبيرة من البيانات ، وسنحتاج إلى إضافة كميات كبيرة من الضوضاء لتوفير الخصوصية لهؤلاء المستخدمين. يقلل تحديد مساهمة أصغر من كمية الضوضاء التي نحتاج إلى إضافتها ، ولكن التكلفة يجب أن تتجاهل الكثير من البيانات. نظرًا لأن تدريب LLM باهظ الثمن ، لا يمكننا تجربة تدريب مجموعة من النماذج ذات الحدود المختلفة للمساهمة واختيار أفضلها – نحتاج إلى استراتيجية فعالة لاختيار ملزمة المساهمة قبل نبدأ التدريب.
بعد التجريب المطول على نطاق واسع ، وجدنا أن وضع المساهمة المرتبطة بأن يكون متوسط عدد الأمثلة التي يحتفظ بها كل مستخدم استراتيجية فعالة. بالنسبة إلى ULS ، نقدم تنبؤًا للضوضاء الكلية المضافة كدالة لربط المساهمة ، ووجدنا أن اختيار المساهمة المرتبطة بتقليل هذا التنبؤ بمثابة استراتيجية فعالة.