توليد بيانات اصطناعية مع استنتاج LLM الخاص تفاضلي

كتب – المحرر الإفتراضي
نظرًا للتحديات في توليد النص مع الحفاظ على موانئ دبي والكفاءة الحسابية ، ركز العمل المسبق على توليد كمية صغيرة من نقاط البيانات (<10) لاستخدامها في التعلم داخل السياق. نوضح أنه من الممكن توليد أوامران إلى ثلاثة بيانات من حيث الحجم مع الحفاظ على الجودة والخصوصية من خلال حل المشكلات المتعلقة بـ ميزانية الخصوصية و الكفاءة الحسابية.
ال ميزانية الخصوصية يقيد مقدار الإخراج الذي يمكن أن يطلقه النموذج مع الحفاظ على ضمان DP ذي معنى. تعمل موانئ دبي من خلال إدخال عشوائي لإخفاء مساهمة أي نقطة بيانات واحدة ، مما يتيح الانكار المعقول. نقوم بزيادة الإنتاج مع الحفاظ على الخصوصية من خلال الاستفادة من العشوائية المتأصلة في أخذ العينات القادمة لضمان الخصوصية.
هذا يربط أخذ العينات في نماذج اللغة مع تقنية DP تسمى آلية الأسية. يتم استخدام هذه الآلية لاختيار أفضل خيار الرمز المميز من مجموعة من الخيارات ، مع كل خيار مصحوب بنتيجة محسوبة من بيانات حساسة. إنه يقوم بذلك عن طريق أخذ عينات من الخيار مع الاحتمال يتناسب مع الأسي من درجته – وهذا يقدم العشوائية حاسمة لضمان موانئ دبي. هذه العملية هي نفس أخذ عينات Softmax في نماذج اللغة عند عرض مجموعة جميع الرموز كخيارات يختار منها النموذج. استنادًا إلى هذا الاتصال ، نقوم بتصميم خوارزمية أخذ العينات الرمزية DP التي تتوافق بقوة مع عملية التوليد القياسية لنماذج اللغة الكبيرة.
ل الكفاءة الحسابية، نقترح تحليل خصوصية جديد يتيح لنا استخدام نفس السياقات لكل خطوة جيل وتجنب إعادة التثبيت. يستخدم تحليلنا مجموعة ثابتة من الأمثلة ، في حين أن ضمان موانئ دبي للعمل السابق يتطلب مجموعة جديدة من الأمثلة الحساسة التي يتعين إنشاءها كل رمز. ولكن باستخدام دفعة جديدة يستلزم تغيير موجه الإدخال لكل رمز تم أخذ عينات منه ، والذي لا يتوافق مع تقنيات كفاءة الاستدلال القياسية مثل التخزين المؤقت KV.
أخيرًا ، نقدم أيضًا الصياغة العامة، وهو نموذج يستند إلى تنبؤاته المميزة المجاورة فقط على نص اصطناعي تم إنشاؤه بالفعل ، بدلاً من البيانات الحساسة. من خلال تقنية المتجه المتفرقة ، فإننا ندفع فقط تكلفة الخصوصية عندما لا توافق مقترحات الصياغة مع التنبؤات المصنوعة من البيانات الحساسة. خلاف ذلك ، نحن نقبل اقتراح الصياغة ولا تنفق أي ميزانية خصوصية. نجد أن هذا فعال بشكل خاص للبيانات المنظمة ، حيث يمكن التنبؤ بالعديد من الرموز المميزة المتعلقة بالتنسيق من قبل الصياغة دون النظر إلى البيانات الحساسة.