دراسة تُشير إلى تدريب OpenAI لنماذج الذكاء الاصطناعي على بيانات محمية بحقوق النشر
كتب: محمد شاهين

أثارت دراسة جديدة من مشروع “إفصاحات الذكاء الاصطناعي” (AI Disclosures Project) تساؤلات حول البيانات التي تستخدمها OpenAI لتدريب نماذج اللغات الكبيرة (LLMs) الخاصة بها. تشير الدراسة إلى أن نموذج GPT-4o من OpenAI يُظهر “تعرفاً قوياً” على بيانات محمية بحقوق النشر ومُدفوعة الأجر من كتب O’Reilly Media.
يهدف مشروع “إفصاحات الذكاء الاصطناعي”، الذي يقوده خبير التكنولوجيا تيم أوريللي والاقتصادي إيلان ستراوس، إلى معالجة الآثار الاجتماعية الضارة المحتملة لتجارة الذكاء الاصطناعي من خلال الدعوة إلى تحسين الشفافية المؤسسية والتكنولوجية. تُبرز ورقة العمل الخاصة بالمشروع نقص الإفصاح في مجال الذكاء الاصطناعي، مُرسمةً أوجه التشابه مع معايير الإفصاح المالي ودورها في تعزيز أسواق الأوراق المالية القوية.
استخدمت الدراسة مجموعة بيانات مُحصل عليها قانونياً تتضمن 34 كتاباً من كتب O’Reilly Media محمية بحقوق النشر للتحقق مما إذا كانت نماذج LLMs من OpenAI قد تم تدريبها على بيانات محمية بحقوق النشر دون موافقة. طبق الباحثون طريقة هجوم الاستدلال على العضوية DE-COP لتحديد ما إذا كانت النماذج تستطيع التمييز بين نصوص O’Reilly التي كتبها بشر وإصدارات LLM المُعاد صياغتها.
تشمل النتائج الرئيسية للتقرير ما يلي:
يُظهر GPT-4o “تعرفاً قوياً” على محتوى كتب O’Reilly المدفوعة الأجر، مع درجة AUROC تبلغ 82%. على النقيض من ذلك، لا يُظهر نموذج OpenAI السابق، GPT-3.5 Turbo، نفس مستوى التعرف (درجة AUROC أعلى بقليل من 50%).
يُظهر GPT-4o قدرة أكبر على التعرف على محتوى كتب O’Reilly غير المُنشر مقارنةً بالعينات المُتاحة للجمهور (82% مقابل 64% من درجات AUROC على التوالي).
يُظهر GPT-3.5 Turbo قدرة أكبر نسبياً على التعرف على عينات كتب O’Reilly المُتاحة للجمهور مقارنةً بالعينات غير المُنشر (64% مقابل 54% من درجات AUROC).
لم يُظهر GPT-4o Mini، وهو نموذج أصغر، أي معرفة بمحتوى O’Reilly Media العام أو الخاص عند اختباره (AUROC حوالي 50%).
يقترح الباحثون أن انتهاكات الوصول قد تكون قد حدثت عبر قاعدة بيانات LibGen، حيث تم العثور على جميع كتب O’Reilly التي تم اختبارها هناك. يقرّون أيضاً بأن نماذج LLMs الأحدث تتمتع بقدرة مُحسّنة على التمييز بين اللغة التي كتبها الإنسان واللغة التي أنشأتها الآلة، وهو ما لا يُقلّل من قدرة الطريقة على تصنيف البيانات.
تُبرز الدراسة إمكانية وجود “تحيز زمني” في النتائج، بسبب التغيرات اللغوية بمرور الوقت. وللتعامل مع هذا، قام الباحثون باختبار نموذجين (GPT-4o و GPT-4o Mini) تم تدريبهما على بيانات من نفس الفترة.
يُلاحظ التقرير أنه بينما الأدلة خاصة بـ OpenAI وكتب O’Reilly Media، إلا أنها تعكس على الأرجح مشكلة منهجية حول استخدام البيانات المحمية بحقوق النشر. يُجادل التقرير بأن استخدام بيانات التدريب غير المُعوضة قد يؤدي إلى انخفاض في جودة وتنوع محتوى الإنترنت، مع تضاؤل مصادر الإيرادات لإنتاج المحتوى الاحترافي.
يُشدد مشروع “إفصاحات الذكاء الاصطناعي” على ضرورة وجود مساءلة أقوى في عمليات ما قبل التدريب لنماذج شركات الذكاء الاصطناعي. يقترحون أن أحكام المسؤولية التي تُحفّز تحسين الشفافية المؤسسية في الكشف عن أصل البيانات قد تكون خطوة مهمة نحو تسهيل الأسواق التجارية لترخيص بيانات التدريب وتسديد أجورها.
قد تُساعد متطلبات الإفصاح في قانون الذكاء الاصطناعي الأوروبي (EU AI Act) على إطلاق دورة إيجابية لمعايير الإفصاح إذا تم تحديدها وتطبيقها بشكل صحيح. يُعتبر ضمان معرفة أصحاب حقوق الملكية الفكرية متى تم استخدام عملهم في تدريب النماذج خطوة حاسمة نحو إنشاء أسواق للذكاء الاصطناعي لبيانات مُنشئي المحتوى.
على الرغم من وجود أدلة على أن شركات الذكاء الاصطناعي قد تحصل على بيانات بشكل غير قانوني لتدريب النماذج، إلا أن سوقاً ناشئة تدفع فيها شركات تطوير نماذج الذكاء الاصطناعي مقابل المحتوى من خلال صفقات الترخيص. تُسهّل شركات مثل Defined.ai شراء بيانات التدريب، والحصول على موافقة من مقدمي البيانات، وإزالة المعلومات الشخصية القابلة للتعريف.
يختتم التقرير بالقول إنه باستخدام 34 كتاباً من كتب O’Reilly Media الخاصة، تقدم الدراسة دليلاً تجريبياً على أن OpenAI ربما دربت GPT-4o على بيانات غير عامة محمية بحقوق النشر.
هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي.