أوبن إيه آي تُضيف ضمانات أمان جديدة لمنع المخاطر البيولوجية في نماذجها اللغوية الكبيرة
كتبت: أمل علوي

أعلنت شركة أوبن إيه آي (OpenAI) عن نشر نظام جديد لرصد نماذجها الحديثة للتفكير، o3 و o4-mini، للكشف عن المُحفّزات المتعلقة بالتهديدات البيولوجية والكيميائية. يهدف هذا النظام إلى منع النماذج من تقديم نصائح قد تُرشد شخصًا ما إلى تنفيذ هجمات ضارة محتملة، وفقًا لتقرير السلامة من أوبن إيه آي.
تمثّل o3 و o4-mini زيادةً كبيرةً في القدرات مقارنةً بنماذج أوبن إيه آي السابقة، وتُشكّل لذلك مخاطرًا جديدةً في أيدي الجهات الخبيثة. وفقًا لِمعايير أوبن إيه آي الداخلية، تُعتبر o3 أكثر مهارةً في الإجابة على الأسئلة حول إنشاء أنواعٍ مُعيّنة من التهديدات البيولوجية على الخصوص. لهذا السبب – وللتخفيف من المخاطر الأخرى – أنشأت أوبن إيه آي نظام المراقبة الجديد، والذي تُصفه الشركة بأنه “جهاز مراقبة للتفكير يُركّز على السلامة”.
يعمل جهاز المراقبة، الذي تمّ تدريبه بشكلٍ مُخصّص للتفكير في سياسات محتوى أوبن إيه آي، فوق o3 و o4-mini. وهو مُصمّم لتحديد المُحفّزات المُتعلقة بالمخاطر البيولوجية والكيميائية وتوجيه النموذج إلى رفض تقديم النصائح حول هذه المواضيع.
لتحديد خط أساس، أجرى فريق اختبار أمان في أوبن إيه آي حوالي 1000 ساعة من الوقت لِتمييز المحادثات “غير الآمنة” المُتعلقة بالمخاطر البيولوجية من o3 و o4-mini. خلال اختبارٍ حاكت فيه أوبن إيه آي “منطق الحجب” لجهاز مراقبة السلامة، رفضت النموذجات الاستجابة لِلمُحفّزات المُخاطرة في 98.7% من الأحيان، وفقًا لأوبن إيه آي.
تُقرّ أوبن إيه آي بأنّ اختبارها لم يُراعِ الأشخاص الذين قد يُجرّبون مُحفّزاتٍ جديدةً بعد الحجب من قبل جهاز المراقبة، ولهذا السبب تقول الشركة إنّها ستستمر في الاعتماد جزئيًا على المراقبة البشرية.
لا تتجاوز o3 و o4-mini عتبة “المخاطر العالية” لِلمخاطر البيولوجية، وفقًا لِـOpenAI. ومع ذلك، مقارنةً بـo1 وGPT-4، تقول أوبن إيه آي إنّ الإصدارات المُبكّرة من o3 و o4-mini أثبتت فعاليتها في الإجابة على الأسئلة حول تطوير الأسلحة البيولوجية.
تُراقب الشركة بشكلٍ نشط كيف يمكن أن تُسهّل نماذجها على المُستخدمين الخبيثين تطوير التهديدات الكيميائية والبيولوجية، وفقًا لإطار التحضّر المُحدّث مؤخرًا من أوبن إيه آي.
تعتمد أوبن إيه آي بشكلٍ متزايد على النظم الأوتوماتيكية للتخفيف من مخاطر نماذجها. على السّبيل المثال، لمنع مُولّد الصور الأصلي في GPT-4o من إنشاء محتوى إساءة استخدام الأطفال جنسيًا، تقول أوبن إيه آي إنّها تستخدم جهاز مراقبة للتفكير مُشابهًا لِـلذي نشرته لـo3 و o4-mini.
هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي.