برامج متنوعة

المعايير المعيبة للذكاء الاصطناعي تعرض ميزانيات المؤسسات للخطر

كتب: محمد شاهين

0:00

 

تشير مراجعة أكاديمية جديدة إلى أن معايير الذكاء الاصطناعي قد تكون معيبة، مما قد يؤدي بالمؤسسات إلى اتخاذ قرارات عالية المخاطر بناءً على بيانات مضللة. يستثمر قادة المؤسسات ميزانيات تصل إلى ثمانية أو تسعة أرقام في برامج الذكاء الاصطناعي التوليدي، وغالبًا ما تعتمد هذه القرارات على لوحات المتصدرين العامة والمعايير لمقارنة قدرات النماذج.

 

دراسة شاملة تكشف العيوب

أجرت دراسة موسعة تحت عنوان “قياس ما يهم: صلاحية البناء في معايير نماذج اللغة الكبيرة”، تحليلًا لـ 445 معيارًا منفصلًا من مؤتمرات الذكاء الاصطناعي الرائدة. وجدت مجموعة من 29 مراجعًا خبيرًا أن “تقريبًا جميع المقالات تحتوي على نقاط ضعف في منطقة واحدة على الأقل”، مما يقوض الادعاءات المتعلقة بأداء النموذج.

 

مشكلة صلاحية البناء

ركز الباحثون على مبدأ علمي أساسي يعرف بصلاحية البناء، أي مدى قدرة اختبار ما على قياس المفهوم المجرد الذي يدعي قياسه. على سبيل المثال، بينما لا يمكن قياس “الذكاء” بشكل مباشر، يتم إنشاء اختبارات كبدائل قابلة للقياس. يشير البحث إلى أنه إذا كانت المعايير ذات صلاحية بناء منخفضة، فإن “النتيجة العالية قد تكون غير ذات صلة أو حتى مضللة”.

 

فشل المعايير في المؤسسات

حددت المراجعة عيوبًا منهجية شاملة، بدءًا من تصميم المعايير إلى كيفية الإبلاغ عن نتائجها. من بين المشكلات:

 

تعريفات غامضة أو متنازع عليها: لا يمكنك قياس ما لا يمكنك تعريفه. وجدت الدراسة أن 47.8% من التعريفات المقدمة كانت “متنازع عليها”.

 

نقص الصرامة الإحصائية: وجد البحث أن 16% فقط من المعايير استخدمت تقديرات عدم اليقين أو اختبارات إحصائية لمقارنة نتائج النماذج.

 

تلوث البيانات والتذكر: العديد من المعايير، خاصة تلك المتعلقة بالتفكير، تتعرض للضعف عندما تظهر أسئلتها وأجوبتها في بيانات التدريب السابقة للنموذج.

 

مجموعة بيانات غير ممثلة: وجدت الدراسة أن 27% من المعايير استخدمت “عينة ملائمة”، مما يعني أنها لم تكن ممثلة للظواهر الواقعية.

 

التحول من المعايير العامة إلى التقييم الداخلي

تُقدم الدراسة تحذيرًا قويًا لقادة المؤسسات: المعايير العامة للذكاء الاصطناعي ليست بديلاً عن التقييم الداخلي المحدد للمجال. إن الحصول على نتيجة عالية في لوحة المتصدرين العامة لا يضمن ملاءمتها لغرض تجاري محدد.

 

توصيات للقيادة المؤسسية

تقدم الورقة ثماني توصيات توفر قائمة تحقق عملية لأي مؤسسة ترغب في بناء معاييرها الخاصة وتقييماتها للذكاء الاصطناعي. تشمل التوصيات:

 

تعريف الظاهرة: يجب على المؤسسات إنشاء تعريف دقيق وقابل للتشغيل للظاهرة التي يتم قياسها.

بناء مجموعة بيانات تمثيلية: الأفضل هو بناء معيار يعتمد على بياناتك الخاصة.

إجراء تحليل للأخطاء: يجب على الفرق تحليل أسباب فشل النموذج.

تبرير الصلاحية: يجب تبرير ملاءمة المعيار للظاهرة مع التطبيقات الواقعية.

تظهر هذه الدراسة أن الأدوات المستخدمة لقياس التقدم غالبًا ما تكون معيبة. الطريق الوحيد الموثوق للمضي قدمًا هو التوقف عن الثقة في المعايير العامة للذكاء الاصطناعي والبدء في “قياس ما يهم” لمؤسستك.

 

هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

Main Heading Goes Here
Sub Heading Goes Here

No, thank you. I do not want.
100% secure your website.
Powered by
Main Heading Goes Here
Sub Heading Goes Here

No, thank you. I do not want.
100% secure your website.