تقارير ومتابعات

حتى بوكيمون لا يسلم من جدل معايير تقييم الذكاء الاصطناعي

كتبت: أمل علوي

0:00

 

أثار منشورٌ على منصة X جدلًا واسعًا حول معايير تقييم نماذج الذكاء الاصطناعي، حتى وصل الجدل إلى ألعاب بوكيمون! ادّعى المنشور أنّ نموذج جوجل Gemini تَفَوّق على نموذج Anthropic Claude في ثلاثية ألعاب بوكيمون الأصلية. وذُكر أنّ Gemini وصل إلى مدينة Lavendar Town خلال بثٍ مباشر على Twitch، بينما توقّف Claude عند Mount Moon.

لكنّ ما لم يُذْكَر في المنشور هو أنّ Gemini كان يمتلك ميزةً مُهمة. فقد أشار مُستخدمون على Reddit إلى أنّ مُطوّر بث Gemini بنى خريطةً مُصغّرةً مُخصصةً تساعد النموذج على تحديد “البلاطات” في اللعبة، مثل الأشجار التي يُمكن قطعها. وهذا يُقلّل من حاجة Gemini إلى تحليل لقطات الشاشة قبل اتخاذ قرارات اللعب.

يُعتبر استخدام بوكيمون كمعيار لتقييم الذكاء الاصطناعي مُشكوكًا فيه، فهو لا يُمثّل اختبارًا دقيقًا لِقدرات النموذج. لكنّه يُظهر كيف يُمكن لِلتنفيذات المُختلفة لِلمعيار أن تؤثّر على النتائج.

فعلى سَبيل المثال، أبلغت Anthropic عن نتيجتين لِنموذجها Anthropic 3.7 Sonnet على معيار SWE-bench Verified، المُصمّم لتقييم قدرات النموذج في البرمجة. حقّق Claude 3.7 Sonnet دقةً قدرها 62.3% على SWE-bench Verified، لكنّ الدقة ارتفعت إلى 70.3% باستخدام “هيكلٍ مُخصّص” طوّرته Anthropic.

وفي حادثةٍ أخرى، حسّنت Meta نسخةً من واحدٍ من نماذجها الأحدث، Llama 4 Maverick، لِيحقق أداءً جيدًا على معيار LM Arena المُحدّد. لكنّ النسخة العادية من النموذج حقّقت نتائج أسوأ بكثير على نفس التقييم.

بما أنّ معايير تقييم الذكاء الاصطناعي – بما في ذلك بوكيمون – ليست دقيقةً كليًا، فإنّ التنفيذات المُخصصة وغير المُعيارية تُزيد من تعقيد المقارنة بين النماذج. ويبدو أنّ مقارنة النماذج عند إطلاقها ستظلّ مهمةً صعبة.

هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي.

مقالات ذات صلة

زر الذهاب إلى الأعلى

Main Heading Goes Here
Sub Heading Goes Here

No, thank you. I do not want.
100% secure your website.
Powered by
Main Heading Goes Here
Sub Heading Goes Here

No, thank you. I do not want.
100% secure your website.