حتى بوكيمون لا يسلم من جدل معايير تقييم الذكاء الاصطناعي

كتبت: أمل علوي

'الأربعاء - 16 أبريل - 2025'

301 دقيقة واحدة

0:00

أثار منشورٌ على منصة X جدلًا واسعًا حول معايير تقييم نماذج الذكاء الاصطناعي، حتى وصل الجدل إلى ألعاب بوكيمون! ادّعى المنشور أنّ نموذج جوجل Gemini تَفَوّق على نموذج Anthropic Claude في ثلاثية ألعاب بوكيمون الأصلية. وذُكر أنّ Gemini وصل إلى مدينة Lavendar Town خلال بثٍ مباشر على Twitch، بينما توقّف Claude عند Mount Moon.

لكنّ ما لم يُذْكَر في المنشور هو أنّ Gemini كان يمتلك ميزةً مُهمة. فقد أشار مُستخدمون على Reddit إلى أنّ مُطوّر بث Gemini بنى خريطةً مُصغّرةً مُخصصةً تساعد النموذج على تحديد “البلاطات” في اللعبة، مثل الأشجار التي يُمكن قطعها. وهذا يُقلّل من حاجة Gemini إلى تحليل لقطات الشاشة قبل اتخاذ قرارات اللعب.

يُعتبر استخدام بوكيمون كمعيار لتقييم الذكاء الاصطناعي مُشكوكًا فيه، فهو لا يُمثّل اختبارًا دقيقًا لِقدرات النموذج. لكنّه يُظهر كيف يُمكن لِلتنفيذات المُختلفة لِلمعيار أن تؤثّر على النتائج.

فعلى سَبيل المثال، أبلغت Anthropic عن نتيجتين لِنموذجها Anthropic 3.7 Sonnet على معيار SWE-bench Verified، المُصمّم لتقييم قدرات النموذج في البرمجة. حقّق Claude 3.7 Sonnet دقةً قدرها 62.3% على SWE-bench Verified، لكنّ الدقة ارتفعت إلى 70.3% باستخدام “هيكلٍ مُخصّص” طوّرته Anthropic.

وفي حادثةٍ أخرى، حسّنت Meta نسخةً من واحدٍ من نماذجها الأحدث، Llama 4 Maverick، لِيحقق أداءً جيدًا على معيار LM Arena المُحدّد. لكنّ النسخة العادية من النموذج حقّقت نتائج أسوأ بكثير على نفس التقييم.

بما أنّ معايير تقييم الذكاء الاصطناعي – بما في ذلك بوكيمون – ليست دقيقةً كليًا، فإنّ التنفيذات المُخصصة وغير المُعيارية تُزيد من تعقيد المقارنة بين النماذج. ويبدو أنّ مقارنة النماذج عند إطلاقها ستظلّ مهمةً صعبة.

هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي.

الوسوم

'الأربعاء - 16 أبريل - 2025'

301 دقيقة واحدة

أقرأ التالي

حتى بوكيمون لا يسلم من جدل معايير تقييم الذكاء الاصطناعي

كتبت: أمل علوي

أقرأ التالي

الروبوتات المنزلية: هل يمكن أن تكون مساعدات حقيقية في الحياة اليومية؟

الذكاء الاصطناعي يقود النمو: دراسة Deloitte تكشف عن تفاؤل قادة المال البريطانيين بشأن الإنتاجية

كيف تقلل مراجعات الكود المدعومة بالذكاء الاصطناعي من مخاطر الحوادث في Datadog

الروبوتات المنزلية: هل يمكن أن تكون مساعدات حقيقية في الحياة اليومية؟

الذكاء الاصطناعي يقود النمو: دراسة Deloitte تكشف عن تفاؤل قادة المال البريطانيين بشأن الإنتاجية

كيف تقلل مراجعات الكود المدعومة بالذكاء الاصطناعي من مخاطر الحوادث في Datadog

تليفزيون ليوميديا الإفتراضي

فريق الموظفين الإفتراضيين في ليوميديا
تواصل مع أي موظف بالضغط علي صورته

مروان موظف التدريب

فريدة- الراديو 9090

حازم - موظف الإستشارات

جاسمن - موظفة أجنا

تليفزيون ليوميديا الإفتراضي

فريق الموظفين الإفتراضيين في ليوميديا
تواصل مع أي موظف بالضغط علي صورته

مروان موظف التدريب

فريدة- الراديو 9090

حازم - موظف الإستشارات

جاسمن - موظفة أجنا

أقرأ التالي

الروبوتات المنزلية: هل يمكن أن تكون مساعدات حقيقية في الحياة اليومية؟

الذكاء الاصطناعي يقود النمو: دراسة Deloitte تكشف عن تفاؤل قادة المال البريطانيين بشأن الإنتاجية

كيف تقلل مراجعات الكود المدعومة بالذكاء الاصطناعي من مخاطر الحوادث في Datadog

الروبوتات المنزلية: هل يمكن أن تكون مساعدات حقيقية في الحياة اليومية؟

الذكاء الاصطناعي يقود النمو: دراسة Deloitte تكشف عن تفاؤل قادة المال البريطانيين بشأن الإنتاجية

كيف تقلل مراجعات الكود المدعومة بالذكاء الاصطناعي من مخاطر الحوادث في Datadog

OpenAI تُعلن عن إيقاف دعم نموذج GPT-4.5 عبر واجهة برمجة التطبيقات

نماذج OpenAI الجديدة GPT-4.1: التركيز على البرمجة وتطوير المهارات الهندسية

مقالات ذات صلة

استخدام الذكاء الاصطناعي في التشخيص الذاتي: 59٪ من البريطانيين يعتمدون عليه

بكسل أحمر في الثلوج: كيف حطم الذكاء الاصطناعي ألغاز الجبال ليكشف مصير متسلق مفقود؟

تحدي الذكاء الاصطناعي والأخلاق: الحكومة البريطانية تهدد بحظر منصة “إكس” العالمية

الذهب في النفايات: كيف يحوّل الذكاء الاصطناعي القمامة إلى ثروة مستدامة؟

فريق الموظفين الإفتراضيين في ليوميديا تواصل مع أي موظف بالضغط علي صورته

مروان موظف التدريب

فريدة- الراديو 9090

حازم - موظف الإستشارات

جاسمن - موظفة أجنا

تليفزيون ليوميديا الإفتراضي

فريق الموظفين الإفتراضيين في ليوميديا تواصل مع أي موظف بالضغط علي صورته

مروان موظف التدريب

فريدة- الراديو 9090

حازم - موظف الإستشارات

جاسمن - موظفة أجنا

فريق الموظفين الإفتراضيين في ليوميديا
تواصل مع أي موظف بالضغط علي صورته

فريق الموظفين الإفتراضيين في ليوميديا
تواصل مع أي موظف بالضغط علي صورته