تقنيات جديدة

تنسنت تطلق ArtifactsBench: ثورة في تقييم الإبداع الرقمي للذكاء الاصطناعي

كتبت: أمل علوي

0:00

 

أعلنت شركة تنسنت الصينية العملاقة عن إطلاق معيار قياسي جديد باسم ArtifactsBench، مُصمم خصيصًا لسد فجوة حرجة في تقييم النماذج الإبداعية للذكاء الاصطناعي، وخاصة تلك التي تولّد تطبيقات وتجارب مستخدم تفاعلية.

التحدي: ما وراء الصلاحية الوظيفية
لطالما واجه المستخدمون مشكلة شائعة عند طلب إنشاء عناصر مثل صفحات ويب أو رسوم بيانية من الذكاء الاصطناعي: النتيجة تعمل تقنيًا، لكنها تفتقر إلى الجماليات وسلاسة الاستخدام. الأزرار في غير مكانها، ألوان متصادمة، وحركات غير متناغمة. يكمن التحدي الأساسي في كيفية “تعليم” الآلة امتلاك ذوقٍ جيدٍ وفهمٍ لمعايير تجربة المستخدم الحديثة.

كانت الاختبارات التقليدية تركّز فقط على “صلاحية الكود وظيفيًا”، متجاهلة تمامًا “السلامة البصرية وسلامة التفاعل التي تُحدد تجارب المستخدم المعاصرة”، كما تذكر تنسنت.

الحل: ناقد فني آلي متكامل
يأتي ArtifactsBench ليكون حلاً شاملاً لهذه المشكلة، ويعمل كمنصة تقييم تلقائية متعددة الخطوات:

تحديد المهمة: يُعطى النموذج مهمة إبداعية من بين مكتبة تضم أكثر من 1800 تحدي متنوع (تصميم مرئيات بيانات، تطبيقات ويب، ألعاب تفاعلية مصغرة).

التنفيذ الآمن: يُنشّئ المعيار الكود المُنتَج تلقائيًا ويُشغّله في بيئة آمنة ومعزولة (ساندبوكس).

التقاط السلوك: يُسجّل سلسلة من لقطات الشاشة خلال وقت التشغيل لمراقبة التغيرات الديناميكية مثل الحركات (الأنيميشن) وردود الفعل على النقر.

التقييم متعدد الوسائط: تُعرض جميع الأدلة (الطلب الأصلي، الكود، اللقطات) على نموذج لغوي كبير متعدد الوسائط (MLLM) ليقوم بدور “القاضي”.

تقييم دقيق: يستخدم هذا القاضي الآلي قائمة تفصيلية لكل مهمة لتقييم الناتج عبر 10 مقاييس تشمل الوظيفة، تجربة المستخدم، الجماليات، والتصميم التفاعلي، مما يضمن عدالة وثبات التقييم.

الدقة: توافق مذهل مع التقييم البشري
السؤال الحاسم: هل يمتلك هذا القاضي الآلي ذوقًا جيدًا؟ تشير النتائج إلى نعم!
عند مقارنة نتائج ArtifactsBench مع منصة WebDev Arena (المعيار الذهبي حيث يصوّت بشر حقيقيون على أفضل إبداعات الذكاء الاصطناعي)، بلغت نسبة التوافق 94.4%. تمثل هذه قفزة هائلة مقارنة بمعايير القياس الآلي السابقة التي حققت حوالي 69.4% فقط. كما أظهرت أحكام ArtifactsBench توافقًا بنسبة تزيد عن 90% مع تقييمات مطورين بشريين محترفين.

مفاجأة: تفوق النماذج “العامة” على “المتخصّصة”
عند اختبار أكثر من 30 من أفضل نماذج الذكاء الاصطناعي العالمية باستخدام ArtifactsBench، كشف التصنيف مفاجأة مثيرة. بينما تصدرت نماذج تجارية كبرى مثل جوجل (Gemini-2.5-Pro) وأنثروبيك (Claude 4.0-Sonnet)، أظهرت النتائج أن النماذج العامة (Generalist) غالبًا ما تتفوق على النماذج المتخصصة (Specialized) في هذه المهام الإبداعية.
فقد تفوق النموذج العام Qwen-2.5-Instruct (التابع لمؤسسة Qwen الممولة من تنسنت) على نظيريه المتخصصين في البرمجة (Qwen-2.5-coder) والرؤية الحاسوبية (Qwen2.5-VL). يفسر الباحثون هذا بأن إنشاء تطبيق مرئي متميز لا يعتمد فقط على البرمجة أو الفهم البصري منفردين، بل يتطلب مزيجًا من المهارات مثل:

الاستدلال القوي.

فهم التعليمات المعقدة بدقة.

حسّ جمالي ضمني للتصميم.

هذه المهارات المتكاملة تشبه تلك التي يمتلكها البشر، وتبدأ أفضل النماذج العامة في تطويرها.

الرؤية المستقبلية
تهدف تنسنت من خلال ArtifactsBench إلى توفير أداة موثوقة لقياس تطور قدرات الذكاء الاصطناعي الإبداعية بشكل منهجي. الهدف النهائي ليس مجرد تقييم ما إذا كان الناتج “يعمل”، بل ما إذا كان مفيدًا، سلسًا، وجذابًا بما يكفي ليرغب المستخدمون في استخدامه بالفعل، مما يدفع عجلة الابتكار نحو ذكاء اصطناعي أكثر إنسانية وإبداعًا.

هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

Main Heading Goes Here
Sub Heading Goes Here

No, thank you. I do not want.
100% secure your website.
Powered by
Main Heading Goes Here
Sub Heading Goes Here

No, thank you. I do not want.
100% secure your website.