تعليم نماذج الذكاء الاصطناعي فنّ الرسم كتابةً: تقنية جديدة تُحاكي أسلوب البشر
كتب: محمد شاهين

لا تُفي الكلمات دائمًا بالغرض عند التواصل أو فهم الأفكار. في بعض الأحيان، يكون النهج الأكثر فعالية هو عمل رسمٍ بسيط للتعبير عن المفهوم – على السّبيل المثال، قد يساعد تصميم دائرةٍ إلكترونية على فهم كيفية عمل النظام.
لكن ماذا لو استطاع الذكاء الاصطناعيّ مساعدتنا في استكشاف هذه التصوّرات؟ في حين أنّ هذه الأنظمة بارعة عادةً في إنشاء لوحاتٍ واقعية ورسوماتٍ كاريكاتورية، إلاّ أنّ الكثير من النموذج يفشل في التقاط جوهر الرّسم: عمليته التكرارية خطوة بخطوة، التي تساعد البشر على عصف الأفكار وتحرير كيفية تمثيل أفكارهم.
يُقدّم نظام رسمٍ جديد من مختبر علوم الحاسوب والذكاء الاصطناعيّ (CSAIL) في معهد ماساتشوستس للتكنولوجيا وجامعة ستانفورد إمكانية الرّسم بشكلٍ أكثر تشابهًا مع أسلوب البشر. تستخدم طريقتهم، المُسمّاة “SketchAgent”، نموذجًا لغويًا متعدد الوسائط – أنظمة ذكاء اصطناعيّ تُدرّب على النصوص والصور، مثل Anthropic’s Claude 3.5 Sonnet – لتحويل المُطالبات اللغوية إلى رسومات خلال ثوانٍ قليلة. على السّبيل المثال، يمكنها رسم بيتٍ إمّا بمفردها أو من خلال التعاون، الرّسم مع بشرٍ أو دمج إدخالٍ نصيّ لرسم كلّ جزءٍ على حِدة.
أظهر الباحثون أنّ SketchAgent يمكنها إنشاء رسوماتٍ مُجرّدة لمفاهيم مُتنوّعة، مثل روبوت، فراشة، حلزون DNA، مخطّط انسيابيّ، وحتى أوبرا سيدني. في يومٍ ما، يمكن توسيع الأداة إلى لعبة فنية تفاعلية تساعد المُعلّمين والباحثين على تصميم مفاهيمٍ مُعقّدة أو إعطاء المستخدمين درسًا سريعًا في الرّسم.
تُلاحظ باحثة ما بعد الدّكتوراه Yael Vinker في CSAIL، وهي المؤلفة الرئيسية لِورقة بحثية تُقدّم SketchAgent، أنّ النظام يُدخِل طريقةً أكثر طبيعية لِلتواصل بين البشر والذكاء الاصطناعيّ.
تقول: “ليس كلّ شخصٍ يُدرك مدى رسمه في حياته اليومية. قد نرسم أفكارنا أو نُناقش الأفكار برسومات”. “تهدف أداتنا إلى محاكاة هذه العمليّة، مُجعلةً النموذج اللغوي المُتعدّد الوسائط أكثر فائدةً في مساعدتنا على التعبير عن الأفكار بصريًا”.
يُعلّم SketchAgent هذه النموذج الرّسم خطوة بخطوة دون التدريب على أيّ بيانات – بدلاً من ذلك، طوّر الباحثون “لغة رسم” يُترجم فيها الرّسم إلى تسلسلٍ مُرقّمٍ من الخطوط على شبكة. أُعطِي النظام مثالًا على كيفية رسم الأشياء مثل البيت، مع تسمية كلّ خطٍّ وفقًا لِما يُمثّله – مثل أن يكون السّابع مستطيلًا مُسمّى “باب أماميّ” – لمُساعدة النموذج على التعميم إلى مفاهيم جديدة.
كتبت Vinker الورقة إلى جانب ثلاثة أشخاص من CSAIL – باحثة ما بعد الدّكتوراه Tamar Rott Shaham، وباحثة طالبة Alex Zhao، وأستاذ معهد ماساتشوستس للتكنولوجيا Antonio Torralba – بالإضافة إلى زميلة البحث في جامعة ستانفورد Kristine Zheng وأستاذة مساعدة Judith Ellen Fan. سيُقدّمون عملهم في مؤتمر رؤية الحاسوب والتعرّف على الأنماط (CVPR) لعام ٢٠٢٥ هذا الشهر.
تقييم قدرات الذكاء الاصطناعيّ على الرّسم
في حين أنّ نماذج النص إلى الصورة مثل DALL-E 3 يمكنها إنشاء رسوماتٍ مُثيرة للاهتمام، إلاّ أنّها تفتقر إلى مُكوّنٍ أساسيّ للرّسم: العمليّة الإبداعية التلقائية حيث يمكن لكلّ خطٍّ أن يؤثّر على التصميم الكليّ. من الجهة الأخرى، تُنمذج رسومات SketchAgent كتسلسلٍ من الخطوط، وتظهر أكثر طبيعية وسلاسة، مثل رسومات البشر.
حاكت الأعمال السابقة هذه العمليّة أيضًا، لكنّها درّبت نماذجها على مجموعات بياناتٍ رسمها البشر، والتي غالبًا ما تكون مُحدودة في الحجم والاختلاف. يستخدم SketchAgent بدلاً من ذلك نماذج لغوية مدربة مسبقًا، وهي ذات معرفة بالكثير من المفاهيم، لكنّها لا تعرف كيفية الرّسم. عندما درّب الباحثون نماذج اللغة هذه العمليّة، بدأ SketchAgent برسم مفاهيمٍ مُتنوّعة لم يُدرّب عليها صراحةً.
مع ذلك، أرادت Vinker و زملاؤها أن يرَوْا ما إذا كان SketchAgent يعمل بنشاطٍ مع البشر في عملية الرّسم، أو إذا كان يعمل بشكلٍ مستقلّ عن شريك الرّسم الخاصّ به. اختبر الفريق نظامهم في وضع التعاون، حيث يعمل بشرٌ ونموذج لغة معًا نحو رسم مفهومٍ مُعيّن. أظهر إزالة مساهمات SketchAgent أنّ خطوط أداتهم كانت أساسية للرّسم النهائيّ. في رسمٍ لِقاربٍ شراعيّ، على السّبيل المثال، جعل إزالة الخطوط الاصطناعية التي تُمثّل صاريًا الرّسم الكليّ غير مُعرف.
في تجربةٍ أخرى، قام باحثو CSAIL وستانفورد بتوصيل نماذج لغوية متعدّدة الوسائط مُختلفة في SketchAgent لرؤية أيّها يمكنه إنشاء رسوماتٍ أكثر تعرفًا. أنتج نموذج العمود الفقري الافتراضيّ الخاصّ بهم، Claude 3.5 Sonnet، أكثر رسومات متجهات تشبه رسومات البشر (وهي في الأساس ملفّات نصية يمكن تحويلها إلى صورٍ عالية الدقة). وقد تَفوّق على نماذج مثل GPT-4o و Claude 3 Opus.
تقول Tamar Rott Shaham، المُشاركة في التأليف: “حقيقة أنّ Claude 3.5 Sonnet تَفوّق على نماذج أخرى مثل GPT-4o و Claude 3 Opus تُشير إلى أنّ هذا النموذج يُعالِج ويُنشئ المعلومات ذات الصلة بالبصر بشكلٍ مُختلف”.
تضيف أنّ SketchAgent يمكن أن يُصبح واجهةً مُفيدةً للتعاون مع نماذج الذكاء الاصطناعيّ ما وراء التواصل النصيّ المُعيار. تقول Shaham: “مع تطوّر النموذج في فهم وإنشاء وسائط أخرى، مثل الرسومات، فهي تفتح طرقًا جديدة لِلمستخدمين للتعبير عن الأفكار وتلقّي الردود التي تبدو أكثر حدسًا وتشبه البشر”. “يمكن أن يُغني هذا التفاعلات بشكلٍ كبير، مُجعلًا الذكاء الاصطناعيّ أكثر إمكانية للوصول إليه وتنوعًا”.
في حين أنّ براعة SketchAgent في الرّسم واعدة، إلاّ أنّها لا يمكنها عمل رسوماتٍ احترافية بعد. إنّها تُنشئ تمثيلاتٍ بسيطة للمفاهيم باستخدام أشكالٍ عصوية ورسوماتٍ خربشة، لكنّها تكافح لرسم الأشياء مثل الشعارات، والجُمَل، والمخلوقات المُعقّدة مثل وحيد القرون والأبقار، والأشكال البشرية المُحدّدة.
في بعض الأحيان، أساء نموذجهم أيضًا فهم نية المستخدمين في الرسومات التعاونية، مثل عندما رسم SketchAgent أرنبًا برأسين. وفقًا لـ Vinker، قد يكون هذا لأنّ النموذج يُقسّم كلّ مهمة إلى خطواتٍ أصغر (يُسمّى أيضًا التفكير السلسليّ). عندما يعمل مع البشر، يُنشئ النموذج خطة رسم، مُحتملًا إساءة تفسير أيّ جزءٍ من هذا المُخطّط يساهم فيه بشر. قد يكون مُمكنًا للباحثين تحسين هذه المهارات في الرّسم من خلال التدريب على بياناتٍ اصطناعية من نماذج الانتشار.
بالإضافة إلى ذلك، يتطلّب SketchAgent غالبًا بعض الجولات من المُطالبات لإنشاء رسوماتٍ تشبه رسومات البشر. في المُستقبل، يهدف الفريق إلى جعل التفاعل والرّسم مع نماذج اللغة المُتعدّدة الوسائط أسهل، بما في ذلك تحسين واجهتهم.
مع ذلك، تُشير الأداة إلى إمكانية رسم الذكاء الاصطناعيّ لمفاهيمٍ مُتنوّعة بطريقة تشبه طريقة البشر، مع تعاونٍ خطوة بخطوة بين البشر والذكاء الاصطناعيّ يُؤدّي إلى تصاميمٍ نهائية أكثر انسجامًا.
هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي.