
تشهد صناعة توليد الصور باستخدام الذكاء الاصطناعي تحولات كبيرة، حيث يُتوقع أن تصبح هذه الصناعة بقيمة مليار دولار بحلول نهاية هذا العقد. تعتمد هذه التقنية على الشبكات العصبية لإنشاء صور جديدة من مجموعة متنوعة من المدخلات، بما في ذلك نصوص أو أوصاف. في الوقت الحالي، يمكن لمولدات الصور أن تنتج صورًا خيالية في أقل من ثانية، لكن التدريب على هذه النماذج يتطلب موارد ضخمة ووقتًا طويلاً.
مؤخراً، تم تقديم بحث في مؤتمر ICML 2025 في فانكوفر، كندا، يتناول تقنيات جديدة لتحرير وتوليد الصور. كتب هذا البحث مجموعة من العلماء من معهد ماساتشوستس للتكنولوجيا (MIT) الذين استلهموا أفكارهم من ورقة سابقة تناولت مفهوم “المحول الأحادي الأبعاد”. يمكن لهذا الجهاز تحويل صورة بحجم 256×256 بكسل إلى سلسلة من 32 رقمًا.
تظهر الأبحاث أن المحولات الجديدة يمكن أن تمثل المعلومات البصرية بشكل أكثر كفاءة، مما يؤدي إلى تقليل عدد الرموز المستخدمة. تمكن الباحثون من تعديل الرموز بطريقة تُظهر تغييرات مرئية في الصور، مما يفتح المجال لتقنيات جديدة في تحرير الصور.
اكتشف الفريق كيفية توليد الصور بدون الحاجة إلى مولد تقليدي، وذلك من خلال استخدام محول أحادي الأبعاد ومفكك رموز. على سبيل المثال، تمكنوا من تحويل صورة باندا حمراء إلى نمر، وابتكار صور جديدة تمامًا انطلاقًا من رموز عشوائية.
تعتبر هذه النتائج خطوة كبيرة نحو تقليل تكاليف توليد الصور، حيث أن العمليات التقليدية تتطلب تدريبًا مكثفًا. يعكس هذا العمل إعادة تعريف دور المحولات، حيث تظهر أنها لا تقتصر فقط على ضغط الصور، بل يمكنها أيضًا تنفيذ مهام معقدة مثل التعديل وتعبئة الأجزاء المفقودة.
يتوقع علماء من MIT أن تكون لتقنياتهم تطبيقات واسعة في مجالات متعددة، بما في ذلك الروبوتات والسيارات ذاتية القيادة. يشير الباحثون إلى أن هذه الأفكار الجديدة يمكن أن تفتح آفاقًا غير مسبوقة في كيفية استخدام الذكاء الاصطناعي في مختلف المجالات.
هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي.