
حقّق باحثون من معهد ماساتشوستس للتكنولوجيا (MIT) وغيرها من المؤسسات قفزةً نوعيةً في مجال الذكاء الاصطناعي، حيث طوّروا طريقةً تمكّن نماذج التعلّم الآليّ من ربط البيانات البصرية والسمعية من مقاطع الفيديو دون الحاجة إلى وسم بشريّ. وهذا الإنجاز يُمثّل خطوةً مُهمةً نحو إنشاء أنظمة ذكاء اصطناعيّ تُفهم العالم بطريقةٍ مُشابهة للإنسان، حيث تُعالِج المعلومات البصرية والسمعية بشكلٍ متزامن.
تعتمد الطريقة المُحسّنة، التي سُمّيت CAV-MAE Sync، على تقسيم المعلومات الصوتية إلى فتراتٍ زمنية أصغر، مُمكّنةً النظام من إنشاء تمثيلاتٍ مُنفصلة لكلّ فترة. خلال عملية التدريب، يتعلّم النظام ربط إطار فيديو واحدٍ بالصوت الذي يحدث خلال ذلك الإطار فقط. هذا يُحسّن دقة التطابق بين الصوت والصورة، مما يُمكّن النظام من إجراء مُطابقةٍ دقيقة بين الصوت والصورة في مقاطع الفيديو.
كما أدخل الباحثون تحسيناتٍ هيكلية على النظام لتحقيق توازنٍ أفضل بين هدفين للتعلّم: الهدف التباينيّ (الذي يُركّز على ربط البيانات المُشابهة)، والهدف الإنشائيّ (الذي يهدف إلى استعادة بياناتٍ مُحددة). وقد أدّت هذه التحسينات إلى رفع دقة النظام في استرجاع مقاطع الفيديو بناءً على استعلاماتٍ صوتية، وفي تصنيف المشاهد البصرية والسمعية.
يُمثّل هذا الإنجاز خطوةً مُهمةً نحو تطوير أنظمة ذكاء اصطناعيّ أكثر تطوراً وقدرةً على فهم العالم المُحيط. ويمكن أن يُستخدم هذا النظام في مُختلف التطبيقات، مثل الصحافة وإنتاج الأفلام، وحتى في الروبوتات لتحسين فهمها للبيئات الحقيقية. ويُخطّط الباحثون لإضافة قدراتٍ جديدة إلى النظام، مثل معالجة البيانات النصية، مما يُفتح آفاقاً جديدةً في مجال الذكاء الاصطناعيّ.
هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي.