من الهلوسة إلى الأجهزة: دروس من مشروع رؤية الكمبيوتر الحقيقي ذهب إلى جانب

انضم إلى الحدث الذي يثق به قادة المؤسسات منذ ما يقرب من عقدين. يجمع VB Transform بين الأشخاص الذين يقومون ببناء استراتيجية AI للمؤسسات الحقيقية. يتعلم أكثر
نادراً ما تسير مشاريع رؤية الكمبيوتر تمامًا كما هو مخطط لها ، ولم يكن هذا الاستثناء. كانت الفكرة بسيطة: قم بإنشاء نموذج يمكن أن ينظر إلى صورة لجهاز كمبيوتر محمول وتحديد أي أضرار جسدية – أشياء مثل الشاشات المتصدع أو المفاتيح المفقودة أو المفصلات المكسورة. بدا الأمر وكأنه حالة استخدام مباشرة لنماذج الصور ونماذج اللغة الكبيرة (LLMS) ، لكنها سرعان ما تحولت إلى شيء أكثر تعقيدًا.
على طول الطريق ، واجهنا مشكلات مع الهلوسة والمخرجات والصور غير الموثوقة التي لم تكن حتى أجهزة الكمبيوتر المحمولة. لحلها ، انتهى بنا المطاف بتطبيق إطار عمل على الوكلاء بطريقة غير نمطية – ليس لأتمتة المهام ، ولكن لتحسين أداء النموذج.
في هذا المنشور ، سوف نسير عبر ما جربناه ، وما لم ينجح وكيف ساعدنا مجموعة من الأساليب في نهاية المطاف في بناء شيء موثوق به.
حيث بدأنا: مطالبة متجانسة
كان نهجنا الأولي قياسيًا إلى حد ما لنموذج متعدد الوسائط. استخدمنا موجهًا واحدًا كبيرًا لتمرير صورة إلى LLM قادرة على الصورة وطلبناها تحديد الأضرار المرئية. هذه الإستراتيجية المطلوبة المتجانسة سهلة التنفيذ وتعمل بشكل لائق للمهام النظيفة والمحددة جيدًا. ولكن البيانات في العالم الحقيقي نادرا ما تلعب على طول.
واجهنا ثلاث قضايا رئيسية في وقت مبكر:
- الهلوسة: قد يخترع النموذج في بعض الأحيان الأضرار التي لم تكن موجودة أو تسمية ما كان يراه.
- الكشف عن الصورة غير المرغوب فيه: لم يكن لديها طريقة موثوقة لعلامة الصور التي لم تكن حتى أجهزة كمبيوتر محمولة ، مثل صور المكاتب أو الجدران أو الأشخاص في بعض الأحيان تتلقى تقارير الأضرار غير المنطقية.
- دقة غير متسقة: مزيج من هذه المشكلات جعل النموذج غير موثوق به للاستخدام التشغيلي.
كانت هذه هي النقطة التي أصبح من الواضح أننا سنحتاج إلى التكرار.
أول إصلاح: خلط قرارات الصور
شيء واحد لاحظناه هو مقدار جودة الصورة التي أثرت على ناتج النموذج. قام المستخدمون بتحميل جميع أنواع الصور التي تتراوح من الحادة والعالية الدقة إلى الضبابية. هذا دفعنا إلى الإشارة إلى الأبحاث التي تسليط الضوء على كيفية تأثير حل الصورة على نماذج التعلم العميق.
قمنا بتدريب واختبار النموذج باستخدام مزيج من الصور عالية الدقة. كانت الفكرة هي جعل النموذج أكثر مرونة في مجموعة واسعة من صفات الصورة التي ستواجهها في الممارسة العملية. وقد ساعد ذلك في تحسين الاتساق ، لكن القضايا الأساسية المتمثلة في الهلوسة والتعامل مع الصور غير المرغوب فيها استمرت.
The Multimodal Detour: Text-Only LLM يذهب متعدد الوسائط
بتشجيع من التجارب الحديثة في الجمع الدفعة، حيث يتم إنشاء التسميات التوضيحية من الصور ثم تفسيرها من خلال نموذج لغة ، قررنا تجربتها.
إليك كيف تعمل:
- تبدأ LLM بتوليد تعليقات متعددة ممكنة لصورة.
- نموذج آخر ، يسمى نموذج التضمين متعدد الوسائط ، يتحقق من مدى ملاءمة كل تعليق على الصورة. في هذه الحالة ، استخدمنا Siglip لتسجيل التشابه بين الصورة والنص.
- يحتفظ النظام بأعلى عدد قليل من التسميات التوضيحية بناءً على هذه الدرجات.
- تستخدم LLM تلك التسميات التوضيحية العليا لكتابة تلك الجديدة ، في محاولة للاقتراب مما تظهره الصورة بالفعل.
- يكرر هذه العملية حتى تتوقف التسميات التوضيحية عن التحسن ، أو تضرب حد محدد.
في حين أن ذكيًا من الناحية النظرية ، قدم هذا النهج مشاكل جديدة لحالة الاستخدام لدينا:
- الهلوسة المستمرة: يتضمن التسميات التوضيحية في بعض الأحيان أضرارًا وهمية ، والتي أبلغت LLM بثقة.
- تغطية غير مكتملة: حتى مع تعليقات متعددة ، تم تفويت بعض المشكلات بالكامل.
- زيادة التعقيد ، فائدة ضئيلة: الخطوات المضافة جعلت النظام أكثر تعقيدًا دون أن يتفوق بشكل موثوق على الإعداد السابق.
لقد كانت تجربة مثيرة للاهتمام ، ولكن في النهاية ليست حل.
استخدام إبداعي للأطر عمل
كانت هذه هي نقطة التحول. في حين أن الأطر عمل الوكلاء تستخدم عادة لتنسيق تدفقات المهام (يعتقد أن وكلاء تنسيق دعوات التقويم أو إجراءات خدمة العملاء) ، فقد تساءلنا عما إذا كان تحطيم مهمة تفسير الصورة إلى وكلاء أصغر ومتخصصة قد تساعد.
لقد قمنا ببناء إطار عمل منظم مثل هذا:
- وكيل Orchestrator: فحص الصورة وتحديد مكونات الكمبيوتر المحمول كانت مرئية (الشاشة ، لوحة المفاتيح ، الهيكل ، المنافذ).
- وكلاء المكون: قام العوامل المخصصة بتفتيش كل مكون لأنواع أضرار محددة ؛ على سبيل المثال ، واحدة للشاشات المتصدع ، والآخر للمفاتيح المفقودة.
- عامل اكتشاف غير مرغوب فيه: تم وضع علامة على وكيل منفصل ما إذا كانت الصورة كمبيوتر محمول في المقام الأول.
أنتج هذا النهج المعياري القائم على المهام نتائج أكثر دقة وقابلة للتفسير. انخفضت الهلوسة بشكل كبير ، تم وضع علامة على الصور غير المرغوب فيها بشكل موثوق وكانت مهمة كل وكيل بسيطة وتركز بما يكفي للتحكم في الجودة بشكل جيد.
البقع العمياء: مقايضات نهج الوكيل
بنفس القدر من الفعالية ، لم يكن مثاليًا. ظهرت القيود الرئيسية:
- زيادة الكمون: تشغيل عوامل متسلسلة متعددة تمت إضافتها إلى إجمالي وقت الاستدلال.
- فجوات التغطية: يمكن للوكلاء فقط اكتشاف المشكلات التي تمت برمجتها بشكل صريح للبحث عنها. إذا أظهرت صورة شيئًا غير متوقع أنه لم يتم تكليف أي عامل بالتعريف ، فسيكون ذلك دون أن يلاحظه أحد.
كنا بحاجة إلى طريقة لموازنة الدقة مع التغطية.
الحل المختلط: الجمع بين الأساليب الوكلاء والمترجمة
لسد الفجوات ، أنشأنا نظامًا هجينًا:
- ال إطار عمل وكيل ركض أولاً ، والتعامل مع الكشف الدقيق لأنواع الأضرار المعروفة والصور غير المرغوب فيها. لقد حصرنا عدد الوكلاء إلى أهم العوامل لتحسين الكمون.
- ثم ، أ موجه صورة متجانسة LLM مسح صورة أي شيء آخر قد فاته الوكلاء.
- وأخيرا ، نحن ضبط النموذج باستخدام مجموعة من الصور من الصور ذات الأولوية العالية ، مثل سيناريوهات الضرر المبلغ عنها بشكل متكرر ، لزيادة تحسين الدقة والموثوقية.
لقد أعطانا هذا المزيج دقة وقابلية الإعداد الوكلاء ، والتغطية الواسعة للتطبيق المتجانس وزيادة الثقة في التثبيت الدقيق المستهدف.
ما تعلمناه
أصبحت بعض الأشياء واضحة بحلول الوقت الذي اختتمنا فيه هذا المشروع:
- الأطر العيئة أكثر تنوعا مما تحصل على الفضل: على الرغم من أنها ترتبط عادةً بإدارة سير العمل ، فقد وجدنا أنها يمكن أن تعزز أداء النموذج بشكل مفيد عند تطبيقها بطريقة معيارية منظمة.
- مزج نهج مختلفة يدق بالاعتماد على واحدة فقط: مزيج من الاكتشاف الدقيق القائم على الوكيل إلى جانب التغطية الواسعة لـ LLMs ، بالإضافة إلى القليل من الضبط حيث كان الأمر أكثر أهمية ، أعطانا نتائج أكثر موثوقية بكثير من أي طريقة واحدة بمفردها.
- النماذج المرئية عرضة للهلوسة: حتى الإعدادات الأكثر تقدماً يمكن أن تقفز إلى الاستنتاجات أو رؤية أشياء غير موجودة. يتطلب الأمر تصميم نظام مدروس للحفاظ على تلك الأخطاء قيد الفحص.
- تنوع جودة الصورة يحدث فرقًا: ساعد التدريب والاختبار مع كل من الصور الواضحة وعالية الدقة والأصوات اليومية ذات الجودة المنخفضة على البقاء مرنًا عند مواجهة صور غير متوقعة في العالم الحقيقي.
- أنت بحاجة إلى طريقة لالتقاط الصور غير المرغوب فيها: كان فحص مخصص للصور غير المرغوب فيه أو غير ذي صلة أحد أبسط التغييرات التي أجريناها ، وكان لها تأثير كبير على موثوقية النظام بشكل عام.
الأفكار النهائية
ما بدأ كفكرة بسيطة ، باستخدام مطالبة LLM للكشف عن الأضرار المادية في صور الكمبيوتر المحمول ، سرعان ما تحولت إلى تجربة أعمق بكثير في الجمع بين تقنيات الذكاء الاصطناعى المختلفة لمعالجة المشكلات غير المتوقعة والواقعية. على طول الطريق ، أدركنا أن بعض الأدوات الأكثر فائدة كانت غير مصممة أصلاً لهذا النوع من العمل.
أثبتت الأطر العيئة ، التي يُنظر إليها غالبًا على أنها أدوات سير العمل ، فعالة بشكل مدهش عند إعادة استخدامها لمهام مثل اكتشاف الأضرار المنظمة وتصفية الصور. مع القليل من الإبداع ، ساعدونا في بناء نظام لم يكن أكثر دقة فحسب ، بل أسهل في الفهم والإدارة في الممارسة العملية.
Shruti Tiwari هو مدير منتج AI في Dell Technologies.
Vadiraj Kulkarni هو عالم بيانات في Dell Technologies.
هذا المحتوي تم بالكامل عن طريق أدوات الذكاء الإصطناعي