Sakana AI’s Treequest: نشر فرق متعددة النماذج تتفوق على LLMs الفردية بنسبة 30 ٪

تريد رؤى أكثر ذكاء في صندوق الوارد الخاص بك؟ اشترك في النشرات الإخبارية الأسبوعية لدينا للحصول على ما يهم فقط للمؤسسات AI والبيانات وقادة الأمن. اشترك الآن
قدمت Sakana AI اليابانية Sakana AI تقنية جديدة تتيح نماذج لغة كبيرة متعددة (LLMS) للتعاون في مهمة واحدة ، مما يخلق بشكل فعال “فريق أحلام” من وكلاء الذكاء الاصطناعي. تتيح الطريقة ، التي تسمى Multi-LLM AB-MCTS ، نماذج من إجراء التجارب والخطأ وجمع نقاط قوتها الفريدة لحل المشكلات المعقدة للغاية بالنسبة لأي نموذج فردي.
بالنسبة للمؤسسات ، يوفر هذا النهج وسيلة لتطوير أنظمة الذكاء الاصطناعي أكثر قوة وقادرة. بدلاً من أن يتم قفلها في مزود أو نموذج واحد ، يمكن للشركات الاستفادة ديناميكيًا أفضل جوانب النماذج الحدودية المختلفة ، وتعيين الذكاء الاصطناعي المناسب للجزء المناسب من المهمة لتحقيق نتائج متفوقة.
قوة الذكاء الجماعي
نماذج الحدود AI تتطور بسرعة. ومع ذلك ، فإن كل نموذج له نقاط القوة والضعف المتميزة المستمدة من بيانات التدريب الفريدة والهندسة المعمارية. قد يتفوق المرء في الترميز ، بينما يتفوق آخر في الكتابة الإبداعية. يجادل باحثو Sakana AI بأن هذه الاختلافات ليست خطأ ، ولكنها ميزة.
يقول الباحثون في منشور المدونة: “نرى هذه التحيزات والاستعدادات المتنوعة ليس كقيود ، ولكن كموارد ثمينة لإنشاء ذكاء جماعي” ، يقول الباحثون في منشور المدونة. وهم يعتقدون أنه مثل أعظم إنجازات الإنسانية تأتي من فرق متنوعة ، يمكن أن تحقق أنظمة الذكاء الاصطناعى أكثر من خلال العمل معًا. “من خلال تجميع ذكائهم ، يمكن أن تحل أنظمة الذكاء الاصطناعى المشكلات التي لا يمكن التغلب عليها لأي نموذج واحد.”
التفكير لفترة أطول في وقت الاستدلال
خوارزمية Sakana AI الجديدة هي تقنية “تحجيم وقت الاستدلال” (يشار إليها أيضًا باسم “تحجيم وقت الاختبار”) ، وهي مجال من الأبحاث التي أصبحت شائعة جدًا في العام الماضي. على الرغم من أن معظم التركيز في الذكاء الاصطناعي كان على “تحجيم وقت التدريب” (مما يجعل النماذج أكبر وتدريبها على مجموعات بيانات أكبر) ، فإن تحجيم وقت الاستدلال يحسن الأداء من خلال تخصيص المزيد من الموارد الحسابية بعد تدريب نموذج بالفعل.
يتضمن أحد الأساليب الشائعة استخدام التعلم التعزيز لمطالبة النماذج بإنشاء تسلسلات أطول وأكثر تفصيلاً لسلسلة الفكرة (COT) ، كما هو موضح في النماذج الشائعة مثل Openai O3 و Deepseek-R1. طريقة أخرى وأبسط هي أخذ العينات المتكررة ، حيث يتم إعطاء النموذج نفس المطال عدة مرات لإنشاء مجموعة متنوعة من الحلول المحتملة ، على غرار جلسة العصف الذهني. يجمع عمل Sakana AI بين هذه الأفكار وتطورها.
وقال تاكويا أكيبا ، عالمة أبحاث في ساكانا AI والمؤلف المشارك للورقة ، “إطار عملنا يقدم نسخة أكثر ذكاءً وأكثر استراتيجية من أفضل أنواع الأسماك المتكررة)”. “إنه يكمل تقنيات التفكير مثل COT الطويل من خلال RL. عن طريق اختيار استراتيجية البحث ديناميكيًا و LLM المناسبة ، يزيد هذا النهج من الأداء ضمن عدد محدود من مكالمات LLM ، مما يحقق نتائج أفضل في المهام المعقدة.”
كيف يعمل البحث المتفرعة التكيف
جوهر الأسلوب الجديد هو خوارزمية تسمى البحث عن شجرة مونت كارلو المتفرعة التكيفية (AB-MCTS). إنه يمكّن LLM من أداء التجربة والخطأ بفعالية من خلال الموازنة بذكاء استراتيجيتين للبحث المختلفة: “البحث أعمق” و “البحث أوسع”. يتضمن البحث أعمق أخذ إجابة واعدة وتحسينها مرارًا وتكرارًا ، مع البحث عن أوسع يعني توليد حلول جديدة تمامًا من نقطة الصفر. تجمع AB-MCTS بين هذه الأساليب ، مما يسمح للنظام بتحسين فكرة جيدة ولكن أيضًا في محور وتجربة شيء جديد إذا كان قد وصل إلى طريق مسدود أو اكتشاف اتجاه واعد آخر.
لإنجاز ذلك ، يستخدم النظام Monte Carlo Tree Search (MCTS) ، وهي خوارزمية لصنع القرار التي تستخدمها AlphaGo’s AlphaGe. في كل خطوة ، تستخدم AB-MCTS نماذج الاحتمالات لتحديد ما إذا كان من الاستراتيجي تحسين حل حالي أو إنشاء حل جديد.
اتخذ الباحثون هذه الخطوة إلى الأمام مع Multi-LLM AB-MCTS ، والتي لا تقرر فقط “ماذا” يجب القيام بها (صقل مقابل توليد) ولكن أيضًا “التي” يجب أن تفعل ذلك. في بداية المهمة ، لا يعرف النظام أي نموذج مناسب للمشكلة. يبدأ بتجربة مزيج متوازن من LLMs المتاحة ، ومع تقدمه ، يتعلم النماذج أكثر فعالية ، وتخصيص المزيد من عبء العمل لهم مع مرور الوقت.
وضع “فريق الأحلام” AI على الاختبار
قام الباحثون باختبار نظام AB-MCTS متعدد LLM على معيار ARC-AGI-2. تم تصميم ARC (التجريد والتفكير) لاختبار قدرة تشبه الإنسان على حل مشاكل التفكير البصري الجديد ، مما يجعل من الصعب على الذكاء الاصطناعي.
استخدم الفريق مجموعة من النماذج الحدودية ، بما في ذلك O4-Mini و Gemini 2.5 Pro و Deepseek-R1.
تمكنت مجموعة النماذج من إيجاد حلول صحيحة لأكثر من 30 ٪ من مشكلات الاختبار 120 ، وهي النتيجة التي تفوقت بشكل كبير على أي من النماذج التي تعمل بمفردها. أظهر النظام القدرة على تعيين أفضل نموذج لمشكلة معينة بشكل ديناميكي. في المهام التي يوجد فيها مسار واضح إلى محلول ، حددت الخوارزمية بسرعة LLM الأكثر فعالية واستخدمتها بشكل متكرر.
والأمر الأكثر إثارة للإعجاب ، لاحظ الفريق حالات حيث حلت النماذج المشكلات التي كانت مستحيلة في السابق لأي واحد منها. في حالة واحدة ، كان الحل الذي تم إنشاؤه بواسطة نموذج O4-MINI غير صحيح. ومع ذلك ، فقد مر النظام هذه المحاولة المعيبة إلى Deepseek-R1 و Gemini-2.5 Pro ، والتي تمكنت من تحليل الخطأ ، وتصحيحه ، وإنتاج الإجابة الصحيحة في النهاية.
“هذا يدل على أن Multi-LLM AB-MCTs يمكن أن تجمع بشكل مرن بين النماذج الحدودية لحل المشكلات غير القابلة للحل مسبقًا ، مما يدفع حدود ما يمكن تحقيقه باستخدام LLMs كذكاء جماعي” ، يكتب الباحثون.
وقال أكيبا: “بالإضافة إلى الايجابيات الفردية وسلبيات كل نموذج ، يمكن أن يختلف الميل إلى الهلوسة بشكل كبير بينهم”. “من خلال إنشاء مجموعة مع نموذج أقل عرضة للهلوسة ، قد يكون من الممكن تحقيق أفضل ما في العالمين: القدرات المنطقية القوية والأساس القوي. نظرًا لأن الهلوسة هي قضية رئيسية في سياق العمل ، فقد يكون هذا النهج ذا قيمة لتخفيفه.”
من البحث إلى التطبيقات الواقعية
لمساعدة المطورين والشركات على تطبيق هذه التقنية ، أصدرت Sakana AI الخوارزمية الأساسية كإطار مفتوح المصدر يسمى Treequest ، المتاح بموجب ترخيص Apache 2.0 (قابل للاستخدام لأغراض تجارية). يوفر Treequest واجهة برمجة تطبيقات مرنة ، مما يسمح للمستخدمين بتنفيذ AB-MCTs متعددات لمهامهم الخاصة مع التسجيل المخصص والمنطق.
وقال أكيبا: “بينما نحن في المراحل المبكرة من تطبيق AB-MCTs على مشاكل محددة موجهة للأعمال ، يكشف بحثنا عن إمكانات كبيرة في العديد من المجالات”.
إلى جانب معيار ARC-AGI-2 ، تمكن الفريق من تطبيق AB-MCTs بنجاح على مهام مثل الترميز الخوارزمي المعقد وتحسين دقة نماذج التعلم الآلي.
وقال أكيبا: “يمكن أن تكون AB-MCTs فعالة للغاية للمشاكل التي تتطلب التجربة والخطأ التكرارية ، مثل تحسين مقاييس الأداء للبرامج الحالية”. “على سبيل المثال ، يمكن استخدامه لإيجاد طرق لتحسين زمن استجابة خدمة الويب تلقائيًا.”
يمكن أن يمهد إصدار أداة عملية مفتوحة المصدر الطريق لفئة جديدة من تطبيقات AI للمؤسسات الأكثر قوة وموثوقية.
هذا المحتوي تم بالكامل عن طريق أدوات الذكاء الإصطناعي