
أعلنت شركة Deep Cogito، ومقرها سان فرانسيسكو، عن إطلاق مجموعة من نماذج اللغة الكبيرة المفتوحة (LLMs) التي تتفوق على المنافسين وتعتبر خطوة نحو تحقيق الذكاء الخارق العام.
تقدم الشركة نسخًا تجريبية من نماذجها بأحجام معلمات تتراوح بين 3B و8B و14B و32B و70B. وتؤكد Deep Cogito أن “كل نموذج يتفوق على أفضل النماذج المفتوحة المتاحة بنفس الحجم، بما في ذلك النماذج المنافسة من LLAMA وDeepSeek وQwen، عبر معظم المعايير القياسية”.
منهجية IDA: تحسين مستمر للنماذج
تستند هذه الإصدارات إلى منهجية تدريب جديدة تُعرف بالتقطير والتعزيز المتكرر (IDA). تصف Deep Cogito IDA بأنها “استراتيجية توافق قابلة للتوسع وفعالة للذكاء الخارق العام باستخدام التحسين الذاتي التكراري”. تهدف هذه التقنية إلى التغلب على القيود المتأصلة في نماذج LLM الحالية، حيث غالبًا ما يتم تحديد ذكاء النموذج بقدرات النماذج الأكبر أو المشرفين البشريين.
خطوات IDA
يتضمن عملية IDA خطوتين رئيسيتين يتم تكرارهما:
التعزيز: استخدام المزيد من الحسابات لتمكين النموذج من إيجاد حلول أو قدرات أفضل.
التقطير: إدماج هذه القدرات المعززة مرة أخرى في معلمات النموذج.
تقول Deep Cogito إن هذا يخلق “حلقة تغذية راجعة إيجابية” حيث يتوسع ذكاء النموذج بشكل مباشر مع الموارد الحاسوبية وكفاءة عملية IDA.
أداء نماذج Deep Cogito
تتميز النماذج الجديدة من Cogito، المعتمدة على نقاط التفتيش من Llama وQwen، بقدراتها المحسنة في البرمجة، واستدعاء الدوال، واستخدامات الوكالات.
الميزات الرئيسية
تمتاز النماذج بوظائفها المزدوجة: “يمكن لكل نموذج الإجابة مباشرة (نموذج LLM القياسي)، أو التفكير قبل الإجابة (مثل نماذج التفكير)”، مشابهة للقدرات الموجودة في نماذج مثل Claude 3.5. ومع ذلك، تشير Deep Cogito إلى أنها “لم تحسن بعد من أجل سلاسل التفكير الطويلة جداً”.
نتائج الأداء
تقدم الشركة نتائج شاملة لمعايير الأداء، حيث تُظهر نماذج Cogito عمومًا مكاسب كبيرة في الأداء مقارنة بالنماذج الأخرى مثل Llama 3.1/3.2/3.3 وQwen 2.5، خاصة في وضع التفكير. على سبيل المثال، حقق نموذج Cogito 70B نسبة 91.73% في وضع المعايير القياسية، متفوقًا بفارق 6.40% عن Llama 3.3 70B.
هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي.