NVIDIA Dynamo: تعزيز كفاءة الاستدلال بالذكاء الاصطناعي عبر تقنيات مفتوحة المصدر
كتب: محمد شاهين

في ظل التوسع السريع لتطبيقات الذكاء الاصطناعي، أصبحت إدارة طلبات الاستدلال AI Inference بكفاءة عبر مجموعات كبيرة من وحدات معالجة الرسوميات (GPUs) أمراً بالغ الأهمية لضمان تحقيق أعلى مستويات الفعالية من حيث التكلفة وتعظيم الإيرادات الناتجة عن توليد الرموز (Tokens). ومع تزايد الاعتماد على نماذج الذكاء الاصطناعي، أصبحت هذه النماذج قادرة على توليد عشرات الآلاف من الرموز لكل طلب، مما يعكس عملية “التفكير” التي تقوم بها. وبالتالي، فإن تحسين أداء الاستدلال مع تقليل تكلفته يُعد عاملاً حاسماً لتسريع النمو وزيادة فرص الإيرادات لمقدمي الخدمات.
جيل جديد من برمجيات استدلال الذكاء الاصطناعي
تقدم NVIDIA، الشركة الرائدة في مجال تقنيات الذكاء الاصطناعي، جيلاً جديداً من برمجيات الاستدلال تحت اسم NVIDIA Dynamo، والذي يأتي خلفاً لخادم الاستدلال Triton. تم تصميم Dynamo خصيصاً لتعظيم إيرادات توليد الرموز في مصانع الذكاء الاصطناعي التي تعتمد على نماذج الاستدلال. يعمل Dynamo على تنسيق وتسريع اتصالات الاستدلال عبر آلاف وحدات معالجة الرسوميات، مستخدماً تقنية “التقديم المجزأ” (Disaggregated Serving)، والتي تفصل بين مراحل معالجة وتوليد نماذج اللغة الكبيرة (LLMs) على وحدات معالجة رسوميات منفصلة. هذه الطريقة تسمح بتحسين كل مرحلة بشكل مستقل، مما يضمن الاستخدام الأمثل لموارد وحدات معالجة الرسوميات.
وصرح جنسن هوانغ، مؤسس والرئيس التنفيذي لشركة NVIDIA: “تقوم الصناعات حول العالم بتدريب نماذج الذكاء الاصطناعي على التفكير والتعلم بطرق مختلفة، مما يجعلها أكثر تطوراً مع مرور الوقت. ولتمكين مستقبل نماذج الاستدلال المخصصة، يساعد NVIDIA Dynamo في تقديم هذه النماذج على نطاق واسع، مما يؤدي إلى توفير التكاليف وزيادة الكفاءة في مصانع الذكاء الاصطناعي.”
تحسين الأداء وتقليل التكاليف
أظهر Dynamo قدرته على مضاعفة أداء وإيرادات مصانع الذكاء الاصطناعي التي تعمل على نماذج Llama باستخدام منصة Hopper من NVIDIA. كما أدت تحسينات الاستدلال الذكية في Dynamo إلى زيادة عدد الرموز المُولدة بأكثر من 30 ضعفاً لكل وحدة معالجة رسوميات عند تشغيل نموذج DeepSeek-R1 على مجموعات كبيرة من وحدات GB200 NVL72.
لتحقيق هذه التحسينات، يتضمن Dynamo ميزات رئيسية تهدف إلى زيادة الإنتاجية وتقليل التكاليف التشغيلية. يمكن للنظام إضافة أو إزالة أو إعادة تخصيص وحدات معالجة الرسوميات بشكل ديناميكي لتتكيف مع التقلبات في أحجام وأنواع الطلبات. كما يمكنه تحديد وحدات معالجة الرسوميات الأكثر ملاءمة لتقليل حسابات الاستجابة وتوجيه الاستعلامات بكفاءة. بالإضافة إلى ذلك، يمكن لـ Dynamo نقل بيانات الاستدلال إلى أجهزة ذاكرة وتخزين أقل تكلفة، مع استرجاعها بسرعة عند الحاجة، مما يقلل من التكاليف الإجمالية للاستدلال.
مفتوح المصدر ودعم واسع النطاق
يتم إصدار NVIDIA Dynamo كمشروع مفتوح المصدر بالكامل، مما يضمن توافقه مع أطر العمل الشهيرة مثل PyTorch وSGLang وNVIDIA TensorRT-LLM وvLLM. هذا النهج المفتوح يدعم الشركات الكبرى والشركات الناشئة والباحثين في تطوير وتحسين طرق جديدة لتقديم نماذج الذكاء الاصطناعي عبر بنى تحتية مجزأة للاستدلال.
وتتوقع NVIDIA أن يعزز Dynamo تبني تقنيات الاستدلال عبر مجموعة واسعة من المنظمات، بما في ذلك مزودي الخدمات السحابية الكبرى ومبتكري الذكاء الاصطناعي مثل AWS وCohere وCoreWeave وDell وFireworks وGoogle Cloud وLambda وMeta وMicrosoft Azure وNebius وNetApp وOCI وPerplexity وTogether AI وVAST.
تعزيز الاستدلال والذكاء الاصطناعي العملي
تتمثل إحدى الابتكارات الرئيسية لـ NVIDIA Dynamo في قدرته على تعيين المعرفة التي تحتفظ بها أنظمة الاستدلال في الذاكرة من الطلبات السابقة، والمعروفة باسم KV Cache، عبر آلاف وحدات معالجة الرسوميات. ثم يقوم البرنامج بتوجيه طلبات الاستدلال الجديدة إلى وحدات معالجة الرسوميات التي تمتلك أفضل تطابق معرفي، مما يتجنب إعادة الحسابات المكلفة ويحرر وحدات معالجة الرسوميات الأخرى للتعامل مع الطلبات الواردة الجديدة. هذه الآلية الذكية تعزز الكفاءة وتقلل من زمن الاستجابة.
دعم التقديم المجزأ
يتميز Dynamo أيضاً بدعم قوي لتقنية التقديم المجزأ، حيث يتم تعيين المراحل الحسابية المختلفة لنماذج اللغة الكبيرة إلى وحدات معالجة رسوميات منفصلة. هذه التقنية مناسبة بشكل خاص لنماذج الاستدلال، مثل عائلة نماذج Llama Nemotron من NVIDIA، والتي تستخدم تقنيات استدلال متقدمة لفهم السياق وتحسين توليد الاستجابات.
وتعمل Together AI، إحدى الشركات البارزة في مجال سحابة تسريع الذكاء الاصطناعي، على دمج محرك الاستدلال الخاص بها مع NVIDIA Dynamo لتمكين توسيع نطاق أحمال عمل الاستدلال عبر عقد متعددة من وحدات معالجة الرسوميات.
هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي