مجموعة Ant تستخدم شرائح محلية لتدريب نماذج الذكاء الاصطناعي وخفض التكاليف
كتبت: أمل علوي

أفادت مصادر مطلعة أن مجموعة Ant تستخدم شرائح أشباه موصلات صينية الصنع لتدريب نماذج الذكاء الاصطناعي، بهدف خفض التكاليف وتقليل الاعتماد على التكنولوجيا الأمريكية المُقيّدة.
استخدمت الشركة، المملوكة لشركة علي بابا، شرائح من موردين محليين، بما في ذلك الشركات المرتبطة بشركة علي بابا وهواوي، لتدريب نماذج اللغات الكبيرة باستخدام طريقة “مزيج الخبراء” (MoE). وتُشير المصادر إلى أن النتائج كانت مُقاربة لتلك التي أنتجتها شرائح Nvidia H800. بينما لا تزال Ant تستخدم شرائح Nvidia في بعض أعمال تطوير الذكاء الاصطناعي، إلا أن أحد المصادر أفاد بأن الشركة تتجه بشكل متزايد إلى بدائل من AMD وشركات صناعة الشرائح الصينية لأحدث نماذجها.
يُشير هذا التطور إلى انخراط Ant بشكل أعمق في السباق المتزايد للذكاء الاصطناعي بين الشركات التكنولوجية الصينية والأمريكية، خاصةً مع سعي الشركات إلى طرق فعالة من حيث التكلفة لتدريب النماذج. يعكس تجريب الأجهزة المحلية جهداً أوسع نطاقاً بين الشركات الصينية للالتفاف على قيود التصدير التي تُعيق الوصول إلى شرائح متطورة مثل Nvidia H800، والتي، على الرغم من أنها ليست الأكثر تقدماً، إلا أنها لا تزال واحدة من وحدات معالجة الرسوميات (GPUs) الأكثر قوة المتاحة للمؤسسات الصينية.
نشرت Ant ورقة بحثية تصف عملها، مُؤكدةً أن نماذجها، في بعض الاختبارات، قد أدّت بشكل أفضل من تلك التي طورتها Meta. لم تُتحقّق وكالة بلومبرج للأنباء، التي أبلغت عن الأمر في البداية، من نتائج الشركة بشكل مستقل. إذا كانت النماذج تؤدي كما هو مُدّعى، فقد تُمثّل جهود Ant خطوة إلى الأمام في محاولة الصين لخفض تكلفة تشغيل تطبيقات الذكاء الاصطناعي وتقليل الاعتماد على الأجهزة الأجنبية.
تُقسّم نماذج MoE المهام إلى مجموعات بيانات أصغر تُعالجها مكونات منفصلة، وقد حظيت باهتمام بين الباحثين في مجال الذكاء الاصطناعي وعلماء البيانات. وقد استخدمت هذه التقنية من قبل Google وشركة DeepSeek الناشئة في هانغتشو. يُشبه مفهوم MoE وجود فريق من المتخصصين، كل منهم يُعالج جزءاً من المهمة لجعل عملية إنتاج النماذج أكثر كفاءة. رفضت Ant التعليق على عملها فيما يتعلق بمصادر أجهزتها.
يعتمد تدريب نماذج MoE على وحدات معالجة الرسوميات عالية الأداء، والتي قد تكون باهظة الثمن بالنسبة للشركات الأصغر حجماً. ركز البحث الذي أجرته Ant على تقليل تلك الحواجز التكلفة. عنوان الورقة البحثية مُرفق بهدف واضح: توسيع نطاق النماذج “بدون وحدات معالجة رسوميات متميزة”.
يتناقض الاتجاه الذي اتخذته Ant واستخدام MoE لخفض تكاليف التدريب مع نهج Nvidia. قال الرئيس التنفيذي جينسن هوانغ إن الطلب على قوة الحوسبة سيستمر في النمو، حتى مع إدخال نماذج أكثر كفاءة مثل R1 من DeepSeek. رأيه هو أن الشركات ستسعى للحصول على شرائح أكثر قوة لدفع نمو الإيرادات، بدلاً من السعي إلى خفض التكاليف باستخدام بدائل أرخص. تظل استراتيجية Nvidia مُركزة على بناء وحدات معالجة رسوميات (GPUs) ذات المزيد من النوى، والترانزستورات، والذاكرة.
وفقاً لورقة Ant Group، فإن تدريب تريليون وحدة رمز مميزة – الوحدات الأساسية للبيانات التي تستخدمها نماذج الذكاء الاصطناعي للتعلم – كلّف حوالي 6.35 مليون يوان (حوالي 880 ألف دولار) باستخدام الأجهزة عالية الأداء التقليدية. قلّصت طريقة التدريب المُحسّنة للشركة هذه التكلفة إلى حوالي 5.1 مليون يوان باستخدام شرائح ذات مواصفات أقل.
قالت Ant إنها تخطط لتطبيق نماذجها المُنتجة بهذه الطريقة – Ling-Plus و Ling-Lite – على حالات استخدام الذكاء الاصطناعي الصناعي مثل الرعاية الصحية والتمويل. في وقت سابق من هذا العام، استحوذت الشركة على Haodf.com، وهي منصة طبية صينية عبر الإنترنت، لتعزيز طموح Ant في نشر الحلول القائمة على الذكاء الاصطناعي في الرعاية الصحية. كما أنها تُشغّل خدمات ذكاء اصطناعي أخرى، بما في ذلك تطبيق مساعد افتراضي يُسمى Zhixiaobao ومنصة استشارات مالية تُعرف باسم Maxiaocai.
قال روبن يو، كبير مسؤولي التكنولوجيا في شركة Shengshang Tech للذكاء الاصطناعي ومقرها بكين: “إذا وجدت نقطة واحدة للهجوم لتغلب على أفضل سيد كونغ فو في العالم، فلا يزال بإمكانك القول إنك تغلبت عليه، وهذا هو السبب في أن التطبيق العملي في العالم الحقيقي مهم”.
أصدرت Ant نماذجها مفتوحة المصدر. يحتوي Ling-Lite على 16.8 مليار معلمة – إعدادات تُساعد في تحديد كيفية عمل النموذج – بينما يحتوي Ling-Plus على 290 مليار معلمة. للمقارنة، تشير التقديرات إلى أن GPT-4.5 مغلق المصدر يحتوي على حوالي 1.8 تريليون معلمة، وفقاً لمجلة MIT Technology Review.
على الرغم من التقدم، أشارت ورقة Ant إلى أن تدريب النماذج لا يزال يُمثّل تحدياً. أدت التعديلات الصغيرة على الأجهزة أو هيكل النموذج أثناء تدريب النموذج أحياناً إلى أداء غير مستقر، بما في ذلك ارتفاع معدلات الخطأ.
هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي.