تقنيات جديدة

تطورات جديدة في نماذج المكافآت للذكاء الاصطناعي: DeepSeek تصنع الفارق

كتب: محمد شاهين

0:00

 

نجحت الشركة الصينية الناشئة DeepSeek في معالجة مشكلة كانت تؤرق باحثي الذكاء الاصطناعي لسنوات عديدة. حيث قدمت الشركة تقدمًا ملحوظًا في نماذج المكافآت الخاصة بالذكاء الاصطناعي، مما قد يحسن بشكل كبير كيفية استجابة أنظمة الذكاء الاصطناعي للأسئلة.

بالتعاون مع باحثي جامعة تسينغhua، طورت DeepSeek تقنية جديدة تم تفصيلها في ورقة بحثية بعنوان “توسيع وقت الاستدلال لنماذج المكافآت العامة”. وتوضح هذه الورقة كيف تتفوق الطريقة الجديدة على الأساليب الحالية، وكيف “حققت أداءً تنافسياً” مقارنةً بنماذج المكافآت العامة القوية.

تتركز الابتكارات على تعزيز كيفية تعلم أنظمة الذكاء الاصطناعي من تفضيلات البشر، وهو جانب مهم في إنشاء ذكاء اصطناعي أكثر فائدة وتوافقًا مع احتياجات المستخدمين.

ما هي نماذج مكافآت الذكاء الاصطناعي ولماذا تهم؟
تعد نماذج مكافآت الذكاء الاصطناعي مكونات مهمة في التعلم المعزز لنماذج اللغة الكبيرة. فهي توفر إشارات تغذية راجعة تساعد في توجيه سلوك الذكاء الاصطناعي نحو النتائج المفضلة. ببساطة، تعتبر نماذج المكافآت معلمين رقميين يساعدون الذكاء الاصطناعي في فهم ما يريده البشر من ردودهم.

تؤكد ورقة DeepSeek أن “نمذجة المكافآت هي عملية توجه نموذج اللغة الكبير نحو تفضيلات البشر”. تصبح هذه النمذجة مهمة مع تطور أنظمة الذكاء الاصطناعي، حيث يتم استخدامها في سيناريوهات تتجاوز مهام الإجابة على الأسئلة البسيطة.

الطريقة المبتكرة: كيف تعمل طريقة DeepSeek؟
تجمع طريقة DeepSeek بين طريقتين:

نمذجة المكافآت التوليدية (GRM): تتيح هذه الطريقة مرونة في أنواع المدخلات المختلفة وتسمح بالتوسع أثناء وقت الاستدلال. على عكس الأساليب السابقة، تقدم GRM تمثيلًا أغنى للمكافآت من خلال اللغة.
تعديل النقد الذاتي المبني على المبادئ (SPCT): هي طريقة تعليمية تعزز سلوكيات توليد المكافآت القابلة للتوسع في GRMs من خلال التعلم المعزز عبر الإنترنت.
شرح أحد مؤلفي الورقة من جامعة تسينغhua وDeepSeek، Zijun Liu، أن الجمع بين الطريقتين يسمح “بتوليد المبادئ بناءً على الاستفسار المدخل والردود، مما ينسق بشكل تكيفي عملية توليد المكافآت”.

تداعيات على صناعة الذكاء الاصطناعي
تأتي ابتكارات DeepSeek في وقت حاسم في تطوير الذكاء الاصطناعي. حيث تشير الورقة إلى أن “التعلم المعزز (RL) قد تم اعتماده على نطاق واسع في مرحلة ما بعد التدريب لنماذج اللغة الكبيرة […] مما أدى إلى تحسينات ملحوظة في توافق القيم البشرية والتفكير على المدى الطويل”.

الآثار المحتملة:
تحسين دقة تغذية الذكاء الاصطناعي: من خلال إنشاء نماذج مكافآت أفضل، يمكن لنظم الذكاء الاصطناعي تلقي تغذية راجعة أكثر دقة حول مخرجاتها.
زيادة القدرة على التكيف: تتيح القدرة على توسيع أداء النموذج أثناء الاستدلال لنظم الذكاء الاصطناعي التكيف مع قيود ومتطلبات حسابية مختلفة.
تطبيقات أوسع: يمكن للنظم أن تؤدي بشكل أفضل في مجموعة أكبر من المهام عن طريق تحسين نمذجة المكافآت للمجالات العامة.
استخدام الموارد بكفاءة أكبر: تظهر الأبحاث أن توسيع وقت الاستدلال باستخدام طريقة DeepSeek قد يتفوق على توسيع حجم النموذج في أوقات التدريب.
ما هو مستقبل نماذج مكافآت الذكاء الاصطناعي؟
تنوي DeepSeek جعل نماذج GRM مفتوحة المصدر، مما قد يسرع التقدم في هذا المجال من خلال السماح بتجارب أوسع مع نماذج المكافآت.

مع استمرار التعلم المعزز في لعب دور مهم في تطوير الذكاء الاصطناعي، من المحتمل أن تؤثر الابتكارات في نمذجة المكافآت على قدرات وسلوك أنظمة الذكاء الاصطناعي.

هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي.

مقالات ذات صلة

زر الذهاب إلى الأعلى

Main Heading Goes Here
Sub Heading Goes Here

No, thank you. I do not want.
100% secure your website.
Powered by
Main Heading Goes Here
Sub Heading Goes Here

No, thank you. I do not want.
100% secure your website.