تقارير ومتابعاتتقنيات جديدة

معيار جديد لتقييم نقل المعرفة عبر اللغات في LLMS

0:00


كتب – المحرر الإفتراضي

إنشاء البيانات والتحقق منها

لبناء Eclektic ، بدأنا باختيار مقالات موجودة فقط بلغة واحدة على ويكيبيديا لمدة 12 لغة – الإنجليزية ، الفرنسية ، الألمانية ، العبرية ، الهندية ، الإندونيسية ، الإيطالية ، اليابانية ، الكورية ، الصينية الماندرين ، البرتغالية ، والإسبانية. غالبًا ما تستند هذه الصفحات إلى مواضيع أكثر بروزًا للمتحدثين بهذه اللغة ، ولكنها قد تشمل المعلومات التي تهم الآخرين في جميع أنحاء العالم. بالطبع ، قد تتعرف النماذج على هذه المواضيع من مصادر أخرى ، ولكن نظرًا لأنه من غير الممكن تحليل بيانات التدريب لكل LLM ، فإننا نستخدم التواجد في ويكيبيديا كبديل لما إذا كان النموذج قد شاهد المعلومات بلغة معينة. من خلال هذا الافتراض ، يشير التركيز على هذا النوع من المحتوى إلى أن النماذج ستحتاج إلى نقل المعرفة داخليًا من لغة المصدر إلى اللغات 11 المستهدفة الأخرى من أجل حل مهمة QA الخاصة بـ Eclektic.

على وجه التحديد ، قمنا بتحليل تنزيل ويكيبيديا في يوليو 2023. لكل لغة ، اخترنا 100 مقالة عشوائية تضمنت 200 حرف على الأقل ، وكان لديها 100 مشاهدة على الأقل خلال عام 2023 ، والأهم من ذلك ، لم يكن لديها مقالات معادلة في أي من اللغات الـ 11 الأخرى. من كل مقالة مختارة ، استخرجنا الجمل العشرة الأولى. استنادًا إلى حقيقة واحدة مذكورة في هذه الجمل ، قامت مراجعات الإنسان بتصفية وأزواج الأسئلة والإجابة التي تم إنشاؤها بواسطة Gemini. تأكد المذيعون ، كل من مواطن في اللغة ذات الصلة ، أولاً من أن السؤال مسؤول في إعداد كتاب مغلق ، أي أنه لا يشير بشكل صريح إلى السياق المحيط في مقالة ويكيبيديا ، كما أنه لا يذكر الإجابة. ثانياً ، قاموا بالتحقق من صحة أن السؤال يتعلق بالمعلومات البارزة بشكل خاص لمتحدثي اللغة المعنية ، وأقل علاقة بالمعرفة العامة ، مثل العلوم أو الأحداث الجارية. تم التخلص من الأسئلة والأجوبة التي لم تستوف هذه المعايير. ثالثًا ، في عملية تسمى decontextualization ، أكد المذيعون أن السؤال يحتوي على جميع المعلومات اللازمة للإجابة عند ترجمتها. على سبيل المثال ، تم تحديد سؤال في العبرية المتعلقة بـ “المحكمة العليا” من قبل المتسابقين لذكر صراحة “المحكمة العليا الإسرائيلية”. تم توضيح الكيانات المسمى أيضًا بالمثل ، لذلك تم تعديل سؤال يشير إلى “Ambev” للإشارة إلى “شركة التخمير البرازيلية ، Ambev”.

أخيرًا ، تمت ترجمة كل سؤال وإجابة محتجزة تلقائيًا إلى الـ 11 لغة أخرى. تم التحقق من الترجمات من قبل مجموعة أخرى من الشروط البشرية وتعديلها عند الحاجة. في هذه المرحلة ، تم التخلص من بعض الأمثلة أيضًا إذا أثبتت أنها غير قابلة للترجمة – على سبيل المثال ، عندما يشير سؤال صراحة إلى معنى كلمة في لغة المصدر.

بناءً على هذا النهج ، تتكون مجموعة بيانات Eclektic النهائية من 384 سؤالًا فريدًا و 4224 أمثلة مترجمة.


هذا المحتوي تم بالكامل عن طريق أدوات الذكاء الإصطناعي

مقالات ذات صلة

زر الذهاب إلى الأعلى

Main Heading Goes Here
Sub Heading Goes Here

No, thank you. I do not want.
100% secure your website.
Powered by
Main Heading Goes Here
Sub Heading Goes Here

No, thank you. I do not want.
100% secure your website.