البيانات المترجمة ل AI المعولمة
كتب – المحرر الإفتراضي
البيانات التجريبية
كجزء من الطيار ، جمعت Makerere AI Lab و Google Research 8،091 استفسارات الخصومة المشروحة باللغة الإنجليزية وستة لغات أفريقية (على سبيل المثال ، Pidgin English ، Luganda ، Swahili ، Chichewa). الاستعلامات هي خصومة في الطبيعة ولديها احتمال كبير لإنتاج استجابات غير آمنة من LLM كوسيلة للاختبار وتخفيف الأذى المحتمل. يمكن استخدام مجموعة البيانات هذه بدورها لتقييم النماذج من أجل سلامتها وأهميتها الثقافية في سياق هذه اللغات. مجموعة البيانات مفتوحة المصدر ومتاحة للاستكشاف.
قام خبراء من سبعة مجالات حساسة (على سبيل المثال ، الثقافة والدين ، التوظيف) بتعليق هذه الاستفسارات مع عشرة مواضيع في مجال خبرتهم (أي “الفساد والشفافية” للسياسة والمجال الحكومي) ، خمسة مواضيع من الذكاء الاصطناعي (مثل ، المصلحة العامة ، المعلومات الإضافية) و 13 من الخصائص الحساسة (EG ، العمر ، العصر).
كانت المجالات الأكثر بروزًا هي الصحة (2076) والتعليم (1469) ، حيث كانت المواضيع العليا مرضًا مزمنًا (373) وتقييم التعليم والقياس (245) ، على التوالي. احتوت ما يقرب من 80 في المائة من الاستفسارات على معلومات سياقية حول المعلومات الخاطئة أو التضليل ، والقوالب النمطية ، والمحتوى ذي الصلة بالرفاهية العامة مثل الصحة أو القانون. كانت غالبية الاستفسارات تدور حول المجموعات الاجتماعية التي تنتمي إلى الجنس (على سبيل المثال ، “فتيات تشيبوك”) ، العصر (على سبيل المثال ، “حديثي الولادة”) ، الدين أو المعتقد (على سبيل المثال ، الأديان “الإفريقية التقليدية”) ، ومستوى التعليم (على سبيل المثال ، “غير متعلم”).







