تقدم هذه الورقة مشروع HPLT 3.0، وهو مبادرة تهدف إلى توفير مجموعة بيانات نصية مفتوحة وفائقة الحجم وعالية الجودة وغنية بالتعليقات التوضيحية لما يقرب من 200 لغة. تحتوي مجموعة البيانات على 30 تريليون رمز (token)، وهي تمثل على الأرجح أكبر مجموعة بيانات متعددة اللغات متاحة للجمهور لتدريب نماذج اللغة الكبيرة مسبقاً. تأتي البيانات من عدة برامج زحف ويب مختلفة، وتأتي مزودة بخط معالجة مفتوح المصدر كامل، يتضمن اختيار المستندات واستخراج النصوص وتحديد اللغة والإزالة المكررة وتقييم الجودة وغيرها.
اختيار 9 لغات أوروبية: الإنجليزية والإسبانية والفرنسية والألمانية والإيطالية والتشيكية والفنلندية والنرويجية والأوكرانية وغيرها
تتضمن 127 مهمة فهم وإنتاج لغة، تغطي:
| مجموعة البيانات | مستندات إنجليزية | رموز إنجليزية | مستندات متعددة اللغات | رموز متعددة اللغات | إجمالي الرموز |
|---|---|---|---|---|---|
| HPLT 3.0 | 18 مليار | 16 تريليون | 11 مليار | 13 تريليون | 29 تريليون |
| FineWeb | 24 مليار | 17 تريليون | 5.0 مليار | 4.9 تريليون | 22 تريليون |
| HPLT 2.0 | 4.4 مليار | 3.9 تريليون | 6.1 مليار | 7.2 تريليون | 11 تريليون |
| MADLAD-400 | 1.5 مليار | 1.7 تريليون | 2.1 مليار | 2.7 تريليون | 4.4 تريليون |
وفقاً لإطار عمل HPLT-E، ترتيب أداء النموذج هو:
| اللغة | HPLT T5 | mT5-base | BERT HPLT |
|---|---|---|---|
| الكاتالانية | 92.7 | 87.4 | 94.5 |
| التشيكية | 91.6 | 85.2 | 91.8 |
| الإنجليزية | 82.1 | 77.6 | 82.7 |
| الباسكية | 92.0 | 82.8 | 92.9 |
| الفنلندية | 90.3 | 1.8 | 91.6 |
| اللغة | HPLT T5 | mT5-base | mT5-xxl |
|---|---|---|---|
| الكاتالانية | 95.6 | 91.6 | 93.0 |
| التشيكية | 95.9 | 88.8 | 93.4 |
| الإنجليزية | 94.2 | 90.6 | 95.3 |
| الباسكية | 97.4 | 94.9 | 96.0 |
الأداء المتوسط: حقق نموذج HPLT T5 دقة 93.5% على MultiBLIMP، أفضل بشكل ملحوظ من mT5-base بـ 86.8%
تستشهد هذه الورقة بعدد كبير من الأعمال ذات الصلة، تشمل بشكل أساسي:
الملخص: يمثل مشروع HPLT 3.0 علامة فارقة مهمة في مجال معالجة اللغات الطبيعية متعددة اللغات، حيث لا يحقق اختراقاً في حجم البيانات فحسب، بل يضع أيضاً معايير جديدة من حيث الانفتاح والتحكم في الجودة ومعايير التقييم. على الرغم من وجود بعض القيود، فإن أهميته في تعزيز ديمقراطية تكنولوجيا الذكاء الاصطناعي متعددة اللغات وتطورها كبيرة جداً.