2025-11-11T15:01:09.602202

HPLT 3.0: Very Large-Scale Multilingual Resources for LLM and MT. Mono- and Bi-lingual Data, Multilingual Evaluation, and Pre-Trained Models

Oepen, Arefev, Aulamo et al.
We present an ongoing initiative to provide open, very large, high-quality, and richly annotated textual datasets for almost 200 languages. At 30 trillion tokens, this is likely the largest generally available multilingual collection of LLM pre-training data. These datasets are derived from web crawls from different sources and accompanied with a complete, open-source pipeline for document selection from web archives, text extraction from HTML, language identification for noisy texts, exact and near-deduplication, annotation with, among others, register labels, text quality estimates, and personally identifiable information; and final selection and filtering. We report on data quality probes through contrastive and analytical statistics, through manual inspection of samples for 24 languages, and through end-to-end evaluation of various language model architectures trained on this data. For multilingual LLM evaluation, we provide a comprehensive collection of benchmarks for nine European languages, with special emphasis on natively created tasks, mechanisms to mitigate prompt sensitivity, and refined normalization and aggregation of scores. Additionally, we train and evaluate a family of 57 monolingual encoder-decoder models, as well as a handful of monolingual GPT-like reference models. Besides the monolingual data and models, we also present a very large collection of parallel texts automatically mined from this data, together with a novel parallel corpus synthesized via machine translation.
academic

HPLT 3.0: موارد متعددة اللغات على نطاق واسع جداً لنماذج اللغة الكبيرة والترجمة الآلية. بيانات أحادية وثنائية اللغة، والتقييم متعدد اللغات، والنماذج المدربة مسبقاً

المعلومات الأساسية

  • معرّف الورقة البحثية: 2511.01066
  • العنوان: HPLT 3.0: موارد متعددة اللغات على نطاق واسع جداً لنماذج اللغة الكبيرة والترجمة الآلية. بيانات أحادية وثنائية اللغة، والتقييم متعدد اللغات، والنماذج المدربة مسبقاً
  • المؤلفون: ستيفان أوبن وآخرون من عدة مؤسسات أكاديمية أوروبية
  • التصنيف: cs.CL (اللسانيات الحاسوبية)
  • تاريخ النشر: نوفمبر 2025
  • رابط الورقة: https://arxiv.org/abs/2511.01066

الملخص

تقدم هذه الورقة مشروع HPLT 3.0، وهو مبادرة تهدف إلى توفير مجموعة بيانات نصية مفتوحة وفائقة الحجم وعالية الجودة وغنية بالتعليقات التوضيحية لما يقرب من 200 لغة. تحتوي مجموعة البيانات على 30 تريليون رمز (token)، وهي تمثل على الأرجح أكبر مجموعة بيانات متعددة اللغات متاحة للجمهور لتدريب نماذج اللغة الكبيرة مسبقاً. تأتي البيانات من عدة برامج زحف ويب مختلفة، وتأتي مزودة بخط معالجة مفتوح المصدر كامل، يتضمن اختيار المستندات واستخراج النصوص وتحديد اللغة والإزالة المكررة وتقييم الجودة وغيرها.

السياق البحثي والدافع

تعريف المشكلة

  1. ندرة البيانات: عادة ما تتحكم الشركات الكبرى ببيانات التدريب المسبق عالية الجودة على نطاق واسع، مما يترك الأوساط الأكاديمية تفتقر إلى الموارد المتاحة
  2. عدم المساواة اللغوية: تركز مجموعات البيانات الحالية بشكل أساسي على اللغة الإنجليزية، مع نقص حاد في البيانات للغات أخرى، خاصة اللغات منخفضة الموارد
  3. التحكم في الجودة: تتفاوت جودة البيانات المستخرجة من الويب بشكل كبير، مما يتطلب آليات منهجية للتنظيف والتصفية
  4. معايير التقييم: يفتقد المجال إلى إطار عمل موحد لتقييم نماذج اللغات متعددة اللغات

أهمية البحث

  • ديمقراطية الذكاء الاصطناعي: من خلال فتح مجموعات بيانات واسعة النطاق، يتم خفض حاجز الدخول لتطوير نماذج اللغة الكبيرة
  • العدالة متعددة اللغات: توفير المزيد من بيانات التدريب للغات منخفضة الموارد، وتعزيز التنوع اللغوي
  • البحث الأكاديمي: توفير أساس تجريبي قابل للتكرار لمجتمع البحث

قيود الطرق الموجودة

  • تركز مجموعات البيانات مثل C4 و FineWeb بشكل أساسي على اللغة الإنجليزية
  • مجموعات البيانات متعددة اللغات مثل MADLAD-400 نسبياً أصغر حجماً
  • يفتقد المجال إلى معايير موحدة لمعالجة البيانات والتقييم

المساهمات الأساسية

  1. بناء مجموعة بيانات متعددة اللغات فائقة الحجم بـ 30 تريليون رمز، تغطي ما يقرب من 200 لغة
  2. تطوير خط معالجة بيانات مفتوح المصدر كامل، يتضمن استخراج النصوص وتحديد اللغة والإزالة المكررة وتقييم الجودة وغيرها
  3. اقتراح إطار عمل تقييم متعدد اللغات HPLT-E، يشمل 127 مهمة عبر 9 لغات أوروبية
  4. تدريب 57 نموذج ترميز-فك ترميز أحادي اللغة وعدة نماذج مرجعية بأسلوب GPT
  5. بناء مجموعة بيانات نصوص متوازية واسعة النطاق، تتضمن بيانات مستخرجة تلقائياً وبيانات مركبة من الترجمة الآلية
  6. توفير تحليل شامل لجودة البيانات، يتضمن التحليل الإحصائي والفحص اليدوي

شرح الطريقة

خط معالجة جمع البيانات

مصادر البيانات الأولية

  • Internet Archive (IA): 3.3 بيتابايت من بيانات الزحف من 2012-2020
  • Common Crawl (CC): 57 لقطة كاملة (2014-2025)، بإجمالي حوالي 7.2 بيتابايت

خطوات المعالجة الأساسية

  1. استخراج النصوص
    • استخدام إطار عمل Trafilatura لاستخراج النصوص من HTML
    • تحسين إعدادات المعاملات الفائقة، مع إعطاء الأولوية لجودة الاستخراج على السرعة
  2. تحديد اللغة
    • استخدام نموذج OpenLID-v2 للتنبؤ باللغة
    • دعم علامات اللغة في مجموعة تقييم Flores+
    • تحسين خط المعالجة المسبقة: توحيد المسافات والتحويل إلى أحرف صغيرة وإزالة الأحرف غير الكلمات
  3. معالجة الإزالة المكررة
    • تطبيق إزالة مكررة عالمية تقريبية قائمة على MinHash لجميع اللغات باستثناء الإنجليزية والروسية والصينية
    • استخدام إزالة مكررة حسب الزاحف للغات الكبيرة لتحسين الكفاءة الحسابية
  4. تقييم الجودة والتعليقات التوضيحية
    • Web Docs Scorer (WDS): دمج طرق تصفية المستندات الاستكشافية
    • علامات التسجيل: استخدام مصنف تسجيل الويب Turku لإضافة علامات أسلوبية لـ 104 لغات
    • درجات WDS: تصنيف المستندات حسب الجودة إلى ستة مستويات {5,6,7,8,9,10}

تعبئة البيانات والنشر

  • تصنيف المستندات لكل لغة حسب درجة WDS والترتيب العام
  • استخدام تنسيق JSONlines المضغوط بـ Zstandard
  • إجمالي حوالي 50 تيرابايت من البيانات، موزعة على 3000 ملف

إعداد التجارب

إطار عمل تقييم HPLT-E

اختيار اللغات

اختيار 9 لغات أوروبية: الإنجليزية والإسبانية والفرنسية والألمانية والإيطالية والتشيكية والفنلندية والنرويجية والأوكرانية وغيرها

إعدادات تدريب النموذج

  • البنية المعمارية: نموذج فك ترميز بنية Llama
  • الحجم: 2.15 مليار معامل، 24 طبقة، 32 رأس انتباه
  • بيانات التدريب: 100 مليار رمز لكل لغة
  • طول التسلسل: 2048
  • منصة التدريب: حاسوب LUMI الفائق، 16 عقدة GPU AMD MI250x

مهام التقييم

تتضمن 127 مهمة فهم وإنتاج لغة، تغطي:

  • الاستدلال النصي
  • الاستدلال بالمعرفة العامة
  • المعرفة اللغوية المحددة والمعرفة العالمية
  • إعادة الصياغة
  • فهم القراءة
  • تحليل المشاعر
  • كشف السمية
  • تقييم الحقيقية

نماذج الترميز-فك الترميز

إعدادات النموذج

  • البنية المعمارية: T5-base (حوالي 275 مليون معامل)
  • تغطية اللغات: 57 لغة
  • عائلات اللغات: تغطي 14 عائلة لغوية

مهام التقييم

  1. التعرف على الكيانات المسماة: اختبار WikiAnn
  2. القدرة اللغوية: اختبار MultiBLiMP

نتائج التجارب

تحليل مقارن لمجموعات البيانات

مجموعة البياناتمستندات إنجليزيةرموز إنجليزيةمستندات متعددة اللغاترموز متعددة اللغاتإجمالي الرموز
HPLT 3.018 مليار16 تريليون11 مليار13 تريليون29 تريليون
FineWeb24 مليار17 تريليون5.0 مليار4.9 تريليون22 تريليون
HPLT 2.04.4 مليار3.9 تريليون6.1 مليار7.2 تريليون11 تريليون
MADLAD-4001.5 مليار1.7 تريليون2.1 مليار2.7 تريليون4.4 تريليون

نتائج تقييم نماذج اللغات الكبيرة متعددة اللغات

مقارنة أداء مجموعات البيانات

وفقاً لإطار عمل HPLT-E، ترتيب أداء النموذج هو:

  1. MADLAD-400: أعلى درجة متعددة اللغات
  2. HPLT 3.0: المركز الثاني، أداء أفضل بشكل ملحوظ من الإصدار السابق
  3. HPLT 2.0 و FineWeb: أداء متشابهة

تجارب درجات جودة WDS

  • البيانات منخفضة الجودة (مستويات WDS السفلى): تقلل بوضوح من أداء النموذج
  • البيانات عالية الجودة (مستويات WDS العليا): أداء مماثلة للعينات العشوائية، قد يكون بسبب نقص التنوع
  • العينات العشوائية: أفضل أداء على الإسبانية والفرنسية

نتائج نماذج الترميز-فك الترميز

التعرف على الكيانات المسماة (درجات F1 على WikiAnn)

اللغةHPLT T5mT5-baseBERT HPLT
الكاتالانية92.787.494.5
التشيكية91.685.291.8
الإنجليزية82.177.682.7
الباسكية92.082.892.9
الفنلندية90.31.891.6

القدرة اللغوية (دقة MultiBLIMP)

اللغةHPLT T5mT5-basemT5-xxl
الكاتالانية95.691.693.0
التشيكية95.988.893.4
الإنجليزية94.290.695.3
الباسكية97.494.996.0

الأداء المتوسط: حقق نموذج HPLT T5 دقة 93.5% على MultiBLIMP، أفضل بشكل ملحوظ من mT5-base بـ 86.8%

تحليل جودة البيانات

نتائج الفحص اليدوي (24 لغة)

  • المحتوى الإباحي: أقل من 2% في معظم اللغات
  • أخطاء تحديد اللغة: منخفضة بشكل عام، لكن مجموعة بيانات البوسنية تحتوي بشكل أساسي على الصربية، والأسترية غالباً ما تحتوي على الإسبانية
  • النصوص غير الطبيعية: تختلف بشكل كبير بين اللغات، وتعكس جزئياً الطبيعة الذاتية لمعايير التعليقات التوضيحية
  • عيوب النصوص: تتضمن عناصر التنقل والنصوص المقطوعة وغيرها، وتختلف النسبة حسب اللغة

تحسن الخصائص الإحصائية

  • نسبة الفقرات الفريدة: 73% في HPLT 3.0 مقابل 52% في HPLT 2.0، مما يعكس فعالية الإزالة المكررة العالمية
  • تنوع أسماء النطاقات: انخفاض في الإفراط في تمثيل صفحات ويكيبيديا مقارنة بـ HPLT 2.0
  • توزيع نطاقات المستوى الأعلى الجغرافية: ارتباط عالي مع مناطق استخدام اللغة

الأعمال ذات الصلة

مجموعات البيانات الكبيرة للتدريب المسبق

  • C4: مجموعة بيانات إنجليزية بشكل أساسي من Google و Allen AI
  • FineWeb: بيانات ويب عالية الجودة من Hugging Face
  • MADLAD-400: مجموعة بيانات 400 لغة من Google
  • Nemotron-CC: بيانات Common Crawl المكررة من Nvidia

تقييم النماذج متعددة اللغات

  • المعايير الموجودة: معظمها منحاز نحو الإنجليزية أو عدد قليل من اللغات عالية الموارد
  • تحديات التقييم: حساسية الطلب، والاتساق عبر اللغات، والانحيازات الثقافية وغيرها

تقنيات معالجة البيانات

  • استخراج النصوص: تطور الأدوات مثل Trafilatura
  • تحديد اللغة: من الطرق التقليدية إلى نماذج التعلم العميق
  • تقنيات الإزالة المكررة: من المطابقة الدقيقة إلى طرق المطابقة التقريبية

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. اختراق في الحجم: أصبح HPLT 3.0 بـ 30 تريليون رمز أكبر مجموعة بيانات متعددة اللغات متاحة للجمهور للتدريب المسبق
  2. تحسن الجودة: خط المعالجة المحسّن يحسن بشكل ملحوظ من جودة البيانات، كما يتضح من أداء النموذج
  3. ابتكار التقييم: يوفر إطار عمل HPLT-E معايير جديدة لتقييم نماذج اللغات متعددة اللغات
  4. مساهمة النموذج: توفر 57 نموذج ترميز-فك ترميز أحادي اللغة أدوات عملية للمجتمع

القيود

  1. تقييم الجودة: على الرغم من الفحص اليدوي، لا يزال تقييم جودة البيانات على نطاق واسع تحدياً
  2. تغطية اللغات: على الرغم من دعم ما يقرب من 200 لغة، لا تزال توزيع الموارد غير متوازن
  3. نطاق التقييم: يغطي إطار عمل HPLT-E حالياً فقط 9 لغات أوروبية
  4. الموارد الحسابية: يتطلب التدريب على نطاق واسع موارد حسابية كبيرة، مما يحد من قابلية التكرار

الاتجاهات المستقبلية

  1. توسيع البيانات: خطط لإصدار نسخة موسعة تتضمن بيانات ArchiveBot في أوائل 2026
  2. توسيع التقييم: توسيع إطار عمل HPLT-E ليشمل المزيد من اللغات والمهام
  3. تحسن الجودة: الاستمرار في تحسين خط معالجة البيانات وآليات التحكم في الجودة
  4. البحث التطبيقي: استكشاف فعالية البيانات المركبة في اللغات منخفضة الموارد

التقييم المتعمق

المميزات

  1. حجم غير مسبوق: حجم 30 تريليون رمز يتصدر مجموعات البيانات المتاحة للجمهور
  2. الشفافية والانفتاح: خط معالجة مفتوح المصدر كامل وتوثيق تقني مفصل
  3. الشمولية: نظام بيئي كامل من جمع البيانات إلى تدريب النموذج
  4. التحكم في الجودة: آليات تقييم جودة متعددة المستويات والتحقق اليدوي
  5. القيمة العملية: توفير نماذج مدربة مسبقاً يمكن استخدامها مباشرة

أوجه القصور

  1. حاجز الحوسبة: على الرغم من فتح البيانات، لا يزال تدريب النماذج الكبيرة يتطلب موارد حسابية كبيرة
  2. عدم التوازن في الجودة: اختلافات كبيرة في جودة وكمية البيانات بين اللغات المختلفة
  3. حدود التقييم: حجم العينات المقيمة يدوياً نسبياً صغير، قد يكون هناك انحيازات
  4. الانحيازات الثقافية: يصعب القضاء تماماً على الانحيازات الجغرافية والثقافية المتأصلة في بيانات الويب

التأثير

  1. المساهمة الأكاديمية: توفير بنية تحتية مهمة لبحث معالجة اللغات الطبيعية متعددة اللغات
  2. التأثير الصناعي: خفض حاجز الدخول لتطوير تطبيقات الذكاء الاصطناعي متعددة اللغات
  3. القيمة الاجتماعية: تعزيز التنوع اللغوي وديمقراطية تكنولوجيا الذكاء الاصطناعي
  4. وضع المعايير: قد يصبح إطار عمل تقييم HPLT-E معياراً صناعياً

السيناريوهات المناسبة

  1. التدريب المسبق لنماذج اللغات الكبيرة متعددة اللغات: الاستخدام المباشر لتدريب نماذج اللغات الكبيرة
  2. نماذج لغات محددة: تطوير نماذج متخصصة للغات منخفضة الموارد
  3. البحث عبر اللغات: دعم البحث في اللسانيات والسانيات الحاسوبية
  4. الترجمة الآلية: توفير بيانات متوازية وبيانات أحادية اللغة
  5. التطبيقات التعليمية: توفير موارد لتعليم وتعلم اللغات

نقاط الابتكار التقني

ابتكار معالجة البيانات

  1. الإزالة المكررة العالمية: إزالة مكررة عالمية تقريبية عبر برامج الزحف، مما يحسن تنوع البيانات
  2. تصنيف الجودة: نظام تصنيف WDS يوفر تحكماً دقيقاً في الجودة
  3. التعليقات التوضيحية متعددة الأبعاد: دمج علامات التسجيل وتقييم الجودة والكشف عن المعلومات الشخصية وغيرها

ابتكار طرق التقييم

  1. تصميم طلبات متعددة: يدعم كل مهمة 3-7 طلبات مكتوبة يدوياً، مما يقلل من حساسية الطلب
  2. معايير اختيار المهام: اختيار مهام التقييم بناءً على سبعة معايير مثل الرتابة والاستقرار
  3. طرق التجميع: دمج عدة طرق تجميع بما في ذلك متوسط الدرجات والترتيب وعدد Borda

ابتكار تدريب النموذج

  1. نماذج خاصة بكل لغة: تدريب نماذج ترميز-فك ترميز متخصصة لـ 57 لغة بشكل منفصل
  2. نقاط تفتيش وسيطة: توفير نقاط تفتيش وسيطة أثناء التدريب، مما يدعم بحث عملية التعلم
  3. البيانات المركبة: توليد بيانات تدريب إضافية من خلال الترجمة الآلية

المراجع

تستشهد هذه الورقة بعدد كبير من الأعمال ذات الصلة، تشمل بشكل أساسي:

  • Raffel et al. (2020): نموذج T5 ومجموعة بيانات C4
  • Penedo et al. (2024, 2025): سلسلة مجموعات بيانات FineWeb
  • Kudugunta et al. (2023): مجموعة بيانات MADLAD-400
  • Burchell et al. (2025): مجموعة بيانات HPLT 2.0
  • عدة أوراق بحثية متعلقة باختبارات التقييم متعددة اللغات

الملخص: يمثل مشروع HPLT 3.0 علامة فارقة مهمة في مجال معالجة اللغات الطبيعية متعددة اللغات، حيث لا يحقق اختراقاً في حجم البيانات فحسب، بل يضع أيضاً معايير جديدة من حيث الانفتاح والتحكم في الجودة ومعايير التقييم. على الرغم من وجود بعض القيود، فإن أهميته في تعزيز ديمقراطية تكنولوجيا الذكاء الاصطناعي متعددة اللغات وتطورها كبيرة جداً.