2025-11-11T15:01:09.602202

HPLT 3.0: Very Large-Scale Multilingual Resources for LLM and MT. Mono- and Bi-lingual Data, Multilingual Evaluation, and Pre-Trained Models

Oepen, Arefev, Aulamo et al.
We present an ongoing initiative to provide open, very large, high-quality, and richly annotated textual datasets for almost 200 languages. At 30 trillion tokens, this is likely the largest generally available multilingual collection of LLM pre-training data. These datasets are derived from web crawls from different sources and accompanied with a complete, open-source pipeline for document selection from web archives, text extraction from HTML, language identification for noisy texts, exact and near-deduplication, annotation with, among others, register labels, text quality estimates, and personally identifiable information; and final selection and filtering. We report on data quality probes through contrastive and analytical statistics, through manual inspection of samples for 24 languages, and through end-to-end evaluation of various language model architectures trained on this data. For multilingual LLM evaluation, we provide a comprehensive collection of benchmarks for nine European languages, with special emphasis on natively created tasks, mechanisms to mitigate prompt sensitivity, and refined normalization and aggregation of scores. Additionally, we train and evaluate a family of 57 monolingual encoder-decoder models, as well as a handful of monolingual GPT-like reference models. Besides the monolingual data and models, we also present a very large collection of parallel texts automatically mined from this data, together with a novel parallel corpus synthesized via machine translation.
academic

HPLT 3.0 : Ressources Multilingues à Très Grande Échelle pour LLM et TA. Données Monolingues et Bilingues, Évaluation Multilingue et Modèles Pré-entraînés

Informations Fondamentales

  • Identifiant de l'article : 2511.01066
  • Titre : HPLT 3.0: Very Large-Scale Multilingual Resources for LLM and MT. Mono- and Bi-lingual Data, Multilingual Evaluation, and Pre-Trained Models
  • Auteurs : Stephan Oepen et autres chercheurs provenant de plusieurs institutions académiques européennes
  • Classification : cs.CL (Linguistique Informatique)
  • Date de publication : Novembre 2025
  • Lien de l'article : https://arxiv.org/abs/2511.01066

Résumé

Cet article présente le projet HPLT 3.0, une initiative visant à fournir des ensembles de données textuelles ouvertes, à très grande échelle, de haute qualité et richement annotées pour près de 200 langues. L'ensemble de données contient 300 milliards de tokens, ce qui en ferait potentiellement le plus grand corpus multilingue d'entraînement préalable de modèles de langage de grande taille (LLM) actuellement disponible publiquement. Les données proviennent de différents robots d'exploration web et sont accompagnées d'un pipeline de traitement entièrement open-source, incluant la sélection de documents, l'extraction de texte, l'identification de langue, la déduplication et l'évaluation de qualité.

Contexte et Motivation de la Recherche

Définition du Problème

  1. Rareté des données : Les données d'entraînement préalable multilingues de haute qualité à grande échelle sont généralement contrôlées par les grandes entreprises, et la communauté académique manque de ressources accessibles
  2. Inégalité linguistique : Les ensembles de données existants sont principalement orientés vers l'anglais, avec une grave insuffisance de données pour les autres langues, en particulier les langues peu dotées en ressources
  3. Contrôle de qualité : Les données extraites du web présentent une qualité inégale, nécessitant des mécanismes systématiques de nettoyage et de filtrage
  4. Normes d'évaluation : Absence d'un cadre d'évaluation unifié pour les modèles multilingues

Importance de la Recherche

  • Démocratisation de l'IA : En rendant les ensembles de données à grande échelle accessibles, réduire les obstacles au développement des LLM
  • Équité multilingue : Fournir davantage de données d'entraînement pour les langues peu dotées en ressources, promouvoir la diversité linguistique
  • Recherche académique : Fournir une base expérimentale reproductible pour la communauté de recherche

Limitations des Approches Existantes

  • Les ensembles de données C4 et FineWeb se concentrent principalement sur l'anglais
  • Les ensembles de données multilingues tels que MADLAD-400 ont une échelle relativement réduite
  • Absence de normes uniformes pour le traitement des données et l'évaluation

Contributions Principales

  1. Construction d'un ensemble de données multilingue à très grande échelle de 300 milliards de tokens, couvrant près de 200 langues
  2. Développement d'un pipeline de traitement de données entièrement open-source, incluant l'extraction de texte, l'identification de langue, la déduplication et l'évaluation de qualité
  3. Proposition du cadre d'évaluation multilingue HPLT-E, englobant 127 tâches dans 9 langues européennes
  4. Entraînement de 57 modèles encodeur-décodeur monolingues et de plusieurs modèles de référence de style GPT
  5. Construction d'un ensemble de données de texte parallèle à grande échelle, incluant les données extraites automatiquement et synthétisées par traduction automatique
  6. Fourniture d'une analyse complète de la qualité des données, incluant l'analyse statistique et l'inspection manuelle

Détails Méthodologiques

Collecte et Pipeline de Traitement des Données

Sources de Données Brutes

  • Internet Archive (IA) : 3,3 PB de données d'exploration web de 2012-2020
  • Common Crawl (CC) : 57 instantanés complets (2014-2025), environ 7,2 PB au total

Étapes de Traitement Principales

  1. Extraction de Texte
    • Utilisation du framework Trafilatura pour l'extraction de texte HTML
    • Optimisation des paramètres, en privilégiant la qualité d'extraction à la vitesse
  2. Identification de Langue
    • Adoption du modèle OpenLID-v2 pour la prédiction de langue
    • Support des étiquettes de langue dans l'ensemble d'évaluation Flores+
    • Amélioration du pipeline de prétraitement : normalisation des espaces, minusculisation, suppression des caractères non-lexicaux
  3. Traitement de Déduplication
    • Implémentation de la déduplication approximative globale basée sur MinHash pour toutes les langues sauf l'anglais, le russe et le chinois
    • Déduplication par robot d'exploration pour les grandes langues afin d'améliorer l'efficacité computationnelle
  4. Évaluation de Qualité et Annotation
    • Web Docs Scorer (WDS) : Intégration de méthodes heuristiques de filtrage de documents
    • Étiquettes de registre : Utilisation du classificateur de registre web Turku pour ajouter des étiquettes de style à 104 langues
    • Niveaux WDS : Classification des documents en six niveaux de qualité {5,6,7,8,9,10}

Empaquetage et Publication des Données

  • Binning des documents de chaque langue selon le niveau WDS et tri global
  • Format JSONlines compressé avec Zstandard
  • Environ 50 TB de données au total, distribuées sur 3000 fichiers

Configuration Expérimentale

Cadre d'Évaluation HPLT-E

Sélection de Langues

Neuf langues européennes sélectionnées : anglais, espagnol, français, allemand, italien, tchèque, finnois, norvégien, ukrainien, etc.

Configuration d'Entraînement des Modèles

  • Architecture : Modèle décodeur de l'architecture Llama
  • Échelle : 2,15 milliards de paramètres, 24 couches, 32 têtes d'attention
  • Données d'entraînement : 100 milliards de tokens par langue
  • Longueur de séquence : 2048
  • Plateforme d'entraînement : Superordinateur LUMI, 16 nœuds GPU AMD MI250x

Tâches d'Évaluation

127 tâches de compréhension et génération de langage, englobant :

  • Inférence textuelle
  • Raisonnement de sens commun
  • Connaissances linguistiques et mondiales spécifiques
  • Paraphrase
  • Compréhension de lecture
  • Analyse de sentiment
  • Détection de toxicité
  • Évaluation de véracité

Modèles Encodeur-Décodeur

Configuration des Modèles

  • Architecture : T5-base (environ 275 millions de paramètres)
  • Couverture linguistique : 57 langues
  • Familles linguistiques : Couvrant 14 familles linguistiques

Tâches d'Évaluation

  1. Reconnaissance d'Entités Nommées : Benchmark WikiAnn
  2. Capacité Linguistique : Benchmark MultiBLiMP

Résultats Expérimentaux

Analyse Comparative des Ensembles de Données

Ensemble de DonnéesDocuments AnglaisTokens AnglaisDocuments MultilinguesTokens MultilinguesTokens Totaux
HPLT 3.018B16T11B13T29T
FineWeb24B17T5,0B4,9T22T
HPLT 2.04,4B3,9T6,1B7,2T11T
MADLAD-4001,5B1,7T2,1B2,7T4,4T

Résultats d'Évaluation des LLM Multilingues

Comparaison des Performances des Ensembles de Données

Selon le cadre HPLT-E, le classement des performances des modèles est :

  1. MADLAD-400 : Score multilingue le plus élevé
  2. HPLT 3.0 : Deuxième position, nettement supérieur à la version précédente
  3. HPLT 2.0 et FineWeb : Performances comparables

Expériences de Niveaux de Qualité WDS

  • Données de faible qualité (niveaux WDS inférieurs) : Réduction notable des performances du modèle
  • Données de haute qualité (niveaux WDS supérieurs) : Performances comparables à l'échantillonnage aléatoire, possiblement en raison d'une diversité insuffisante
  • Échantillonnage aléatoire : Meilleures performances en espagnol et français

Résultats des Modèles Encodeur-Décodeur

Reconnaissance d'Entités Nommées (Score F1 WikiAnn)

LangueHPLT T5mT5-baseBERT HPLT
Catalan92,787,494,5
Tchèque91,685,291,8
Anglais82,177,682,7
Basque92,082,892,9
Finnois90,31,891,6

Capacité Linguistique (Précision MultiBLIMP)

LangueHPLT T5mT5-basemT5-xxl
Catalan95,691,693,0
Tchèque95,988,893,4
Anglais94,290,695,3
Basque97,494,996,0

Performance moyenne : Le modèle HPLT T5 atteint 93,5% sur MultiBLIMP, nettement supérieur aux 86,8% de mT5-base

Analyse de la Qualité des Données

Résultats de l'Inspection Manuelle (24 langues)

  • Contenu pornographique : Inférieur à 2% pour la plupart des langues
  • Erreurs d'identification de langue : Globalement faibles, mais l'ensemble de données bosniaque contient principalement du serbe, et l'asturien contient souvent de l'espagnol
  • Texte non naturel : Variation significative entre les langues, certaines variations reflétant la subjectivité des normes d'annotation
  • Défauts de texte : Incluant les éléments de navigation, le texte tronqué, etc., les proportions variant selon la langue

Améliorations des Caractéristiques Statistiques

  • Proportion de paragraphes uniques : HPLT 3.0 à 73% vs HPLT 2.0 à 52%, reflétant l'efficacité de la déduplication globale
  • Diversité des domaines : Réduction de la surreprésentation des pages Wikipedia par rapport à HPLT 2.0
  • Distribution des TLD géographiques : Hautement corrélée aux régions d'utilisation des langues

Travaux Connexes

Ensembles de Données d'Entraînement Préalable à Grande Échelle

  • C4 : Ensemble de données principalement en anglais de Google et Allen AI
  • FineWeb : Données web de haute qualité de Hugging Face
  • MADLAD-400 : Ensemble de données de 400 langues de Google
  • Nemotron-CC : Données Common Crawl raffinées de Nvidia

Évaluation de Modèles Multilingues

  • Benchmarks existants : La plupart sont orientés vers l'anglais ou un petit nombre de langues bien dotées en ressources
  • Défis d'évaluation : Sensibilité aux invites, cohérence inter-linguistique, biais culturels, etc.

Techniques de Traitement des Données

  • Extraction de texte : Développement d'outils tels que Trafilatura
  • Identification de langue : Des méthodes traditionnelles aux modèles d'apprentissage profond
  • Techniques de déduplication : Des correspondances exactes aux méthodes de correspondance approximative

Conclusions et Discussion

Conclusions Principales

  1. Percée d'échelle : HPLT 3.0, avec 300 milliards de tokens, devient le plus grand ensemble de données d'entraînement préalable multilingue disponible publiquement
  2. Amélioration de la qualité : Le pipeline de traitement amélioré améliore significativement la qualité des données, comme en témoignent les performances des modèles
  3. Innovation en évaluation : Le cadre HPLT-E établit une nouvelle norme pour l'évaluation des modèles multilingues
  4. Contribution de modèles : 57 modèles encodeur-décodeur monolingues fournissent des outils pratiques à la communauté

Limitations

  1. Évaluation de qualité : Malgré les inspections manuelles, l'évaluation de la qualité des données à grande échelle reste un défi
  2. Couverture linguistique : Bien que supportant près de 200 langues, la distribution des ressources reste déséquilibrée
  3. Portée d'évaluation : Le cadre HPLT-E couvre actuellement seulement 9 langues européennes
  4. Ressources informatiques : L'entraînement à grande échelle nécessite d'importantes ressources informatiques, limitant la reproductibilité

Directions Futures

  1. Extension des données : Prévision de la publication d'une version étendue incluant les données ArchiveBot au début de 2026
  2. Extension de l'évaluation : Expansion du cadre HPLT-E à davantage de langues et de tâches
  3. Amélioration de la qualité : Optimisation continue du pipeline de traitement des données et des mécanismes de contrôle de qualité
  4. Recherche appliquée : Exploration de l'efficacité des données synthétiques dans les langues peu dotées en ressources

Évaluation Approfondie

Avantages

  1. Échelle sans précédent : L'échelle de 300 milliards de tokens est inégalée parmi les ensembles de données publics
  2. Transparence et ouverture : Pipeline entièrement open-source et documentation technique détaillée
  3. Systématicité : Écosystème complet allant de la collecte de données à l'entraînement de modèles
  4. Contrôle de qualité : Mécanismes d'évaluation de qualité multicouches et vérification manuelle
  5. Valeur pratique : Fourniture de modèles pré-entraînés directement utilisables

Insuffisances

  1. Seuil informatique : Bien que les données soient ouvertes, l'entraînement de grands modèles nécessite toujours d'importantes ressources informatiques
  2. Inégalité de qualité : Variations significatives dans la qualité et la quantité des données entre les différentes langues
  3. Limitations d'évaluation : Les échantillons d'évaluation manuelle sont relativement réduits, pouvant présenter des biais
  4. Biais culturels : Les biais géographiques et culturels inhérents aux données web sont difficiles à éliminer complètement

Impact

  1. Contribution académique : Fournit une infrastructure importante pour la recherche en traitement du langage naturel multilingue
  2. Impact industriel : Réduit les obstacles au développement d'applications d'IA multilingues
  3. Valeur sociale : Promeut la diversité linguistique et la démocratisation de la technologie IA
  4. Établissement de normes : Le cadre d'évaluation HPLT-E pourrait devenir une norme industrielle

Scénarios d'Application

  1. Pré-entraînement de LLM multilingues : Utilisation directe pour le pré-entraînement de modèles de langage de grande taille
  2. Modèles spécifiques à une langue : Développement de modèles spécialisés pour les langues peu dotées en ressources
  3. Recherche inter-linguistique : Support de la recherche en linguistique et linguistique informatique
  4. Traduction automatique : Fourniture de corpus parallèles et de données monolingues
  5. Applications éducatives : Fourniture de ressources pour l'apprentissage et l'enseignement des langues

Points d'Innovation Technique

Innovation en Traitement des Données

  1. Déduplication globale : Déduplication approximative globale inter-robots, améliorant la diversité des données
  2. Classification de qualité : Système de notation WDS fournissant un contrôle de qualité à granularité fine
  3. Annotation multidimensionnelle : Combinaison d'étiquettes de registre, d'évaluation de qualité, de détection PII et autres annotations

Innovation en Méthodologie d'Évaluation

  1. Conception multi-invites : Chaque tâche supporte 3-7 invites rédigées manuellement, réduisant la sensibilité aux invites
  2. Critères de sélection de tâches : Sélection basée sur sept critères incluant la monotonie et la stabilité
  3. Méthodes d'agrégation : Combinaison de scores moyens, classements et comptage de Borda

Innovation en Entraînement de Modèles

  1. Modèles spécifiques à une langue : Entraînement séparé de modèles encodeur-décodeur spécialisés pour 57 langues
  2. Points de contrôle intermédiaires : Fourniture de points de contrôle intermédiaires du processus d'entraînement, supportant la recherche sur les processus d'apprentissage
  3. Données synthétiques : Génération de données d'entraînement préalable supplémentaires via traduction automatique

Références

Cet article cite un grand nombre de travaux connexes, incluant principalement :

  • Raffel et al. (2020) : Modèle T5 et ensemble de données C4
  • Penedo et al. (2024, 2025) : Série d'ensembles de données FineWeb
  • Kudugunta et al. (2023) : Ensemble de données MADLAD-400
  • Burchell et al. (2025) : Ensemble de données HPLT 2.0
  • Plusieurs articles relatifs aux benchmarks d'évaluation multilingues

Résumé : Le projet HPLT 3.0 représente un jalon important dans le domaine du traitement du langage naturel multilingue, réalisant non seulement une percée en termes d'échelle de données, mais établissant également de nouvelles normes en matière d'ouverture, de contrôle de qualité et de normes d'évaluation. Bien que certaines limitations subsistent, il revêt une importance significative pour promouvoir la démocratisation et le développement de la technologie d'IA multilingue.