We present an ongoing initiative to provide open, very large, high-quality, and richly annotated textual datasets for almost 200 languages. At 30 trillion tokens, this is likely the largest generally available multilingual collection of LLM pre-training data. These datasets are derived from web crawls from different sources and accompanied with a complete, open-source pipeline for document selection from web archives, text extraction from HTML, language identification for noisy texts, exact and near-deduplication, annotation with, among others, register labels, text quality estimates, and personally identifiable information; and final selection and filtering. We report on data quality probes through contrastive and analytical statistics, through manual inspection of samples for 24 languages, and through end-to-end evaluation of various language model architectures trained on this data. For multilingual LLM evaluation, we provide a comprehensive collection of benchmarks for nine European languages, with special emphasis on natively created tasks, mechanisms to mitigate prompt sensitivity, and refined normalization and aggregation of scores. Additionally, we train and evaluate a family of 57 monolingual encoder-decoder models, as well as a handful of monolingual GPT-like reference models. Besides the monolingual data and models, we also present a very large collection of parallel texts automatically mined from this data, together with a novel parallel corpus synthesized via machine translation.
academicHPLT 3.0: Risorse Multilingui su Scala Molto Grande per LLM e MT. Dati Monolingui e Bilingui, Valutazione Multilingue e Modelli Pre-Addestrati
- ID Articolo: 2511.01066
- Titolo: HPLT 3.0: Very Large-Scale Multilingual Resources for LLM and MT. Mono- and Bi-lingual Data, Multilingual Evaluation, and Pre-Trained Models
- Autori: Stephan Oepen e altri ricercatori da molteplici istituzioni accademiche europee
- Classificazione: cs.CL (Linguistica Computazionale)
- Data di Pubblicazione: Novembre 2025
- Link Articolo: https://arxiv.org/abs/2511.01066
Questo articolo presenta il progetto HPLT 3.0, un'iniziativa volta a fornire dataset di testo aperti, su scala ultra-massiccia, di alta qualità e ricchi di annotazioni per quasi 200 lingue. Il dataset contiene 30 trilioni di token, probabilmente il più grande insieme di dati per il pre-addestramento di LLM multilingui pubblicamente disponibile. I dati provengono da diversi web crawler e sono accompagnati da una pipeline di elaborazione completamente open-source, che include selezione di documenti, estrazione di testo, identificazione della lingua, deduplicazione e valutazione della qualità.
- Scarsità di Dati: I dati di pre-addestramento multilingui di alta qualità su larga scala sono generalmente controllati da grandi aziende, con risorse scarse disponibili per la comunità accademica
- Disuguaglianza Linguistica: I dataset esistenti sono principalmente orientati verso l'inglese, con dati gravemente insufficienti per altre lingue, in particolare quelle a bassa risorsa
- Controllo della Qualità: I dati estratti dal web hanno qualità disomogenea, richiedendo meccanismi sistematici di pulizia e filtraggio
- Standard di Valutazione: Mancanza di un framework unificato per la valutazione di modelli multilingui
- Democratizzazione dell'IA: Attraverso dataset aperti su larga scala, ridurre le barriere allo sviluppo di LLM
- Equità Multilingue: Fornire più dati di addestramento per lingue a bassa risorsa, promuovendo la diversità linguistica
- Ricerca Accademica: Fornire una base sperimentale riproducibile per la comunità di ricerca
- Dataset come C4 e FineWeb si concentrano principalmente sull'inglese
- Dataset multilingui come MADLAD-400 hanno scale relativamente più piccole
- Mancanza di standard unificati per l'elaborazione e la valutazione dei dati
- Costruzione di un dataset multilingue ultra-massiccia di 30 trilioni di token, coprendo quasi 200 lingue
- Sviluppo di una pipeline di elaborazione dati completamente open-source, includendo estrazione di testo, identificazione della lingua, deduplicazione e valutazione della qualità
- Proposizione del framework di valutazione multilingue HPLT-E, coprendo 127 compiti in 9 lingue europee
- Addestramento di 57 modelli encoder-decoder monolingui e molteplici modelli di riferimento in stile GPT
- Costruzione di un dataset di testo parallelo su larga scala, includendo dati estratti automaticamente e sintetizzati tramite traduzione automatica
- Fornitura di un'analisi completa della qualità dei dati, includendo analisi statistiche e verifiche manuali
- Internet Archive (IA): 3,3 PB di dati crawler dal 2012-2020
- Common Crawl (CC): 57 snapshot completi (2014-2025), circa 7,2 PB di volume totale
- Estrazione di Testo
- Utilizzo del framework Trafilatura per l'estrazione di testo HTML
- Ottimizzazione delle impostazioni di iperparametri, prioritizzando la qualità dell'estrazione sulla velocità
- Identificazione della Lingua
- Adozione del modello OpenLID-v2 per la previsione della lingua
- Supporto per etichette linguistiche nel set di valutazione Flores+
- Miglioramento della pipeline di pre-elaborazione: normalizzazione degli spazi, conversione a minuscole, rimozione di caratteri non-parola
- Elaborazione della Deduplicazione
- Implementazione della deduplicazione globale approssimata basata su MinHash per tutte le lingue eccetto inglese, russo e cinese
- Deduplicazione per crawler per lingue di grandi dimensioni al fine di migliorare l'efficienza computazionale
- Valutazione della Qualità e Annotazione
- Web Docs Scorer (WDS): Integrazione di metodi euristici di filtraggio dei documenti
- Etichette di Registro: Utilizzo del classificatore di registro web di Turku per aggiungere etichette stilistiche a 104 lingue
- Livelli WDS: Classificazione dei documenti in sei livelli di qualità {5,6,7,8,9,10}
- Binning e ordinamento globale dei documenti per ogni lingua secondo il livello WDS
- Utilizzo del formato JSONlines compresso con Zstandard
- Totale di circa 50TB di dati, distribuiti in 3000 file
Selezione di 9 lingue europee: inglese, spagnolo, francese, tedesco, italiano, ceco, finlandese, norvegese, ucraino e altre
- Architettura: Modello decoder basato su architettura Llama
- Scala: 2,15 miliardi di parametri, 24 strati, 32 teste di attenzione
- Dati di Addestramento: 100 miliardi di token per lingua
- Lunghezza della Sequenza: 2048
- Piattaforma di Addestramento: Supercomputer LUMI, 16 nodi GPU AMD MI250x
Comprende 127 compiti di comprensione e generazione del linguaggio, coprendo:
- Implicazione testuale
- Ragionamento di senso comune
- Conoscenza linguistica specifica e mondiale
- Parafrasi
- Comprensione della lettura
- Analisi del sentimento
- Rilevamento della tossicità
- Valutazione della veridicità
- Architettura: T5-base (circa 275 milioni di parametri)
- Copertura Linguistica: 57 lingue
- Famiglie Linguistiche: Coprendo 14 famiglie linguistiche
- Riconoscimento di Entità Nominate: Benchmark WikiAnn
- Capacità Linguistica: Benchmark MultiBLiMP
| Dataset | Documenti Inglesi | Token Inglesi | Documenti Multilingui | Token Multilingui | Token Totali |
|---|
| HPLT 3.0 | 18B | 16T | 11B | 13T | 29T |
| FineWeb | 24B | 17T | 5,0B | 4,9T | 22T |
| HPLT 2.0 | 4,4B | 3,9T | 6,1B | 7,2T | 11T |
| MADLAD-400 | 1,5B | 1,7T | 2,1B | 2,7T | 4,4T |
Secondo la valutazione del framework HPLT-E, l'ordinamento delle prestazioni del modello è:
- MADLAD-400: Punteggio multilingue più alto
- HPLT 3.0: Secondo posto, significativamente superiore alla versione precedente
- HPLT 2.0 e FineWeb: Prestazioni comparabili
- Dati di bassa qualità (livelli WDS inferiori): Riduzione evidente delle prestazioni del modello
- Dati di alta qualità (livelli WDS superiori): Prestazioni comparabili al campionamento casuale, possibilmente dovute a diversità insufficiente
- Campionamento casuale: Prestazioni migliori su spagnolo e francese
| Lingua | HPLT T5 | mT5-base | BERT HPLT |
|---|
| Catalano | 92,7 | 87,4 | 94,5 |
| Ceco | 91,6 | 85,2 | 91,8 |
| Inglese | 82,1 | 77,6 | 82,7 |
| Basco | 92,0 | 82,8 | 92,9 |
| Finlandese | 90,3 | 1,8 | 91,6 |
| Lingua | HPLT T5 | mT5-base | mT5-xxl |
|---|
| Catalano | 95,6 | 91,6 | 93,0 |
| Ceco | 95,9 | 88,8 | 93,4 |
| Inglese | 94,2 | 90,6 | 95,3 |
| Basco | 97,4 | 94,9 | 96,0 |
Prestazioni Medie: Il modello HPLT T5 raggiunge il 93,5% su MultiBLIMP, significativamente superiore al 86,8% di mT5-base
- Contenuto Pornografico: Inferiore al 2% per la maggior parte delle lingue
- Errori di Identificazione della Lingua: Complessivamente bassi, ma il dataset bosniaco è principalmente serbo, l'asturiano contiene frequentemente spagnolo
- Testo Non Naturale: Variazione significativa tra lingue, parte riflettente la soggettività degli standard di annotazione
- Difetti Testuali: Includendo elementi di navigazione, testo troncato, ecc., con proporzioni variabili per lingua
- Proporzione di Paragrafi Unici: HPLT 3.0 al 73% vs HPLT 2.0 al 52%, riflettendo l'effetto della deduplicazione globale
- Diversità dei Nomi di Dominio: Riduzione della sovrarappresentazione delle pagine Wikipedia rispetto a HPLT 2.0
- Distribuzione TLD Geografica: Altamente correlata alle regioni di utilizzo della lingua
- C4: Dataset principalmente in inglese di Google e Allen AI
- FineWeb: Dati web di alta qualità di Hugging Face
- MADLAD-400: Dataset di 400 lingue di Google
- Nemotron-CC: Dati Common Crawl raffinati di Nvidia
- Benchmark Esistenti: La maggior parte orientati verso l'inglese o poche lingue ad alta risorsa
- Sfide di Valutazione: Sensibilità ai prompt, coerenza cross-linguistica, pregiudizi culturali, ecc.
- Estrazione di Testo: Sviluppo di strumenti come Trafilatura
- Identificazione della Lingua: Dai metodi tradizionali ai modelli di deep learning
- Tecniche di Deduplicazione: Dai metodi di corrispondenza esatta ai metodi di corrispondenza approssimata
- Avanzamento nella Scala: HPLT 3.0 con 30 trilioni di token è il più grande dataset di pre-addestramento multilingue pubblicamente disponibile
- Miglioramento della Qualità: La pipeline di elaborazione migliorata ha significativamente aumentato la qualità dei dati, evidente nelle prestazioni del modello
- Innovazione nella Valutazione: Il framework HPLT-E fornisce un nuovo standard per la valutazione di modelli multilingui
- Contributo del Modello: 57 modelli encoder-decoder monolingui forniscono strumenti pratici alla comunità
- Valutazione della Qualità: Nonostante le verifiche manuali, la valutazione della qualità dei dati su larga scala rimane una sfida
- Copertura Linguistica: Sebbene supporti quasi 200 lingue, la distribuzione delle risorse rimane squilibrata
- Ambito di Valutazione: Il framework HPLT-E attualmente copre solo 9 lingue europee
- Risorse Computazionali: L'addestramento su larga scala richiede risorse computazionali significative, limitando la riproducibilità
- Espansione dei Dati: Pianificazione del rilascio di una versione estesa con dati ArchiveBot all'inizio del 2026
- Espansione della Valutazione: Estensione del framework HPLT-E a più lingue e compiti
- Miglioramento della Qualità: Continua ottimizzazione della pipeline di elaborazione e dei meccanismi di controllo della qualità
- Ricerca Applicativa: Esplorazione degli effetti dei dati sintetici nelle lingue a bassa risorsa
- Scala Senza Precedenti: 30 trilioni di token rappresentano il primo della categoria tra i dataset pubblici
- Trasparenza Aperta: Pipeline completamente open-source e documentazione tecnica dettagliata
- Sistematicità: Ecosistema completo dalla raccolta dei dati all'addestramento dei modelli
- Controllo della Qualità: Meccanismi multi-livello di valutazione della qualità e verifica manuale
- Valore Pratico: Fornitura di modelli pre-addestrati direttamente utilizzabili
- Soglia Computazionale: Sebbene i dati siano aperti, l'addestramento di modelli di grandi dimensioni richiede ancora risorse computazionali significative
- Qualità Non Uniforme: Variazioni significative nella qualità e quantità dei dati tra diverse lingue
- Limitazioni di Valutazione: Campioni di valutazione manuale relativamente piccoli, con possibili distorsioni
- Pregiudizi Culturali: I pregiudizi geografici e culturali intrinseci ai dati web sono difficili da eliminare completamente
- Contributo Accademico: Fornisce infrastrutture importanti per la ricerca NLP multilingue
- Impatto Industriale: Riduce le barriere allo sviluppo di applicazioni AI multilingui
- Valore Sociale: Promuove la diversità linguistica e la democratizzazione della tecnologia AI
- Definizione di Standard: Il framework di valutazione HPLT-E potrebbe diventare uno standard industriale
- Pre-Addestramento di LLM Multilingui: Utilizzo diretto per il pre-addestramento di modelli linguistici di grandi dimensioni
- Modelli Linguistici Specifici: Sviluppo di modelli specializzati per lingue a bassa risorsa
- Ricerca Cross-Linguistica: Supporto per ricerca in linguistica e linguistica computazionale
- Traduzione Automatica: Fornitura di dati paralleli e dati monolingui
- Applicazioni Educative: Fornitura di risorse per l'apprendimento e l'insegnamento delle lingue
- Deduplicazione Globale: Deduplicazione approssimata globale cross-crawler, migliorando la diversità dei dati
- Classificazione della Qualità: Sistema di punteggio WDS fornisce controllo della qualità a grana fine
- Annotazione Multi-Dimensionale: Combinazione di etichette di registro, valutazione della qualità, rilevamento PII e altre annotazioni
- Design Multi-Prompt: Ogni compito supporta 3-7 prompt scritti manualmente, riducendo la sensibilità ai prompt
- Criteri di Selezione dei Compiti: Selezione basata su sette standard inclusi monotonia e stabilità
- Metodi di Aggregazione: Combinazione di punteggi medi, ranking e conteggio di Borda
- Modelli Linguistici Specifici: Addestramento separato di modelli encoder-decoder specializzati per 57 lingue
- Checkpoint Intermedi: Fornitura di checkpoint intermedi durante il processo di addestramento, supportando la ricerca sui processi di apprendimento
- Dati Sintetici: Generazione di dati di pre-addestramento aggiuntivi tramite traduzione automatica
Questo articolo cita numerosi lavori correlati, principalmente includendo:
- Raffel et al. (2020): Modello T5 e dataset C4
- Penedo et al. (2024, 2025): Serie di dataset FineWeb
- Kudugunta et al. (2023): Dataset MADLAD-400
- Burchell et al. (2025): Dataset HPLT 2.0
- Numerosi articoli correlati a benchmark di valutazione multilingue
Sintesi: Il progetto HPLT 3.0 rappresenta un importante punto di riferimento nel campo dell'NLP multilingue, realizzando non solo un avanzamento nella scala dei dati, ma stabilendo anche nuovi standard in termini di apertura, controllo della qualità e standard di valutazione. Sebbene persistano alcune limitazioni, ha un'importanza significativa nel promuovere la democratizzazione e lo sviluppo della tecnologia AI multilingue.