We present an ongoing initiative to provide open, very large, high-quality, and richly annotated textual datasets for almost 200 languages. At 30 trillion tokens, this is likely the largest generally available multilingual collection of LLM pre-training data. These datasets are derived from web crawls from different sources and accompanied with a complete, open-source pipeline for document selection from web archives, text extraction from HTML, language identification for noisy texts, exact and near-deduplication, annotation with, among others, register labels, text quality estimates, and personally identifiable information; and final selection and filtering. We report on data quality probes through contrastive and analytical statistics, through manual inspection of samples for 24 languages, and through end-to-end evaluation of various language model architectures trained on this data. For multilingual LLM evaluation, we provide a comprehensive collection of benchmarks for nine European languages, with special emphasis on natively created tasks, mechanisms to mitigate prompt sensitivity, and refined normalization and aggregation of scores. Additionally, we train and evaluate a family of 57 monolingual encoder-decoder models, as well as a handful of monolingual GPT-like reference models. Besides the monolingual data and models, we also present a very large collection of parallel texts automatically mined from this data, together with a novel parallel corpus synthesized via machine translation.
academic- ID del Artículo: 2511.01066
- Título: HPLT 3.0: Recursos Multilingües a Muy Gran Escala para LLM y MT. Datos Monolingües y Bilingües, Evaluación Multilingüe y Modelos Preentrenados
- Autores: Stephan Oepen y otros investigadores de múltiples instituciones académicas europeas
- Clasificación: cs.CL (Lingüística Computacional)
- Fecha de Publicación: Noviembre de 2025
- Enlace del Artículo: https://arxiv.org/abs/2511.01066
Este artículo presenta el proyecto HPLT 3.0, una iniciativa destinada a proporcionar conjuntos de datos de texto abiertos, a ultra gran escala, de alta calidad y enriquecidos con anotaciones para aproximadamente 200 idiomas. El conjunto de datos contiene 30 billones de tokens, posiblemente el mayor conjunto de datos de preentrenamiento de LLM multilingüe disponible públicamente en la actualidad. Los datos provienen de diferentes rastreadores web y están equipados con una canalización de procesamiento completamente de código abierto, que incluye funcionalidades de selección de documentos, extracción de texto, identificación de idioma, deduplicación y evaluación de calidad.
- Escasez de Datos: Los datos de preentrenamiento multilingües de alta calidad a gran escala suelen estar controlados por grandes empresas, y la comunidad académica carece de recursos accesibles
- Desigualdad Lingüística: Los conjuntos de datos existentes se sesgan principalmente hacia el inglés, con datos insuficientes para otros idiomas, especialmente idiomas de bajo recursos
- Control de Calidad: Los datos extraídos de la web tienen una calidad desigual, lo que requiere mecanismos sistemáticos de limpieza y filtrado
- Estándares de Evaluación: Falta un marco unificado de evaluación de modelos multilingües
- Democratización de la IA: Mediante la apertura de conjuntos de datos a gran escala, se reduce la barrera de entrada para la investigación y desarrollo de LLM
- Equidad Multilingüe: Proporcionar más datos de entrenamiento para idiomas de bajo recursos, promoviendo la diversidad lingüística
- Investigación Académica: Proporcionar una base experimental reproducible para la comunidad investigadora
- Los conjuntos de datos C4 y FineWeb se centran principalmente en inglés
- Los conjuntos de datos multilingües como MADLAD-400 tienen una escala relativamente menor
- Faltan estándares unificados de procesamiento de datos y evaluación
- Construcción de un conjunto de datos multilingüe a ultra gran escala de 30 billones de tokens, cubriendo aproximadamente 200 idiomas
- Desarrollo de una canalización de procesamiento de datos completamente de código abierto, incluyendo extracción de texto, identificación de idioma, deduplicación y evaluación de calidad
- Propuesta del marco de evaluación multilingüe HPLT-E, que abarca 127 tareas en 9 idiomas europeos
- Entrenamiento de 57 modelos codificador-decodificador monolingües y múltiples modelos de referencia de estilo GPT
- Construcción de un conjunto de datos de texto paralelo a gran escala, incluyendo datos extraídos automáticamente y datos sintetizados mediante traducción automática
- Provisión de análisis exhaustivo de calidad de datos, incluyendo análisis estadístico e inspección manual
- Internet Archive (IA): 3.3 PB de datos de rastreadores de 2012-2020
- Common Crawl (CC): 57 instantáneas completas (2014-2025), aproximadamente 7.2 PB en total
- Extracción de Texto
- Utilización del marco Trafilatura para extracción de texto HTML
- Optimización de configuración de hiperparámetros, priorizando la calidad de extracción sobre la velocidad
- Identificación de Idioma
- Adopción del modelo OpenLID-v2 para predicción de idioma
- Soporte para etiquetas de idioma en el conjunto de evaluación Flores+
- Mejora del proceso de preprocesamiento: normalización de espacios, conversión a minúsculas, eliminación de caracteres no léxicos
- Procesamiento de Deduplicación
- Implementación de deduplicación global aproximada basada en MinHash para todos los idiomas excepto inglés, ruso y chino
- Deduplicación por rastreador para idiomas grandes para mejorar la eficiencia computacional
- Evaluación de Calidad y Anotación
- Web Docs Scorer (WDS): Integración de métodos heurísticos de filtrado de documentos
- Etiquetas de Registro: Utilización del clasificador de registro web de Turku para agregar etiquetas de estilo a 104 idiomas
- Niveles WDS: Clasificación de documentos en seis niveles de calidad {5,6,7,8,9,10}
- Agrupación y ordenamiento global de documentos de cada idioma según el nivel WDS
- Utilización del formato JSONlines comprimido con Zstandard
- Aproximadamente 50 TB de datos distribuidos en 3000 archivos
Selección de 9 idiomas europeos: inglés, español, francés, alemán, italiano, checo, finlandés, noruego, ucraniano, entre otros
- Arquitectura: Modelo decodificador de arquitectura Llama
- Escala: 2.15B parámetros, 24 capas, 32 cabezas de atención
- Datos de Entrenamiento: 100B tokens por idioma
- Longitud de Secuencia: 2048
- Plataforma de Entrenamiento: Supercomputadora LUMI, 16 nodos con GPU AMD MI250x
Incluye 127 tareas de comprensión y generación de lenguaje, abarcando:
- Implicación textual
- Razonamiento de sentido común
- Conocimiento específico del idioma y mundial
- Paráfrasis
- Comprensión de lectura
- Análisis de sentimientos
- Detección de toxicidad
- Evaluación de veracidad
- Arquitectura: T5-base (aproximadamente 275M parámetros)
- Cobertura Lingüística: 57 idiomas
- Familias Lingüísticas: Abarcando 14 familias lingüísticas
- Reconocimiento de Entidades Nombradas: Prueba de referencia WikiAnn
- Capacidad Lingüística: Prueba de referencia MultiBLiMP
| Conjunto de Datos | Documentos en Inglés | Tokens en Inglés | Documentos Multilingües | Tokens Multilingües | Tokens Totales |
|---|
| HPLT 3.0 | 18B | 16T | 11B | 13T | 29T |
| FineWeb | 24B | 17T | 5.0B | 4.9T | 22T |
| HPLT 2.0 | 4.4B | 3.9T | 6.1B | 7.2T | 11T |
| MADLAD-400 | 1.5B | 1.7T | 2.1B | 2.7T | 4.4T |
Según el marco de evaluación HPLT-E, el orden de rendimiento del modelo es:
- MADLAD-400: Puntuación multilingüe más alta
- HPLT 3.0: Segunda posición, significativamente superior a la versión anterior
- HPLT 2.0 y FineWeb: Rendimiento comparable
- Datos de baja calidad (nivel WDS inferior): Reduce notablemente el rendimiento del modelo
- Datos de alta calidad (nivel WDS superior): Rendimiento comparable al muestreo aleatorio, posiblemente debido a falta de diversidad
- Muestreo aleatorio: Mejor rendimiento en español y francés
| Idioma | HPLT T5 | mT5-base | BERT HPLT |
|---|
| Catalán | 92.7 | 87.4 | 94.5 |
| Checo | 91.6 | 85.2 | 91.8 |
| Inglés | 82.1 | 77.6 | 82.7 |
| Vasco | 92.0 | 82.8 | 92.9 |
| Finlandés | 90.3 | 1.8 | 91.6 |
| Idioma | HPLT T5 | mT5-base | mT5-xxl |
|---|
| Catalán | 95.6 | 91.6 | 93.0 |
| Checo | 95.9 | 88.8 | 93.4 |
| Inglés | 94.2 | 90.6 | 95.3 |
| Vasco | 97.4 | 94.9 | 96.0 |
Rendimiento Promedio: El modelo HPLT T5 alcanza el 93.5% en MultiBLIMP, significativamente superior al 86.8% de mT5-base
- Contenido Pornográfico: Inferior al 2% en la mayoría de idiomas
- Errores de Identificación de Idioma: Generalmente bajos en general, pero el conjunto de datos de bosnio es principalmente serbio, y el asturiano contiene frecuentemente español
- Texto No Natural: Variación considerable entre idiomas, parcialmente reflejando la subjetividad de los estándares de anotación
- Defectos de Texto: Incluye elementos de navegación, texto truncado, etc., con proporciones que varían según el idioma
- Proporción de Párrafos Únicos: HPLT 3.0 es 73% vs HPLT 2.0 es 52%, reflejando el efecto de la deduplicación global
- Diversidad de Dominios: Reducción de la sobrerrepresentación de páginas de Wikipedia en comparación con HPLT 2.0
- Distribución de TLD Geográfico: Altamente correlacionado con regiones de uso de idiomas
- C4: Conjunto de datos principalmente en inglés de Google y Allen AI
- FineWeb: Datos web de alta calidad de Hugging Face
- MADLAD-400: Conjunto de datos de 400 idiomas de Google
- Nemotron-CC: Datos de Common Crawl refinados de Nvidia
- Puntos de Referencia Existentes: La mayoría sesgados hacia inglés o un pequeño número de idiomas de alto recursos
- Desafíos de Evaluación: Sensibilidad a indicaciones, consistencia entre idiomas, sesgos culturales, etc.
- Extracción de Texto: Desarrollo de herramientas como Trafilatura
- Identificación de Idioma: De métodos tradicionales a modelos de aprendizaje profundo
- Técnicas de Deduplicación: De coincidencia exacta a métodos de coincidencia aproximada
- Avance en Escala: HPLT 3.0 con 30 billones de tokens se convierte en el mayor conjunto de datos de preentrenamiento multilingüe disponible públicamente
- Mejora de Calidad: La canalización de procesamiento mejorada mejora significativamente la calidad de los datos, reflejada en el rendimiento del modelo
- Innovación en Evaluación: El marco HPLT-E proporciona un nuevo estándar para la evaluación de modelos multilingües
- Contribución de Modelos: 57 modelos codificador-decodificador monolingües proporcionan herramientas prácticas para la comunidad
- Evaluación de Calidad: A pesar de la inspección manual, la evaluación de calidad de datos a gran escala sigue siendo un desafío
- Cobertura Lingüística: Aunque admite aproximadamente 200 idiomas, la distribución de recursos sigue siendo desigual
- Alcance de Evaluación: El marco HPLT-E actualmente cubre solo 9 idiomas europeos
- Recursos Computacionales: El entrenamiento a gran escala requiere recursos computacionales sustanciales, limitando la reproducibilidad
- Expansión de Datos: Se planea lanzar una versión extendida que incluya datos de ArchiveBot a principios de 2026
- Expansión de Evaluación: Extensión del marco HPLT-E a más idiomas y tareas
- Mejora de Calidad: Optimización continua de la canalización de procesamiento de datos y mecanismos de control de calidad
- Investigación de Aplicaciones: Exploración de la efectividad de datos sintéticos en idiomas de bajo recursos
- Escala Sin Precedentes: La escala de 30 billones de tokens es líder entre los conjuntos de datos públicos
- Transparencia Abierta: Canalización completamente de código abierto y documentación técnica detallada
- Sistematicidad: Ecosistema completo desde recopilación de datos hasta entrenamiento de modelos
- Control de Calidad: Mecanismos multinivel de evaluación de calidad e inspección manual
- Valor Práctico: Proporciona modelos preentrenados directamente utilizables
- Barrera Computacional: Aunque los datos están abiertos, el entrenamiento de modelos grandes aún requiere recursos computacionales sustanciales
- Desigualdad de Calidad: Variación considerable en la calidad y cantidad de datos entre diferentes idiomas
- Limitaciones de Evaluación: Las muestras de evaluación manual son relativamente pequeñas, pudiendo contener sesgos
- Sesgos Culturales: Los sesgos inherentes de datos web de naturaleza geográfica y cultural son difíciles de eliminar completamente
- Contribución Académica: Proporciona infraestructura importante para investigación en PNL multilingüe
- Impacto Industrial: Reduce la barrera de entrada para desarrollo de aplicaciones de IA multilingüe
- Valor Social: Promueve diversidad lingüística y democratización de tecnología de IA
- Establecimiento de Estándares: El marco de evaluación HPLT-E puede convertirse en un estándar de la industria
- Preentrenamiento de LLM Multilingüe: Uso directo para preentrenamiento de modelos de lenguaje grandes
- Modelos de Idiomas Específicos: Desarrollo de modelos especializados para idiomas de bajo recursos
- Investigación Multilingüe: Apoyo a investigación en lingüística y lingüística computacional
- Traducción Automática: Provisión de corpus paralelos y datos monolingües
- Aplicaciones Educativas: Provisión de recursos para aprendizaje y enseñanza de idiomas
- Deduplicación Global: Deduplicación aproximada global entre rastreadores, mejorando la diversidad de datos
- Clasificación de Calidad: Sistema de puntuación WDS proporcionando control de calidad de grano fino
- Anotación Multidimensional: Combinación de etiquetas de registro, evaluación de calidad, detección de PII y otras anotaciones
- Diseño de Múltiples Indicaciones: Cada tarea admite 3-7 indicaciones escritas manualmente, reduciendo sensibilidad a indicaciones
- Criterios de Selección de Tareas: Selección de tareas de evaluación basada en siete criterios incluyendo monotonicidad y estabilidad
- Métodos de Agregación: Combinación de múltiples enfoques de agregación incluyendo puntuación promedio, clasificación y conteo de Borda
- Modelos Específicos de Idioma: Entrenamiento de modelos codificador-decodificador especializados para 57 idiomas
- Puntos de Control Intermedios: Provisión de puntos de control intermedios durante el proceso de entrenamiento, apoyando investigación del proceso de aprendizaje
- Datos Sintéticos: Generación de datos de preentrenamiento adicionales mediante traducción automática
Este artículo cita numerosos trabajos relacionados, incluyendo principalmente:
- Raffel et al. (2020): Modelo T5 y conjunto de datos C4
- Penedo et al. (2024, 2025): Serie de conjuntos de datos FineWeb
- Kudugunta et al. (2023): Conjunto de datos MADLAD-400
- Burchell et al. (2025): Conjunto de datos HPLT 2.0
- Múltiples artículos relacionados con pruebas de referencia de evaluación multilingüe
Resumen: El proyecto HPLT 3.0 representa un hito importante en el campo de la PNL multilingüe, logrando no solo un avance en la escala de datos, sino también estableciendo nuevos estándares en apertura, control de calidad y estándares de evaluación. Aunque aún existen algunas limitaciones, tiene una importancia significativa para promover la democratización y el desarrollo de la tecnología de IA multilingüe.