2025-11-11T15:01:09.602202

HPLT 3.0: Very Large-Scale Multilingual Resources for LLM and MT. Mono- and Bi-lingual Data, Multilingual Evaluation, and Pre-Trained Models

Oepen, Arefev, Aulamo et al.

We present an ongoing initiative to provide open, very large, high-quality, and richly annotated textual datasets for almost 200 languages. At 30 trillion tokens, this is likely the largest generally available multilingual collection of LLM pre-training data. These datasets are derived from web crawls from different sources and accompanied with a complete, open-source pipeline for document selection from web archives, text extraction from HTML, language identification for noisy texts, exact and near-deduplication, annotation with, among others, register labels, text quality estimates, and personally identifiable information; and final selection and filtering. We report on data quality probes through contrastive and analytical statistics, through manual inspection of samples for 24 languages, and through end-to-end evaluation of various language model architectures trained on this data. For multilingual LLM evaluation, we provide a comprehensive collection of benchmarks for nine European languages, with special emphasis on natively created tasks, mechanisms to mitigate prompt sensitivity, and refined normalization and aggregation of scores. Additionally, we train and evaluate a family of 57 monolingual encoder-decoder models, as well as a handful of monolingual GPT-like reference models. Besides the monolingual data and models, we also present a very large collection of parallel texts automatically mined from this data, together with a novel parallel corpus synthesized via machine translation.

academic

HPLT 3.0: Recursos Multilingües a Muy Gran Escala para LLM y MT. Datos Monolingües y Bilingües, Evaluación Multilingüe y Modelos Preentrenados

Información Básica

ID del Artículo: 2511.01066
Título: HPLT 3.0: Recursos Multilingües a Muy Gran Escala para LLM y MT. Datos Monolingües y Bilingües, Evaluación Multilingüe y Modelos Preentrenados
Autores: Stephan Oepen y otros investigadores de múltiples instituciones académicas europeas
Clasificación: cs.CL (Lingüística Computacional)
Fecha de Publicación: Noviembre de 2025
Enlace del Artículo: https://arxiv.org/abs/2511.01066

Resumen

Este artículo presenta el proyecto HPLT 3.0, una iniciativa destinada a proporcionar conjuntos de datos de texto abiertos, a ultra gran escala, de alta calidad y enriquecidos con anotaciones para aproximadamente 200 idiomas. El conjunto de datos contiene 30 billones de tokens, posiblemente el mayor conjunto de datos de preentrenamiento de LLM multilingüe disponible públicamente en la actualidad. Los datos provienen de diferentes rastreadores web y están equipados con una canalización de procesamiento completamente de código abierto, que incluye funcionalidades de selección de documentos, extracción de texto, identificación de idioma, deduplicación y evaluación de calidad.

Antecedentes de Investigación y Motivación

Definición del Problema

Escasez de Datos: Los datos de preentrenamiento multilingües de alta calidad a gran escala suelen estar controlados por grandes empresas, y la comunidad académica carece de recursos accesibles
Desigualdad Lingüística: Los conjuntos de datos existentes se sesgan principalmente hacia el inglés, con datos insuficientes para otros idiomas, especialmente idiomas de bajo recursos
Control de Calidad: Los datos extraídos de la web tienen una calidad desigual, lo que requiere mecanismos sistemáticos de limpieza y filtrado
Estándares de Evaluación: Falta un marco unificado de evaluación de modelos multilingües

Importancia de la Investigación

Democratización de la IA: Mediante la apertura de conjuntos de datos a gran escala, se reduce la barrera de entrada para la investigación y desarrollo de LLM
Equidad Multilingüe: Proporcionar más datos de entrenamiento para idiomas de bajo recursos, promoviendo la diversidad lingüística
Investigación Académica: Proporcionar una base experimental reproducible para la comunidad investigadora

Limitaciones de Métodos Existentes

Los conjuntos de datos C4 y FineWeb se centran principalmente en inglés
Los conjuntos de datos multilingües como MADLAD-400 tienen una escala relativamente menor
Faltan estándares unificados de procesamiento de datos y evaluación

Contribuciones Principales

Construcción de un conjunto de datos multilingüe a ultra gran escala de 30 billones de tokens, cubriendo aproximadamente 200 idiomas
Desarrollo de una canalización de procesamiento de datos completamente de código abierto, incluyendo extracción de texto, identificación de idioma, deduplicación y evaluación de calidad
Propuesta del marco de evaluación multilingüe HPLT-E, que abarca 127 tareas en 9 idiomas europeos
Entrenamiento de 57 modelos codificador-decodificador monolingües y múltiples modelos de referencia de estilo GPT
Construcción de un conjunto de datos de texto paralelo a gran escala, incluyendo datos extraídos automáticamente y datos sintetizados mediante traducción automática
Provisión de análisis exhaustivo de calidad de datos, incluyendo análisis estadístico e inspección manual

Explicación Detallada de Métodos

Recopilación de Datos y Canalización de Procesamiento

Fuentes de Datos Originales

Internet Archive (IA): 3.3 PB de datos de rastreadores de 2012-2020
Common Crawl (CC): 57 instantáneas completas (2014-2025), aproximadamente 7.2 PB en total

Pasos de Procesamiento Principal

Extracción de Texto
- Utilización del marco Trafilatura para extracción de texto HTML
- Optimización de configuración de hiperparámetros, priorizando la calidad de extracción sobre la velocidad
Identificación de Idioma
- Adopción del modelo OpenLID-v2 para predicción de idioma
- Soporte para etiquetas de idioma en el conjunto de evaluación Flores+
- Mejora del proceso de preprocesamiento: normalización de espacios, conversión a minúsculas, eliminación de caracteres no léxicos
Procesamiento de Deduplicación
- Implementación de deduplicación global aproximada basada en MinHash para todos los idiomas excepto inglés, ruso y chino
- Deduplicación por rastreador para idiomas grandes para mejorar la eficiencia computacional
Evaluación de Calidad y Anotación
- Web Docs Scorer (WDS): Integración de métodos heurísticos de filtrado de documentos
- Etiquetas de Registro: Utilización del clasificador de registro web de Turku para agregar etiquetas de estilo a 104 idiomas
- Niveles WDS: Clasificación de documentos en seis niveles de calidad {5,6,7,8,9,10}

Empaquetamiento y Distribución de Datos

Agrupación y ordenamiento global de documentos de cada idioma según el nivel WDS
Utilización del formato JSONlines comprimido con Zstandard
Aproximadamente 50 TB de datos distribuidos en 3000 archivos

Configuración Experimental

Marco de Evaluación HPLT-E

Selección de Idiomas

Selección de 9 idiomas europeos: inglés, español, francés, alemán, italiano, checo, finlandés, noruego, ucraniano, entre otros

Configuración de Entrenamiento de Modelos

Arquitectura: Modelo decodificador de arquitectura Llama
Escala: 2.15B parámetros, 24 capas, 32 cabezas de atención
Datos de Entrenamiento: 100B tokens por idioma
Longitud de Secuencia: 2048
Plataforma de Entrenamiento: Supercomputadora LUMI, 16 nodos con GPU AMD MI250x

Tareas de Evaluación

Incluye 127 tareas de comprensión y generación de lenguaje, abarcando:

Implicación textual
Razonamiento de sentido común
Conocimiento específico del idioma y mundial
Paráfrasis
Comprensión de lectura
Análisis de sentimientos
Detección de toxicidad
Evaluación de veracidad

Modelos Codificador-Decodificador

Configuración del Modelo

Arquitectura: T5-base (aproximadamente 275M parámetros)
Cobertura Lingüística: 57 idiomas
Familias Lingüísticas: Abarcando 14 familias lingüísticas

Tareas de Evaluación

Reconocimiento de Entidades Nombradas: Prueba de referencia WikiAnn
Capacidad Lingüística: Prueba de referencia MultiBLiMP

Resultados Experimentales

Análisis Comparativo de Conjuntos de Datos

Conjunto de Datos	Documentos en Inglés	Tokens en Inglés	Documentos Multilingües	Tokens Multilingües	Tokens Totales
HPLT 3.0	18B	16T	11B	13T	29T
FineWeb	24B	17T	5.0B	4.9T	22T
HPLT 2.0	4.4B	3.9T	6.1B	7.2T	11T
MADLAD-400	1.5B	1.7T	2.1B	2.7T	4.4T

Resultados de Evaluación de LLM Multilingüe

Comparación de Rendimiento de Conjuntos de Datos

Según el marco de evaluación HPLT-E, el orden de rendimiento del modelo es:

MADLAD-400: Puntuación multilingüe más alta
HPLT 3.0: Segunda posición, significativamente superior a la versión anterior
HPLT 2.0 y FineWeb: Rendimiento comparable

Experimentos de Nivel de Calidad WDS

Datos de baja calidad (nivel WDS inferior): Reduce notablemente el rendimiento del modelo
Datos de alta calidad (nivel WDS superior): Rendimiento comparable al muestreo aleatorio, posiblemente debido a falta de diversidad
Muestreo aleatorio: Mejor rendimiento en español y francés

Resultados de Modelos Codificador-Decodificador

Reconocimiento de Entidades Nombradas (Puntuación F1 de WikiAnn)

Idioma	HPLT T5	mT5-base	BERT HPLT
Catalán	92.7	87.4	94.5
Checo	91.6	85.2	91.8
Inglés	82.1	77.6	82.7
Vasco	92.0	82.8	92.9
Finlandés	90.3	1.8	91.6

Capacidad Lingüística (Precisión MultiBLIMP)

Idioma	HPLT T5	mT5-base	mT5-xxl
Catalán	95.6	91.6	93.0
Checo	95.9	88.8	93.4
Inglés	94.2	90.6	95.3
Vasco	97.4	94.9	96.0

Rendimiento Promedio: El modelo HPLT T5 alcanza el 93.5% en MultiBLIMP, significativamente superior al 86.8% de mT5-base

Análisis de Calidad de Datos

Resultados de Inspección Manual (24 idiomas)

Contenido Pornográfico: Inferior al 2% en la mayoría de idiomas
Errores de Identificación de Idioma: Generalmente bajos en general, pero el conjunto de datos de bosnio es principalmente serbio, y el asturiano contiene frecuentemente español
Texto No Natural: Variación considerable entre idiomas, parcialmente reflejando la subjetividad de los estándares de anotación
Defectos de Texto: Incluye elementos de navegación, texto truncado, etc., con proporciones que varían según el idioma

Mejoras en Características Estadísticas

Proporción de Párrafos Únicos: HPLT 3.0 es 73% vs HPLT 2.0 es 52%, reflejando el efecto de la deduplicación global
Diversidad de Dominios: Reducción de la sobrerrepresentación de páginas de Wikipedia en comparación con HPLT 2.0
Distribución de TLD Geográfico: Altamente correlacionado con regiones de uso de idiomas

Trabajo Relacionado

Conjuntos de Datos de Preentrenamiento a Gran Escala

C4: Conjunto de datos principalmente en inglés de Google y Allen AI
FineWeb: Datos web de alta calidad de Hugging Face
MADLAD-400: Conjunto de datos de 400 idiomas de Google
Nemotron-CC: Datos de Common Crawl refinados de Nvidia

Evaluación de Modelos Multilingües

Puntos de Referencia Existentes: La mayoría sesgados hacia inglés o un pequeño número de idiomas de alto recursos
Desafíos de Evaluación: Sensibilidad a indicaciones, consistencia entre idiomas, sesgos culturales, etc.

Técnicas de Procesamiento de Datos

Extracción de Texto: Desarrollo de herramientas como Trafilatura
Identificación de Idioma: De métodos tradicionales a modelos de aprendizaje profundo
Técnicas de Deduplicación: De coincidencia exacta a métodos de coincidencia aproximada

Conclusiones y Discusión

Conclusiones Principales

Avance en Escala: HPLT 3.0 con 30 billones de tokens se convierte en el mayor conjunto de datos de preentrenamiento multilingüe disponible públicamente
Mejora de Calidad: La canalización de procesamiento mejorada mejora significativamente la calidad de los datos, reflejada en el rendimiento del modelo
Innovación en Evaluación: El marco HPLT-E proporciona un nuevo estándar para la evaluación de modelos multilingües
Contribución de Modelos: 57 modelos codificador-decodificador monolingües proporcionan herramientas prácticas para la comunidad

Limitaciones

Evaluación de Calidad: A pesar de la inspección manual, la evaluación de calidad de datos a gran escala sigue siendo un desafío
Cobertura Lingüística: Aunque admite aproximadamente 200 idiomas, la distribución de recursos sigue siendo desigual
Alcance de Evaluación: El marco HPLT-E actualmente cubre solo 9 idiomas europeos
Recursos Computacionales: El entrenamiento a gran escala requiere recursos computacionales sustanciales, limitando la reproducibilidad

Direcciones Futuras

Expansión de Datos: Se planea lanzar una versión extendida que incluya datos de ArchiveBot a principios de 2026
Expansión de Evaluación: Extensión del marco HPLT-E a más idiomas y tareas
Mejora de Calidad: Optimización continua de la canalización de procesamiento de datos y mecanismos de control de calidad
Investigación de Aplicaciones: Exploración de la efectividad de datos sintéticos en idiomas de bajo recursos

Evaluación Profunda

Fortalezas

Escala Sin Precedentes: La escala de 30 billones de tokens es líder entre los conjuntos de datos públicos
Transparencia Abierta: Canalización completamente de código abierto y documentación técnica detallada
Sistematicidad: Ecosistema completo desde recopilación de datos hasta entrenamiento de modelos
Control de Calidad: Mecanismos multinivel de evaluación de calidad e inspección manual
Valor Práctico: Proporciona modelos preentrenados directamente utilizables

Deficiencias

Barrera Computacional: Aunque los datos están abiertos, el entrenamiento de modelos grandes aún requiere recursos computacionales sustanciales
Desigualdad de Calidad: Variación considerable en la calidad y cantidad de datos entre diferentes idiomas
Limitaciones de Evaluación: Las muestras de evaluación manual son relativamente pequeñas, pudiendo contener sesgos
Sesgos Culturales: Los sesgos inherentes de datos web de naturaleza geográfica y cultural son difíciles de eliminar completamente

Impacto

Contribución Académica: Proporciona infraestructura importante para investigación en PNL multilingüe
Impacto Industrial: Reduce la barrera de entrada para desarrollo de aplicaciones de IA multilingüe
Valor Social: Promueve diversidad lingüística y democratización de tecnología de IA
Establecimiento de Estándares: El marco de evaluación HPLT-E puede convertirse en un estándar de la industria

Escenarios de Aplicación

Preentrenamiento de LLM Multilingüe: Uso directo para preentrenamiento de modelos de lenguaje grandes
Modelos de Idiomas Específicos: Desarrollo de modelos especializados para idiomas de bajo recursos
Investigación Multilingüe: Apoyo a investigación en lingüística y lingüística computacional
Traducción Automática: Provisión de corpus paralelos y datos monolingües
Aplicaciones Educativas: Provisión de recursos para aprendizaje y enseñanza de idiomas

Puntos de Innovación Técnica

Innovación en Procesamiento de Datos

Deduplicación Global: Deduplicación aproximada global entre rastreadores, mejorando la diversidad de datos
Clasificación de Calidad: Sistema de puntuación WDS proporcionando control de calidad de grano fino
Anotación Multidimensional: Combinación de etiquetas de registro, evaluación de calidad, detección de PII y otras anotaciones

Innovación en Métodos de Evaluación

Diseño de Múltiples Indicaciones: Cada tarea admite 3-7 indicaciones escritas manualmente, reduciendo sensibilidad a indicaciones
Criterios de Selección de Tareas: Selección de tareas de evaluación basada en siete criterios incluyendo monotonicidad y estabilidad
Métodos de Agregación: Combinación de múltiples enfoques de agregación incluyendo puntuación promedio, clasificación y conteo de Borda

Innovación en Entrenamiento de Modelos

Modelos Específicos de Idioma: Entrenamiento de modelos codificador-decodificador especializados para 57 idiomas
Puntos de Control Intermedios: Provisión de puntos de control intermedios durante el proceso de entrenamiento, apoyando investigación del proceso de aprendizaje
Datos Sintéticos: Generación de datos de preentrenamiento adicionales mediante traducción automática

Referencias

Este artículo cita numerosos trabajos relacionados, incluyendo principalmente:

Raffel et al. (2020): Modelo T5 y conjunto de datos C4
Penedo et al. (2024, 2025): Serie de conjuntos de datos FineWeb
Kudugunta et al. (2023): Conjunto de datos MADLAD-400
Burchell et al. (2025): Conjunto de datos HPLT 2.0
Múltiples artículos relacionados con pruebas de referencia de evaluación multilingüe

Resumen: El proyecto HPLT 3.0 representa un hito importante en el campo de la PNL multilingüe, logrando no solo un avance en la escala de datos, sino también estableciendo nuevos estándares en apertura, control de calidad y estándares de evaluación. Aunque aún existen algunas limitaciones, tiene una importancia significativa para promover la democratización y el desarrollo de la tecnología de IA multilingüe.