2025-11-11T15:01:09.602202

HPLT 3.0: Very Large-Scale Multilingual Resources for LLM and MT. Mono- and Bi-lingual Data, Multilingual Evaluation, and Pre-Trained Models

Oepen, Arefev, Aulamo et al.
We present an ongoing initiative to provide open, very large, high-quality, and richly annotated textual datasets for almost 200 languages. At 30 trillion tokens, this is likely the largest generally available multilingual collection of LLM pre-training data. These datasets are derived from web crawls from different sources and accompanied with a complete, open-source pipeline for document selection from web archives, text extraction from HTML, language identification for noisy texts, exact and near-deduplication, annotation with, among others, register labels, text quality estimates, and personally identifiable information; and final selection and filtering. We report on data quality probes through contrastive and analytical statistics, through manual inspection of samples for 24 languages, and through end-to-end evaluation of various language model architectures trained on this data. For multilingual LLM evaluation, we provide a comprehensive collection of benchmarks for nine European languages, with special emphasis on natively created tasks, mechanisms to mitigate prompt sensitivity, and refined normalization and aggregation of scores. Additionally, we train and evaluate a family of 57 monolingual encoder-decoder models, as well as a handful of monolingual GPT-like reference models. Besides the monolingual data and models, we also present a very large collection of parallel texts automatically mined from this data, together with a novel parallel corpus synthesized via machine translation.
academic

HPLT 3.0: Recursos Multilingües a Muy Gran Escala para LLM y MT. Datos Monolingües y Bilingües, Evaluación Multilingüe y Modelos Preentrenados

Información Básica

  • ID del Artículo: 2511.01066
  • Título: HPLT 3.0: Recursos Multilingües a Muy Gran Escala para LLM y MT. Datos Monolingües y Bilingües, Evaluación Multilingüe y Modelos Preentrenados
  • Autores: Stephan Oepen y otros investigadores de múltiples instituciones académicas europeas
  • Clasificación: cs.CL (Lingüística Computacional)
  • Fecha de Publicación: Noviembre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2511.01066

Resumen

Este artículo presenta el proyecto HPLT 3.0, una iniciativa destinada a proporcionar conjuntos de datos de texto abiertos, a ultra gran escala, de alta calidad y enriquecidos con anotaciones para aproximadamente 200 idiomas. El conjunto de datos contiene 30 billones de tokens, posiblemente el mayor conjunto de datos de preentrenamiento de LLM multilingüe disponible públicamente en la actualidad. Los datos provienen de diferentes rastreadores web y están equipados con una canalización de procesamiento completamente de código abierto, que incluye funcionalidades de selección de documentos, extracción de texto, identificación de idioma, deduplicación y evaluación de calidad.

Antecedentes de Investigación y Motivación

Definición del Problema

  1. Escasez de Datos: Los datos de preentrenamiento multilingües de alta calidad a gran escala suelen estar controlados por grandes empresas, y la comunidad académica carece de recursos accesibles
  2. Desigualdad Lingüística: Los conjuntos de datos existentes se sesgan principalmente hacia el inglés, con datos insuficientes para otros idiomas, especialmente idiomas de bajo recursos
  3. Control de Calidad: Los datos extraídos de la web tienen una calidad desigual, lo que requiere mecanismos sistemáticos de limpieza y filtrado
  4. Estándares de Evaluación: Falta un marco unificado de evaluación de modelos multilingües

Importancia de la Investigación

  • Democratización de la IA: Mediante la apertura de conjuntos de datos a gran escala, se reduce la barrera de entrada para la investigación y desarrollo de LLM
  • Equidad Multilingüe: Proporcionar más datos de entrenamiento para idiomas de bajo recursos, promoviendo la diversidad lingüística
  • Investigación Académica: Proporcionar una base experimental reproducible para la comunidad investigadora

Limitaciones de Métodos Existentes

  • Los conjuntos de datos C4 y FineWeb se centran principalmente en inglés
  • Los conjuntos de datos multilingües como MADLAD-400 tienen una escala relativamente menor
  • Faltan estándares unificados de procesamiento de datos y evaluación

Contribuciones Principales

  1. Construcción de un conjunto de datos multilingüe a ultra gran escala de 30 billones de tokens, cubriendo aproximadamente 200 idiomas
  2. Desarrollo de una canalización de procesamiento de datos completamente de código abierto, incluyendo extracción de texto, identificación de idioma, deduplicación y evaluación de calidad
  3. Propuesta del marco de evaluación multilingüe HPLT-E, que abarca 127 tareas en 9 idiomas europeos
  4. Entrenamiento de 57 modelos codificador-decodificador monolingües y múltiples modelos de referencia de estilo GPT
  5. Construcción de un conjunto de datos de texto paralelo a gran escala, incluyendo datos extraídos automáticamente y datos sintetizados mediante traducción automática
  6. Provisión de análisis exhaustivo de calidad de datos, incluyendo análisis estadístico e inspección manual

Explicación Detallada de Métodos

Recopilación de Datos y Canalización de Procesamiento

Fuentes de Datos Originales

  • Internet Archive (IA): 3.3 PB de datos de rastreadores de 2012-2020
  • Common Crawl (CC): 57 instantáneas completas (2014-2025), aproximadamente 7.2 PB en total

Pasos de Procesamiento Principal

  1. Extracción de Texto
    • Utilización del marco Trafilatura para extracción de texto HTML
    • Optimización de configuración de hiperparámetros, priorizando la calidad de extracción sobre la velocidad
  2. Identificación de Idioma
    • Adopción del modelo OpenLID-v2 para predicción de idioma
    • Soporte para etiquetas de idioma en el conjunto de evaluación Flores+
    • Mejora del proceso de preprocesamiento: normalización de espacios, conversión a minúsculas, eliminación de caracteres no léxicos
  3. Procesamiento de Deduplicación
    • Implementación de deduplicación global aproximada basada en MinHash para todos los idiomas excepto inglés, ruso y chino
    • Deduplicación por rastreador para idiomas grandes para mejorar la eficiencia computacional
  4. Evaluación de Calidad y Anotación
    • Web Docs Scorer (WDS): Integración de métodos heurísticos de filtrado de documentos
    • Etiquetas de Registro: Utilización del clasificador de registro web de Turku para agregar etiquetas de estilo a 104 idiomas
    • Niveles WDS: Clasificación de documentos en seis niveles de calidad {5,6,7,8,9,10}

Empaquetamiento y Distribución de Datos

  • Agrupación y ordenamiento global de documentos de cada idioma según el nivel WDS
  • Utilización del formato JSONlines comprimido con Zstandard
  • Aproximadamente 50 TB de datos distribuidos en 3000 archivos

Configuración Experimental

Marco de Evaluación HPLT-E

Selección de Idiomas

Selección de 9 idiomas europeos: inglés, español, francés, alemán, italiano, checo, finlandés, noruego, ucraniano, entre otros

Configuración de Entrenamiento de Modelos

  • Arquitectura: Modelo decodificador de arquitectura Llama
  • Escala: 2.15B parámetros, 24 capas, 32 cabezas de atención
  • Datos de Entrenamiento: 100B tokens por idioma
  • Longitud de Secuencia: 2048
  • Plataforma de Entrenamiento: Supercomputadora LUMI, 16 nodos con GPU AMD MI250x

Tareas de Evaluación

Incluye 127 tareas de comprensión y generación de lenguaje, abarcando:

  • Implicación textual
  • Razonamiento de sentido común
  • Conocimiento específico del idioma y mundial
  • Paráfrasis
  • Comprensión de lectura
  • Análisis de sentimientos
  • Detección de toxicidad
  • Evaluación de veracidad

Modelos Codificador-Decodificador

Configuración del Modelo

  • Arquitectura: T5-base (aproximadamente 275M parámetros)
  • Cobertura Lingüística: 57 idiomas
  • Familias Lingüísticas: Abarcando 14 familias lingüísticas

Tareas de Evaluación

  1. Reconocimiento de Entidades Nombradas: Prueba de referencia WikiAnn
  2. Capacidad Lingüística: Prueba de referencia MultiBLiMP

Resultados Experimentales

Análisis Comparativo de Conjuntos de Datos

Conjunto de DatosDocumentos en InglésTokens en InglésDocumentos MultilingüesTokens MultilingüesTokens Totales
HPLT 3.018B16T11B13T29T
FineWeb24B17T5.0B4.9T22T
HPLT 2.04.4B3.9T6.1B7.2T11T
MADLAD-4001.5B1.7T2.1B2.7T4.4T

Resultados de Evaluación de LLM Multilingüe

Comparación de Rendimiento de Conjuntos de Datos

Según el marco de evaluación HPLT-E, el orden de rendimiento del modelo es:

  1. MADLAD-400: Puntuación multilingüe más alta
  2. HPLT 3.0: Segunda posición, significativamente superior a la versión anterior
  3. HPLT 2.0 y FineWeb: Rendimiento comparable

Experimentos de Nivel de Calidad WDS

  • Datos de baja calidad (nivel WDS inferior): Reduce notablemente el rendimiento del modelo
  • Datos de alta calidad (nivel WDS superior): Rendimiento comparable al muestreo aleatorio, posiblemente debido a falta de diversidad
  • Muestreo aleatorio: Mejor rendimiento en español y francés

Resultados de Modelos Codificador-Decodificador

Reconocimiento de Entidades Nombradas (Puntuación F1 de WikiAnn)

IdiomaHPLT T5mT5-baseBERT HPLT
Catalán92.787.494.5
Checo91.685.291.8
Inglés82.177.682.7
Vasco92.082.892.9
Finlandés90.31.891.6

Capacidad Lingüística (Precisión MultiBLIMP)

IdiomaHPLT T5mT5-basemT5-xxl
Catalán95.691.693.0
Checo95.988.893.4
Inglés94.290.695.3
Vasco97.494.996.0

Rendimiento Promedio: El modelo HPLT T5 alcanza el 93.5% en MultiBLIMP, significativamente superior al 86.8% de mT5-base

Análisis de Calidad de Datos

Resultados de Inspección Manual (24 idiomas)

  • Contenido Pornográfico: Inferior al 2% en la mayoría de idiomas
  • Errores de Identificación de Idioma: Generalmente bajos en general, pero el conjunto de datos de bosnio es principalmente serbio, y el asturiano contiene frecuentemente español
  • Texto No Natural: Variación considerable entre idiomas, parcialmente reflejando la subjetividad de los estándares de anotación
  • Defectos de Texto: Incluye elementos de navegación, texto truncado, etc., con proporciones que varían según el idioma

Mejoras en Características Estadísticas

  • Proporción de Párrafos Únicos: HPLT 3.0 es 73% vs HPLT 2.0 es 52%, reflejando el efecto de la deduplicación global
  • Diversidad de Dominios: Reducción de la sobrerrepresentación de páginas de Wikipedia en comparación con HPLT 2.0
  • Distribución de TLD Geográfico: Altamente correlacionado con regiones de uso de idiomas

Trabajo Relacionado

Conjuntos de Datos de Preentrenamiento a Gran Escala

  • C4: Conjunto de datos principalmente en inglés de Google y Allen AI
  • FineWeb: Datos web de alta calidad de Hugging Face
  • MADLAD-400: Conjunto de datos de 400 idiomas de Google
  • Nemotron-CC: Datos de Common Crawl refinados de Nvidia

Evaluación de Modelos Multilingües

  • Puntos de Referencia Existentes: La mayoría sesgados hacia inglés o un pequeño número de idiomas de alto recursos
  • Desafíos de Evaluación: Sensibilidad a indicaciones, consistencia entre idiomas, sesgos culturales, etc.

Técnicas de Procesamiento de Datos

  • Extracción de Texto: Desarrollo de herramientas como Trafilatura
  • Identificación de Idioma: De métodos tradicionales a modelos de aprendizaje profundo
  • Técnicas de Deduplicación: De coincidencia exacta a métodos de coincidencia aproximada

Conclusiones y Discusión

Conclusiones Principales

  1. Avance en Escala: HPLT 3.0 con 30 billones de tokens se convierte en el mayor conjunto de datos de preentrenamiento multilingüe disponible públicamente
  2. Mejora de Calidad: La canalización de procesamiento mejorada mejora significativamente la calidad de los datos, reflejada en el rendimiento del modelo
  3. Innovación en Evaluación: El marco HPLT-E proporciona un nuevo estándar para la evaluación de modelos multilingües
  4. Contribución de Modelos: 57 modelos codificador-decodificador monolingües proporcionan herramientas prácticas para la comunidad

Limitaciones

  1. Evaluación de Calidad: A pesar de la inspección manual, la evaluación de calidad de datos a gran escala sigue siendo un desafío
  2. Cobertura Lingüística: Aunque admite aproximadamente 200 idiomas, la distribución de recursos sigue siendo desigual
  3. Alcance de Evaluación: El marco HPLT-E actualmente cubre solo 9 idiomas europeos
  4. Recursos Computacionales: El entrenamiento a gran escala requiere recursos computacionales sustanciales, limitando la reproducibilidad

Direcciones Futuras

  1. Expansión de Datos: Se planea lanzar una versión extendida que incluya datos de ArchiveBot a principios de 2026
  2. Expansión de Evaluación: Extensión del marco HPLT-E a más idiomas y tareas
  3. Mejora de Calidad: Optimización continua de la canalización de procesamiento de datos y mecanismos de control de calidad
  4. Investigación de Aplicaciones: Exploración de la efectividad de datos sintéticos en idiomas de bajo recursos

Evaluación Profunda

Fortalezas

  1. Escala Sin Precedentes: La escala de 30 billones de tokens es líder entre los conjuntos de datos públicos
  2. Transparencia Abierta: Canalización completamente de código abierto y documentación técnica detallada
  3. Sistematicidad: Ecosistema completo desde recopilación de datos hasta entrenamiento de modelos
  4. Control de Calidad: Mecanismos multinivel de evaluación de calidad e inspección manual
  5. Valor Práctico: Proporciona modelos preentrenados directamente utilizables

Deficiencias

  1. Barrera Computacional: Aunque los datos están abiertos, el entrenamiento de modelos grandes aún requiere recursos computacionales sustanciales
  2. Desigualdad de Calidad: Variación considerable en la calidad y cantidad de datos entre diferentes idiomas
  3. Limitaciones de Evaluación: Las muestras de evaluación manual son relativamente pequeñas, pudiendo contener sesgos
  4. Sesgos Culturales: Los sesgos inherentes de datos web de naturaleza geográfica y cultural son difíciles de eliminar completamente

Impacto

  1. Contribución Académica: Proporciona infraestructura importante para investigación en PNL multilingüe
  2. Impacto Industrial: Reduce la barrera de entrada para desarrollo de aplicaciones de IA multilingüe
  3. Valor Social: Promueve diversidad lingüística y democratización de tecnología de IA
  4. Establecimiento de Estándares: El marco de evaluación HPLT-E puede convertirse en un estándar de la industria

Escenarios de Aplicación

  1. Preentrenamiento de LLM Multilingüe: Uso directo para preentrenamiento de modelos de lenguaje grandes
  2. Modelos de Idiomas Específicos: Desarrollo de modelos especializados para idiomas de bajo recursos
  3. Investigación Multilingüe: Apoyo a investigación en lingüística y lingüística computacional
  4. Traducción Automática: Provisión de corpus paralelos y datos monolingües
  5. Aplicaciones Educativas: Provisión de recursos para aprendizaje y enseñanza de idiomas

Puntos de Innovación Técnica

Innovación en Procesamiento de Datos

  1. Deduplicación Global: Deduplicación aproximada global entre rastreadores, mejorando la diversidad de datos
  2. Clasificación de Calidad: Sistema de puntuación WDS proporcionando control de calidad de grano fino
  3. Anotación Multidimensional: Combinación de etiquetas de registro, evaluación de calidad, detección de PII y otras anotaciones

Innovación en Métodos de Evaluación

  1. Diseño de Múltiples Indicaciones: Cada tarea admite 3-7 indicaciones escritas manualmente, reduciendo sensibilidad a indicaciones
  2. Criterios de Selección de Tareas: Selección de tareas de evaluación basada en siete criterios incluyendo monotonicidad y estabilidad
  3. Métodos de Agregación: Combinación de múltiples enfoques de agregación incluyendo puntuación promedio, clasificación y conteo de Borda

Innovación en Entrenamiento de Modelos

  1. Modelos Específicos de Idioma: Entrenamiento de modelos codificador-decodificador especializados para 57 idiomas
  2. Puntos de Control Intermedios: Provisión de puntos de control intermedios durante el proceso de entrenamiento, apoyando investigación del proceso de aprendizaje
  3. Datos Sintéticos: Generación de datos de preentrenamiento adicionales mediante traducción automática

Referencias

Este artículo cita numerosos trabajos relacionados, incluyendo principalmente:

  • Raffel et al. (2020): Modelo T5 y conjunto de datos C4
  • Penedo et al. (2024, 2025): Serie de conjuntos de datos FineWeb
  • Kudugunta et al. (2023): Conjunto de datos MADLAD-400
  • Burchell et al. (2025): Conjunto de datos HPLT 2.0
  • Múltiples artículos relacionados con pruebas de referencia de evaluación multilingüe

Resumen: El proyecto HPLT 3.0 representa un hito importante en el campo de la PNL multilingüe, logrando no solo un avance en la escala de datos, sino también estableciendo nuevos estándares en apertura, control de calidad y estándares de evaluación. Aunque aún existen algunas limitaciones, tiene una importancia significativa para promover la democratización y el desarrollo de la tecnología de IA multilingüe.