2025-11-22T04:49:16.383386

Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World

Marinas, Kucherenko, Sternfeld et al.

The performance of Large Language Models (LLMs) is determined by their training data. Despite the proliferation of open-weight LLMs, access to LLM training data has remained limited. Even for fully open LLMs, the scale of the data makes it all but inscrutable to the general scientific community, despite potentially containing critical data scraped from the internet. In this paper, we present the full-text indexing pipeline for the Apertus LLM training data. Leveraging Elasticsearch parallel indices and the Alps infrastructure, a state-of-the-art, highly energy-efficient arm64 supercluster, we were able to index 8.6T tokens out of 15.2T used to train the Apertus LLM family, creating both a critical LLM safety tool and effectively an offline, curated, open web search engine. Our contribution is threefold. First, we demonstrate that Elasticsearch can be successfully ported onto next-generation arm64-based infrastructure. Second, we demonstrate that full-text indexing at the scale of modern LLM training datasets and the entire open web is feasible and accessible. Finally, we demonstrate that such indices can be used to ensure previously inaccessible jailbreak-agnostic LLM safety. We hope that our findings will be useful to other teams attempting large-scale data indexing and facilitate the general transition towards greener computation.

academic

Ordenando Sus Índices: Búsqueda de Texto Completo para Datos de Entrenamiento de LLM en el Mundo Real

Información Básica

ID del Artículo: 2510.09471
Título: Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World
Autores: Inés Altemir Mariñas (EPFL), Anastasiia Kucherenko (HES-SO Valais-Wallis), Alexander Sternfeld (HES-SO Valais-Wallis), Andrei Kucharavy (HES-SO Valais-Wallis)
Clasificación: cs.CL (Lingüística Computacional)
Conferencia de Publicación: WWW '26 (The Web Conference 2026)
Enlace del Artículo: https://arxiv.org/abs/2510.09471

Resumen

El desempeño de los modelos de lenguaje grandes (LLMs) depende de sus datos de entrenamiento. A pesar del creciente número de LLMs de peso abierto, el acceso a los datos de entrenamiento de LLM sigue siendo limitado. Incluso para LLMs completamente abiertos, la escala de datos hace que sea difícil para la comunidad científica general realizar análisis profundos, aunque probablemente contengan datos críticos extraídos de Internet. Este artículo presenta el pipeline de indexación de texto completo de los datos de entrenamiento del LLM Apertus. Utilizando indexación paralela de Elasticsearch e infraestructura Alps (un superclúster arm64 de última generación y alta eficiencia energética), se indexaron exitosamente 8.6T tokens de los 15.2T tokens utilizados para entrenar la familia de LLMs Apertus, creando una herramienta crítica de seguridad de LLM y un motor de búsqueda web abierto sin conexión y curado.

Contexto de Investigación y Motivación

Problemas Centrales

Falta de Transparencia en Datos de Entrenamiento: A pesar de la creciente prevalencia de LLMs de peso abierto, los datos de entrenamiento siguen siendo difíciles de obtener y analizar
Desafío de Escala de Datos: Los datos de entrenamiento de LLMs modernos tienen una escala masiva (tokens a nivel de billones), haciendo que la inspección sistemática sea prácticamente imposible
Riesgos de Seguridad: Los datos de entrenamiento pueden contener contenido dañino, como información personal, materiales con derechos de autor, lenguaje tóxico e incluso información peligrosa

Importancia de la Investigación

Seguridad de LLM: Los problemas en los datos de entrenamiento afectan directamente el comportamiento del modelo, causando salidas dañinas
Necesidad de Transparencia: La comunidad científica y los organismos reguladores necesitan poder revisar los datos de entrenamiento de LLM
Requisitos de Cumplimiento: Se requiere identificar y eliminar contenido con derechos de autor, información personal, etc.

Limitaciones de Métodos Existentes

Análisis por Muestreo: Las herramientas existentes se basan principalmente en muestras pequeñas (como el 1% de Common Crawl), sin garantizar cobertura completa
Restricciones de Escala: El índice de texto completo más grande anterior (Infinigram) solo soportaba 4.6T tokens y solo coincidencia exacta
Funcionalidad Limitada: Carece de capacidades de búsqueda difusa y operaciones lógicas

Contribuciones Principales

Migración de Arquitectura ARM64: Primera demostración exitosa del despliegue de Elasticsearch en sistemas HPC basados en ARM64 GH200
Implementación de Indexación a Gran Escala: Indexación de 8.6T tokens de conjunto de datos, 4 veces mayor que los índices anteriores basados en Elasticsearch, 2 veces el tamaño general anterior
Aplicación de Seguridad de LLM: Demostración de aplicaciones de indexación de texto completo en casos de uso de seguridad y protección de LLM, proporcionando salvaguardas sin necesidad de jailbreak
Contribución de Código Abierto: Proporciona código completamente abierto y puntos de referencia de rendimiento para apoyar investigaciones futuras

Explicación Detallada del Método

Definición de Tarea

Construir un sistema capaz de realizar búsqueda de texto completo en datos de entrenamiento de LLM a nivel de billones de tokens, soportando:

Coincidencia exacta y difusa
Búsqueda de contenido multilingüe
Operaciones lógicas y consultas complejas
Respuesta de búsqueda en tiempo real

Arquitectura del Sistema

1. Pipeline de Procesamiento de Datos

Archivos Parquet Brutos → Procesamiento de Flujo → Análisis de Texto → Índice de Elasticsearch

2. Componentes Principales

Motor Elasticsearch: Motor de búsqueda y análisis distribuido
Indexación Paralela: Implementación de procesamiento concurrente multihilo usando elasticsearch.helpers.parallel_bulk
Analizador de Texto: web_content_analyzer ejecuta limpieza HTML, tokenización estándar, minúsculas, plegado ASCII

3. Ajuste de Parámetros Clave

Número de Hilos: No exceder el número de núcleos de CPU, equilibrando concurrencia y presión de memoria
Tamaño de Bloque: Determinado por la fórmula chunk_size ≤ max_chunk_size / avg_doc_size
Bytes Máximos de Bloque: Controla la carga máxima de solicitudes en lote
Tamaño de Cola: Almacena en búfer el desequilibrio entre hilos productor y consumidor

Puntos de Innovación Técnica

1. Adaptación ARM64

Construcción de imagen de contenedor personalizada compatible con OCI
Resolución de problemas de compatibilidad con Docker, usando Podman como alternativa
Reimplementación de orquestación mediante definición de trabajos SLURM

2. Optimización de Entorno HPC

Deshabilitación de mapeo de memoria para adaptarse a limitaciones de parámetros del kernel
Configuración de red para eludir proxy, vinculación a 127.0.0.1
Modo de operación de nodo único adaptado al aislamiento de trabajos SLURM

3. Optimización de Consultas

match_phrase_query: Soporta tolerancia de distancia de palabras configurable (parámetro SLOP)
Procesamiento de texto multinivel: Limpieza HTML → Tokenización estándar → Normalización → Plegado ASCII

Configuración Experimental

Conjunto de Datos

Subconjunto de Datos de Entrenamiento Apertus (8.6T tokens, 58% del total de datos de entrenamiento):

Conjunto de Datos	Tokens (B)
FineWeb-Edu (Score-2)	4815
FineWeb-2-HQ (33% de mayor calidad)	3557
StarCoder	235
Subconjunto CommonCrawl de FineMath	32
Gutenberg y Poison	2

Conjunto de Datos de Consultas

Diccionario de Palabras Armadas: Vocabulario dañino en 137 idiomas
Lista LDNOOBW: Vocabulario profano en 28 idiomas
Conjunto de Datos de Armas Químicas: 17 términos de reactivos químicos peligrosos

Entorno Computacional

Supercomputadora Alps: Sistema HPE Cray EX, rendimiento de 434 PFlops
Configuración de Nodos: ARM64 basado en NVIDIA Grace Hopper GH200
Sistema de Almacenamiento: 100PB ClusterStor HDD + 3PB SSD + 1PB VAST

Resultados Experimentales

Rendimiento de Indexación

Conjunto de Datos	Tamaño de Datos (GB)	Tiempo (h)	Velocidad de Indexación (doc/s)	Relación de Sobrecarga de Índice	Memoria Máxima (GB)
FineWeb-2 Edu (EN)	12,737	143.7	10,296	1.3	4.9
FineWeb-2 Europe HQ	2,660	408.3	589	1.1	7.5
StarCoder	229	4.2	10,919	1.4	12.7

Hallazgos Clave:

La velocidad de indexación de texto en inglés es significativamente más rápida que los conjuntos de datos multilingües (10,297 vs 589 doc/s)
Los datos de código requieren más recursos de memoria (12.7GB vs 4.9GB)
Los conjuntos de datos multilingües tienen mayor sobrecarga de indexación

Rendimiento de Consultas

El tiempo de consulta aumenta linealmente con la longitud de la consulta
Consultas de una palabra: <100ms
Consultas de 300 palabras: ~1000ms
El sistema mantiene rendimiento estable en diversas longitudes de consulta

Análisis de Contenido Dañino

Estadísticas de Vocabulario Dañino Multilingüe

Idioma	Palabras Armadas (millones)	LDNOOBW (millones)
Inglés	1,245.8	661.6
Francés	16.8	202.5
Alemán	9.9	14.9
Italiano	1.6	18.5

Términos Relacionados con Armas Químicas

Se encontraron sustancias químicas comunes (como glicerina, ácido nítrico) con frecuencias extremadamente altas, mientras que términos especializados de síntesis de armas químicas también aparecen significativamente en idiomas no ingleses, indicando la importancia de la curación de datos multilingües.

Trabajo Relacionado

Herramientas Existentes de Análisis de Datos de LLM

Data Portraits: Utiliza inferencia de membresía aproximada para reducir costos computacionales
Métodos de Muestreo Estadístico: Como análisis de Luccioni del 1% de Common Crawl
Herramientas de Conjuntos de Datos Pequeños: Data Measurements de HuggingFace, Know Your Data de Google

Sistemas de Indexación a Gran Escala

WhatIsInMyBigData: Indexación máxima de 1.4T tokens (RedPajama)
Infinigram: Utiliza matrices de sufijos, soporta búsqueda exacta de 4.6T tokens
Herramientas ROOTS: Búsqueda difusa y exacta de corpus multilingüe de 1.6TB

Ventajas de Este Artículo

Escala: 8.6T tokens, superando sistemas basados en Elasticsearch existentes 4 veces
Funcionalidad: Soporta búsqueda difusa y operaciones lógicas
Multilingüe: Cubre análisis de seguridad en múltiples idiomas

Conclusiones y Discusión

Conclusiones Principales

Viabilidad Técnica: Demuestra la viabilidad del despliegue de Elasticsearch en arquitectura ARM64
Alcanzabilidad de Escala: La indexación de texto completo a nivel de billones de tokens es alcanzable para equipos pequeños
Aplicación de Seguridad: La indexación de texto completo puede utilizarse para análisis de seguridad profunda de datos de entrenamiento de LLM

Limitaciones

Rango de Cobertura: Solo se indexó el 58% de los datos de entrenamiento de Apertus
Restricciones de Arquitectura: La adaptación ARM64 aún enfrenta desafíos de compatibilidad
Mapeo de Memoria: La incapacidad de usar mapeo de memoria reduce la eficiencia de E/S

Direcciones Futuras

Indexación de Internet Completa: Construcción de índice de búsqueda sin conexión de la web abierta completa
Enraizamiento de Hechos de LLM: Verificación de contenido generado por LLM basada en búsqueda sin conexión
Cuestiones Económicas y Éticas: Mecanismos de compensación justa para creadores de contenido

Evaluación Profunda

Fortalezas

Valor Práctico Alto: Resuelve el importante problema de transparencia de datos de entrenamiento de LLM
Contribución Técnica Significativa: Primera implementación de indexación Elasticsearch a nivel de billones de tokens
Amigable con Código Abierto: Proporciona código completo y guías de despliegue detalladas
Aplicaciones de Seguridad Claras: Demuestra casos de uso específicos de seguridad de LLM
Amigable con el Medio Ambiente: Utiliza arquitectura ARM64 de alta eficiencia energética, con emisiones de solo 90kg CO2eq

Deficiencias

Cobertura de Datos Incompleta: No se indexaron todos los datos de entrenamiento
Desafíos ARM64: El proceso de adaptación técnica es complejo, lo que puede afectar la promoción
Compensación de Rendimiento: Se sacrificó parte del rendimiento de E/S para adaptarse al entorno HPC
Profundidad de Análisis de Seguridad: El análisis de contenido dañino es relativamente superficial

Impacto

Contribución Académica: Proporciona una nueva ruta técnica para análisis de datos de entrenamiento de LLM
Valor Práctico: Aplicable directamente a auditorías de seguridad de LLM
Promoción Técnica: Promueve la adopción de ARM64 en aplicaciones empresariales
Apoyo Político: Proporciona herramientas técnicas para regulación de LLM

Escenarios Aplicables

Equipos de Desarrollo de LLM: Control de calidad de datos de entrenamiento y auditoría de seguridad
Instituciones de Investigación: Análisis y minería de datos de texto a gran escala
Organismos Reguladores: Verificación de cumplimiento de LLM y evaluación de riesgos
Aplicaciones Empresariales: Filtrado de contenido y gobernanza de datos

Referencias

El artículo cita 60 referencias relacionadas, cubriendo trabajos importantes en múltiples campos incluyendo entrenamiento de LLM, seguridad de datos y búsqueda de texto completo, proporcionando una base teórica sólida para la investigación.

Evaluación General: Este es un artículo técnico con importante valor práctico que resuelve exitosamente problemas clave de transparencia y análisis de seguridad de datos de entrenamiento de LLM. Aunque existen algunas limitaciones en cobertura de datos y adaptación técnica, su trabajo pionero proporciona una base técnica importante y una guía práctica para el campo.