2025-11-22T04:49:16.383386

Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World

Marinas, Kucherenko, Sternfeld et al.
The performance of Large Language Models (LLMs) is determined by their training data. Despite the proliferation of open-weight LLMs, access to LLM training data has remained limited. Even for fully open LLMs, the scale of the data makes it all but inscrutable to the general scientific community, despite potentially containing critical data scraped from the internet. In this paper, we present the full-text indexing pipeline for the Apertus LLM training data. Leveraging Elasticsearch parallel indices and the Alps infrastructure, a state-of-the-art, highly energy-efficient arm64 supercluster, we were able to index 8.6T tokens out of 15.2T used to train the Apertus LLM family, creating both a critical LLM safety tool and effectively an offline, curated, open web search engine. Our contribution is threefold. First, we demonstrate that Elasticsearch can be successfully ported onto next-generation arm64-based infrastructure. Second, we demonstrate that full-text indexing at the scale of modern LLM training datasets and the entire open web is feasible and accessible. Finally, we demonstrate that such indices can be used to ensure previously inaccessible jailbreak-agnostic LLM safety. We hope that our findings will be useful to other teams attempting large-scale data indexing and facilitate the general transition towards greener computation.
academic

Ordenando Sus Índices: Búsqueda de Texto Completo para Datos de Entrenamiento de LLM en el Mundo Real

Información Básica

  • ID del Artículo: 2510.09471
  • Título: Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World
  • Autores: Inés Altemir Mariñas (EPFL), Anastasiia Kucherenko (HES-SO Valais-Wallis), Alexander Sternfeld (HES-SO Valais-Wallis), Andrei Kucharavy (HES-SO Valais-Wallis)
  • Clasificación: cs.CL (Lingüística Computacional)
  • Conferencia de Publicación: WWW '26 (The Web Conference 2026)
  • Enlace del Artículo: https://arxiv.org/abs/2510.09471

Resumen

El desempeño de los modelos de lenguaje grandes (LLMs) depende de sus datos de entrenamiento. A pesar del creciente número de LLMs de peso abierto, el acceso a los datos de entrenamiento de LLM sigue siendo limitado. Incluso para LLMs completamente abiertos, la escala de datos hace que sea difícil para la comunidad científica general realizar análisis profundos, aunque probablemente contengan datos críticos extraídos de Internet. Este artículo presenta el pipeline de indexación de texto completo de los datos de entrenamiento del LLM Apertus. Utilizando indexación paralela de Elasticsearch e infraestructura Alps (un superclúster arm64 de última generación y alta eficiencia energética), se indexaron exitosamente 8.6T tokens de los 15.2T tokens utilizados para entrenar la familia de LLMs Apertus, creando una herramienta crítica de seguridad de LLM y un motor de búsqueda web abierto sin conexión y curado.

Contexto de Investigación y Motivación

Problemas Centrales

  1. Falta de Transparencia en Datos de Entrenamiento: A pesar de la creciente prevalencia de LLMs de peso abierto, los datos de entrenamiento siguen siendo difíciles de obtener y analizar
  2. Desafío de Escala de Datos: Los datos de entrenamiento de LLMs modernos tienen una escala masiva (tokens a nivel de billones), haciendo que la inspección sistemática sea prácticamente imposible
  3. Riesgos de Seguridad: Los datos de entrenamiento pueden contener contenido dañino, como información personal, materiales con derechos de autor, lenguaje tóxico e incluso información peligrosa

Importancia de la Investigación

  • Seguridad de LLM: Los problemas en los datos de entrenamiento afectan directamente el comportamiento del modelo, causando salidas dañinas
  • Necesidad de Transparencia: La comunidad científica y los organismos reguladores necesitan poder revisar los datos de entrenamiento de LLM
  • Requisitos de Cumplimiento: Se requiere identificar y eliminar contenido con derechos de autor, información personal, etc.

Limitaciones de Métodos Existentes

  • Análisis por Muestreo: Las herramientas existentes se basan principalmente en muestras pequeñas (como el 1% de Common Crawl), sin garantizar cobertura completa
  • Restricciones de Escala: El índice de texto completo más grande anterior (Infinigram) solo soportaba 4.6T tokens y solo coincidencia exacta
  • Funcionalidad Limitada: Carece de capacidades de búsqueda difusa y operaciones lógicas

Contribuciones Principales

  1. Migración de Arquitectura ARM64: Primera demostración exitosa del despliegue de Elasticsearch en sistemas HPC basados en ARM64 GH200
  2. Implementación de Indexación a Gran Escala: Indexación de 8.6T tokens de conjunto de datos, 4 veces mayor que los índices anteriores basados en Elasticsearch, 2 veces el tamaño general anterior
  3. Aplicación de Seguridad de LLM: Demostración de aplicaciones de indexación de texto completo en casos de uso de seguridad y protección de LLM, proporcionando salvaguardas sin necesidad de jailbreak
  4. Contribución de Código Abierto: Proporciona código completamente abierto y puntos de referencia de rendimiento para apoyar investigaciones futuras

Explicación Detallada del Método

Definición de Tarea

Construir un sistema capaz de realizar búsqueda de texto completo en datos de entrenamiento de LLM a nivel de billones de tokens, soportando:

  • Coincidencia exacta y difusa
  • Búsqueda de contenido multilingüe
  • Operaciones lógicas y consultas complejas
  • Respuesta de búsqueda en tiempo real

Arquitectura del Sistema

1. Pipeline de Procesamiento de Datos

Archivos Parquet Brutos → Procesamiento de Flujo → Análisis de Texto → Índice de Elasticsearch

2. Componentes Principales

  • Motor Elasticsearch: Motor de búsqueda y análisis distribuido
  • Indexación Paralela: Implementación de procesamiento concurrente multihilo usando elasticsearch.helpers.parallel_bulk
  • Analizador de Texto: web_content_analyzer ejecuta limpieza HTML, tokenización estándar, minúsculas, plegado ASCII

3. Ajuste de Parámetros Clave

  • Número de Hilos: No exceder el número de núcleos de CPU, equilibrando concurrencia y presión de memoria
  • Tamaño de Bloque: Determinado por la fórmula chunk_size ≤ max_chunk_size / avg_doc_size
  • Bytes Máximos de Bloque: Controla la carga máxima de solicitudes en lote
  • Tamaño de Cola: Almacena en búfer el desequilibrio entre hilos productor y consumidor

Puntos de Innovación Técnica

1. Adaptación ARM64

  • Construcción de imagen de contenedor personalizada compatible con OCI
  • Resolución de problemas de compatibilidad con Docker, usando Podman como alternativa
  • Reimplementación de orquestación mediante definición de trabajos SLURM

2. Optimización de Entorno HPC

  • Deshabilitación de mapeo de memoria para adaptarse a limitaciones de parámetros del kernel
  • Configuración de red para eludir proxy, vinculación a 127.0.0.1
  • Modo de operación de nodo único adaptado al aislamiento de trabajos SLURM

3. Optimización de Consultas

  • match_phrase_query: Soporta tolerancia de distancia de palabras configurable (parámetro SLOP)
  • Procesamiento de texto multinivel: Limpieza HTML → Tokenización estándar → Normalización → Plegado ASCII

Configuración Experimental

Conjunto de Datos

Subconjunto de Datos de Entrenamiento Apertus (8.6T tokens, 58% del total de datos de entrenamiento):

Conjunto de DatosTokens (B)
FineWeb-Edu (Score-2)4815
FineWeb-2-HQ (33% de mayor calidad)3557
StarCoder235
Subconjunto CommonCrawl de FineMath32
Gutenberg y Poison2

Conjunto de Datos de Consultas

  1. Diccionario de Palabras Armadas: Vocabulario dañino en 137 idiomas
  2. Lista LDNOOBW: Vocabulario profano en 28 idiomas
  3. Conjunto de Datos de Armas Químicas: 17 términos de reactivos químicos peligrosos

Entorno Computacional

  • Supercomputadora Alps: Sistema HPE Cray EX, rendimiento de 434 PFlops
  • Configuración de Nodos: ARM64 basado en NVIDIA Grace Hopper GH200
  • Sistema de Almacenamiento: 100PB ClusterStor HDD + 3PB SSD + 1PB VAST

Resultados Experimentales

Rendimiento de Indexación

Conjunto de DatosTamaño de Datos (GB)Tiempo (h)Velocidad de Indexación (doc/s)Relación de Sobrecarga de ÍndiceMemoria Máxima (GB)
FineWeb-2 Edu (EN)12,737143.710,2961.34.9
FineWeb-2 Europe HQ2,660408.35891.17.5
StarCoder2294.210,9191.412.7

Hallazgos Clave:

  • La velocidad de indexación de texto en inglés es significativamente más rápida que los conjuntos de datos multilingües (10,297 vs 589 doc/s)
  • Los datos de código requieren más recursos de memoria (12.7GB vs 4.9GB)
  • Los conjuntos de datos multilingües tienen mayor sobrecarga de indexación

Rendimiento de Consultas

  • El tiempo de consulta aumenta linealmente con la longitud de la consulta
  • Consultas de una palabra: <100ms
  • Consultas de 300 palabras: ~1000ms
  • El sistema mantiene rendimiento estable en diversas longitudes de consulta

Análisis de Contenido Dañino

Estadísticas de Vocabulario Dañino Multilingüe

IdiomaPalabras Armadas (millones)LDNOOBW (millones)
Inglés1,245.8661.6
Francés16.8202.5
Alemán9.914.9
Italiano1.618.5

Términos Relacionados con Armas Químicas

Se encontraron sustancias químicas comunes (como glicerina, ácido nítrico) con frecuencias extremadamente altas, mientras que términos especializados de síntesis de armas químicas también aparecen significativamente en idiomas no ingleses, indicando la importancia de la curación de datos multilingües.

Trabajo Relacionado

Herramientas Existentes de Análisis de Datos de LLM

  1. Data Portraits: Utiliza inferencia de membresía aproximada para reducir costos computacionales
  2. Métodos de Muestreo Estadístico: Como análisis de Luccioni del 1% de Common Crawl
  3. Herramientas de Conjuntos de Datos Pequeños: Data Measurements de HuggingFace, Know Your Data de Google

Sistemas de Indexación a Gran Escala

  1. WhatIsInMyBigData: Indexación máxima de 1.4T tokens (RedPajama)
  2. Infinigram: Utiliza matrices de sufijos, soporta búsqueda exacta de 4.6T tokens
  3. Herramientas ROOTS: Búsqueda difusa y exacta de corpus multilingüe de 1.6TB

Ventajas de Este Artículo

  • Escala: 8.6T tokens, superando sistemas basados en Elasticsearch existentes 4 veces
  • Funcionalidad: Soporta búsqueda difusa y operaciones lógicas
  • Multilingüe: Cubre análisis de seguridad en múltiples idiomas

Conclusiones y Discusión

Conclusiones Principales

  1. Viabilidad Técnica: Demuestra la viabilidad del despliegue de Elasticsearch en arquitectura ARM64
  2. Alcanzabilidad de Escala: La indexación de texto completo a nivel de billones de tokens es alcanzable para equipos pequeños
  3. Aplicación de Seguridad: La indexación de texto completo puede utilizarse para análisis de seguridad profunda de datos de entrenamiento de LLM

Limitaciones

  1. Rango de Cobertura: Solo se indexó el 58% de los datos de entrenamiento de Apertus
  2. Restricciones de Arquitectura: La adaptación ARM64 aún enfrenta desafíos de compatibilidad
  3. Mapeo de Memoria: La incapacidad de usar mapeo de memoria reduce la eficiencia de E/S

Direcciones Futuras

  1. Indexación de Internet Completa: Construcción de índice de búsqueda sin conexión de la web abierta completa
  2. Enraizamiento de Hechos de LLM: Verificación de contenido generado por LLM basada en búsqueda sin conexión
  3. Cuestiones Económicas y Éticas: Mecanismos de compensación justa para creadores de contenido

Evaluación Profunda

Fortalezas

  1. Valor Práctico Alto: Resuelve el importante problema de transparencia de datos de entrenamiento de LLM
  2. Contribución Técnica Significativa: Primera implementación de indexación Elasticsearch a nivel de billones de tokens
  3. Amigable con Código Abierto: Proporciona código completo y guías de despliegue detalladas
  4. Aplicaciones de Seguridad Claras: Demuestra casos de uso específicos de seguridad de LLM
  5. Amigable con el Medio Ambiente: Utiliza arquitectura ARM64 de alta eficiencia energética, con emisiones de solo 90kg CO2eq

Deficiencias

  1. Cobertura de Datos Incompleta: No se indexaron todos los datos de entrenamiento
  2. Desafíos ARM64: El proceso de adaptación técnica es complejo, lo que puede afectar la promoción
  3. Compensación de Rendimiento: Se sacrificó parte del rendimiento de E/S para adaptarse al entorno HPC
  4. Profundidad de Análisis de Seguridad: El análisis de contenido dañino es relativamente superficial

Impacto

  1. Contribución Académica: Proporciona una nueva ruta técnica para análisis de datos de entrenamiento de LLM
  2. Valor Práctico: Aplicable directamente a auditorías de seguridad de LLM
  3. Promoción Técnica: Promueve la adopción de ARM64 en aplicaciones empresariales
  4. Apoyo Político: Proporciona herramientas técnicas para regulación de LLM

Escenarios Aplicables

  1. Equipos de Desarrollo de LLM: Control de calidad de datos de entrenamiento y auditoría de seguridad
  2. Instituciones de Investigación: Análisis y minería de datos de texto a gran escala
  3. Organismos Reguladores: Verificación de cumplimiento de LLM y evaluación de riesgos
  4. Aplicaciones Empresariales: Filtrado de contenido y gobernanza de datos

Referencias

El artículo cita 60 referencias relacionadas, cubriendo trabajos importantes en múltiples campos incluyendo entrenamiento de LLM, seguridad de datos y búsqueda de texto completo, proporcionando una base teórica sólida para la investigación.


Evaluación General: Este es un artículo técnico con importante valor práctico que resuelve exitosamente problemas clave de transparencia y análisis de seguridad de datos de entrenamiento de LLM. Aunque existen algunas limitaciones en cobertura de datos y adaptación técnica, su trabajo pionero proporciona una base técnica importante y una guía práctica para el campo.