Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World
Marinas, Kucherenko, Sternfeld et al.
The performance of Large Language Models (LLMs) is determined by their training data. Despite the proliferation of open-weight LLMs, access to LLM training data has remained limited. Even for fully open LLMs, the scale of the data makes it all but inscrutable to the general scientific community, despite potentially containing critical data scraped from the internet.
In this paper, we present the full-text indexing pipeline for the Apertus LLM training data. Leveraging Elasticsearch parallel indices and the Alps infrastructure, a state-of-the-art, highly energy-efficient arm64 supercluster, we were able to index 8.6T tokens out of 15.2T used to train the Apertus LLM family, creating both a critical LLM safety tool and effectively an offline, curated, open web search engine. Our contribution is threefold. First, we demonstrate that Elasticsearch can be successfully ported onto next-generation arm64-based infrastructure. Second, we demonstrate that full-text indexing at the scale of modern LLM training datasets and the entire open web is feasible and accessible. Finally, we demonstrate that such indices can be used to ensure previously inaccessible jailbreak-agnostic LLM safety.
We hope that our findings will be useful to other teams attempting large-scale data indexing and facilitate the general transition towards greener computation.
academic
Ordenando Sus Índices: Búsqueda de Texto Completo para Datos de Entrenamiento de LLM en el Mundo Real
El desempeño de los modelos de lenguaje grandes (LLMs) depende de sus datos de entrenamiento. A pesar del creciente número de LLMs de peso abierto, el acceso a los datos de entrenamiento de LLM sigue siendo limitado. Incluso para LLMs completamente abiertos, la escala de datos hace que sea difícil para la comunidad científica general realizar análisis profundos, aunque probablemente contengan datos críticos extraídos de Internet. Este artículo presenta el pipeline de indexación de texto completo de los datos de entrenamiento del LLM Apertus. Utilizando indexación paralela de Elasticsearch e infraestructura Alps (un superclúster arm64 de última generación y alta eficiencia energética), se indexaron exitosamente 8.6T tokens de los 15.2T tokens utilizados para entrenar la familia de LLMs Apertus, creando una herramienta crítica de seguridad de LLM y un motor de búsqueda web abierto sin conexión y curado.
Falta de Transparencia en Datos de Entrenamiento: A pesar de la creciente prevalencia de LLMs de peso abierto, los datos de entrenamiento siguen siendo difíciles de obtener y analizar
Desafío de Escala de Datos: Los datos de entrenamiento de LLMs modernos tienen una escala masiva (tokens a nivel de billones), haciendo que la inspección sistemática sea prácticamente imposible
Riesgos de Seguridad: Los datos de entrenamiento pueden contener contenido dañino, como información personal, materiales con derechos de autor, lenguaje tóxico e incluso información peligrosa
Análisis por Muestreo: Las herramientas existentes se basan principalmente en muestras pequeñas (como el 1% de Common Crawl), sin garantizar cobertura completa
Restricciones de Escala: El índice de texto completo más grande anterior (Infinigram) solo soportaba 4.6T tokens y solo coincidencia exacta
Funcionalidad Limitada: Carece de capacidades de búsqueda difusa y operaciones lógicas
Migración de Arquitectura ARM64: Primera demostración exitosa del despliegue de Elasticsearch en sistemas HPC basados en ARM64 GH200
Implementación de Indexación a Gran Escala: Indexación de 8.6T tokens de conjunto de datos, 4 veces mayor que los índices anteriores basados en Elasticsearch, 2 veces el tamaño general anterior
Aplicación de Seguridad de LLM: Demostración de aplicaciones de indexación de texto completo en casos de uso de seguridad y protección de LLM, proporcionando salvaguardas sin necesidad de jailbreak
Contribución de Código Abierto: Proporciona código completamente abierto y puntos de referencia de rendimiento para apoyar investigaciones futuras
Se encontraron sustancias químicas comunes (como glicerina, ácido nítrico) con frecuencias extremadamente altas, mientras que términos especializados de síntesis de armas químicas también aparecen significativamente en idiomas no ingleses, indicando la importancia de la curación de datos multilingües.
El artículo cita 60 referencias relacionadas, cubriendo trabajos importantes en múltiples campos incluyendo entrenamiento de LLM, seguridad de datos y búsqueda de texto completo, proporcionando una base teórica sólida para la investigación.
Evaluación General: Este es un artículo técnico con importante valor práctico que resuelve exitosamente problemas clave de transparencia y análisis de seguridad de datos de entrenamiento de LLM. Aunque existen algunas limitaciones en cobertura de datos y adaptación técnica, su trabajo pionero proporciona una base técnica importante y una guía práctica para el campo.