Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World
Marinas, Kucherenko, Sternfeld et al.
The performance of Large Language Models (LLMs) is determined by their training data. Despite the proliferation of open-weight LLMs, access to LLM training data has remained limited. Even for fully open LLMs, the scale of the data makes it all but inscrutable to the general scientific community, despite potentially containing critical data scraped from the internet.
In this paper, we present the full-text indexing pipeline for the Apertus LLM training data. Leveraging Elasticsearch parallel indices and the Alps infrastructure, a state-of-the-art, highly energy-efficient arm64 supercluster, we were able to index 8.6T tokens out of 15.2T used to train the Apertus LLM family, creating both a critical LLM safety tool and effectively an offline, curated, open web search engine. Our contribution is threefold. First, we demonstrate that Elasticsearch can be successfully ported onto next-generation arm64-based infrastructure. Second, we demonstrate that full-text indexing at the scale of modern LLM training datasets and the entire open web is feasible and accessible. Finally, we demonstrate that such indices can be used to ensure previously inaccessible jailbreak-agnostic LLM safety.
We hope that our findings will be useful to other teams attempting large-scale data indexing and facilitate the general transition towards greener computation.
academic
Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World
Die Leistung großer Sprachmodelle (LLMs) hängt von ihren Trainingsdaten ab. Trotz der zunehmenden Verfügbarkeit von Open-Weight-LLMs bleibt der Zugang zu LLM-Trainingsdaten begrenzt. Selbst bei vollständig offenen LLMs macht die Datengröße eine tiefgreifende Analyse für die wissenschaftliche Gemeinschaft schwierig, obwohl sie möglicherweise kritische Daten aus dem Internet enthält. Dieses Paper präsentiert eine Volltext-Indizierungspipeline für Apertus-LLM-Trainingsdaten. Mit Elasticsearch-Parallelindizierung und der Alps-Infrastruktur (ein hochmoderner, energieeffizienter ARM64-Supercomputer) wurden erfolgreich 8,6T Tokens aus den 15,2T Tokens indexiert, die zum Trainieren der Apertus-LLM-Familie verwendet wurden. Dies schafft ein kritisches LLM-Sicherheitswerkzeug und eine offline, kuratierte Open-Web-Suchmaschine.
Fehlende Transparenz bei Trainingsdaten: Trotz zunehmender Verbreitung von Open-Weight-LLMs sind Trainingsdaten schwer zugänglich und analysierbar
Herausforderungen durch Datengröße: Moderne LLM-Trainingsdaten haben enorme Größe (Billionen Tokens), was eine systematische Überprüfung praktisch unmöglich macht
Sicherheitsrisiken: Trainingsdaten können schädliche Inhalte enthalten, wie persönliche Informationen, urheberrechtlich geschützte Materialien, toxische Sprache und sogar gefährliche Informationen
Stichprobenanalyse: Bestehende Werkzeuge basieren meist auf kleinen Stichproben (z.B. 1% von Common Crawl), was keine vollständige Abdeckung garantiert
Skalierungsgrenzen: Der bisherige größte Volltext-Index (Infinigram) unterstützte nur 4,6T Tokens und nur exakte Übereinstimmungen
Funktionale Einschränkungen: Mangel an Fuzzy-Suche und logischen Operationen
ARM64-Architektur-Migration: Erste erfolgreiche Demonstration von Elasticsearch auf ARM64-basierten GH200-HPC-Systemen
Großflächige Indizierungsimplementierung: Indizierung von 8,6T Tokens Datensätzen, 4-fach größer als bisherige Elasticsearch-basierte Indizes, 2-fach größer als die Gesamtgröße
LLM-Sicherheitsanwendungen: Demonstration von Volltext-Indizierung in LLM-Sicherheits- und Sicherheitsanwendungsfällen mit Schutz ohne Jailbreak
Open-Source-Beitrag: Bereitstellung von vollständigem Open-Source-Code und Performance-Benchmarks zur Unterstützung zukünftiger Forschung
Häufige Chemikalien (wie Glycerin, Salpetersäure) zeigen extrem hohe Häufigkeiten, während spezialisierte Chemiewaffensynthese-Begriffe auch in nicht-englischen Sprachen signifikant vorkommen, was die Bedeutung mehrsprachiger Datenkuration unterstreicht.
Das Paper zitiert 60 verwandte Arbeiten, die wichtige Arbeiten in mehreren Bereichen abdecken, einschließlich LLM-Training, Datensicherheit und Volltext-Suche, und bietet eine solide theoretische Grundlage für die Forschung.
Gesamtbewertung: Dies ist ein technisches Paper mit wichtigem praktischem Wert, das erfolgreich das Schlüsselproblem der Transparenz und Sicherheitsanalyse von LLM-Trainingsdaten löst. Obwohl es einige Einschränkungen bei der Datensatzabdeckung und technischen Anpassung gibt, bietet seine bahnbrechende Arbeit eine wichtige technische Grundlage und praktische Richtlinien für das Feld.