2025-11-22T04:49:16.383386

Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World

Marinas, Kucherenko, Sternfeld et al.

The performance of Large Language Models (LLMs) is determined by their training data. Despite the proliferation of open-weight LLMs, access to LLM training data has remained limited. Even for fully open LLMs, the scale of the data makes it all but inscrutable to the general scientific community, despite potentially containing critical data scraped from the internet. In this paper, we present the full-text indexing pipeline for the Apertus LLM training data. Leveraging Elasticsearch parallel indices and the Alps infrastructure, a state-of-the-art, highly energy-efficient arm64 supercluster, we were able to index 8.6T tokens out of 15.2T used to train the Apertus LLM family, creating both a critical LLM safety tool and effectively an offline, curated, open web search engine. Our contribution is threefold. First, we demonstrate that Elasticsearch can be successfully ported onto next-generation arm64-based infrastructure. Second, we demonstrate that full-text indexing at the scale of modern LLM training datasets and the entire open web is feasible and accessible. Finally, we demonstrate that such indices can be used to ensure previously inaccessible jailbreak-agnostic LLM safety. We hope that our findings will be useful to other teams attempting large-scale data indexing and facilitate the general transition towards greener computation.

academic

Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World

Grundinformationen

Paper-ID: 2510.09471
Titel: Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World
Autoren: Inés Altemir Mariñas (EPFL), Anastasiia Kucherenko (HES-SO Valais-Wallis), Alexander Sternfeld (HES-SO Valais-Wallis), Andrei Kucharavy (HES-SO Valais-Wallis)
Klassifikation: cs.CL (Computerlinguistik)
Veröffentlichungskonferenz: WWW '26 (The Web Conference 2026)
Paper-Link: https://arxiv.org/abs/2510.09471

Zusammenfassung

Die Leistung großer Sprachmodelle (LLMs) hängt von ihren Trainingsdaten ab. Trotz der zunehmenden Verfügbarkeit von Open-Weight-LLMs bleibt der Zugang zu LLM-Trainingsdaten begrenzt. Selbst bei vollständig offenen LLMs macht die Datengröße eine tiefgreifende Analyse für die wissenschaftliche Gemeinschaft schwierig, obwohl sie möglicherweise kritische Daten aus dem Internet enthält. Dieses Paper präsentiert eine Volltext-Indizierungspipeline für Apertus-LLM-Trainingsdaten. Mit Elasticsearch-Parallelindizierung und der Alps-Infrastruktur (ein hochmoderner, energieeffizienter ARM64-Supercomputer) wurden erfolgreich 8,6T Tokens aus den 15,2T Tokens indexiert, die zum Trainieren der Apertus-LLM-Familie verwendet wurden. Dies schafft ein kritisches LLM-Sicherheitswerkzeug und eine offline, kuratierte Open-Web-Suchmaschine.

Forschungshintergrund und Motivation

Kernprobleme

Fehlende Transparenz bei Trainingsdaten: Trotz zunehmender Verbreitung von Open-Weight-LLMs sind Trainingsdaten schwer zugänglich und analysierbar
Herausforderungen durch Datengröße: Moderne LLM-Trainingsdaten haben enorme Größe (Billionen Tokens), was eine systematische Überprüfung praktisch unmöglich macht
Sicherheitsrisiken: Trainingsdaten können schädliche Inhalte enthalten, wie persönliche Informationen, urheberrechtlich geschützte Materialien, toxische Sprache und sogar gefährliche Informationen

Forschungsbedeutung

LLM-Sicherheit: Problematische Inhalte in Trainingsdaten beeinflussen direkt das Modellverhalten und führen zu schädlichen Ausgaben
Transparenzanforderungen: Wissenschaft und Regulierungsbehörden müssen LLM-Trainingsdaten überprüfen können
Compliance-Anforderungen: Notwendigkeit, urheberrechtlich geschützte Inhalte und persönliche Informationen zu identifizieren und zu entfernen

Einschränkungen bestehender Methoden

Stichprobenanalyse: Bestehende Werkzeuge basieren meist auf kleinen Stichproben (z.B. 1% von Common Crawl), was keine vollständige Abdeckung garantiert
Skalierungsgrenzen: Der bisherige größte Volltext-Index (Infinigram) unterstützte nur 4,6T Tokens und nur exakte Übereinstimmungen
Funktionale Einschränkungen: Mangel an Fuzzy-Suche und logischen Operationen

Kernbeiträge

ARM64-Architektur-Migration: Erste erfolgreiche Demonstration von Elasticsearch auf ARM64-basierten GH200-HPC-Systemen
Großflächige Indizierungsimplementierung: Indizierung von 8,6T Tokens Datensätzen, 4-fach größer als bisherige Elasticsearch-basierte Indizes, 2-fach größer als die Gesamtgröße
LLM-Sicherheitsanwendungen: Demonstration von Volltext-Indizierung in LLM-Sicherheits- und Sicherheitsanwendungsfällen mit Schutz ohne Jailbreak
Open-Source-Beitrag: Bereitstellung von vollständigem Open-Source-Code und Performance-Benchmarks zur Unterstützung zukünftiger Forschung

Methodische Details

Aufgabendefinition

Aufbau eines Systems, das Volltext-Suche in Billionen Tokens großer LLM-Trainingsdaten durchführen kann und unterstützt:

Exakte und unscharfe Übereinstimmungen
Mehrsprachige Inhaltssuche
Logische Operationen und komplexe Abfragen
Echtzeitsuche-Antworten

Systemarchitektur

1. Datenverarbeitungspipeline

Raw Parquet Files → Stream Processing → Text Analysis → Elasticsearch Index

2. Kernkomponenten

Elasticsearch-Engine: Verteilte Such- und Analysemaschine
Parallelindizierung: Implementierung von Multi-Threading-Parallelverarbeitung mit elasticsearch.helpers.parallel_bulk
Textanalysator: web_content_analyzer führt HTML-Bereinigung, Standard-Tokenisierung, Kleinschreibung und ASCII-Faltung durch

3. Wichtige Parameteroptimierung

Thread-Anzahl: Nicht mehr als CPU-Kerne, Balance zwischen Parallelität und Speicherdruck
Chunk-Größe: Bestimmt durch Formel chunk_size ≤ max_chunk_size / avg_doc_size
Maximale Chunk-Bytes: Kontrolliert maximale Payload von Bulk-Anfragen
Warteschlangengröße: Puffert Unausgeglichenheit zwischen Producer- und Consumer-Threads

Technische Innovationen

1. ARM64-Anpassung

Erstellung von OCI-kompatiblen benutzerdefinierten Container-Images
Behebung von Docker-Kompatibilitätsproblemen, Verwendung von Podman als Alternative
Neuimplementierung der Orchestrierung durch SLURM-Jobdefinitionen

2. HPC-Umgebungsoptimierung

Deaktivierung von Memory-Mapping zur Anpassung an Kernel-Parameterbeschränkungen
Konfiguration von Netzwerk-Bypass für Proxys, Bindung an 127.0.0.1
Single-Node-Betriebsmodus angepasst an SLURM-Job-Isolation

3. Abfrageoptimierung

match_phrase_query: Unterstützung für konfigurierbare Wort-Distanz-Toleranz (SLOP-Parameter)
Mehrstufige Textverarbeitung: HTML-Bereinigung → Standard-Tokenisierung → Normalisierung → ASCII-Faltung

Experimentelle Einrichtung

Datensatz

Apertus-Trainingsdaten-Teilmenge (8,6T Tokens, 58% der Gesamttrainingsdaten):

Datensatz	Tokens (B)
FineWeb-Edu (Score-2)	4815
FineWeb-2-HQ (33% höchste Qualität)	3557
StarCoder	235
FineMath CommonCrawl-Teilmenge	32
Gutenberg und Poison	2

Abfragedatensatz

Weaponized Words Wörterbuch: Schädliche Wörter in 137 Sprachen
LDNOOBW-Liste: Fluchwörter in 28 Sprachen
Chemische Waffen Datensatz: 17 Begriffe gefährlicher chemischer Reagenzien

Rechenumgebung

Alps-Supercomputer: HPE Cray EX System mit 434 PFlops Leistung
Knotenkonfiguration: ARM64-basierte NVIDIA Grace Hopper GH200
Speichersystem: 100PB ClusterStor HDD + 3PB SSD + 1PB VAST

Experimentelle Ergebnisse

Indizierungsleistung

Datensatz	Datengröße (GB)	Zeit (h)	Indizierungsrate (doc/s)	Indizierungs-Overhead-Verhältnis	Spitzenspeicher (GB)
FineWeb-2 Edu (EN)	12,737	143,7	10,296	1,3	4,9
FineWeb-2 Europe HQ	2,660	408,3	589	1,1	7,5
StarCoder	229	4,2	10,919	1,4	12,7

Wichtigste Erkenntnisse:

Englische Textindizierungsgeschwindigkeit deutlich schneller als mehrsprachige Datensätze (10.297 vs. 589 doc/s)
Code-Daten erfordern mehr Speicherressourcen (12,7GB vs. 4,9GB)
Mehrsprachige Datensätze haben höhere Indizierungs-Overhead

Abfrageleistung

Abfragezeit wächst linear mit Abfragelänge
Einzelwort-Abfrage: <100ms
300-Wort-Abfrage: ~1000ms
System behält stabile Leistung bei verschiedenen Abfragelängen

Analyse schädlicher Inhalte

Mehrsprachige Statistik schädlicher Wörter

Sprache	Weaponized Words (Millionen)	LDNOOBW (Millionen)
Englisch	1.245,8	661,6
Französisch	16,8	202,5
Deutsch	9,9	14,9
Italienisch	1,6	18,5

Chemische Waffen-bezogene Begriffe

Häufige Chemikalien (wie Glycerin, Salpetersäure) zeigen extrem hohe Häufigkeiten, während spezialisierte Chemiewaffensynthese-Begriffe auch in nicht-englischen Sprachen signifikant vorkommen, was die Bedeutung mehrsprachiger Datenkuration unterstreicht.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Technische Machbarkeit: Beweis der Machbarkeit der Elasticsearch-Bereitstellung auf ARM64-Architektur
Skalierbarkeit: Volltext-Indizierung auf Billionen-Token-Ebene ist für kleine Teams erreichbar
Sicherheitsanwendungen: Volltext-Indizierung kann für tiefe Sicherheitsanalyse von LLM-Trainingsdaten verwendet werden

Einschränkungen

Abdeckungsbereich: Nur 58% der Apertus-Trainingsdaten indexiert
Architektur-Einschränkungen: ARM64-Anpassung sieht sich noch Kompatibilitätsproblemen gegenüber
Memory-Mapping: Unfähigkeit, Memory-Mapping zu verwenden führt zu reduzierter I/O-Effizienz

Zukünftige Richtungen

Vollständige Internet-Indizierung: Aufbau eines Offline-Suchindex des gesamten offenen Webs
LLM-Fakten-Verankerung: Verifikation von LLM-generierten Inhalten basierend auf Offline-Suche
Wirtschaftliche und ethische Fragen: Faire Kompensationsmechanismen für Content-Ersteller

Tiefgreifende Bewertung

Stärken

Hoher praktischer Wert: Löst wichtiges Problem der LLM-Trainingsdaten-Transparenz
Signifikante technische Beiträge: Erste Implementierung von Elasticsearch-Indizierung auf Billionen-Token-Ebene
Open-Source-freundlich: Bereitstellung von vollständigem Code und detaillierten Bereitstellungsrichtlinien
Klare Sicherheitsanwendungen: Demonstration konkreter LLM-Sicherheitsanwendungsfälle
Umweltfreundlich: Verwendung energieeffizienter ARM64-Architektur mit nur 90kg CO2eq Emissionen

Mängel

Unvollständige Datensatzabdeckung: Nicht alle Trainingsdaten indexiert
ARM64-Herausforderungen: Komplexer technischer Anpassungsprozess könnte Verbreitung beeinträchtigen
Performance-Kompromisse: Opferung einiger I/O-Leistung zur Anpassung an HPC-Umgebung
Oberflächliche Sicherheitsanalyse: Analyse schädlicher Inhalte relativ oberflächlich

Auswirkungen

Akademischer Beitrag: Bietet neuen technischen Weg für LLM-Trainingsdaten-Analyse
Praktischer Wert: Direkt anwendbar auf LLM-Sicherheitsaudits
Technologische Förderung: Fördert ARM64-Adoption in Unternehmensanwendungen
Politische Unterstützung: Bietet technische Werkzeuge für LLM-Regulierung

Anwendungsszenarien

LLM-Entwicklungsteams: Trainingsdaten-Qualitätskontrolle und Sicherheitsaudits
Forschungsinstitutionen: Großflächige Textdaten-Analyse und -Abbau
Regulierungsbehörden: LLM-Compliance-Überprüfung und Risikobewertung
Unternehmensanwendungen: Content-Filterung und Daten-Governance

Literaturverzeichnis

Das Paper zitiert 60 verwandte Arbeiten, die wichtige Arbeiten in mehreren Bereichen abdecken, einschließlich LLM-Training, Datensicherheit und Volltext-Suche, und bietet eine solide theoretische Grundlage für die Forschung.

Gesamtbewertung: Dies ist ein technisches Paper mit wichtigem praktischem Wert, das erfolgreich das Schlüsselproblem der Transparenz und Sicherheitsanalyse von LLM-Trainingsdaten löst. Obwohl es einige Einschränkungen bei der Datensatzabdeckung und technischen Anpassung gibt, bietet seine bahnbrechende Arbeit eine wichtige technische Grundlage und praktische Richtlinien für das Feld.