2025-11-22T04:49:16.383386

Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World

Marinas, Kucherenko, Sternfeld et al.
The performance of Large Language Models (LLMs) is determined by their training data. Despite the proliferation of open-weight LLMs, access to LLM training data has remained limited. Even for fully open LLMs, the scale of the data makes it all but inscrutable to the general scientific community, despite potentially containing critical data scraped from the internet. In this paper, we present the full-text indexing pipeline for the Apertus LLM training data. Leveraging Elasticsearch parallel indices and the Alps infrastructure, a state-of-the-art, highly energy-efficient arm64 supercluster, we were able to index 8.6T tokens out of 15.2T used to train the Apertus LLM family, creating both a critical LLM safety tool and effectively an offline, curated, open web search engine. Our contribution is threefold. First, we demonstrate that Elasticsearch can be successfully ported onto next-generation arm64-based infrastructure. Second, we demonstrate that full-text indexing at the scale of modern LLM training datasets and the entire open web is feasible and accessible. Finally, we demonstrate that such indices can be used to ensure previously inaccessible jailbreak-agnostic LLM safety. We hope that our findings will be useful to other teams attempting large-scale data indexing and facilitate the general transition towards greener computation.
academic

Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World

Grundinformationen

  • Paper-ID: 2510.09471
  • Titel: Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World
  • Autoren: Inés Altemir Mariñas (EPFL), Anastasiia Kucherenko (HES-SO Valais-Wallis), Alexander Sternfeld (HES-SO Valais-Wallis), Andrei Kucharavy (HES-SO Valais-Wallis)
  • Klassifikation: cs.CL (Computerlinguistik)
  • Veröffentlichungskonferenz: WWW '26 (The Web Conference 2026)
  • Paper-Link: https://arxiv.org/abs/2510.09471

Zusammenfassung

Die Leistung großer Sprachmodelle (LLMs) hängt von ihren Trainingsdaten ab. Trotz der zunehmenden Verfügbarkeit von Open-Weight-LLMs bleibt der Zugang zu LLM-Trainingsdaten begrenzt. Selbst bei vollständig offenen LLMs macht die Datengröße eine tiefgreifende Analyse für die wissenschaftliche Gemeinschaft schwierig, obwohl sie möglicherweise kritische Daten aus dem Internet enthält. Dieses Paper präsentiert eine Volltext-Indizierungspipeline für Apertus-LLM-Trainingsdaten. Mit Elasticsearch-Parallelindizierung und der Alps-Infrastruktur (ein hochmoderner, energieeffizienter ARM64-Supercomputer) wurden erfolgreich 8,6T Tokens aus den 15,2T Tokens indexiert, die zum Trainieren der Apertus-LLM-Familie verwendet wurden. Dies schafft ein kritisches LLM-Sicherheitswerkzeug und eine offline, kuratierte Open-Web-Suchmaschine.

Forschungshintergrund und Motivation

Kernprobleme

  1. Fehlende Transparenz bei Trainingsdaten: Trotz zunehmender Verbreitung von Open-Weight-LLMs sind Trainingsdaten schwer zugänglich und analysierbar
  2. Herausforderungen durch Datengröße: Moderne LLM-Trainingsdaten haben enorme Größe (Billionen Tokens), was eine systematische Überprüfung praktisch unmöglich macht
  3. Sicherheitsrisiken: Trainingsdaten können schädliche Inhalte enthalten, wie persönliche Informationen, urheberrechtlich geschützte Materialien, toxische Sprache und sogar gefährliche Informationen

Forschungsbedeutung

  • LLM-Sicherheit: Problematische Inhalte in Trainingsdaten beeinflussen direkt das Modellverhalten und führen zu schädlichen Ausgaben
  • Transparenzanforderungen: Wissenschaft und Regulierungsbehörden müssen LLM-Trainingsdaten überprüfen können
  • Compliance-Anforderungen: Notwendigkeit, urheberrechtlich geschützte Inhalte und persönliche Informationen zu identifizieren und zu entfernen

Einschränkungen bestehender Methoden

  • Stichprobenanalyse: Bestehende Werkzeuge basieren meist auf kleinen Stichproben (z.B. 1% von Common Crawl), was keine vollständige Abdeckung garantiert
  • Skalierungsgrenzen: Der bisherige größte Volltext-Index (Infinigram) unterstützte nur 4,6T Tokens und nur exakte Übereinstimmungen
  • Funktionale Einschränkungen: Mangel an Fuzzy-Suche und logischen Operationen

Kernbeiträge

  1. ARM64-Architektur-Migration: Erste erfolgreiche Demonstration von Elasticsearch auf ARM64-basierten GH200-HPC-Systemen
  2. Großflächige Indizierungsimplementierung: Indizierung von 8,6T Tokens Datensätzen, 4-fach größer als bisherige Elasticsearch-basierte Indizes, 2-fach größer als die Gesamtgröße
  3. LLM-Sicherheitsanwendungen: Demonstration von Volltext-Indizierung in LLM-Sicherheits- und Sicherheitsanwendungsfällen mit Schutz ohne Jailbreak
  4. Open-Source-Beitrag: Bereitstellung von vollständigem Open-Source-Code und Performance-Benchmarks zur Unterstützung zukünftiger Forschung

Methodische Details

Aufgabendefinition

Aufbau eines Systems, das Volltext-Suche in Billionen Tokens großer LLM-Trainingsdaten durchführen kann und unterstützt:

  • Exakte und unscharfe Übereinstimmungen
  • Mehrsprachige Inhaltssuche
  • Logische Operationen und komplexe Abfragen
  • Echtzeitsuche-Antworten

Systemarchitektur

1. Datenverarbeitungspipeline

Raw Parquet Files → Stream Processing → Text Analysis → Elasticsearch Index

2. Kernkomponenten

  • Elasticsearch-Engine: Verteilte Such- und Analysemaschine
  • Parallelindizierung: Implementierung von Multi-Threading-Parallelverarbeitung mit elasticsearch.helpers.parallel_bulk
  • Textanalysator: web_content_analyzer führt HTML-Bereinigung, Standard-Tokenisierung, Kleinschreibung und ASCII-Faltung durch

3. Wichtige Parameteroptimierung

  • Thread-Anzahl: Nicht mehr als CPU-Kerne, Balance zwischen Parallelität und Speicherdruck
  • Chunk-Größe: Bestimmt durch Formel chunk_size ≤ max_chunk_size / avg_doc_size
  • Maximale Chunk-Bytes: Kontrolliert maximale Payload von Bulk-Anfragen
  • Warteschlangengröße: Puffert Unausgeglichenheit zwischen Producer- und Consumer-Threads

Technische Innovationen

1. ARM64-Anpassung

  • Erstellung von OCI-kompatiblen benutzerdefinierten Container-Images
  • Behebung von Docker-Kompatibilitätsproblemen, Verwendung von Podman als Alternative
  • Neuimplementierung der Orchestrierung durch SLURM-Jobdefinitionen

2. HPC-Umgebungsoptimierung

  • Deaktivierung von Memory-Mapping zur Anpassung an Kernel-Parameterbeschränkungen
  • Konfiguration von Netzwerk-Bypass für Proxys, Bindung an 127.0.0.1
  • Single-Node-Betriebsmodus angepasst an SLURM-Job-Isolation

3. Abfrageoptimierung

  • match_phrase_query: Unterstützung für konfigurierbare Wort-Distanz-Toleranz (SLOP-Parameter)
  • Mehrstufige Textverarbeitung: HTML-Bereinigung → Standard-Tokenisierung → Normalisierung → ASCII-Faltung

Experimentelle Einrichtung

Datensatz

Apertus-Trainingsdaten-Teilmenge (8,6T Tokens, 58% der Gesamttrainingsdaten):

DatensatzTokens (B)
FineWeb-Edu (Score-2)4815
FineWeb-2-HQ (33% höchste Qualität)3557
StarCoder235
FineMath CommonCrawl-Teilmenge32
Gutenberg und Poison2

Abfragedatensatz

  1. Weaponized Words Wörterbuch: Schädliche Wörter in 137 Sprachen
  2. LDNOOBW-Liste: Fluchwörter in 28 Sprachen
  3. Chemische Waffen Datensatz: 17 Begriffe gefährlicher chemischer Reagenzien

Rechenumgebung

  • Alps-Supercomputer: HPE Cray EX System mit 434 PFlops Leistung
  • Knotenkonfiguration: ARM64-basierte NVIDIA Grace Hopper GH200
  • Speichersystem: 100PB ClusterStor HDD + 3PB SSD + 1PB VAST

Experimentelle Ergebnisse

Indizierungsleistung

DatensatzDatengröße (GB)Zeit (h)Indizierungsrate (doc/s)Indizierungs-Overhead-VerhältnisSpitzenspeicher (GB)
FineWeb-2 Edu (EN)12,737143,710,2961,34,9
FineWeb-2 Europe HQ2,660408,35891,17,5
StarCoder2294,210,9191,412,7

Wichtigste Erkenntnisse:

  • Englische Textindizierungsgeschwindigkeit deutlich schneller als mehrsprachige Datensätze (10.297 vs. 589 doc/s)
  • Code-Daten erfordern mehr Speicherressourcen (12,7GB vs. 4,9GB)
  • Mehrsprachige Datensätze haben höhere Indizierungs-Overhead

Abfrageleistung

  • Abfragezeit wächst linear mit Abfragelänge
  • Einzelwort-Abfrage: <100ms
  • 300-Wort-Abfrage: ~1000ms
  • System behält stabile Leistung bei verschiedenen Abfragelängen

Analyse schädlicher Inhalte

Mehrsprachige Statistik schädlicher Wörter

SpracheWeaponized Words (Millionen)LDNOOBW (Millionen)
Englisch1.245,8661,6
Französisch16,8202,5
Deutsch9,914,9
Italienisch1,618,5

Chemische Waffen-bezogene Begriffe

Häufige Chemikalien (wie Glycerin, Salpetersäure) zeigen extrem hohe Häufigkeiten, während spezialisierte Chemiewaffensynthese-Begriffe auch in nicht-englischen Sprachen signifikant vorkommen, was die Bedeutung mehrsprachiger Datenkuration unterstreicht.

Verwandte Arbeiten

Bestehende LLM-Datenanalyse-Werkzeuge

  1. Data Portraits: Verwendung von ungefähren Membership-Inferenzen zur Reduzierung von Rechenkosten
  2. Statistische Stichprobenmethoden: Wie Luccioni et al. Analyse von 1% von Common Crawl
  3. Werkzeuge für kleine Datensätze: HuggingFace Data Measurements, Googles Know Your Data

Großflächige Indizierungssysteme

  1. WhatIsInMyBigData: Maximaler Index von 1,4T Tokens (RedPajama)
  2. Infinigram: Verwendung von Suffix-Arrays, unterstützt 4,6T Tokens exakte Suche
  3. ROOTS-Werkzeuge: Fuzzy- und exakte Suche für 1,6TB mehrsprachiges Korpus

Vorteile dieses Papers

  • Skalierung: 8,6T Tokens, übertrifft bestehende Elasticsearch-basierte Systeme um das 4-fache
  • Funktionalität: Unterstützt Fuzzy-Suche und logische Operationen
  • Mehrsprachigkeit: Abdeckung mehrsprachiger Sicherheitsanalysen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Technische Machbarkeit: Beweis der Machbarkeit der Elasticsearch-Bereitstellung auf ARM64-Architektur
  2. Skalierbarkeit: Volltext-Indizierung auf Billionen-Token-Ebene ist für kleine Teams erreichbar
  3. Sicherheitsanwendungen: Volltext-Indizierung kann für tiefe Sicherheitsanalyse von LLM-Trainingsdaten verwendet werden

Einschränkungen

  1. Abdeckungsbereich: Nur 58% der Apertus-Trainingsdaten indexiert
  2. Architektur-Einschränkungen: ARM64-Anpassung sieht sich noch Kompatibilitätsproblemen gegenüber
  3. Memory-Mapping: Unfähigkeit, Memory-Mapping zu verwenden führt zu reduzierter I/O-Effizienz

Zukünftige Richtungen

  1. Vollständige Internet-Indizierung: Aufbau eines Offline-Suchindex des gesamten offenen Webs
  2. LLM-Fakten-Verankerung: Verifikation von LLM-generierten Inhalten basierend auf Offline-Suche
  3. Wirtschaftliche und ethische Fragen: Faire Kompensationsmechanismen für Content-Ersteller

Tiefgreifende Bewertung

Stärken

  1. Hoher praktischer Wert: Löst wichtiges Problem der LLM-Trainingsdaten-Transparenz
  2. Signifikante technische Beiträge: Erste Implementierung von Elasticsearch-Indizierung auf Billionen-Token-Ebene
  3. Open-Source-freundlich: Bereitstellung von vollständigem Code und detaillierten Bereitstellungsrichtlinien
  4. Klare Sicherheitsanwendungen: Demonstration konkreter LLM-Sicherheitsanwendungsfälle
  5. Umweltfreundlich: Verwendung energieeffizienter ARM64-Architektur mit nur 90kg CO2eq Emissionen

Mängel

  1. Unvollständige Datensatzabdeckung: Nicht alle Trainingsdaten indexiert
  2. ARM64-Herausforderungen: Komplexer technischer Anpassungsprozess könnte Verbreitung beeinträchtigen
  3. Performance-Kompromisse: Opferung einiger I/O-Leistung zur Anpassung an HPC-Umgebung
  4. Oberflächliche Sicherheitsanalyse: Analyse schädlicher Inhalte relativ oberflächlich

Auswirkungen

  1. Akademischer Beitrag: Bietet neuen technischen Weg für LLM-Trainingsdaten-Analyse
  2. Praktischer Wert: Direkt anwendbar auf LLM-Sicherheitsaudits
  3. Technologische Förderung: Fördert ARM64-Adoption in Unternehmensanwendungen
  4. Politische Unterstützung: Bietet technische Werkzeuge für LLM-Regulierung

Anwendungsszenarien

  1. LLM-Entwicklungsteams: Trainingsdaten-Qualitätskontrolle und Sicherheitsaudits
  2. Forschungsinstitutionen: Großflächige Textdaten-Analyse und -Abbau
  3. Regulierungsbehörden: LLM-Compliance-Überprüfung und Risikobewertung
  4. Unternehmensanwendungen: Content-Filterung und Daten-Governance

Literaturverzeichnis

Das Paper zitiert 60 verwandte Arbeiten, die wichtige Arbeiten in mehreren Bereichen abdecken, einschließlich LLM-Training, Datensicherheit und Volltext-Suche, und bietet eine solide theoretische Grundlage für die Forschung.


Gesamtbewertung: Dies ist ein technisches Paper mit wichtigem praktischem Wert, das erfolgreich das Schlüsselproblem der Transparenz und Sicherheitsanalyse von LLM-Trainingsdaten löst. Obwohl es einige Einschränkungen bei der Datensatzabdeckung und technischen Anpassung gibt, bietet seine bahnbrechende Arbeit eine wichtige technische Grundlage und praktische Richtlinien für das Feld.