2025-11-22T04:49:16.383386

Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World

Marinas, Kucherenko, Sternfeld et al.
The performance of Large Language Models (LLMs) is determined by their training data. Despite the proliferation of open-weight LLMs, access to LLM training data has remained limited. Even for fully open LLMs, the scale of the data makes it all but inscrutable to the general scientific community, despite potentially containing critical data scraped from the internet. In this paper, we present the full-text indexing pipeline for the Apertus LLM training data. Leveraging Elasticsearch parallel indices and the Alps infrastructure, a state-of-the-art, highly energy-efficient arm64 supercluster, we were able to index 8.6T tokens out of 15.2T used to train the Apertus LLM family, creating both a critical LLM safety tool and effectively an offline, curated, open web search engine. Our contribution is threefold. First, we demonstrate that Elasticsearch can be successfully ported onto next-generation arm64-based infrastructure. Second, we demonstrate that full-text indexing at the scale of modern LLM training datasets and the entire open web is feasible and accessible. Finally, we demonstrate that such indices can be used to ensure previously inaccessible jailbreak-agnostic LLM safety. We hope that our findings will be useful to other teams attempting large-scale data indexing and facilitate the general transition towards greener computation.
academic

Mettere i Tuoi Indici in Ordine: Ricerca Full-Text per i Dati di Addestramento degli LLM nel Mondo Reale

Informazioni Fondamentali

  • ID Articolo: 2510.09471
  • Titolo: Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World
  • Autori: Inés Altemir Mariñas (EPFL), Anastasiia Kucherenko (HES-SO Valais-Wallis), Alexander Sternfeld (HES-SO Valais-Wallis), Andrei Kucharavy (HES-SO Valais-Wallis)
  • Classificazione: cs.CL (Linguistica Computazionale)
  • Conferenza di Pubblicazione: WWW '26 (The Web Conference 2026)
  • Link dell'Articolo: https://arxiv.org/abs/2510.09471

Riassunto

Le prestazioni dei modelli linguistici di grandi dimensioni (LLM) dipendono dai loro dati di addestramento. Nonostante la crescente disponibilità di LLM con pesi aperti, l'accesso ai dati di addestramento degli LLM rimane limitato. Anche per gli LLM completamente aperti, la scala dei dati rende difficile per la comunità scientifica ordinaria un'analisi approfondita, sebbene possano contenere dati critici estratti da Internet. Questo articolo presenta la pipeline di indicizzazione full-text dei dati di addestramento dell'LLM Apertus. Utilizzando l'indicizzazione parallela di Elasticsearch e l'infrastruttura Alps (un supercluster arm64 all'avanguardia ad alta efficienza energetica), sono stati indicizzati con successo 8,6T token su 15,2T token utilizzati per l'addestramento della famiglia di LLM Apertus, creando uno strumento critico per la sicurezza degli LLM e un motore di ricerca web aperto, offline e curato.

Contesto di Ricerca e Motivazione

Problemi Fondamentali

  1. Mancanza di Trasparenza nei Dati di Addestramento: Nonostante la crescente diffusione degli LLM con pesi aperti, i dati di addestramento rimangono difficili da ottenere e analizzare
  2. Sfida della Scala dei Dati: I dati di addestramento degli LLM moderni hanno dimensioni enormi (token a livello di trilioni), rendendo l'ispezione sistematica praticamente impossibile
  3. Rischi di Sicurezza: I dati di addestramento possono contenere contenuti dannosi, come informazioni personali, materiale protetto da copyright, linguaggio tossico e persino informazioni pericolose

Importanza della Ricerca

  • Sicurezza degli LLM: I problemi nei dati di addestramento influenzano direttamente il comportamento del modello, causando output dannosi
  • Esigenza di Trasparenza: La comunità scientifica e gli organismi di regolamentazione devono essere in grado di esaminare i dati di addestramento degli LLM
  • Requisiti di Conformità: È necessario identificare e rimuovere contenuti protetti da copyright, informazioni personali, ecc.

Limitazioni dei Metodi Esistenti

  • Analisi Campionaria: Gli strumenti esistenti si basano principalmente su piccoli campioni (ad esempio, l'1% di Common Crawl), senza garantire una copertura completa
  • Limitazioni di Scala: L'indicizzazione full-text più grande precedente (Infinigram) supportava solo 4,6T token e supportava solo corrispondenze esatte
  • Funzionalità Limitate: Mancanza di capacità di ricerca fuzzy e operazioni logiche

Contributi Principali

  1. Migrazione dell'Architettura ARM64: Prima dimostrazione del successo della distribuzione di Elasticsearch su sistemi HPC basati su ARM64 GH200
  2. Implementazione di Indicizzazione su Larga Scala: Indicizzazione di 8,6T token di dataset, 4 volte superiore ai precedenti indici basati su Elasticsearch, il doppio della scala complessiva
  3. Applicazioni di Sicurezza degli LLM: Dimostrazione dell'applicazione dell'indicizzazione full-text in casi d'uso di sicurezza e protezione degli LLM, fornendo protezione senza necessità di jailbreak
  4. Contributi Open-Source: Fornitura di codice open-source completo e benchmark di prestazioni per supportare ricerche future

Spiegazione Dettagliata del Metodo

Definizione del Compito

Costruire un sistema in grado di eseguire ricerche full-text su dati di addestramento di LLM a livello di trilioni di token, supportando:

  • Corrispondenze esatte e fuzzy
  • Ricerca di contenuti multilingue
  • Operazioni logiche e query complesse
  • Risposta di ricerca in tempo reale

Architettura del Sistema

1. Pipeline di Elaborazione dei Dati

Raw Parquet Files → Stream Processing → Text Analysis → Elasticsearch Index

2. Componenti Principali

  • Motore Elasticsearch: Motore di ricerca e analisi distribuito
  • Indicizzazione Parallela: Implementazione di elaborazione concorrente multi-thread utilizzando elasticsearch.helpers.parallel_bulk
  • Analizzatore di Testo: web_content_analyzer esegue pulizia HTML, tokenizzazione standard, conversione a minuscole, piegamento ASCII

3. Parametri Chiave di Ottimizzazione

  • Numero di Thread: Non superiore al numero di core della CPU, bilanciando concorrenza e pressione della memoria
  • Dimensione del Blocco: Determinata dalla formula chunk_size ≤ max_chunk_size / avg_doc_size
  • Byte Massimi del Blocco: Controllo del carico massimo delle richieste in blocco
  • Dimensione della Coda: Buffering dello squilibrio tra thread produttore e consumatore

Punti di Innovazione Tecnica

1. Adattamento ARM64

  • Costruzione di immagini container personalizzate compatibili con OCI
  • Risoluzione dei problemi di compatibilità di Docker, utilizzo di Podman come alternativa
  • Reimplementazione dell'orchestrazione tramite definizioni di lavori SLURM

2. Ottimizzazione dell'Ambiente HPC

  • Disabilitazione del memory mapping per adattarsi ai limiti dei parametri del kernel
  • Configurazione del bypass di rete per evitare proxy, binding a 127.0.0.1
  • Modalità di operazione a nodo singolo adatta all'isolamento dei lavori SLURM

3. Ottimizzazione delle Query

  • match_phrase_query: Supporto della tolleranza della distanza di parole configurabile (parametro SLOP)
  • Elaborazione del testo multi-livello: Pulizia HTML → Tokenizzazione standard → Normalizzazione → Piegamento ASCII

Configurazione Sperimentale

Dataset

Sottoinsieme dei Dati di Addestramento Apertus (8,6T token, 58% dei dati di addestramento totali):

DatasetToken (B)
FineWeb-Edu (Score-2)4815
FineWeb-2-HQ (33% qualità più alta)3557
StarCoder235
Sottoinsieme FineMath CommonCrawl32
Gutenberg e Poison2

Dataset di Query

  1. Dizionario Weaponized Words: Vocaboli dannosi in 137 lingue
  2. Lista LDNOOBW: Vocaboli blasfemi in 28 lingue
  3. Dataset di Armi Chimiche: 17 termini di reagenti chimici pericolosi

Ambiente di Calcolo

  • Supercomputer Alps: Sistema HPE Cray EX, prestazioni di 434 PFlops
  • Configurazione dei Nodi: NVIDIA Grace Hopper GH200 basato su ARM64
  • Sistema di Archiviazione: 100PB ClusterStor HDD + 3PB SSD + 1PB VAST

Risultati Sperimentali

Prestazioni di Indicizzazione

DatasetDimensione Dati (GB)Tempo (h)Velocità Indicizzazione (doc/s)Overhead IndicizzazioneMemoria di Picco (GB)
FineWeb-2 Edu (EN)12,737143.710,2961.34.9
FineWeb-2 Europe HQ2,660408.35891.17.5
StarCoder2294.210,9191.412.7

Scoperte Chiave:

  • La velocità di indicizzazione del testo in inglese è significativamente più veloce rispetto ai dataset multilingue (10.297 vs 589 doc/s)
  • I dati del codice richiedono più risorse di memoria (12,7GB vs 4,9GB)
  • I dataset multilingue hanno un overhead di indicizzazione più elevato

Prestazioni delle Query

  • Il tempo di query aumenta linearmente con la lunghezza della query
  • Query di una parola: <100ms
  • Query di 300 parole: ~1000ms
  • Il sistema mantiene prestazioni stabili su varie lunghezze di query

Analisi dei Contenuti Dannosi

Statistiche di Vocaboli Dannosi Multilingue

LinguaWeaponized Words (milioni)LDNOOBW (milioni)
Inglese1,245.8661.6
Francese16.8202.5
Tedesco9.914.9
Italiano1.618.5

Termini Correlati ad Armi Chimiche

La scoperta di sostanze chimiche comuni (come la glicerina, l'acido nitrico) con frequenza estremamente elevata, mentre i termini di sintesi specializzati di armi chimiche mostrano anche un'apparizione significativa nelle lingue non inglesi, indicando l'importanza della cura dei dati multilingue.

Lavori Correlati

Strumenti Esistenti di Analisi dei Dati degli LLM

  1. Data Portraits: Utilizzo dell'inferenza di appartenenza approssimativa per ridurre i costi computazionali
  2. Metodi di Campionamento Statistico: Come l'analisi dell'1% di Common Crawl di Luccioni et al.
  3. Strumenti di Dataset di Piccola Scala: Data Measurements di HuggingFace, Know Your Data di Google

Sistemi di Indicizzazione su Larga Scala

  1. WhatIsInMyBigData: Indicizzazione massima di 1,4T token (RedPajama)
  2. Infinigram: Utilizzo di array di suffissi, supporto di ricerca esatta di 4,6T token
  3. Strumento ROOTS: Ricerca fuzzy ed esatta di corpus multilingue di 1,6TB

Vantaggi di Questo Articolo

  • Scala: 8,6T token, superando i sistemi basati su Elasticsearch esistenti di 4 volte
  • Funzionalità: Supporto di ricerca fuzzy e operazioni logiche
  • Multilingue: Copertura dell'analisi di sicurezza in più lingue

Conclusioni e Discussione

Conclusioni Principali

  1. Fattibilità Tecnica: Dimostrazione della fattibilità della distribuzione di Elasticsearch su architettura ARM64
  2. Raggiungibilità della Scala: L'indicizzazione full-text a livello di trilioni di token è realizzabile per piccoli team
  3. Applicazioni di Sicurezza: L'indicizzazione full-text può essere utilizzata per un'analisi di sicurezza profonda dei dati di addestramento degli LLM

Limitazioni

  1. Copertura: Solo il 58% dei dati di addestramento Apertus è stato indicizzato
  2. Limitazioni Architettoniche: L'adattamento ARM64 affronta ancora sfide di compatibilità
  3. Memory Mapping: L'impossibilità di utilizzare il memory mapping riduce l'efficienza I/O

Direzioni Future

  1. Indicizzazione Internet Completa: Costruzione di un indice di ricerca offline dell'intera rete aperta
  2. Radicamento dei Fatti negli LLM: Verifica del contenuto generato dagli LLM basata su ricerca offline
  3. Questioni Economiche ed Etiche: Meccanismi di compensazione equa per i creatori di contenuti

Valutazione Approfondita

Punti di Forza

  1. Alto Valore Pratico: Risoluzione di un importante problema di trasparenza nei dati di addestramento degli LLM
  2. Contributi Tecnici Significativi: Prima realizzazione dell'indicizzazione Elasticsearch a livello di trilioni di token
  3. Orientamento Open-Source: Fornitura di codice completo e guida di distribuzione dettagliata
  4. Applicazioni di Sicurezza Chiare: Dimostrazione di casi d'uso specifici di sicurezza degli LLM
  5. Consapevolezza Ambientale: Utilizzo di architettura ARM64 ad alta efficienza energetica, con emissioni di CO2 di soli 90kg CO2eq

Carenze

  1. Copertura dei Dati Incompleta: Mancata indicizzazione di tutti i dati di addestramento
  2. Sfide ARM64: Il processo di adattamento tecnico è complesso e potrebbe influire sulla diffusione
  3. Compromessi di Prestazioni: Sacrificio di parte delle prestazioni I/O per l'adattamento all'ambiente HPC
  4. Profondità dell'Analisi di Sicurezza: L'analisi dei contenuti dannosi è relativamente superficiale

Impatto

  1. Contributo Accademico: Fornitura di un nuovo percorso tecnico per l'analisi dei dati di addestramento degli LLM
  2. Valore Pratico: Applicazione diretta all'audit di sicurezza degli LLM
  3. Promozione Tecnologica: Promozione dell'adozione di ARM64 nelle applicazioni aziendali
  4. Supporto Politico: Fornitura di strumenti tecnici per la regolamentazione degli LLM

Scenari Applicabili

  1. Team di Sviluppo degli LLM: Controllo della qualità dei dati di addestramento e audit di sicurezza
  2. Istituzioni di Ricerca: Analisi e estrazione di dati di testo su larga scala
  3. Organismi di Regolamentazione: Controllo della conformità degli LLM e valutazione dei rischi
  4. Applicazioni Aziendali: Filtro dei contenuti e governance dei dati

Bibliografia

L'articolo cita 60 lavori correlati, coprendo importanti lavori in più campi inclusi l'addestramento degli LLM, la sicurezza dei dati e la ricerca full-text, fornendo una base teorica solida per la ricerca.


Valutazione Complessiva: Questo è un articolo tecnico di importante valore pratico che risolve con successo i problemi critici di trasparenza e analisi di sicurezza dei dati di addestramento degli LLM. Sebbene esistano alcune limitazioni nella copertura dei dati e nell'adattamento tecnico, il suo lavoro pioneristico fornisce una base tecnica importante e una guida pratica per il campo.