2025-11-22T04:49:16.383386

Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World

Marinas, Kucherenko, Sternfeld et al.

The performance of Large Language Models (LLMs) is determined by their training data. Despite the proliferation of open-weight LLMs, access to LLM training data has remained limited. Even for fully open LLMs, the scale of the data makes it all but inscrutable to the general scientific community, despite potentially containing critical data scraped from the internet. In this paper, we present the full-text indexing pipeline for the Apertus LLM training data. Leveraging Elasticsearch parallel indices and the Alps infrastructure, a state-of-the-art, highly energy-efficient arm64 supercluster, we were able to index 8.6T tokens out of 15.2T used to train the Apertus LLM family, creating both a critical LLM safety tool and effectively an offline, curated, open web search engine. Our contribution is threefold. First, we demonstrate that Elasticsearch can be successfully ported onto next-generation arm64-based infrastructure. Second, we demonstrate that full-text indexing at the scale of modern LLM training datasets and the entire open web is feasible and accessible. Finally, we demonstrate that such indices can be used to ensure previously inaccessible jailbreak-agnostic LLM safety. We hope that our findings will be useful to other teams attempting large-scale data indexing and facilitate the general transition towards greener computation.

academic

Mettere i Tuoi Indici in Ordine: Ricerca Full-Text per i Dati di Addestramento degli LLM nel Mondo Reale

Informazioni Fondamentali

ID Articolo: 2510.09471
Titolo: Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World
Autori: Inés Altemir Mariñas (EPFL), Anastasiia Kucherenko (HES-SO Valais-Wallis), Alexander Sternfeld (HES-SO Valais-Wallis), Andrei Kucharavy (HES-SO Valais-Wallis)
Classificazione: cs.CL (Linguistica Computazionale)
Conferenza di Pubblicazione: WWW '26 (The Web Conference 2026)
Link dell'Articolo: https://arxiv.org/abs/2510.09471

Riassunto

Le prestazioni dei modelli linguistici di grandi dimensioni (LLM) dipendono dai loro dati di addestramento. Nonostante la crescente disponibilità di LLM con pesi aperti, l'accesso ai dati di addestramento degli LLM rimane limitato. Anche per gli LLM completamente aperti, la scala dei dati rende difficile per la comunità scientifica ordinaria un'analisi approfondita, sebbene possano contenere dati critici estratti da Internet. Questo articolo presenta la pipeline di indicizzazione full-text dei dati di addestramento dell'LLM Apertus. Utilizzando l'indicizzazione parallela di Elasticsearch e l'infrastruttura Alps (un supercluster arm64 all'avanguardia ad alta efficienza energetica), sono stati indicizzati con successo 8,6T token su 15,2T token utilizzati per l'addestramento della famiglia di LLM Apertus, creando uno strumento critico per la sicurezza degli LLM e un motore di ricerca web aperto, offline e curato.

Contesto di Ricerca e Motivazione

Problemi Fondamentali

Mancanza di Trasparenza nei Dati di Addestramento: Nonostante la crescente diffusione degli LLM con pesi aperti, i dati di addestramento rimangono difficili da ottenere e analizzare
Sfida della Scala dei Dati: I dati di addestramento degli LLM moderni hanno dimensioni enormi (token a livello di trilioni), rendendo l'ispezione sistematica praticamente impossibile
Rischi di Sicurezza: I dati di addestramento possono contenere contenuti dannosi, come informazioni personali, materiale protetto da copyright, linguaggio tossico e persino informazioni pericolose

Importanza della Ricerca

Sicurezza degli LLM: I problemi nei dati di addestramento influenzano direttamente il comportamento del modello, causando output dannosi
Esigenza di Trasparenza: La comunità scientifica e gli organismi di regolamentazione devono essere in grado di esaminare i dati di addestramento degli LLM
Requisiti di Conformità: È necessario identificare e rimuovere contenuti protetti da copyright, informazioni personali, ecc.

Limitazioni dei Metodi Esistenti

Analisi Campionaria: Gli strumenti esistenti si basano principalmente su piccoli campioni (ad esempio, l'1% di Common Crawl), senza garantire una copertura completa
Limitazioni di Scala: L'indicizzazione full-text più grande precedente (Infinigram) supportava solo 4,6T token e supportava solo corrispondenze esatte
Funzionalità Limitate: Mancanza di capacità di ricerca fuzzy e operazioni logiche

Contributi Principali

Migrazione dell'Architettura ARM64: Prima dimostrazione del successo della distribuzione di Elasticsearch su sistemi HPC basati su ARM64 GH200
Implementazione di Indicizzazione su Larga Scala: Indicizzazione di 8,6T token di dataset, 4 volte superiore ai precedenti indici basati su Elasticsearch, il doppio della scala complessiva
Applicazioni di Sicurezza degli LLM: Dimostrazione dell'applicazione dell'indicizzazione full-text in casi d'uso di sicurezza e protezione degli LLM, fornendo protezione senza necessità di jailbreak
Contributi Open-Source: Fornitura di codice open-source completo e benchmark di prestazioni per supportare ricerche future

Spiegazione Dettagliata del Metodo

Definizione del Compito

Costruire un sistema in grado di eseguire ricerche full-text su dati di addestramento di LLM a livello di trilioni di token, supportando:

Corrispondenze esatte e fuzzy
Ricerca di contenuti multilingue
Operazioni logiche e query complesse
Risposta di ricerca in tempo reale

Architettura del Sistema

1. Pipeline di Elaborazione dei Dati

Raw Parquet Files → Stream Processing → Text Analysis → Elasticsearch Index

2. Componenti Principali

Motore Elasticsearch: Motore di ricerca e analisi distribuito
Indicizzazione Parallela: Implementazione di elaborazione concorrente multi-thread utilizzando elasticsearch.helpers.parallel_bulk
Analizzatore di Testo: web_content_analyzer esegue pulizia HTML, tokenizzazione standard, conversione a minuscole, piegamento ASCII

3. Parametri Chiave di Ottimizzazione

Numero di Thread: Non superiore al numero di core della CPU, bilanciando concorrenza e pressione della memoria
Dimensione del Blocco: Determinata dalla formula chunk_size ≤ max_chunk_size / avg_doc_size
Byte Massimi del Blocco: Controllo del carico massimo delle richieste in blocco
Dimensione della Coda: Buffering dello squilibrio tra thread produttore e consumatore

Punti di Innovazione Tecnica

1. Adattamento ARM64

Costruzione di immagini container personalizzate compatibili con OCI
Risoluzione dei problemi di compatibilità di Docker, utilizzo di Podman come alternativa
Reimplementazione dell'orchestrazione tramite definizioni di lavori SLURM

2. Ottimizzazione dell'Ambiente HPC

Disabilitazione del memory mapping per adattarsi ai limiti dei parametri del kernel
Configurazione del bypass di rete per evitare proxy, binding a 127.0.0.1
Modalità di operazione a nodo singolo adatta all'isolamento dei lavori SLURM

3. Ottimizzazione delle Query

match_phrase_query: Supporto della tolleranza della distanza di parole configurabile (parametro SLOP)
Elaborazione del testo multi-livello: Pulizia HTML → Tokenizzazione standard → Normalizzazione → Piegamento ASCII

Configurazione Sperimentale

Dataset

Sottoinsieme dei Dati di Addestramento Apertus (8,6T token, 58% dei dati di addestramento totali):

Dataset	Token (B)
FineWeb-Edu (Score-2)	4815
FineWeb-2-HQ (33% qualità più alta)	3557
StarCoder	235
Sottoinsieme FineMath CommonCrawl	32
Gutenberg e Poison	2

Dataset di Query

Dizionario Weaponized Words: Vocaboli dannosi in 137 lingue
Lista LDNOOBW: Vocaboli blasfemi in 28 lingue
Dataset di Armi Chimiche: 17 termini di reagenti chimici pericolosi

Ambiente di Calcolo

Supercomputer Alps: Sistema HPE Cray EX, prestazioni di 434 PFlops
Configurazione dei Nodi: NVIDIA Grace Hopper GH200 basato su ARM64
Sistema di Archiviazione: 100PB ClusterStor HDD + 3PB SSD + 1PB VAST

Risultati Sperimentali

Prestazioni di Indicizzazione

Dataset	Dimensione Dati (GB)	Tempo (h)	Velocità Indicizzazione (doc/s)	Overhead Indicizzazione	Memoria di Picco (GB)
FineWeb-2 Edu (EN)	12,737	143.7	10,296	1.3	4.9
FineWeb-2 Europe HQ	2,660	408.3	589	1.1	7.5
StarCoder	229	4.2	10,919	1.4	12.7

Scoperte Chiave:

La velocità di indicizzazione del testo in inglese è significativamente più veloce rispetto ai dataset multilingue (10.297 vs 589 doc/s)
I dati del codice richiedono più risorse di memoria (12,7GB vs 4,9GB)
I dataset multilingue hanno un overhead di indicizzazione più elevato

Prestazioni delle Query

Il tempo di query aumenta linearmente con la lunghezza della query
Query di una parola: <100ms
Query di 300 parole: ~1000ms
Il sistema mantiene prestazioni stabili su varie lunghezze di query

Analisi dei Contenuti Dannosi

Statistiche di Vocaboli Dannosi Multilingue

Lingua	Weaponized Words (milioni)	LDNOOBW (milioni)
Inglese	1,245.8	661.6
Francese	16.8	202.5
Tedesco	9.9	14.9
Italiano	1.6	18.5

Termini Correlati ad Armi Chimiche

La scoperta di sostanze chimiche comuni (come la glicerina, l'acido nitrico) con frequenza estremamente elevata, mentre i termini di sintesi specializzati di armi chimiche mostrano anche un'apparizione significativa nelle lingue non inglesi, indicando l'importanza della cura dei dati multilingue.

Lavori Correlati

Strumenti Esistenti di Analisi dei Dati degli LLM

Data Portraits: Utilizzo dell'inferenza di appartenenza approssimativa per ridurre i costi computazionali
Metodi di Campionamento Statistico: Come l'analisi dell'1% di Common Crawl di Luccioni et al.
Strumenti di Dataset di Piccola Scala: Data Measurements di HuggingFace, Know Your Data di Google

Sistemi di Indicizzazione su Larga Scala

WhatIsInMyBigData: Indicizzazione massima di 1,4T token (RedPajama)
Infinigram: Utilizzo di array di suffissi, supporto di ricerca esatta di 4,6T token
Strumento ROOTS: Ricerca fuzzy ed esatta di corpus multilingue di 1,6TB

Vantaggi di Questo Articolo

Scala: 8,6T token, superando i sistemi basati su Elasticsearch esistenti di 4 volte
Funzionalità: Supporto di ricerca fuzzy e operazioni logiche
Multilingue: Copertura dell'analisi di sicurezza in più lingue

Conclusioni e Discussione

Conclusioni Principali

Fattibilità Tecnica: Dimostrazione della fattibilità della distribuzione di Elasticsearch su architettura ARM64
Raggiungibilità della Scala: L'indicizzazione full-text a livello di trilioni di token è realizzabile per piccoli team
Applicazioni di Sicurezza: L'indicizzazione full-text può essere utilizzata per un'analisi di sicurezza profonda dei dati di addestramento degli LLM

Limitazioni

Copertura: Solo il 58% dei dati di addestramento Apertus è stato indicizzato
Limitazioni Architettoniche: L'adattamento ARM64 affronta ancora sfide di compatibilità
Memory Mapping: L'impossibilità di utilizzare il memory mapping riduce l'efficienza I/O

Direzioni Future

Indicizzazione Internet Completa: Costruzione di un indice di ricerca offline dell'intera rete aperta
Radicamento dei Fatti negli LLM: Verifica del contenuto generato dagli LLM basata su ricerca offline
Questioni Economiche ed Etiche: Meccanismi di compensazione equa per i creatori di contenuti

Valutazione Approfondita

Punti di Forza

Alto Valore Pratico: Risoluzione di un importante problema di trasparenza nei dati di addestramento degli LLM
Contributi Tecnici Significativi: Prima realizzazione dell'indicizzazione Elasticsearch a livello di trilioni di token
Orientamento Open-Source: Fornitura di codice completo e guida di distribuzione dettagliata
Applicazioni di Sicurezza Chiare: Dimostrazione di casi d'uso specifici di sicurezza degli LLM
Consapevolezza Ambientale: Utilizzo di architettura ARM64 ad alta efficienza energetica, con emissioni di CO2 di soli 90kg CO2eq

Carenze

Copertura dei Dati Incompleta: Mancata indicizzazione di tutti i dati di addestramento
Sfide ARM64: Il processo di adattamento tecnico è complesso e potrebbe influire sulla diffusione
Compromessi di Prestazioni: Sacrificio di parte delle prestazioni I/O per l'adattamento all'ambiente HPC
Profondità dell'Analisi di Sicurezza: L'analisi dei contenuti dannosi è relativamente superficiale

Impatto

Contributo Accademico: Fornitura di un nuovo percorso tecnico per l'analisi dei dati di addestramento degli LLM
Valore Pratico: Applicazione diretta all'audit di sicurezza degli LLM
Promozione Tecnologica: Promozione dell'adozione di ARM64 nelle applicazioni aziendali
Supporto Politico: Fornitura di strumenti tecnici per la regolamentazione degli LLM

Scenari Applicabili

Team di Sviluppo degli LLM: Controllo della qualità dei dati di addestramento e audit di sicurezza
Istituzioni di Ricerca: Analisi e estrazione di dati di testo su larga scala
Organismi di Regolamentazione: Controllo della conformità degli LLM e valutazione dei rischi
Applicazioni Aziendali: Filtro dei contenuti e governance dei dati

Bibliografia

L'articolo cita 60 lavori correlati, coprendo importanti lavori in più campi inclusi l'addestramento degli LLM, la sicurezza dei dati e la ricerca full-text, fornendo una base teorica solida per la ricerca.

Valutazione Complessiva: Questo è un articolo tecnico di importante valore pratico che risolve con successo i problemi critici di trasparenza e analisi di sicurezza dei dati di addestramento degli LLM. Sebbene esistano alcune limitazioni nella copertura dei dati e nell'adattamento tecnico, il suo lavoro pioneristico fornisce una base tecnica importante e una guida pratica per il campo.