Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World
Marinas, Kucherenko, Sternfeld et al.
The performance of Large Language Models (LLMs) is determined by their training data. Despite the proliferation of open-weight LLMs, access to LLM training data has remained limited. Even for fully open LLMs, the scale of the data makes it all but inscrutable to the general scientific community, despite potentially containing critical data scraped from the internet.
In this paper, we present the full-text indexing pipeline for the Apertus LLM training data. Leveraging Elasticsearch parallel indices and the Alps infrastructure, a state-of-the-art, highly energy-efficient arm64 supercluster, we were able to index 8.6T tokens out of 15.2T used to train the Apertus LLM family, creating both a critical LLM safety tool and effectively an offline, curated, open web search engine. Our contribution is threefold. First, we demonstrate that Elasticsearch can be successfully ported onto next-generation arm64-based infrastructure. Second, we demonstrate that full-text indexing at the scale of modern LLM training datasets and the entire open web is feasible and accessible. Finally, we demonstrate that such indices can be used to ensure previously inaccessible jailbreak-agnostic LLM safety.
We hope that our findings will be useful to other teams attempting large-scale data indexing and facilitate the general transition towards greener computation.
academic
Mettere i Tuoi Indici in Ordine: Ricerca Full-Text per i Dati di Addestramento degli LLM nel Mondo Reale
Le prestazioni dei modelli linguistici di grandi dimensioni (LLM) dipendono dai loro dati di addestramento. Nonostante la crescente disponibilità di LLM con pesi aperti, l'accesso ai dati di addestramento degli LLM rimane limitato. Anche per gli LLM completamente aperti, la scala dei dati rende difficile per la comunità scientifica ordinaria un'analisi approfondita, sebbene possano contenere dati critici estratti da Internet. Questo articolo presenta la pipeline di indicizzazione full-text dei dati di addestramento dell'LLM Apertus. Utilizzando l'indicizzazione parallela di Elasticsearch e l'infrastruttura Alps (un supercluster arm64 all'avanguardia ad alta efficienza energetica), sono stati indicizzati con successo 8,6T token su 15,2T token utilizzati per l'addestramento della famiglia di LLM Apertus, creando uno strumento critico per la sicurezza degli LLM e un motore di ricerca web aperto, offline e curato.
Mancanza di Trasparenza nei Dati di Addestramento: Nonostante la crescente diffusione degli LLM con pesi aperti, i dati di addestramento rimangono difficili da ottenere e analizzare
Sfida della Scala dei Dati: I dati di addestramento degli LLM moderni hanno dimensioni enormi (token a livello di trilioni), rendendo l'ispezione sistematica praticamente impossibile
Rischi di Sicurezza: I dati di addestramento possono contenere contenuti dannosi, come informazioni personali, materiale protetto da copyright, linguaggio tossico e persino informazioni pericolose
Sicurezza degli LLM: I problemi nei dati di addestramento influenzano direttamente il comportamento del modello, causando output dannosi
Esigenza di Trasparenza: La comunità scientifica e gli organismi di regolamentazione devono essere in grado di esaminare i dati di addestramento degli LLM
Requisiti di Conformità: È necessario identificare e rimuovere contenuti protetti da copyright, informazioni personali, ecc.
Analisi Campionaria: Gli strumenti esistenti si basano principalmente su piccoli campioni (ad esempio, l'1% di Common Crawl), senza garantire una copertura completa
Limitazioni di Scala: L'indicizzazione full-text più grande precedente (Infinigram) supportava solo 4,6T token e supportava solo corrispondenze esatte
Funzionalità Limitate: Mancanza di capacità di ricerca fuzzy e operazioni logiche
Migrazione dell'Architettura ARM64: Prima dimostrazione del successo della distribuzione di Elasticsearch su sistemi HPC basati su ARM64 GH200
Implementazione di Indicizzazione su Larga Scala: Indicizzazione di 8,6T token di dataset, 4 volte superiore ai precedenti indici basati su Elasticsearch, il doppio della scala complessiva
Applicazioni di Sicurezza degli LLM: Dimostrazione dell'applicazione dell'indicizzazione full-text in casi d'uso di sicurezza e protezione degli LLM, fornendo protezione senza necessità di jailbreak
Contributi Open-Source: Fornitura di codice open-source completo e benchmark di prestazioni per supportare ricerche future
La scoperta di sostanze chimiche comuni (come la glicerina, l'acido nitrico) con frequenza estremamente elevata, mentre i termini di sintesi specializzati di armi chimiche mostrano anche un'apparizione significativa nelle lingue non inglesi, indicando l'importanza della cura dei dati multilingue.
L'articolo cita 60 lavori correlati, coprendo importanti lavori in più campi inclusi l'addestramento degli LLM, la sicurezza dei dati e la ricerca full-text, fornendo una base teorica solida per la ricerca.
Valutazione Complessiva: Questo è un articolo tecnico di importante valore pratico che risolve con successo i problemi critici di trasparenza e analisi di sicurezza dei dati di addestramento degli LLM. Sebbene esistano alcune limitazioni nella copertura dei dati e nell'adattamento tecnico, il suo lavoro pioneristico fornisce una base tecnica importante e una guida pratica per il campo.