The performance of Large Language Models (LLMs) is determined by their training data. Despite the proliferation of open-weight LLMs, access to LLM training data has remained limited. Even for fully open LLMs, the scale of the data makes it all but inscrutable to the general scientific community, despite potentially containing critical data scraped from the internet.
In this paper, we present the full-text indexing pipeline for the Apertus LLM training data. Leveraging Elasticsearch parallel indices and the Alps infrastructure, a state-of-the-art, highly energy-efficient arm64 supercluster, we were able to index 8.6T tokens out of 15.2T used to train the Apertus LLM family, creating both a critical LLM safety tool and effectively an offline, curated, open web search engine. Our contribution is threefold. First, we demonstrate that Elasticsearch can be successfully ported onto next-generation arm64-based infrastructure. Second, we demonstrate that full-text indexing at the scale of modern LLM training datasets and the entire open web is feasible and accessible. Finally, we demonstrate that such indices can be used to ensure previously inaccessible jailbreak-agnostic LLM safety.
We hope that our findings will be useful to other teams attempting large-scale data indexing and facilitate the general transition towards greener computation.
academic 論文ID : 2510.09471タイトル : Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World著者 : Inés Altemir Mariñas (EPFL)、Anastasiia Kucherenko (HES-SO Valais-Wallis)、Alexander Sternfeld (HES-SO Valais-Wallis)、Andrei Kucharavy (HES-SO Valais-Wallis)分類 : cs.CL (計算言語学)発表会議 : WWW '26 (The Web Conference 2026)論文リンク : https://arxiv.org/abs/2510.09471 大規模言語モデル(LLM)の性能はその訓練データに依存しています。オープンウェイトLLMが増加しているにもかかわらず、LLM訓練データへのアクセスは依然として制限されています。完全にオープンなLLMであっても、データの規模により、インターネットからスクレイピングされた重要なデータが含まれている可能性があるにもかかわらず、一般的な科学コミュニティによる深い分析は困難です。本論文は、Apertus LLM訓練データの全文インデックスパイプラインを提示しています。Elasticsearchの並列インデックス作成とAlps基盤(最先端の高エネルギー効率arm64スーパーコンピュータ)を活用して、Apertus LLMファミリーの訓練に使用された15.2Tトークンのうち8.6Tトークンのインデックス作成に成功し、重要なLLM安全ツールおよびオフラインの厳選されたオープンウェブ検索エンジンを構築しました。
訓練データの透明性の欠如 :オープンウェイトLLMが普及しているにもかかわらず、訓練データは依然として取得および分析が困難ですデータ規模の課題 :現代的なLLM訓練データの規模は膨大(兆単位のトークン)であり、体系的な検査がほぼ不可能になっていますセキュリティリスク :訓練データには個人情報、著作権資料、有毒言語、さらには危険情報などの有害なコンテンツが含まれる可能性がありますLLMセキュリティ :訓練データの問題のあるコンテンツは、モデルの動作に直接影響を与え、有害な出力をもたらします透明性の必要性 :科学コミュニティと規制当局はLLM訓練データを審査できる必要がありますコンプライアンス要件 :著作権コンテンツ、個人情報などの識別と削除が必要ですサンプリング分析 :既存ツールの多くは小規模サンプル(Common Crawlの1%など)に基づいており、包括的なカバレッジを保証できません規模の制限 :以前の最大の全文インデックス(Infinigram)は4.6Tトークンのみをサポートし、完全一致検索のみに対応しています機能の制限 :曖昧検索と論理演算機能が不足していますARM64アーキテクチャへの移行 :ARM64ベースのGH200 HPCシステムでのElasticsearchの成功した展開を初めて実証しました大規模インデックス実装 :8.6Tトークンのデータセットをインデックス化し、以前のElasticsearchベースのインデックスの4倍、全体規模の2倍ですLLMセキュリティアプリケーション :全文インデックスのLLMセキュリティおよびセキュリティユースケースへの応用を実証し、ジェイルブレイク不要のセキュリティ保証を提供しますオープンソース貢献 :完全なオープンソースコードとパフォーマンスベンチマークを提供し、将来の研究をサポートします兆単位のトークンを持つLLM訓練データに対して全文検索を実行できるシステムを構築し、以下をサポートします:
完全一致および曖昧一致 多言語コンテンツ検索 論理演算と複雑なクエリ リアルタイム検索応答 Raw Parquet Files → Stream Processing → Text Analysis → Elasticsearch Index
Elasticsearchエンジン :分散検索および分析エンジン並列インデックス作成 :elasticsearch.helpers.parallel_bulkを使用したマルチスレッド並行処理の実装テキスト分析器 :web_content_analyzerによるHTML清掃、標準トークン化、小文字化、ASCII折りたたみの実行スレッド数 :CPUコア数を超えず、並行性とメモリ圧力のバランスを取りますチャンクサイズ :式で決定 chunk_size ≤ max_chunk_size / avg_doc_size最大チャンクバイト数 :バルクリクエストの最大ペイロードを制御しますキューサイズ :プロデューサーとコンシューマースレッド間のバッファリング不均衡OCI互換のカスタムコンテナイメージの構築 Dockerの互換性問題を解決し、Podmanを使用 SLURMジョブ定義を通じたオーケストレーションの再実装 メモリマッピングを無効化してカーネルパラメータ制限に対応 ネットワークをプロキシをバイパスするように構成し、127.0.0.1にバインド SLURMジョブ分離に適応したシングルノード操作モード match_phrase_query :設定可能な単語距離許容度(SLOPパラメータ)をサポート多段階テキスト処理:HTML清掃 → 標準トークン化 → 正規化 → ASCII折りたたみ Apertus訓練データサブセット (8.6Tトークン、総訓練データの58%):
データセット トークン (B) FineWeb-Edu (Score-2) 4815 FineWeb-2-HQ (33%最高品質) 3557 StarCoder 235 FineMath CommonCrawlサブセット 32 Gutenbergおよび毒性 2
Weaponized Words辞書 :137言語の有害語彙LDNOOBW リスト :28言語の冒涜的な語彙化学兵器データセット :17の危険な化学試薬用語Alpsスーパーコンピュータ :HPE Cray EXシステム、434 PFlopsパフォーマンスノード構成 :ARM64ベースのNVIDIA Grace Hopper GH200ストレージシステム :100PB ClusterStor HDD + 3PB SSD + 1PB VASTデータセット データサイズ(GB) 時間(h) インデックス速度(doc/s) インデックスオーバーヘッド比 ピークメモリ(GB) FineWeb-2 Edu (EN) 12,737 143.7 10,296 1.3 4.9 FineWeb-2 Europe HQ 2,660 408.3 589 1.1 7.5 StarCoder 229 4.2 10,919 1.4 12.7
主要な発見 :
英語テキストのインデックス作成速度は多言語データセットより大幅に高速です(10,297対589 doc/s) コードデータはより多くのメモリリソースを必要とします(12.7GB対4.9GB) 多言語データセットのインデックス作成オーバーヘッドはより高くなります クエリ時間はクエリ長の増加に伴い線形に増加します 単語クエリ:<100ms 300語クエリ:~1000ms システムは様々なクエリ長にわたって安定したパフォーマンスを維持します 言語 Weaponized Words (百万) LDNOOBW (百万) 英語 1,245.8 661.6 フランス語 16.8 202.5 ドイツ語 9.9 14.9 イタリア語 1.6 18.5
グリセリンや硝酸などの一般的な化学物質の出現頻度が極めて高く、専門的な化学兵器合成用語も非英語言語で顕著に出現していることが判明し、多言語データキュレーションの重要性を示しています。
Data Portraits :近似メンバーシップ推論を使用して計算コストを削減統計的サンプリング手法 :Common Crawlの1%を分析するLuccioniらなど小規模データセットツール :HuggingFaceのData Measurements、Googleの Know Your DataWhatIsInMyBigData :最大1.4Tトークン(RedPajama)のインデックスInfinigram :サフィックス配列を使用、4.6Tトークンの完全一致検索をサポートROOTSツール :1.6TB多言語コーパスの曖昧および完全一致検索規模:8.6Tトークン、既存のElasticsearchベースシステムを4倍上回ります 機能:曖昧検索と論理演算をサポート 多言語:複数言語のセキュリティ分析をカバー 技術的実現可能性 :ARM64アーキテクチャでのElasticsearchの展開の実現可能性を証明しました規模の達成可能性 :兆単位のトークンの全文インデックスは小規模チームにとって実現可能ですセキュリティアプリケーション :全文インデックスはLLM訓練データの深いセキュリティ分析に使用できますカバレッジ範囲 :Apertus訓練データの58%のみをインデックス化しましたアーキテクチャの制限 :ARM64適応は依然として互換性の課題に直面していますメモリマッピング :メモリマッピングを使用できないため、I/O効率が低下します完全なインターネットインデックス :オープンウェブ全体のオフライン検索インデックスの構築LLMファクトグラウンディング :オフライン検索に基づくLLM生成コンテンツの検証経済的および倫理的問題 :コンテンツクリエイターの公正な補償メカニズム実用的価値が高い :LLM訓練データの透明性の重要な問題を解決します技術的貢献が顕著 :兆単位のトークンのElasticsearchインデックスの初の実装オープンソースに優しい :完全なコードと詳細なデプロイメントガイドを提供セキュリティアプリケーションが明確 :具体的なLLMセキュリティユースケースを実証環境に優しい :高エネルギー効率のARM64アーキテクチャを使用し、CO2排出量はわずか90kg CO2eqデータカバレッジが不完全 :すべての訓練データをインデックス化していませんARM64の課題 :技術適応プロセスが複雑で、普及に影響する可能性がありますパフォーマンストレードオフ :HPC環境への適応のためにI/Oパフォーマンスの一部を犠牲にしていますセキュリティ分析の深さ :有害コンテンツの分析は比較的表面的です学術的貢献 :LLM訓練データ分析に新しい技術パスを提供します実用的価値 :LLMセキュリティ監査に直接適用できます技術推進 :エンタープライズアプリケーションでのARM64の採用を促進します政策支援 :LLM規制に技術ツールを提供しますLLM開発チーム :訓練データの品質管理とセキュリティ監査研究機関 :大規模テキストデータの分析とマイニング規制当局 :LLMコンプライアンスチェックとリスク評価エンタープライズアプリケーション :コンテンツフィルタリングとデータガバナンス論文は、LLM訓練、データセキュリティ、全文検索など複数の分野の重要な研究を網羅した60の関連文献を引用し、研究に堅実な理論的基礎を提供しています。
総合評価 :これはLLM訓練データの透明性とセキュリティ分析の重要な問題を成功裏に解決した、重要な実用的価値を持つ技術論文です。データカバレッジと技術適応の面でいくつかの制限がありますが、その開拓的な作業はこの分野に重要な技術的基礎と実践的ガイダンスを提供しています。