2025-11-22T04:49:16.383386

Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World

Marinas, Kucherenko, Sternfeld et al.

The performance of Large Language Models (LLMs) is determined by their training data. Despite the proliferation of open-weight LLMs, access to LLM training data has remained limited. Even for fully open LLMs, the scale of the data makes it all but inscrutable to the general scientific community, despite potentially containing critical data scraped from the internet. In this paper, we present the full-text indexing pipeline for the Apertus LLM training data. Leveraging Elasticsearch parallel indices and the Alps infrastructure, a state-of-the-art, highly energy-efficient arm64 supercluster, we were able to index 8.6T tokens out of 15.2T used to train the Apertus LLM family, creating both a critical LLM safety tool and effectively an offline, curated, open web search engine. Our contribution is threefold. First, we demonstrate that Elasticsearch can be successfully ported onto next-generation arm64-based infrastructure. Second, we demonstrate that full-text indexing at the scale of modern LLM training datasets and the entire open web is feasible and accessible. Finally, we demonstrate that such indices can be used to ensure previously inaccessible jailbreak-agnostic LLM safety. We hope that our findings will be useful to other teams attempting large-scale data indexing and facilitate the general transition towards greener computation.

academic

インデックスを整理する：実世界のLLM訓練データのための全文検索

基本情報

論文ID: 2510.09471
タイトル: Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World
著者: Inés Altemir Mariñas (EPFL)、Anastasiia Kucherenko (HES-SO Valais-Wallis)、Alexander Sternfeld (HES-SO Valais-Wallis)、Andrei Kucharavy (HES-SO Valais-Wallis)
分類: cs.CL (計算言語学)
発表会議: WWW '26 (The Web Conference 2026)
論文リンク: https://arxiv.org/abs/2510.09471

要約

大規模言語モデル(LLM)の性能はその訓練データに依存しています。オープンウェイトLLMが増加しているにもかかわらず、LLM訓練データへのアクセスは依然として制限されています。完全にオープンなLLMであっても、データの規模により、インターネットからスクレイピングされた重要なデータが含まれている可能性があるにもかかわらず、一般的な科学コミュニティによる深い分析は困難です。本論文は、Apertus LLM訓練データの全文インデックスパイプラインを提示しています。Elasticsearchの並列インデックス作成とAlps基盤(最先端の高エネルギー効率arm64スーパーコンピュータ)を活用して、Apertus LLMファミリーの訓練に使用された15.2Tトークンのうち8.6Tトークンのインデックス作成に成功し、重要なLLM安全ツールおよびオフラインの厳選されたオープンウェブ検索エンジンを構築しました。

研究背景と動機

核心的な問題

訓練データの透明性の欠如：オープンウェイトLLMが普及しているにもかかわらず、訓練データは依然として取得および分析が困難です
データ規模の課題：現代的なLLM訓練データの規模は膨大(兆単位のトークン)であり、体系的な検査がほぼ不可能になっています
セキュリティリスク：訓練データには個人情報、著作権資料、有毒言語、さらには危険情報などの有害なコンテンツが含まれる可能性があります

研究の重要性

LLMセキュリティ：訓練データの問題のあるコンテンツは、モデルの動作に直接影響を与え、有害な出力をもたらします
透明性の必要性：科学コミュニティと規制当局はLLM訓練データを審査できる必要があります
コンプライアンス要件：著作権コンテンツ、個人情報などの識別と削除が必要です

既存手法の限界

サンプリング分析：既存ツールの多くは小規模サンプル(Common Crawlの1%など)に基づいており、包括的なカバレッジを保証できません
規模の制限：以前の最大の全文インデックス(Infinigram)は4.6Tトークンのみをサポートし、完全一致検索のみに対応しています
機能の制限：曖昧検索と論理演算機能が不足しています

核心的な貢献

ARM64アーキテクチャへの移行：ARM64ベースのGH200 HPCシステムでのElasticsearchの成功した展開を初めて実証しました
大規模インデックス実装：8.6Tトークンのデータセットをインデックス化し、以前のElasticsearchベースのインデックスの4倍、全体規模の2倍です
LLMセキュリティアプリケーション：全文インデックスのLLMセキュリティおよびセキュリティユースケースへの応用を実証し、ジェイルブレイク不要のセキュリティ保証を提供します
オープンソース貢献：完全なオープンソースコードとパフォーマンスベンチマークを提供し、将来の研究をサポートします

方法論の詳細

タスク定義

兆単位のトークンを持つLLM訓練データに対して全文検索を実行できるシステムを構築し、以下をサポートします：

完全一致および曖昧一致
多言語コンテンツ検索
論理演算と複雑なクエリ
リアルタイム検索応答

システムアーキテクチャ

1. データ処理パイプライン

Raw Parquet Files → Stream Processing → Text Analysis → Elasticsearch Index

2. コアコンポーネント

Elasticsearchエンジン：分散検索および分析エンジン
並列インデックス作成：elasticsearch.helpers.parallel_bulkを使用したマルチスレッド並行処理の実装
テキスト分析器：web_content_analyzerによるHTML清掃、標準トークン化、小文字化、ASCII折りたたみの実行

3. 主要パラメータの調整

スレッド数：CPUコア数を超えず、並行性とメモリ圧力のバランスを取ります
チャンクサイズ：式で決定 chunk_size ≤ max_chunk_size / avg_doc_size
最大チャンクバイト数：バルクリクエストの最大ペイロードを制御します
キューサイズ：プロデューサーとコンシューマースレッド間のバッファリング不均衡

技術的な革新点

1. ARM64適応

OCI互換のカスタムコンテナイメージの構築
Dockerの互換性問題を解決し、Podmanを使用
SLURMジョブ定義を通じたオーケストレーションの再実装

2. HPC環境の最適化

メモリマッピングを無効化してカーネルパラメータ制限に対応
ネットワークをプロキシをバイパスするように構成し、127.0.0.1にバインド
SLURMジョブ分離に適応したシングルノード操作モード

3. クエリの最適化

match_phrase_query：設定可能な単語距離許容度(SLOPパラメータ)をサポート
多段階テキスト処理：HTML清掃 → 標準トークン化 → 正規化 → ASCII折りたたみ

実験設定

データセット

Apertus訓練データサブセット(8.6Tトークン、総訓練データの58%)：

データセット	トークン (B)
FineWeb-Edu (Score-2)	4815
FineWeb-2-HQ (33%最高品質)	3557
StarCoder	235
FineMath CommonCrawlサブセット	32
Gutenbergおよび毒性	2

クエリデータセット

Weaponized Words辞書：137言語の有害語彙
LDNOOBW リスト：28言語の冒涜的な語彙
化学兵器データセット：17の危険な化学試薬用語

計算環境

Alpsスーパーコンピュータ：HPE Cray EXシステム、434 PFlopsパフォーマンス
ノード構成：ARM64ベースのNVIDIA Grace Hopper GH200
ストレージシステム：100PB ClusterStor HDD + 3PB SSD + 1PB VAST

実験結果

インデックス作成パフォーマンス

データセット	データサイズ(GB)	時間(h)	インデックス速度(doc/s)	インデックスオーバーヘッド比	ピークメモリ(GB)
FineWeb-2 Edu (EN)	12,737	143.7	10,296	1.3	4.9
FineWeb-2 Europe HQ	2,660	408.3	589	1.1	7.5
StarCoder	229	4.2	10,919	1.4	12.7

主要な発見：

英語テキストのインデックス作成速度は多言語データセットより大幅に高速です(10,297対589 doc/s)
コードデータはより多くのメモリリソースを必要とします(12.7GB対4.9GB)
多言語データセットのインデックス作成オーバーヘッドはより高くなります

クエリパフォーマンス

クエリ時間はクエリ長の増加に伴い線形に増加します
単語クエリ：<100ms
300語クエリ：~1000ms
システムは様々なクエリ長にわたって安定したパフォーマンスを維持します

有害コンテンツ分析

多言語有害語彙統計

言語	Weaponized Words (百万)	LDNOOBW (百万)
英語	1,245.8	661.6
フランス語	16.8	202.5
ドイツ語	9.9	14.9
イタリア語	1.6	18.5

化学兵器関連用語

グリセリンや硝酸などの一般的な化学物質の出現頻度が極めて高く、専門的な化学兵器合成用語も非英語言語で顕著に出現していることが判明し、多言語データキュレーションの重要性を示しています。

結論と考察

主要な結論

技術的実現可能性：ARM64アーキテクチャでのElasticsearchの展開の実現可能性を証明しました
規模の達成可能性：兆単位のトークンの全文インデックスは小規模チームにとって実現可能です
セキュリティアプリケーション：全文インデックスはLLM訓練データの深いセキュリティ分析に使用できます

限界

カバレッジ範囲：Apertus訓練データの58%のみをインデックス化しました
アーキテクチャの制限：ARM64適応は依然として互換性の課題に直面しています
メモリマッピング：メモリマッピングを使用できないため、I/O効率が低下します

将来の方向性

完全なインターネットインデックス：オープンウェブ全体のオフライン検索インデックスの構築
LLMファクトグラウンディング：オフライン検索に基づくLLM生成コンテンツの検証
経済的および倫理的問題：コンテンツクリエイターの公正な補償メカニズム

深い評価

利点

実用的価値が高い：LLM訓練データの透明性の重要な問題を解決します
技術的貢献が顕著：兆単位のトークンのElasticsearchインデックスの初の実装
オープンソースに優しい：完全なコードと詳細なデプロイメントガイドを提供
セキュリティアプリケーションが明確：具体的なLLMセキュリティユースケースを実証
環境に優しい：高エネルギー効率のARM64アーキテクチャを使用し、CO2排出量はわずか90kg CO2eq

不足

データカバレッジが不完全：すべての訓練データをインデックス化していません
ARM64の課題：技術適応プロセスが複雑で、普及に影響する可能性があります
パフォーマンストレードオフ：HPC環境への適応のためにI/Oパフォーマンスの一部を犠牲にしています
セキュリティ分析の深さ：有害コンテンツの分析は比較的表面的です

影響力

学術的貢献：LLM訓練データ分析に新しい技術パスを提供します
実用的価値：LLMセキュリティ監査に直接適用できます
技術推進：エンタープライズアプリケーションでのARM64の採用を促進します
政策支援：LLM規制に技術ツールを提供します

適用シナリオ

LLM開発チーム：訓練データの品質管理とセキュリティ監査
研究機関：大規模テキストデータの分析とマイニング
規制当局：LLMコンプライアンスチェックとリスク評価
エンタープライズアプリケーション：コンテンツフィルタリングとデータガバナンス

参考文献

論文は、LLM訓練、データセキュリティ、全文検索など複数の分野の重要な研究を網羅した60の関連文献を引用し、研究に堅実な理論的基礎を提供しています。

総合評価：これはLLM訓練データの透明性とセキュリティ分析の重要な問題を成功裏に解決した、重要な実用的価値を持つ技術論文です。データカバレッジと技術適応の面でいくつかの制限がありますが、その開拓的な作業はこの分野に重要な技術的基礎と実践的ガイダンスを提供しています。