2025-11-22T04:49:16.383386

Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World

Marinas, Kucherenko, Sternfeld et al.
The performance of Large Language Models (LLMs) is determined by their training data. Despite the proliferation of open-weight LLMs, access to LLM training data has remained limited. Even for fully open LLMs, the scale of the data makes it all but inscrutable to the general scientific community, despite potentially containing critical data scraped from the internet. In this paper, we present the full-text indexing pipeline for the Apertus LLM training data. Leveraging Elasticsearch parallel indices and the Alps infrastructure, a state-of-the-art, highly energy-efficient arm64 supercluster, we were able to index 8.6T tokens out of 15.2T used to train the Apertus LLM family, creating both a critical LLM safety tool and effectively an offline, curated, open web search engine. Our contribution is threefold. First, we demonstrate that Elasticsearch can be successfully ported onto next-generation arm64-based infrastructure. Second, we demonstrate that full-text indexing at the scale of modern LLM training datasets and the entire open web is feasible and accessible. Finally, we demonstrate that such indices can be used to ensure previously inaccessible jailbreak-agnostic LLM safety. We hope that our findings will be useful to other teams attempting large-scale data indexing and facilitate the general transition towards greener computation.
academic

インデックスを整理する:実世界のLLM訓練データのための全文検索

基本情報

  • 論文ID: 2510.09471
  • タイトル: Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World
  • 著者: Inés Altemir Mariñas (EPFL)、Anastasiia Kucherenko (HES-SO Valais-Wallis)、Alexander Sternfeld (HES-SO Valais-Wallis)、Andrei Kucharavy (HES-SO Valais-Wallis)
  • 分類: cs.CL (計算言語学)
  • 発表会議: WWW '26 (The Web Conference 2026)
  • 論文リンク: https://arxiv.org/abs/2510.09471

要約

大規模言語モデル(LLM)の性能はその訓練データに依存しています。オープンウェイトLLMが増加しているにもかかわらず、LLM訓練データへのアクセスは依然として制限されています。完全にオープンなLLMであっても、データの規模により、インターネットからスクレイピングされた重要なデータが含まれている可能性があるにもかかわらず、一般的な科学コミュニティによる深い分析は困難です。本論文は、Apertus LLM訓練データの全文インデックスパイプラインを提示しています。Elasticsearchの並列インデックス作成とAlps基盤(最先端の高エネルギー効率arm64スーパーコンピュータ)を活用して、Apertus LLMファミリーの訓練に使用された15.2Tトークンのうち8.6Tトークンのインデックス作成に成功し、重要なLLM安全ツールおよびオフラインの厳選されたオープンウェブ検索エンジンを構築しました。

研究背景と動機

核心的な問題

  1. 訓練データの透明性の欠如:オープンウェイトLLMが普及しているにもかかわらず、訓練データは依然として取得および分析が困難です
  2. データ規模の課題:現代的なLLM訓練データの規模は膨大(兆単位のトークン)であり、体系的な検査がほぼ不可能になっています
  3. セキュリティリスク:訓練データには個人情報、著作権資料、有毒言語、さらには危険情報などの有害なコンテンツが含まれる可能性があります

研究の重要性

  • LLMセキュリティ:訓練データの問題のあるコンテンツは、モデルの動作に直接影響を与え、有害な出力をもたらします
  • 透明性の必要性:科学コミュニティと規制当局はLLM訓練データを審査できる必要があります
  • コンプライアンス要件:著作権コンテンツ、個人情報などの識別と削除が必要です

既存手法の限界

  • サンプリング分析:既存ツールの多くは小規模サンプル(Common Crawlの1%など)に基づいており、包括的なカバレッジを保証できません
  • 規模の制限:以前の最大の全文インデックス(Infinigram)は4.6Tトークンのみをサポートし、完全一致検索のみに対応しています
  • 機能の制限:曖昧検索と論理演算機能が不足しています

核心的な貢献

  1. ARM64アーキテクチャへの移行:ARM64ベースのGH200 HPCシステムでのElasticsearchの成功した展開を初めて実証しました
  2. 大規模インデックス実装:8.6Tトークンのデータセットをインデックス化し、以前のElasticsearchベースのインデックスの4倍、全体規模の2倍です
  3. LLMセキュリティアプリケーション:全文インデックスのLLMセキュリティおよびセキュリティユースケースへの応用を実証し、ジェイルブレイク不要のセキュリティ保証を提供します
  4. オープンソース貢献:完全なオープンソースコードとパフォーマンスベンチマークを提供し、将来の研究をサポートします

方法論の詳細

タスク定義

兆単位のトークンを持つLLM訓練データに対して全文検索を実行できるシステムを構築し、以下をサポートします:

  • 完全一致および曖昧一致
  • 多言語コンテンツ検索
  • 論理演算と複雑なクエリ
  • リアルタイム検索応答

システムアーキテクチャ

1. データ処理パイプライン

Raw Parquet Files → Stream Processing → Text Analysis → Elasticsearch Index

2. コアコンポーネント

  • Elasticsearchエンジン:分散検索および分析エンジン
  • 並列インデックス作成elasticsearch.helpers.parallel_bulkを使用したマルチスレッド並行処理の実装
  • テキスト分析器web_content_analyzerによるHTML清掃、標準トークン化、小文字化、ASCII折りたたみの実行

3. 主要パラメータの調整

  • スレッド数:CPUコア数を超えず、並行性とメモリ圧力のバランスを取ります
  • チャンクサイズ:式で決定 chunk_size ≤ max_chunk_size / avg_doc_size
  • 最大チャンクバイト数:バルクリクエストの最大ペイロードを制御します
  • キューサイズ:プロデューサーとコンシューマースレッド間のバッファリング不均衡

技術的な革新点

1. ARM64適応

  • OCI互換のカスタムコンテナイメージの構築
  • Dockerの互換性問題を解決し、Podmanを使用
  • SLURMジョブ定義を通じたオーケストレーションの再実装

2. HPC環境の最適化

  • メモリマッピングを無効化してカーネルパラメータ制限に対応
  • ネットワークをプロキシをバイパスするように構成し、127.0.0.1にバインド
  • SLURMジョブ分離に適応したシングルノード操作モード

3. クエリの最適化

  • match_phrase_query:設定可能な単語距離許容度(SLOPパラメータ)をサポート
  • 多段階テキスト処理:HTML清掃 → 標準トークン化 → 正規化 → ASCII折りたたみ

実験設定

データセット

Apertus訓練データサブセット(8.6Tトークン、総訓練データの58%):

データセットトークン (B)
FineWeb-Edu (Score-2)4815
FineWeb-2-HQ (33%最高品質)3557
StarCoder235
FineMath CommonCrawlサブセット32
Gutenbergおよび毒性2

クエリデータセット

  1. Weaponized Words辞書:137言語の有害語彙
  2. LDNOOBW リスト:28言語の冒涜的な語彙
  3. 化学兵器データセット:17の危険な化学試薬用語

計算環境

  • Alpsスーパーコンピュータ:HPE Cray EXシステム、434 PFlopsパフォーマンス
  • ノード構成:ARM64ベースのNVIDIA Grace Hopper GH200
  • ストレージシステム:100PB ClusterStor HDD + 3PB SSD + 1PB VAST

実験結果

インデックス作成パフォーマンス

データセットデータサイズ(GB)時間(h)インデックス速度(doc/s)インデックスオーバーヘッド比ピークメモリ(GB)
FineWeb-2 Edu (EN)12,737143.710,2961.34.9
FineWeb-2 Europe HQ2,660408.35891.17.5
StarCoder2294.210,9191.412.7

主要な発見

  • 英語テキストのインデックス作成速度は多言語データセットより大幅に高速です(10,297対589 doc/s)
  • コードデータはより多くのメモリリソースを必要とします(12.7GB対4.9GB)
  • 多言語データセットのインデックス作成オーバーヘッドはより高くなります

クエリパフォーマンス

  • クエリ時間はクエリ長の増加に伴い線形に増加します
  • 単語クエリ:<100ms
  • 300語クエリ:~1000ms
  • システムは様々なクエリ長にわたって安定したパフォーマンスを維持します

有害コンテンツ分析

多言語有害語彙統計

言語Weaponized Words (百万)LDNOOBW (百万)
英語1,245.8661.6
フランス語16.8202.5
ドイツ語9.914.9
イタリア語1.618.5

化学兵器関連用語

グリセリンや硝酸などの一般的な化学物質の出現頻度が極めて高く、専門的な化学兵器合成用語も非英語言語で顕著に出現していることが判明し、多言語データキュレーションの重要性を示しています。

関連研究

既存のLLMデータ分析ツール

  1. Data Portraits:近似メンバーシップ推論を使用して計算コストを削減
  2. 統計的サンプリング手法:Common Crawlの1%を分析するLuccioniらなど
  3. 小規模データセットツール:HuggingFaceのData Measurements、Googleの Know Your Data

大規模インデックスシステム

  1. WhatIsInMyBigData:最大1.4Tトークン(RedPajama)のインデックス
  2. Infinigram:サフィックス配列を使用、4.6Tトークンの完全一致検索をサポート
  3. ROOTSツール:1.6TB多言語コーパスの曖昧および完全一致検索

本論文の利点

  • 規模:8.6Tトークン、既存のElasticsearchベースシステムを4倍上回ります
  • 機能:曖昧検索と論理演算をサポート
  • 多言語:複数言語のセキュリティ分析をカバー

結論と考察

主要な結論

  1. 技術的実現可能性:ARM64アーキテクチャでのElasticsearchの展開の実現可能性を証明しました
  2. 規模の達成可能性:兆単位のトークンの全文インデックスは小規模チームにとって実現可能です
  3. セキュリティアプリケーション:全文インデックスはLLM訓練データの深いセキュリティ分析に使用できます

限界

  1. カバレッジ範囲:Apertus訓練データの58%のみをインデックス化しました
  2. アーキテクチャの制限:ARM64適応は依然として互換性の課題に直面しています
  3. メモリマッピング:メモリマッピングを使用できないため、I/O効率が低下します

将来の方向性

  1. 完全なインターネットインデックス:オープンウェブ全体のオフライン検索インデックスの構築
  2. LLMファクトグラウンディング:オフライン検索に基づくLLM生成コンテンツの検証
  3. 経済的および倫理的問題:コンテンツクリエイターの公正な補償メカニズム

深い評価

利点

  1. 実用的価値が高い:LLM訓練データの透明性の重要な問題を解決します
  2. 技術的貢献が顕著:兆単位のトークンのElasticsearchインデックスの初の実装
  3. オープンソースに優しい:完全なコードと詳細なデプロイメントガイドを提供
  4. セキュリティアプリケーションが明確:具体的なLLMセキュリティユースケースを実証
  5. 環境に優しい:高エネルギー効率のARM64アーキテクチャを使用し、CO2排出量はわずか90kg CO2eq

不足

  1. データカバレッジが不完全:すべての訓練データをインデックス化していません
  2. ARM64の課題:技術適応プロセスが複雑で、普及に影響する可能性があります
  3. パフォーマンストレードオフ:HPC環境への適応のためにI/Oパフォーマンスの一部を犠牲にしています
  4. セキュリティ分析の深さ:有害コンテンツの分析は比較的表面的です

影響力

  1. 学術的貢献:LLM訓練データ分析に新しい技術パスを提供します
  2. 実用的価値:LLMセキュリティ監査に直接適用できます
  3. 技術推進:エンタープライズアプリケーションでのARM64の採用を促進します
  4. 政策支援:LLM規制に技術ツールを提供します

適用シナリオ

  1. LLM開発チーム:訓練データの品質管理とセキュリティ監査
  2. 研究機関:大規模テキストデータの分析とマイニング
  3. 規制当局:LLMコンプライアンスチェックとリスク評価
  4. エンタープライズアプリケーション:コンテンツフィルタリングとデータガバナンス

参考文献

論文は、LLM訓練、データセキュリティ、全文検索など複数の分野の重要な研究を網羅した60の関連文献を引用し、研究に堅実な理論的基礎を提供しています。


総合評価:これはLLM訓練データの透明性とセキュリティ分析の重要な問題を成功裏に解決した、重要な実用的価値を持つ技術論文です。データカバレッジと技術適応の面でいくつかの制限がありますが、その開拓的な作業はこの分野に重要な技術的基礎と実践的ガイダンスを提供しています。