2025-11-22T04:49:16.383386

Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World

Marinas, Kucherenko, Sternfeld et al.

The performance of Large Language Models (LLMs) is determined by their training data. Despite the proliferation of open-weight LLMs, access to LLM training data has remained limited. Even for fully open LLMs, the scale of the data makes it all but inscrutable to the general scientific community, despite potentially containing critical data scraped from the internet. In this paper, we present the full-text indexing pipeline for the Apertus LLM training data. Leveraging Elasticsearch parallel indices and the Alps infrastructure, a state-of-the-art, highly energy-efficient arm64 supercluster, we were able to index 8.6T tokens out of 15.2T used to train the Apertus LLM family, creating both a critical LLM safety tool and effectively an offline, curated, open web search engine. Our contribution is threefold. First, we demonstrate that Elasticsearch can be successfully ported onto next-generation arm64-based infrastructure. Second, we demonstrate that full-text indexing at the scale of modern LLM training datasets and the entire open web is feasible and accessible. Finally, we demonstrate that such indices can be used to ensure previously inaccessible jailbreak-agnostic LLM safety. We hope that our findings will be useful to other teams attempting large-scale data indexing and facilitate the general transition towards greener computation.

academic

Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World

基本信息

论文ID: 2510.09471
标题: Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World
作者: Inés Altemir Mariñas (EPFL), Anastasiia Kucherenko (HES-SO Valais-Wallis), Alexander Sternfeld (HES-SO Valais-Wallis), Andrei Kucharavy (HES-SO Valais-Wallis)
分类: cs.CL (计算语言学)
发表会议: WWW '26 (The Web Conference 2026)
论文链接: https://arxiv.org/abs/2510.09471

摘要

大型语言模型(LLMs)的性能取决于其训练数据。尽管开放权重LLMs日益增多，但LLM训练数据的访问仍然受限。即使对于完全开放的LLMs，数据规模也使得普通科学界难以深入分析，尽管可能包含从互联网抓取的关键数据。本文展示了Apertus LLM训练数据的全文索引管道。利用Elasticsearch并行索引和Alps基础设施(一个最先进的高能效arm64超级集群)，成功索引了用于训练Apertus LLM系列的15.2T tokens中的8.6T tokens，创建了一个关键的LLM安全工具和离线的、精选的开放网络搜索引擎。

研究背景与动机

核心问题

训练数据透明度缺失：尽管开放权重LLMs日益普及，但训练数据仍然难以获取和分析
数据规模挑战：现代LLM训练数据规模巨大(万亿级tokens)，使得系统性检查几乎不可能
安全隐患：训练数据可能包含有害内容，如个人信息、版权材料、有毒语言、甚至危险信息

研究重要性

LLM安全性：训练数据中的问题内容会直接影响模型行为，导致有害输出
透明度需求：科学界和监管机构需要能够审查LLM训练数据
合规要求：需要识别和移除版权内容、个人信息等

现有方法局限性

采样分析：现有工具多基于小样本(如1%的Common Crawl)，无法保证全面覆盖
规模限制：之前最大的全文索引(Infinigram)仅支持4.6T tokens，且只支持精确匹配
功能受限：缺乏模糊搜索和逻辑操作能力

核心贡献

ARM64架构迁移：首次展示Elasticsearch在ARM64-based GH200 HPC系统上的成功部署
大规模索引实现：索引8.6T tokens数据集，是之前Elasticsearch-based索引的4倍，总体规模的2倍
LLM安全应用：演示了全文索引在LLM安全和安全性用例中的应用，提供无需越狱的安全保障
开源贡献：提供完整的开源代码和性能基准，支持未来研究

方法详解

任务定义

构建一个能够对万亿级tokens的LLM训练数据进行全文搜索的系统，支持：

精确和模糊匹配
多语言内容搜索
逻辑操作和复杂查询
实时搜索响应

系统架构

1. 数据处理管道

Raw Parquet Files → Stream Processing → Text Analysis → Elasticsearch Index

2. 核心组件

Elasticsearch引擎：分布式搜索和分析引擎
并行索引：使用elasticsearch.helpers.parallel_bulk实现多线程并发处理
文本分析器：web_content_analyzer执行HTML清理、标准分词、小写化、ASCII折叠

3. 关键参数调优

线程数量：不超过CPU核心数，平衡并发性和内存压力
块大小：由公式确定 chunk_size ≤ max_chunk_size / avg_doc_size
最大块字节数：控制批量请求的最大负载
队列大小：缓冲生产者和消费者线程间的不平衡

技术创新点

1. ARM64适配

构建OCI兼容的自定义容器镜像
解决Docker兼容性问题，使用Podman替代
通过SLURM作业定义重新实现编排

2. HPC环境优化

禁用内存映射以适应内核参数限制
配置网络绕过代理，绑定到127.0.0.1
单节点操作模式适配SLURM作业隔离

3. 查询优化

match_phrase_query：支持可配置的词距容忍度(SLOP参数)
多级文本处理：HTML清理 → 标准分词 → 规范化 → ASCII折叠

实验设置

数据集

Apertus训练数据子集 (8.6T tokens，占总训练数据58%)：

数据集	Tokens (B)
FineWeb-Edu (Score-2)	4815
FineWeb-2-HQ (33%最高质量)	3557
StarCoder	235
FineMath CommonCrawl子集	32
Gutenberg和Poison	2

查询数据集

Weaponized Words词典：137种语言的有害词汇
LDNOOBW列表：28种语言的亵渎词汇
化学武器数据集：17个危险化学试剂术语

计算环境

Alps超级计算机：HPE Cray EX系统，434 PFlops性能
节点配置：ARM64-based NVIDIA Grace Hopper GH200
存储系统：100PB ClusterStor HDD + 3PB SSD + 1PB VAST

实验结果

索引性能

数据集	数据大小(GB)	时间(h)	索引速率(doc/s)	索引开销比	峰值内存(GB)
FineWeb-2 Edu (EN)	12,737	143.7	10,296	1.3	4.9
FineWeb-2 Europe HQ	2,660	408.3	589	1.1	7.5
StarCoder	229	4.2	10,919	1.4	12.7

关键发现：

英语文本索引速度显著快于多语言数据集(10,297 vs 589 doc/s)
代码数据需要更多内存资源(12.7GB vs 4.9GB)
多语言数据集索引开销更高

查询性能

查询时间随查询长度增加呈线性增长
单词查询：<100ms
300词查询：~1000ms
系统在各种查询长度下保持稳定性能

有害内容分析

多语言有害词汇统计

语言	Weaponized Words (百万)	LDNOOBW (百万)
英语	1,245.8	661.6
法语	16.8	202.5
德语	9.9	14.9
意大利语	1.6	18.5

化学武器相关术语

发现常见化学物质(如甘油、硝酸)出现频率极高，而专门的化武合成术语在非英语语言中也有显著出现，表明多语言数据策划的重要性。

结论与讨论

主要结论

技术可行性：证明了在ARM64架构上部署Elasticsearch的可行性
规模可达性：万亿级tokens的全文索引对小团队是可实现的
安全应用：全文索引可用于LLM训练数据的深度安全分析

局限性

覆盖范围：仅索引了58%的Apertus训练数据
架构限制：ARM64适配仍面临兼容性挑战
内存映射：无法使用内存映射导致I/O效率降低

未来方向

完整互联网索引：构建整个开放网络的离线搜索索引
LLM事实根植：基于离线搜索的LLM生成内容验证
经济伦理问题：内容创作者的公平补偿机制

深度评价

优点

实用价值高：解决了LLM训练数据透明度的重要问题
技术贡献显著：首次实现万亿级tokens的Elasticsearch索引
开源友好：提供完整代码和详细部署指南
安全应用明确：展示了具体的LLM安全用例
环境友好：使用高能效ARM64架构，碳排放仅90kg CO2eq

不足

数据覆盖不完整：未索引全部训练数据
ARM64挑战：技术适配过程复杂，可能影响推广
性能权衡：为适配HPC环境牺牲了部分I/O性能
安全分析深度：对有害内容的分析相对表面

影响力

学术贡献：为LLM训练数据分析提供了新的技术路径
实用价值：可直接应用于LLM安全审计
技术推广：促进ARM64在企业应用中的采用
政策支持：为LLM监管提供技术工具

适用场景

LLM开发团队：训练数据质量控制和安全审计
研究机构：大规模文本数据分析和挖掘
监管机构：LLM合规性检查和风险评估
企业应用：内容过滤和数据治理

参考文献

论文引用了60篇相关文献，涵盖了LLM训练、数据安全、全文搜索等多个领域的重要工作，为研究提供了坚实的理论基础。

总体评价：这是一篇具有重要实用价值的技术论文，成功解决了LLM训练数据透明度和安全性分析的关键问题。虽然在数据覆盖和技术适配方面存在一些局限，但其开创性的工作为该领域提供了重要的技术基础和实践指南。