2025-11-11T15:01:09.602202

HPLT 3.0: Very Large-Scale Multilingual Resources for LLM and MT. Mono- and Bi-lingual Data, Multilingual Evaluation, and Pre-Trained Models

Oepen, Arefev, Aulamo et al.
We present an ongoing initiative to provide open, very large, high-quality, and richly annotated textual datasets for almost 200 languages. At 30 trillion tokens, this is likely the largest generally available multilingual collection of LLM pre-training data. These datasets are derived from web crawls from different sources and accompanied with a complete, open-source pipeline for document selection from web archives, text extraction from HTML, language identification for noisy texts, exact and near-deduplication, annotation with, among others, register labels, text quality estimates, and personally identifiable information; and final selection and filtering. We report on data quality probes through contrastive and analytical statistics, through manual inspection of samples for 24 languages, and through end-to-end evaluation of various language model architectures trained on this data. For multilingual LLM evaluation, we provide a comprehensive collection of benchmarks for nine European languages, with special emphasis on natively created tasks, mechanisms to mitigate prompt sensitivity, and refined normalization and aggregation of scores. Additionally, we train and evaluate a family of 57 monolingual encoder-decoder models, as well as a handful of monolingual GPT-like reference models. Besides the monolingual data and models, we also present a very large collection of parallel texts automatically mined from this data, together with a novel parallel corpus synthesized via machine translation.
academic

HPLT 3.0: Very Large-Scale Multilingual Resources for LLM and MT. Mono- and Bi-lingual Data, Multilingual Evaluation, and Pre-Trained Models

基本信息

  • 论文ID: 2511.01066
  • 标题: HPLT 3.0: Very Large-Scale Multilingual Resources for LLM and MT. Mono- and Bi-lingual Data, Multilingual Evaluation, and Pre-Trained Models
  • 作者: Stephan Oepen等来自多个欧洲学术机构的研究者
  • 分类: cs.CL (计算语言学)
  • 发表时间: 2025年11月
  • 论文链接: https://arxiv.org/abs/2511.01066

摘要

本文介绍了HPLT 3.0项目,这是一个旨在为近200种语言提供开放、超大规模、高质量且富含注释的文本数据集的倡议。该数据集包含30万亿个token,可能是目前最大的公开可用多语言LLM预训练数据集合。数据集来源于不同的网络爬虫,并配备了完整的开源处理流水线,包括文档选择、文本提取、语言识别、去重、质量评估等功能。

研究背景与动机

问题定义

  1. 数据稀缺问题: 大规模高质量的多语言预训练数据通常由大型企业控制,学术界缺乏可获得的资源
  2. 语言不平等: 现有数据集主要偏向英语,其他语言特别是低资源语言的数据严重不足
  3. 质量控制: 网络爬取数据质量参差不齐,需要系统的清洗和过滤机制
  4. 评估标准: 缺乏统一的多语言模型评估框架

研究重要性

  • 民主化AI: 通过开放大规模数据集,降低LLM研发的门槛
  • 多语言公平性: 为低资源语言提供更多训练数据,促进语言多样性
  • 学术研究: 为研究界提供可复现的实验基础

现有方法局限性

  • C4、FineWeb等数据集主要关注英语
  • MADLAD-400等多语言数据集规模相对较小
  • 缺乏统一的数据处理和评估标准

核心贡献

  1. 构建了30万亿token的超大规模多语言数据集,覆盖近200种语言
  2. 开发了完整的开源数据处理流水线,包括文本提取、语言识别、去重、质量评估等
  3. 提出了HPLT-E多语言评估框架,涵盖9种欧洲语言的127个任务
  4. 训练了57个单语言编码器-解码器模型和多个GPT风格的参考模型
  5. 构建了大规模平行文本数据集,包括自动挖掘和机器翻译合成的数据
  6. 提供了全面的数据质量分析,包括统计分析和人工检查

方法详解

数据收集与处理流水线

原始数据来源

  • Internet Archive (IA): 3.3 PB的2012-2020年爬虫数据
  • Common Crawl (CC): 57个完整快照(2014-2025),约7.2 PB总量

核心处理步骤

  1. 文本提取
    • 使用Trafilatura框架进行HTML文本提取
    • 优化超参数设置,优先考虑提取质量而非速度
  2. 语言识别
    • 采用OpenLID-v2模型进行语言预测
    • 支持Flores+评估集中的语言标签
    • 改进预处理流程:空格标准化、小写化、去除非词字符
  3. 去重处理
    • 对除英语、俄语、中文外的所有语言实施基于MinHash的全局近似去重
    • 大语言采用按爬虫去重以提高计算效率
  4. 质量评估与注释
    • Web Docs Scorer (WDS): 集成启发式文档过滤方法
    • 注册标签: 使用Turku网络注册分类器为104种语言添加文体标签
    • WDS等级: 将文档按质量分为{5,6,7,8,9,10}六个等级

数据打包与发布

  • 按WDS等级对每种语言的文档进行分箱和全局排序
  • 使用Zstandard压缩的JSONlines格式
  • 总计约50TB数据,分布在3000个文件中

实验设置

HPLT-E评估框架

语言选择

选择9种欧洲语言:英语、西班牙语、法语、德语、意大利语、捷克语、芬兰语、挪威语、乌克兰语等

模型训练配置

  • 架构: Llama架构的解码器模型
  • 规模: 2.15B参数,24层,32个注意力头
  • 训练数据: 每种语言100B token
  • 序列长度: 2048
  • 训练平台: LUMI超级计算机,16节点AMD MI250x GPU

评估任务

包含127个语言理解和生成任务,涵盖:

  • 文本蕴含
  • 常识推理
  • 语言特定和世界知识
  • 释义
  • 阅读理解
  • 情感分析
  • 毒性检测
  • 真实性评估

编码器-解码器模型

模型配置

  • 架构: T5-base (约275M参数)
  • 语言覆盖: 57种语言
  • 语言族: 涵盖14个语言族

评估任务

  1. 命名实体识别: WikiAnn基准测试
  2. 语言能力: MultiBLiMP基准测试

实验结果

数据集对比分析

数据集英语文档数英语Token数多语言文档数多语言Token数总Token数
HPLT 3.018B16T11B13T29T
FineWeb24B17T5.0B4.9T22T
HPLT 2.04.4B3.9T6.1B7.2T11T
MADLAD-4001.5B1.7T2.1B2.7T4.4T

多语言LLM评估结果

数据集性能对比

根据HPLT-E框架评估,模型性能排序为:

  1. MADLAD-400: 最高多语言分数
  2. HPLT 3.0: 第二位,显著优于前版本
  3. HPLT 2.0FineWeb: 性能相当

WDS质量等级实验

  • 低质量数据(底部WDS等级): 明显降低模型性能
  • 高质量数据(顶部WDS等级): 与随机采样性能相当,可能因多样性不足
  • 随机采样: 在西班牙语和法语上表现最佳

编码器-解码器模型结果

命名实体识别(WikiAnn F1分数)

语言HPLT T5mT5-baseBERT HPLT
加泰罗尼亚语92.787.494.5
捷克语91.685.291.8
英语82.177.682.7
巴斯克语92.082.892.9
芬兰语90.31.891.6

语言能力(MultiBLIMP准确率)

语言HPLT T5mT5-basemT5-xxl
加泰罗尼亚语95.691.693.0
捷克语95.988.893.4
英语94.290.695.3
巴斯克语97.494.996.0

平均性能: HPLT T5模型在MultiBLIMP上达到93.5%,显著优于mT5-base的86.8%

数据质量分析

人工检查结果(24种语言)

  • 色情内容: 大多数语言低于2%
  • 语言识别错误: 整体较低,但波斯尼亚语数据集主要为塞尔维亚语,阿斯图里亚斯语常含西班牙语
  • 非自然文本: 各语言差异较大,部分反映注释标准的主观性
  • 文本缺陷: 包括导航元素、截断文本等,比例因语言而异

统计特征改进

  • 独特段落比例: HPLT 3.0为73% vs HPLT 2.0为52%,反映全局去重的效果
  • 域名多样性: 相比HPLT 2.0减少了Wikipedia页面的过度代表
  • 地理TLD分布: 与语言使用地区高度相关

相关工作

大规模预训练数据集

  • C4: Google和Allen AI的英语为主数据集
  • FineWeb: Hugging Face的高质量网络数据
  • MADLAD-400: Google的400语言数据集
  • Nemotron-CC: Nvidia的Common Crawl精炼数据

多语言模型评估

  • 现有基准: 多数偏向英语或少数高资源语言
  • 评估挑战: 提示敏感性、跨语言一致性、文化偏见等

数据处理技术

  • 文本提取: Trafilatura等工具的发展
  • 语言识别: 从传统方法到深度学习模型
  • 去重技术: 从精确匹配到近似匹配方法

结论与讨论

主要结论

  1. 规模突破: HPLT 3.0以30万亿token成为最大的公开多语言预训练数据集
  2. 质量提升: 改进的处理流水线显著提高了数据质量,体现在模型性能上
  3. 评估创新: HPLT-E框架为多语言模型评估提供了新标准
  4. 模型贡献: 57个单语言编码器-解码器模型为社区提供了实用工具

局限性

  1. 质量评估: 尽管进行了人工检查,但大规模数据的质量评估仍然是挑战
  2. 语言覆盖: 虽然支持近200种语言,但资源分布仍不均衡
  3. 评估范围: HPLT-E框架目前仅覆盖9种欧洲语言
  4. 计算资源: 大规模训练需要大量计算资源,限制了可复现性

未来方向

  1. 数据扩展: 计划在2026年初发布包含ArchiveBot数据的扩展版本
  2. 评估扩展: 将HPLT-E框架扩展到更多语言和任务
  3. 质量改进: 继续优化数据处理流水线和质量控制机制
  4. 应用研究: 探索合成数据在低资源语言中的应用效果

深度评价

优点

  1. 规模空前: 30万亿token的规模在公开数据集中首屈一指
  2. 开放透明: 完整的开源流水线和详细的技术文档
  3. 系统性: 从数据收集到模型训练的完整生态系统
  4. 质量控制: 多层次的质量评估和人工验证机制
  5. 实用价值: 提供了可直接使用的预训练模型

不足

  1. 计算门槛: 虽然数据开放,但训练大模型仍需要大量计算资源
  2. 质量不均: 不同语言的数据质量和数量差异较大
  3. 评估局限: 人工评估样本相对较小,可能存在偏差
  4. 文化偏见: 网络数据固有的地域和文化偏见难以完全消除

影响力

  1. 学术贡献: 为多语言NLP研究提供了重要基础设施
  2. 产业影响: 降低了多语言AI应用的开发门槛
  3. 社会价值: 促进了语言多样性和AI技术的民主化
  4. 标准制定: HPLT-E评估框架可能成为行业标准

适用场景

  1. 多语言LLM预训练: 直接用于大语言模型的预训练
  2. 特定语言模型: 为低资源语言开发专门模型
  3. 跨语言研究: 支持语言学和计算语言学研究
  4. 机器翻译: 提供平行语料和单语数据
  5. 教育应用: 为语言学习和教学提供资源

技术创新点

数据处理创新

  1. 全局去重: 跨爬虫的全局近似去重,提高数据多样性
  2. 质量分级: WDS评分系统提供细粒度的质量控制
  3. 多维注释: 结合注册标签、质量评估、PII检测等多种注释

评估方法创新

  1. 多提示设计: 每个任务支持3-7个人工编写的提示,减少提示敏感性
  2. 任务选择标准: 基于单调性、稳定性等七个标准选择评估任务
  3. 聚合方法: 结合平均分数、排名和Borda计数的多种聚合方式

模型训练创新

  1. 语言特定模型: 为57种语言分别训练专门的编码器-解码器模型
  2. 中间检查点: 提供训练过程中的中间检查点,支持学习过程研究
  3. 合成数据: 通过机器翻译生成额外的预训练数据

参考文献

本文引用了大量相关工作,主要包括:

  • Raffel et al. (2020): T5模型和C4数据集
  • Penedo et al. (2024, 2025): FineWeb数据集系列
  • Kudugunta et al. (2023): MADLAD-400数据集
  • Burchell et al. (2025): HPLT 2.0数据集
  • 多个多语言评估基准测试相关论文

总结: HPLT 3.0项目代表了多语言NLP领域的重要里程碑,不仅在数据规模上实现了突破,更在开放性、质量控制和评估标准方面树立了新的标杆。虽然仍存在一些局限性,但其对促进多语言AI技术的民主化和发展具有重要意义。