2025-11-24T17:34:17.619375

Same model, better performance: the impact of shuffling on DNA Language Models benchmarking

Greco, Rawlik

Large Language Models are increasingly popular in genomics due to their potential to decode complex biological sequences. Hence, researchers require a standardized benchmark to evaluate DNA Language Models (DNA LMs) capabilities. However, evaluating DNA LMs is a complex task that intersects genomic's domain-specific challenges and machine learning methodologies, where seemingly minor implementation details can significantly compromise benchmark validity. We demonstrate this through BEND (Benchmarking DNA Language Models), where hardware-dependent hyperparameters -- number of data loading workers and buffer sizes -- create spurious performance variations of up to 4% for identical models. The problem stems from inadequate data shuffling interacting with domain specific data characteristics. Experiments with three DNA language models (HyenaDNA, DNABERT-2, ResNet-LM) show these artifacts affect both absolute performance and relative model rankings. We propose a simple solution: pre-shuffling data before storage eliminates hardware dependencies while maintaining efficiency. This work highlights how standard ML practices can interact unexpectedly with domain-specific data characteristics, with broader implications for benchmark design in specialized domains.

academic

Same model, better performance: the impact of shuffling on DNA Language Models benchmarking

基本信息

论文ID: 2510.12617
标题: Same model, better performance: the impact of shuffling on DNA Language Models benchmarking
作者: Davide Greco, Konrad Rawlik (University of Edinburgh, Baillie Gifford Pandemic Science Hub)
分类: q-bio.GN cs.LG
发表时间: October 15, 2025 (arXiv preprint)
论文链接: https://arxiv.org/abs/2510.12617

摘要

大型语言模型在基因组学中越来越受欢迎，因为它们具有解码复杂生物序列的潜力。因此，研究人员需要标准化的基准来评估DNA语言模型(DNA LMs)的能力。然而，评估DNA LMs是一项复杂的任务，涉及基因组学领域特定挑战和机器学习方法论的交叉，其中看似微小的实现细节可能会显著损害基准的有效性。作者通过BEND(DNA语言模型基准测试)证明了这一点，其中硬件相关的超参数——数据加载工作器数量和缓冲区大小——为相同模型创建了高达4%的虚假性能变化。问题源于不充分的数据洗牌与领域特定数据特征的相互作用。使用三个DNA语言模型(HyenaDNA、DNABERT-2、ResNet-LM)的实验表明，这些伪影既影响绝对性能又影响相对模型排名。作者提出了一个简单的解决方案：在存储前预洗牌数据可以消除硬件依赖性，同时保持效率。

研究背景与动机

核心问题

本研究要解决的核心问题是DNA语言模型基准测试中的实现偏差问题。具体而言：

硬件依赖性：基准测试结果受到硬件相关超参数（工作器数量、缓冲区大小）的影响
数据洗牌不充分：由于基因组数据的特殊性质（空间依赖性、序列重叠），标准的机器学习实践可能产生意外的偏差
评估公平性：不同计算资源的研究者可能获得不同的基准结果，损害评估的公平性

问题重要性

科学进步的基础：标准化基准是机器学习科学进步的基础，使研究者能够比较方法、跟踪改进
新兴领域的挑战：在基因组学等新兴领域，领域特定知识稀缺，基准设计原则仍在建立中
资源公平性：确保基准测试不偏向于拥有更好计算资源的研究者

现有方法局限性

BEND基准框架虽然提供了全面的监督基因组任务套件，但存在以下问题：

采用复杂的数据加载机制，通过两级洗牌策略处理大规模数据集
引入了对硬件特定超参数的依赖
与基因组数据固有特征（连续DNA序列样本间的显著重叠）结合时，导致数据洗牌不充分

核心贡献

发现并量化了基准测试中的系统性偏差：证明了硬件相关超参数可导致相同模型产生高达4%的性能变化
提供了具体的问题分析：深入分析了WebDataset框架中数据洗牌机制与基因组数据特征的相互作用
提出了简单有效的解决方案：预洗牌方法可以消除硬件依赖性，同时保持或提高所有任务的性能
跨架构验证：在三种不同的DNA语言模型架构上验证了问题的普遍性和解决方案的有效性
提供了基准设计的最佳实践指导：为专业领域的基准设计提供了具体的经验和建议

方法详解

问题分析

BEND框架的数据处理流程

嵌入生成：从参考基因组中提取DNA序列并使用语言模型生成嵌入
下游模型训练：使用生成的嵌入配对标签训练下游模型
评估：下游模型处理测试集的嵌入DNA序列并与真实标签比较

WebDataset存储和加载机制

BEND使用WebDataset框架来存储、加载和洗牌嵌入：

分片存储：嵌入存储在.tar文件（分片）中
工作器分配：每个分片分配给单个工作器
缓冲区洗牌：每个工作器有自己的缓冲区，仅洗牌分配给该工作器的分片中的样本

数据访问模式分析

论文通过可视化分析了不同配置下的数据访问模式：

无洗牌：顺序访问数据
BEND（1个工作器）：分片按顺序访问，内部顺序读取
BEND（最大工作器）：多个分片并行访问，提高批次间样本多样性但不影响批次内多样性
预洗牌：无论工作器数量如何，都能保证良好的样本多样性

解决方案：预洗牌方法

核心思想

在数据存储到分片之前，对数据注释进行洗牌，确保来自数据集任何部分的样本都可以存储在任何分片中。

实现细节

预处理阶段：在生成嵌入之前洗牌序列注释
存储阶段：将洗牌后的数据存储到分片中
加载阶段：正常的WebDataset加载流程，但由于数据已预洗牌，工作器数量不再影响样本多样性

优势

硬件无关性：消除了对工作器数量和缓冲区大小的依赖
效率保持：不改变BEND的实现细节，保持原有效率
性能提升：在所有任务上保持或提高性能

实验设置

数据集

使用BEND基准框架中的七个任务：

监督任务：CpG甲基化、组蛋白修饰、染色质可及性、基因发现、增强子注释
无监督任务：表达和疾病的非编码变异效应预测

模型

测试了三种不同架构的DNA语言模型：

HyenaDNA-tiny-1k：基于Hyena架构的模型
DNABERT-2：基于BERT的DNA语言模型
ResNet-LM：BEND提出的基线模型

评价指标

AUROC：用于CpG甲基化和组蛋白修饰任务
MCC：用于基因发现任务

实验设计

超参数影响实验：比较不同工作器数量和缓冲区大小对性能的影响
跨架构验证：在三种模型架构上验证预洗牌方法的效果
数据特征分析：分析不同任务中连续序列的重叠情况

实验结果

主要结果

超参数影响

表1：HyenaDNA-tiny-1k在不同超参数配置下的测试结果

任务	指标	最大工作器	1个工作器	1000缓冲区	无缓冲区
CpG甲基化	AUROC	0.878	0.868	-	-
组蛋白修饰	AUROC	0.766	0.756	-	-
基因发现	MCC	-	-	0.115	0.076

预洗牌结果：所有配置下都达到了最佳或接近最佳性能，消除了硬件依赖性。

跨架构验证

表2：CpG甲基化任务上三种模型的对比结果（AUROC）

模型	BEND	预洗牌	提升
HyenaDNA-tiny-1k	0.868	0.900	+3.2%
DNABERT-2	0.893	0.910	+1.7%
ResNet-LM	0.890	0.919	+2.9%

关键发现

数据重叠分析

表3：各任务中连续序列重叠情况

任务	重叠序列百分比	中位重叠核苷酸百分比	加权重叠百分比
CpG甲基化	51.88%	87.70%	45.50%
组蛋白修饰	17.03%	19.92%	3.39%
基因发现	7.09%	12.39%	0.88%
增强子注释	1.75%	49.27%	0.86%
染色质可及性	28.29%	20.31%	5.75%

CpG甲基化任务显示出最高的序列重叠度，这解释了为什么该任务从预洗牌中获益最多。

模型排名变化

预洗牌不仅提高了绝对性能，还改变了模型的相对排名：

BEND配置下：DNABERT-2 ≈ ResNet-LM > HyenaDNA-tiny-1k
预洗牌后：ResNet-LM > DNABERT-2 > HyenaDNA-tiny-1k

结论与讨论

主要结论

硬件依赖问题：基于计算资源选择的超参数（工作器数量和缓冲区大小）会无意中影响基准测试结果
架构无关性：不同骨干架构的模型都从适当的洗牌中受益，性能提升高达4%
排名影响：不适当的洗牌不仅影响绝对性能，还会改变模型间的相对排名
简单有效的解决方案：预洗牌数据是将基准性能与硬件特定超参数解耦的简单修复方法

局限性

特定框架：研究主要针对BEND框架，其他基准框架可能有不同的问题
任务覆盖：虽然测试了多个任务，但仍局限于BEND提供的任务集合
模型范围：仅测试了三种模型架构，可能无法涵盖所有类型的DNA语言模型

未来方向

扩展到其他基准：将发现的问题和解决方案应用到其他生物信息学基准
自动化检测：开发工具自动检测基准实现中的潜在偏差
最佳实践指南：为专业领域的基准设计制定更全面的指导原则

深度评价

优点

实用价值高：发现了实际基准测试中的重要问题，提供了立即可用的解决方案
分析深入：通过可视化和定量分析清晰展示了问题的根源
验证充分：在多个模型和任务上验证了问题的普遍性和解决方案的有效性
写作清晰：论文结构清晰，问题描述和解决方案都很容易理解
开源贡献：提供了公开的代码实现

不足

问题发现的偶然性：论文没有提供系统性方法来预防或检测类似问题
理论分析不足：缺乏对为什么某些任务比其他任务更受影响的理论解释
解决方案的局限性：预洗牌虽然有效，但可能不适用于所有类型的序列数据
计算成本分析：没有详细分析预洗牌方法的计算开销

影响力

对领域的贡献：为DNA语言模型评估提供了重要的方法论改进
实用价值：直接改善了BEND基准的可靠性，惠及整个研究社区
可复现性：提供了详细的实现和开源代码，易于复现和应用
启发意义：为其他专业领域的基准设计提供了有价值的经验

适用场景

基因组学研究：所有使用BEND基准的DNA语言模型研究
序列建模：其他涉及序列重叠的时间序列或序列建模任务
基准设计：需要处理大规模数据集的基准框架设计
分布式训练：需要考虑数据加载和洗牌策略的分布式机器学习系统

参考文献

Marin et al. (2024). BEND: Benchmarking DNA language models on biologically meaningful tasks.
Aizman et al. (2020). High performance I/O for large scale deep learning.
Nguyen et al. (2023). HyenaDNA: Long-range genomic sequence modeling at single nucleotide resolution.
Zhou et al. (2023). DNABERT-2: Efficient foundation model and benchmark for multi-species genome.

总结：这篇论文发现并解决了DNA语言模型基准测试中的一个重要实践问题，虽然问题本身相对简单，但其影响深远。论文的价值在于提醒研究社区注意看似微小的实现细节可能对基准结果产生的重大影响，并提供了实用的解决方案。这对于确保基准测试的公平性和可靠性具有重要意义。