2025-11-24T17:34:17.619375

Same model, better performance: the impact of shuffling on DNA Language Models benchmarking

Greco, Rawlik

Large Language Models are increasingly popular in genomics due to their potential to decode complex biological sequences. Hence, researchers require a standardized benchmark to evaluate DNA Language Models (DNA LMs) capabilities. However, evaluating DNA LMs is a complex task that intersects genomic's domain-specific challenges and machine learning methodologies, where seemingly minor implementation details can significantly compromise benchmark validity. We demonstrate this through BEND (Benchmarking DNA Language Models), where hardware-dependent hyperparameters -- number of data loading workers and buffer sizes -- create spurious performance variations of up to 4% for identical models. The problem stems from inadequate data shuffling interacting with domain specific data characteristics. Experiments with three DNA language models (HyenaDNA, DNABERT-2, ResNet-LM) show these artifacts affect both absolute performance and relative model rankings. We propose a simple solution: pre-shuffling data before storage eliminates hardware dependencies while maintaining efficiency. This work highlights how standard ML practices can interact unexpectedly with domain-specific data characteristics, with broader implications for benchmark design in specialized domains.

academic

Stesso modello, prestazioni migliori: l'impatto dello shuffling nei benchmark dei modelli linguistici del DNA

Informazioni di base

ID articolo: 2510.12617
Titolo: Same model, better performance: the impact of shuffling on DNA Language Models benchmarking
Autori: Davide Greco, Konrad Rawlik (University of Edinburgh, Baillie Gifford Pandemic Science Hub)
Classificazione: q-bio.GN cs.LG
Data di pubblicazione: 15 ottobre 2025 (preprint arXiv)
Link articolo: https://arxiv.org/abs/2510.12617

Riassunto

I modelli linguistici di grandi dimensioni stanno diventando sempre più popolari in genomica grazie al loro potenziale nel decodificare sequenze biologiche complesse. Di conseguenza, i ricercatori necessitano di benchmark standardizzati per valutare le capacità dei modelli linguistici del DNA (DNA LMs). Tuttavia, la valutazione dei DNA LMs è un compito complesso che comporta l'intersezione tra sfide specifiche del dominio della genomica e metodologie di apprendimento automatico, dove dettagli implementativi apparentemente minori possono compromettere significativamente la validità del benchmark. Gli autori dimostrano questo attraverso BEND (Benchmarking DNA Language Models), dove iperparametri correlati all'hardware—numero di worker di caricamento dati e dimensione del buffer—creano variazioni di prestazioni fittizie fino al 4% per lo stesso modello. Il problema deriva dall'interazione tra uno shuffling dei dati insufficiente e caratteristiche dei dati specifiche del dominio. Gli esperimenti con tre modelli linguistici del DNA (HyenaDNA, DNABERT-2, ResNet-LM) dimostrano che questi artefatti influenzano sia le prestazioni assolute che la classifica relativa dei modelli. Gli autori propongono una soluzione semplice: lo pre-shuffling dei dati prima dell'archiviazione elimina la dipendenza dall'hardware mantenendo l'efficienza.

Contesto di ricerca e motivazione

Problema centrale

Il problema centrale che questa ricerca affronta è il problema della distorsione implementativa nei benchmark dei modelli linguistici del DNA. Nello specifico:

Dipendenza dall'hardware: i risultati del benchmark sono influenzati da iperparametri correlati all'hardware (numero di worker, dimensione del buffer)
Shuffling dei dati insufficiente: a causa della natura speciale dei dati genomici (dipendenza spaziale, sovrapposizione di sequenze), le pratiche standard di apprendimento automatico possono produrre distorsioni inaspettate
Equità della valutazione: i ricercatori con risorse computazionali diverse potrebbero ottenere risultati di benchmark diversi, compromettendo l'equità della valutazione

Importanza del problema

Fondamento del progresso scientifico: i benchmark standardizzati sono la base del progresso scientifico nell'apprendimento automatico, consentendo ai ricercatori di confrontare metodi e tracciare i miglioramenti
Sfide nei campi emergenti: in campi emergenti come la genomica, la conoscenza specifica del dominio è scarsa e i principi di progettazione dei benchmark sono ancora in fase di sviluppo
Equità delle risorse: garantire che i benchmark non favoriscano i ricercatori con migliori risorse computazionali

Limitazioni degli approcci esistenti

Sebbene il framework di benchmark BEND fornisca una suite completa di compiti genomici supervisionati, presenta i seguenti problemi:

Impiega meccanismi complessi di caricamento dati con una strategia di shuffling a due livelli per gestire set di dati su larga scala
Introduce dipendenze da iperparametri specifici dell'hardware
Quando combinato con caratteristiche intrinseche dei dati genomici (sovrapposizione significativa tra campioni di sequenze DNA continue), risulta in uno shuffling dei dati insufficiente

Contributi principali

Scoperta e quantificazione della distorsione sistematica nei benchmark: dimostra che gli iperparametri correlati all'hardware possono causare variazioni di prestazioni fino al 4% per lo stesso modello
Analisi concreta del problema: analisi approfondita dell'interazione tra il meccanismo di shuffling del framework WebDataset e le caratteristiche dei dati genomici
Proposta di una soluzione semplice ed efficace: il metodo di pre-shuffling può eliminare la dipendenza dall'hardware mantenendo o migliorando le prestazioni su tutti i compiti
Verifica tra architetture: verifica dell'universalità del problema e dell'efficacia della soluzione su tre diverse architetture di modelli linguistici del DNA
Fornitura di linee guida sulle migliori pratiche per la progettazione di benchmark: fornisce esperienze concrete e raccomandazioni per la progettazione di benchmark in domini specializzati

Dettagli metodologici

Analisi del problema

Flusso di elaborazione dei dati del framework BEND

Generazione di embedding: estrazione di sequenze di DNA dal genoma di riferimento e generazione di embedding utilizzando il modello linguistico
Addestramento del modello downstream: utilizzo degli embedding generati abbinati alle etichette per addestrare il modello downstream
Valutazione: il modello downstream elabora gli embedding delle sequenze di DNA del set di test e li confronta con le etichette vere

Meccanismo di archiviazione e caricamento di WebDataset

BEND utilizza il framework WebDataset per archiviare, caricare e mescolare gli embedding:

Archiviazione in frammenti: gli embedding sono archiviati in file .tar (frammenti)
Assegnazione dei worker: ogni frammento è assegnato a un singolo worker
Shuffling del buffer: ogni worker ha il proprio buffer, mescolando solo i campioni nei frammenti assegnati a quel worker

Analisi dei modelli di accesso ai dati

L'articolo analizza attraverso visualizzazione i modelli di accesso ai dati in diverse configurazioni:

Senza shuffling: accesso sequenziale ai dati
BEND (1 worker): i frammenti sono accessibili sequenzialmente, lettura sequenziale interna
BEND (worker massimi): accesso parallelo a più frammenti, aumentando la diversità dei campioni tra batch ma non all'interno dei batch
Pre-shuffling: garantisce buona diversità dei campioni indipendentemente dal numero di worker

Soluzione: metodo di pre-shuffling

Idea centrale

Mescolare le annotazioni dei dati prima dell'archiviazione nei frammenti, garantendo che campioni da qualsiasi parte del set di dati possano essere archiviati in qualsiasi frammento.

Dettagli implementativi

Fase di pre-elaborazione: shuffling delle annotazioni di sequenza prima della generazione degli embedding
Fase di archiviazione: archiviazione dei dati mescolati nei frammenti
Fase di caricamento: flusso di caricamento WebDataset normale, ma poiché i dati sono già pre-mescolati, il numero di worker non influenza più la diversità dei campioni

Vantaggi

Indipendenza dall'hardware: elimina la dipendenza dal numero di worker e dalla dimensione del buffer
Mantenimento dell'efficienza: non modifica i dettagli implementativi di BEND, mantenendo l'efficienza originale
Miglioramento delle prestazioni: mantiene o migliora le prestazioni su tutti i compiti

Configurazione sperimentale

Set di dati

Utilizzo di sette compiti dal framework di benchmark BEND:

Compiti supervisionati: metilazione CpG, modifiche istoniche, accessibilità della cromatina, scoperta genica, annotazione di enhancer
Compiti non supervisionati: previsione dell'effetto di varianti non codificanti sull'espressione e sulla malattia

Modelli

Test di tre modelli linguistici del DNA con architetture diverse:

HyenaDNA-tiny-1k: modello basato su architettura Hyena
DNABERT-2: modello linguistico del DNA basato su BERT
ResNet-LM: modello di base proposto da BEND

Metriche di valutazione

AUROC: per compiti di metilazione CpG e modifiche istoniche
MCC: per compiti di scoperta genica

Progettazione sperimentale

Esperimento di impatto degli iperparametri: confronto dell'impatto del numero di worker e della dimensione del buffer sulle prestazioni
Verifica tra architetture: verifica dell'effetto del metodo di pre-shuffling su tre architetture di modelli
Analisi delle caratteristiche dei dati: analisi della sovrapposizione di sequenze continue in diversi compiti

Risultati sperimentali

Risultati principali

Impatto degli iperparametri

Tabella 1: Risultati di test di HyenaDNA-tiny-1k in diverse configurazioni di iperparametri

Compito	Metrica	Worker massimi	1 worker	Buffer 1000	Nessun buffer
Metilazione CpG	AUROC	0.878	0.868	-	-
Modifiche istoniche	AUROC	0.766	0.756	-	-
Scoperta genica	MCC	-	-	0.115	0.076

Risultati pre-shuffling: tutte le configurazioni raggiungono prestazioni ottimali o quasi ottimali, eliminando la dipendenza dall'hardware.

Verifica tra architetture

Tabella 2: Risultati comparativi di tre modelli sul compito di metilazione CpG (AUROC)

Modello	BEND	Pre-shuffling	Miglioramento
HyenaDNA-tiny-1k	0.868	0.900	+3.2%
DNABERT-2	0.893	0.910	+1.7%
ResNet-LM	0.890	0.919	+2.9%

Scoperte chiave

Analisi della sovrapposizione dei dati

Tabella 3: Situazione di sovrapposizione di sequenze continue in diversi compiti

Compito	Percentuale di sequenze sovrapposte	Percentuale mediana di nucleotidi sovrapposti	Percentuale di sovrapposizione ponderata
Metilazione CpG	51.88%	87.70%	45.50%
Modifiche istoniche	17.03%	19.92%	3.39%
Scoperta genica	7.09%	12.39%	0.88%
Annotazione di enhancer	1.75%	49.27%	0.86%
Accessibilità della cromatina	28.29%	20.31%	5.75%

Il compito di metilazione CpG mostra il più alto grado di sovrapposizione di sequenze, il che spiega perché questo compito beneficia maggiormente del pre-shuffling.

Variazioni nella classifica dei modelli

Il pre-shuffling non solo migliora le prestazioni assolute, ma cambia anche la classifica relativa dei modelli:

Configurazione BEND: DNABERT-2 ≈ ResNet-LM > HyenaDNA-tiny-1k
Dopo pre-shuffling: ResNet-LM > DNABERT-2 > HyenaDNA-tiny-1k

Lavori correlati

Framework di benchmark

BEND: primo framework di benchmark completo dedicato specificamente ai modelli linguistici del DNA
WebDataset: framework di apprendimento profondo per I/O ad alte prestazioni su larga scala

Modelli linguistici del DNA

HyenaDNA: modellazione di sequenze genomiche a lungo raggio, risoluzione a singolo nucleotide
DNABERT-2: modello di base efficiente per genomi multi-specie
ResNet-LM: modello di base basato su reti residue

Migliori pratiche nella progettazione di benchmark

L'articolo contribuisce all'esperienza pratica nel campo della progettazione di benchmark, in particolare nei casi in cui le pratiche standard di ML possono avere conseguenze inaspettate in domini specializzati.

Conclusioni e discussione

Conclusioni principali

Problema della dipendenza dall'hardware: gli iperparametri scelti in base alle risorse computazionali (numero di worker e dimensione del buffer) influenzano involontariamente i risultati dei benchmark
Indipendenza dall'architettura: modelli con diverse architetture di backbone beneficiano tutti da uno shuffling appropriato, con miglioramenti di prestazioni fino al 4%
Impatto sulla classifica: uno shuffling inappropriato non solo influenza le prestazioni assolute, ma cambia anche la classifica relativa tra i modelli
Soluzione semplice ed efficace: il pre-shuffling dei dati è una correzione semplice per disaccoppiare le prestazioni del benchmark dai iperparametri specifici dell'hardware

Limitazioni

Framework specifico: la ricerca si concentra principalmente sul framework BEND, altri framework di benchmark potrebbero avere problemi diversi
Copertura dei compiti: sebbene siano stati testati più compiti, rimangono limitati all'insieme di compiti forniti da BEND
Portata dei modelli: sono state testate solo tre architetture di modelli, potrebbe non coprire tutti i tipi di modelli linguistici del DNA

Direzioni future

Estensione ad altri benchmark: applicazione delle scoperte e delle soluzioni ad altri benchmark di bioinformatica
Rilevamento automatico: sviluppo di strumenti per rilevare automaticamente potenziali distorsioni nell'implementazione dei benchmark
Linee guida sulle migliori pratiche: formulazione di principi guida più completi per la progettazione di benchmark in domini specializzati

Valutazione approfondita

Punti di forza

Alto valore pratico: scopre importanti problemi nei benchmark effettivi e fornisce soluzioni immediatamente utilizzabili
Analisi approfondita: mostra chiaramente le radici del problema attraverso visualizzazione e analisi quantitativa
Verifica sufficiente: verifica l'universalità del problema e l'efficacia della soluzione su più modelli e compiti
Scrittura chiara: la struttura dell'articolo è chiara, sia la descrizione del problema che la soluzione sono facili da comprendere
Contributo open source: fornisce implementazione di codice pubblico

Insufficienze

Casualità nella scoperta del problema: l'articolo non fornisce un metodo sistematico per prevenire o rilevare problemi simili
Analisi teorica insufficiente: manca una spiegazione teorica del perché alcuni compiti sono più colpiti di altri
Limitazioni della soluzione: sebbene il pre-shuffling sia efficace, potrebbe non essere applicabile a tutti i tipi di dati di sequenza
Analisi dei costi computazionali: manca un'analisi dettagliata dei costi computazionali del metodo di pre-shuffling

Impatto

Contributo al campo: fornisce un importante miglioramento metodologico per la valutazione dei modelli linguistici del DNA
Valore pratico: migliora direttamente l'affidabilità del benchmark BEND, a beneficio dell'intera comunità di ricerca
Riproducibilità: fornisce implementazione dettagliata e codice open source, facile da riprodurre e applicare
Significato ispiratore: fornisce preziose esperienze per la progettazione di benchmark in altri domini specializzati

Scenari applicabili

Ricerca genomica: tutta la ricerca sui modelli linguistici del DNA che utilizza il benchmark BEND
Modellazione di sequenze: altri compiti di modellazione di serie temporali o sequenze che coinvolgono sovrapposizione di sequenze
Progettazione di benchmark: progettazione di framework di benchmark che necessitano di gestire set di dati su larga scala
Addestramento distribuito: sistemi di apprendimento automatico distribuito che necessitano di considerare strategie di caricamento e shuffling dei dati

Riferimenti bibliografici

Marin et al. (2024). BEND: Benchmarking DNA language models on biologically meaningful tasks.
Aizman et al. (2020). High performance I/O for large scale deep learning.
Nguyen et al. (2023). HyenaDNA: Long-range genomic sequence modeling at single nucleotide resolution.
Zhou et al. (2023). DNABERT-2: Efficient foundation model and benchmark for multi-species genome.

Sintesi: Questo articolo scopre e risolve un importante problema pratico nei benchmark dei modelli linguistici del DNA. Sebbene il problema stesso sia relativamente semplice, il suo impatto è profondo. Il valore dell'articolo risiede nel ricordare alla comunità di ricerca che dettagli implementativi apparentemente minori possono avere un impatto significativo sui risultati dei benchmark, e fornisce una soluzione pratica. Questo è di grande importanza per garantire l'equità e l'affidabilità dei benchmark.