Large Language Models are increasingly popular in genomics due to their potential to decode complex biological sequences. Hence, researchers require a standardized benchmark to evaluate DNA Language Models (DNA LMs) capabilities. However, evaluating DNA LMs is a complex task that intersects genomic's domain-specific challenges and machine learning methodologies, where seemingly minor implementation details can significantly compromise benchmark validity. We demonstrate this through BEND (Benchmarking DNA Language Models), where hardware-dependent hyperparameters -- number of data loading workers and buffer sizes -- create spurious performance variations of up to 4% for identical models. The problem stems from inadequate data shuffling interacting with domain specific data characteristics. Experiments with three DNA language models (HyenaDNA, DNABERT-2, ResNet-LM) show these artifacts affect both absolute performance and relative model rankings. We propose a simple solution: pre-shuffling data before storage eliminates hardware dependencies while maintaining efficiency. This work highlights how standard ML practices can interact unexpectedly with domain-specific data characteristics, with broader implications for benchmark design in specialized domains.
- ID articolo: 2510.12617
- Titolo: Same model, better performance: the impact of shuffling on DNA Language Models benchmarking
- Autori: Davide Greco, Konrad Rawlik (University of Edinburgh, Baillie Gifford Pandemic Science Hub)
- Classificazione: q-bio.GN cs.LG
- Data di pubblicazione: 15 ottobre 2025 (preprint arXiv)
- Link articolo: https://arxiv.org/abs/2510.12617
I modelli linguistici di grandi dimensioni stanno diventando sempre più popolari in genomica grazie al loro potenziale nel decodificare sequenze biologiche complesse. Di conseguenza, i ricercatori necessitano di benchmark standardizzati per valutare le capacità dei modelli linguistici del DNA (DNA LMs). Tuttavia, la valutazione dei DNA LMs è un compito complesso che comporta l'intersezione tra sfide specifiche del dominio della genomica e metodologie di apprendimento automatico, dove dettagli implementativi apparentemente minori possono compromettere significativamente la validità del benchmark. Gli autori dimostrano questo attraverso BEND (Benchmarking DNA Language Models), dove iperparametri correlati all'hardware—numero di worker di caricamento dati e dimensione del buffer—creano variazioni di prestazioni fittizie fino al 4% per lo stesso modello. Il problema deriva dall'interazione tra uno shuffling dei dati insufficiente e caratteristiche dei dati specifiche del dominio. Gli esperimenti con tre modelli linguistici del DNA (HyenaDNA, DNABERT-2, ResNet-LM) dimostrano che questi artefatti influenzano sia le prestazioni assolute che la classifica relativa dei modelli. Gli autori propongono una soluzione semplice: lo pre-shuffling dei dati prima dell'archiviazione elimina la dipendenza dall'hardware mantenendo l'efficienza.
Il problema centrale che questa ricerca affronta è il problema della distorsione implementativa nei benchmark dei modelli linguistici del DNA. Nello specifico:
- Dipendenza dall'hardware: i risultati del benchmark sono influenzati da iperparametri correlati all'hardware (numero di worker, dimensione del buffer)
- Shuffling dei dati insufficiente: a causa della natura speciale dei dati genomici (dipendenza spaziale, sovrapposizione di sequenze), le pratiche standard di apprendimento automatico possono produrre distorsioni inaspettate
- Equità della valutazione: i ricercatori con risorse computazionali diverse potrebbero ottenere risultati di benchmark diversi, compromettendo l'equità della valutazione
- Fondamento del progresso scientifico: i benchmark standardizzati sono la base del progresso scientifico nell'apprendimento automatico, consentendo ai ricercatori di confrontare metodi e tracciare i miglioramenti
- Sfide nei campi emergenti: in campi emergenti come la genomica, la conoscenza specifica del dominio è scarsa e i principi di progettazione dei benchmark sono ancora in fase di sviluppo
- Equità delle risorse: garantire che i benchmark non favoriscano i ricercatori con migliori risorse computazionali
Sebbene il framework di benchmark BEND fornisca una suite completa di compiti genomici supervisionati, presenta i seguenti problemi:
- Impiega meccanismi complessi di caricamento dati con una strategia di shuffling a due livelli per gestire set di dati su larga scala
- Introduce dipendenze da iperparametri specifici dell'hardware
- Quando combinato con caratteristiche intrinseche dei dati genomici (sovrapposizione significativa tra campioni di sequenze DNA continue), risulta in uno shuffling dei dati insufficiente
- Scoperta e quantificazione della distorsione sistematica nei benchmark: dimostra che gli iperparametri correlati all'hardware possono causare variazioni di prestazioni fino al 4% per lo stesso modello
- Analisi concreta del problema: analisi approfondita dell'interazione tra il meccanismo di shuffling del framework WebDataset e le caratteristiche dei dati genomici
- Proposta di una soluzione semplice ed efficace: il metodo di pre-shuffling può eliminare la dipendenza dall'hardware mantenendo o migliorando le prestazioni su tutti i compiti
- Verifica tra architetture: verifica dell'universalità del problema e dell'efficacia della soluzione su tre diverse architetture di modelli linguistici del DNA
- Fornitura di linee guida sulle migliori pratiche per la progettazione di benchmark: fornisce esperienze concrete e raccomandazioni per la progettazione di benchmark in domini specializzati
- Generazione di embedding: estrazione di sequenze di DNA dal genoma di riferimento e generazione di embedding utilizzando il modello linguistico
- Addestramento del modello downstream: utilizzo degli embedding generati abbinati alle etichette per addestrare il modello downstream
- Valutazione: il modello downstream elabora gli embedding delle sequenze di DNA del set di test e li confronta con le etichette vere
BEND utilizza il framework WebDataset per archiviare, caricare e mescolare gli embedding:
- Archiviazione in frammenti: gli embedding sono archiviati in file .tar (frammenti)
- Assegnazione dei worker: ogni frammento è assegnato a un singolo worker
- Shuffling del buffer: ogni worker ha il proprio buffer, mescolando solo i campioni nei frammenti assegnati a quel worker
L'articolo analizza attraverso visualizzazione i modelli di accesso ai dati in diverse configurazioni:
- Senza shuffling: accesso sequenziale ai dati
- BEND (1 worker): i frammenti sono accessibili sequenzialmente, lettura sequenziale interna
- BEND (worker massimi): accesso parallelo a più frammenti, aumentando la diversità dei campioni tra batch ma non all'interno dei batch
- Pre-shuffling: garantisce buona diversità dei campioni indipendentemente dal numero di worker
Mescolare le annotazioni dei dati prima dell'archiviazione nei frammenti, garantendo che campioni da qualsiasi parte del set di dati possano essere archiviati in qualsiasi frammento.
- Fase di pre-elaborazione: shuffling delle annotazioni di sequenza prima della generazione degli embedding
- Fase di archiviazione: archiviazione dei dati mescolati nei frammenti
- Fase di caricamento: flusso di caricamento WebDataset normale, ma poiché i dati sono già pre-mescolati, il numero di worker non influenza più la diversità dei campioni
- Indipendenza dall'hardware: elimina la dipendenza dal numero di worker e dalla dimensione del buffer
- Mantenimento dell'efficienza: non modifica i dettagli implementativi di BEND, mantenendo l'efficienza originale
- Miglioramento delle prestazioni: mantiene o migliora le prestazioni su tutti i compiti
Utilizzo di sette compiti dal framework di benchmark BEND:
- Compiti supervisionati: metilazione CpG, modifiche istoniche, accessibilità della cromatina, scoperta genica, annotazione di enhancer
- Compiti non supervisionati: previsione dell'effetto di varianti non codificanti sull'espressione e sulla malattia
Test di tre modelli linguistici del DNA con architetture diverse:
- HyenaDNA-tiny-1k: modello basato su architettura Hyena
- DNABERT-2: modello linguistico del DNA basato su BERT
- ResNet-LM: modello di base proposto da BEND
- AUROC: per compiti di metilazione CpG e modifiche istoniche
- MCC: per compiti di scoperta genica
- Esperimento di impatto degli iperparametri: confronto dell'impatto del numero di worker e della dimensione del buffer sulle prestazioni
- Verifica tra architetture: verifica dell'effetto del metodo di pre-shuffling su tre architetture di modelli
- Analisi delle caratteristiche dei dati: analisi della sovrapposizione di sequenze continue in diversi compiti
Tabella 1: Risultati di test di HyenaDNA-tiny-1k in diverse configurazioni di iperparametri
| Compito | Metrica | Worker massimi | 1 worker | Buffer 1000 | Nessun buffer |
|---|
| Metilazione CpG | AUROC | 0.878 | 0.868 | - | - |
| Modifiche istoniche | AUROC | 0.766 | 0.756 | - | - |
| Scoperta genica | MCC | - | - | 0.115 | 0.076 |
Risultati pre-shuffling: tutte le configurazioni raggiungono prestazioni ottimali o quasi ottimali, eliminando la dipendenza dall'hardware.
Tabella 2: Risultati comparativi di tre modelli sul compito di metilazione CpG (AUROC)
| Modello | BEND | Pre-shuffling | Miglioramento |
|---|
| HyenaDNA-tiny-1k | 0.868 | 0.900 | +3.2% |
| DNABERT-2 | 0.893 | 0.910 | +1.7% |
| ResNet-LM | 0.890 | 0.919 | +2.9% |
Tabella 3: Situazione di sovrapposizione di sequenze continue in diversi compiti
| Compito | Percentuale di sequenze sovrapposte | Percentuale mediana di nucleotidi sovrapposti | Percentuale di sovrapposizione ponderata |
|---|
| Metilazione CpG | 51.88% | 87.70% | 45.50% |
| Modifiche istoniche | 17.03% | 19.92% | 3.39% |
| Scoperta genica | 7.09% | 12.39% | 0.88% |
| Annotazione di enhancer | 1.75% | 49.27% | 0.86% |
| Accessibilità della cromatina | 28.29% | 20.31% | 5.75% |
Il compito di metilazione CpG mostra il più alto grado di sovrapposizione di sequenze, il che spiega perché questo compito beneficia maggiormente del pre-shuffling.
Il pre-shuffling non solo migliora le prestazioni assolute, ma cambia anche la classifica relativa dei modelli:
- Configurazione BEND: DNABERT-2 ≈ ResNet-LM > HyenaDNA-tiny-1k
- Dopo pre-shuffling: ResNet-LM > DNABERT-2 > HyenaDNA-tiny-1k
- BEND: primo framework di benchmark completo dedicato specificamente ai modelli linguistici del DNA
- WebDataset: framework di apprendimento profondo per I/O ad alte prestazioni su larga scala
- HyenaDNA: modellazione di sequenze genomiche a lungo raggio, risoluzione a singolo nucleotide
- DNABERT-2: modello di base efficiente per genomi multi-specie
- ResNet-LM: modello di base basato su reti residue
L'articolo contribuisce all'esperienza pratica nel campo della progettazione di benchmark, in particolare nei casi in cui le pratiche standard di ML possono avere conseguenze inaspettate in domini specializzati.
- Problema della dipendenza dall'hardware: gli iperparametri scelti in base alle risorse computazionali (numero di worker e dimensione del buffer) influenzano involontariamente i risultati dei benchmark
- Indipendenza dall'architettura: modelli con diverse architetture di backbone beneficiano tutti da uno shuffling appropriato, con miglioramenti di prestazioni fino al 4%
- Impatto sulla classifica: uno shuffling inappropriato non solo influenza le prestazioni assolute, ma cambia anche la classifica relativa tra i modelli
- Soluzione semplice ed efficace: il pre-shuffling dei dati è una correzione semplice per disaccoppiare le prestazioni del benchmark dai iperparametri specifici dell'hardware
- Framework specifico: la ricerca si concentra principalmente sul framework BEND, altri framework di benchmark potrebbero avere problemi diversi
- Copertura dei compiti: sebbene siano stati testati più compiti, rimangono limitati all'insieme di compiti forniti da BEND
- Portata dei modelli: sono state testate solo tre architetture di modelli, potrebbe non coprire tutti i tipi di modelli linguistici del DNA
- Estensione ad altri benchmark: applicazione delle scoperte e delle soluzioni ad altri benchmark di bioinformatica
- Rilevamento automatico: sviluppo di strumenti per rilevare automaticamente potenziali distorsioni nell'implementazione dei benchmark
- Linee guida sulle migliori pratiche: formulazione di principi guida più completi per la progettazione di benchmark in domini specializzati
- Alto valore pratico: scopre importanti problemi nei benchmark effettivi e fornisce soluzioni immediatamente utilizzabili
- Analisi approfondita: mostra chiaramente le radici del problema attraverso visualizzazione e analisi quantitativa
- Verifica sufficiente: verifica l'universalità del problema e l'efficacia della soluzione su più modelli e compiti
- Scrittura chiara: la struttura dell'articolo è chiara, sia la descrizione del problema che la soluzione sono facili da comprendere
- Contributo open source: fornisce implementazione di codice pubblico
- Casualità nella scoperta del problema: l'articolo non fornisce un metodo sistematico per prevenire o rilevare problemi simili
- Analisi teorica insufficiente: manca una spiegazione teorica del perché alcuni compiti sono più colpiti di altri
- Limitazioni della soluzione: sebbene il pre-shuffling sia efficace, potrebbe non essere applicabile a tutti i tipi di dati di sequenza
- Analisi dei costi computazionali: manca un'analisi dettagliata dei costi computazionali del metodo di pre-shuffling
- Contributo al campo: fornisce un importante miglioramento metodologico per la valutazione dei modelli linguistici del DNA
- Valore pratico: migliora direttamente l'affidabilità del benchmark BEND, a beneficio dell'intera comunità di ricerca
- Riproducibilità: fornisce implementazione dettagliata e codice open source, facile da riprodurre e applicare
- Significato ispiratore: fornisce preziose esperienze per la progettazione di benchmark in altri domini specializzati
- Ricerca genomica: tutta la ricerca sui modelli linguistici del DNA che utilizza il benchmark BEND
- Modellazione di sequenze: altri compiti di modellazione di serie temporali o sequenze che coinvolgono sovrapposizione di sequenze
- Progettazione di benchmark: progettazione di framework di benchmark che necessitano di gestire set di dati su larga scala
- Addestramento distribuito: sistemi di apprendimento automatico distribuito che necessitano di considerare strategie di caricamento e shuffling dei dati
- Marin et al. (2024). BEND: Benchmarking DNA language models on biologically meaningful tasks.
- Aizman et al. (2020). High performance I/O for large scale deep learning.
- Nguyen et al. (2023). HyenaDNA: Long-range genomic sequence modeling at single nucleotide resolution.
- Zhou et al. (2023). DNABERT-2: Efficient foundation model and benchmark for multi-species genome.
Sintesi: Questo articolo scopre e risolve un importante problema pratico nei benchmark dei modelli linguistici del DNA. Sebbene il problema stesso sia relativamente semplice, il suo impatto è profondo. Il valore dell'articolo risiede nel ricordare alla comunità di ricerca che dettagli implementativi apparentemente minori possono avere un impatto significativo sui risultati dei benchmark, e fornisce una soluzione pratica. Questo è di grande importanza per garantire l'equità e l'affidabilità dei benchmark.