Large Language Models are increasingly popular in genomics due to their potential to decode complex biological sequences. Hence, researchers require a standardized benchmark to evaluate DNA Language Models (DNA LMs) capabilities. However, evaluating DNA LMs is a complex task that intersects genomic's domain-specific challenges and machine learning methodologies, where seemingly minor implementation details can significantly compromise benchmark validity. We demonstrate this through BEND (Benchmarking DNA Language Models), where hardware-dependent hyperparameters -- number of data loading workers and buffer sizes -- create spurious performance variations of up to 4% for identical models. The problem stems from inadequate data shuffling interacting with domain specific data characteristics. Experiments with three DNA language models (HyenaDNA, DNABERT-2, ResNet-LM) show these artifacts affect both absolute performance and relative model rankings. We propose a simple solution: pre-shuffling data before storage eliminates hardware dependencies while maintaining efficiency. This work highlights how standard ML practices can interact unexpectedly with domain-specific data characteristics, with broader implications for benchmark design in specialized domains.
- Paper-ID: 2510.12617
- Titel: Same model, better performance: the impact of shuffling on DNA Language Models benchmarking
- Autoren: Davide Greco, Konrad Rawlik (University of Edinburgh, Baillie Gifford Pandemic Science Hub)
- Klassifizierung: q-bio.GN cs.LG
- Veröffentlichungsdatum: 15. Oktober 2025 (arXiv Preprint)
- Paper-Link: https://arxiv.org/abs/2510.12617
Große Sprachmodelle werden in der Genomik zunehmend populär, da sie das Potenzial haben, komplexe biologische Sequenzen zu dekodieren. Daher benötigen Forscher standardisierte Benchmarks zur Bewertung der Fähigkeiten von DNA-Sprachmodellen (DNA LMs). Die Bewertung von DNA LMs ist jedoch eine komplexe Aufgabe, die die Schnittmenge von genomikspezifischen Herausforderungen und maschinellen Lernmethoden darstellt, wobei scheinbar kleine Implementierungsdetails die Validität von Benchmarks erheblich beeinträchtigen können. Die Autoren demonstrieren dies anhand von BEND (Benchmarking DNA Language Models), wobei hardwarebezogene Hyperparameter – die Anzahl der Datenlade-Worker und die Puffergröße – für dasselbe Modell zu bis zu 4% falschen Leistungsschwankungen führen. Das Problem entsteht durch die Wechselwirkung zwischen unzureichendem Datenshuffling und domänenspezifischen Datenmerkmalen. Experimente mit drei DNA-Sprachmodellen (HyenaDNA, DNABERT-2, ResNet-LM) zeigen, dass diese Artefakte sowohl die absolute Leistung als auch die relative Modellrangfolge beeinflussen. Die Autoren schlagen eine einfache Lösung vor: Das Vorshuffling von Daten vor dem Speichern kann die Hardwareabhängigkeit eliminieren und gleichzeitig die Effizienz bewahren.
Das Kernproblem dieser Forschung ist die Implementierungsverzerrung beim Benchmarking von DNA-Sprachmodellen. Konkret:
- Hardwareabhängigkeit: Benchmark-Ergebnisse werden durch hardwarebezogene Hyperparameter (Worker-Anzahl, Puffergröße) beeinflusst
- Unzureichendes Datenshuffling: Aufgrund der besonderen Natur von Genomdaten (räumliche Abhängigkeit, Sequenzüberlappung) können standardmäßige maschinelle Lernpraktiken zu unerwarteten Verzerrungen führen
- Bewertungsgerechtigkeit: Forscher mit unterschiedlichen Rechenressourcen können unterschiedliche Benchmark-Ergebnisse erhalten, was die Fairness der Bewertung beeinträchtigt
- Grundlage des wissenschaftlichen Fortschritts: Standardisierte Benchmarks sind die Grundlage des wissenschaftlichen Fortschritts im maschinellen Lernen und ermöglichen es Forschern, Methoden zu vergleichen und Verbesserungen zu verfolgen
- Herausforderungen in aufstrebenden Bereichen: In aufstrebenden Bereichen wie der Genomik ist domänenspezifisches Wissen selten und die Prinzipien der Benchmark-Gestaltung befinden sich noch in der Entwicklung
- Ressourcengerechtigkeit: Sicherstellung, dass Benchmarks nicht Forscher mit besseren Rechenressourcen bevorzugen
Obwohl das BEND-Benchmark-Framework eine umfassende Suite von überwachten Genomik-Aufgaben bietet, weist es folgende Probleme auf:
- Einsatz komplexer Datenlade-Mechanismen mit einer zweistufigen Shuffling-Strategie für große Datensätze
- Einführung von Abhängigkeiten von hardwarespezifischen Hyperparametern
- In Kombination mit inhärenten Merkmalen von Genomdaten (signifikante Überlappung zwischen kontinuierlichen DNA-Sequenzproben) führt dies zu unzureichendem Datenshuffling
- Entdeckung und Quantifizierung systematischer Verzerrungen beim Benchmarking: Nachweis, dass hardwarebezogene Hyperparameter zu Leistungsschwankungen von bis zu 4% für dasselbe Modell führen können
- Bereitstellung konkreter Problemanalyse: Tiefgehende Analyse der Wechselwirkung zwischen Datenshuffling-Mechanismen im WebDataset-Framework und Merkmalen von Genomdaten
- Vorschlag einer einfachen und effektiven Lösung: Die Vorshuffling-Methode kann Hardwareabhängigkeit eliminieren und gleichzeitig die Leistung bei allen Aufgaben beibehalten oder verbessern
- Validierung über Architekturen hinweg: Validierung der Universalität des Problems und der Wirksamkeit der Lösung bei drei verschiedenen DNA-Sprachmodell-Architekturen
- Bereitstellung von Best-Practice-Richtlinien für Benchmark-Design: Konkrete Erfahrungen und Empfehlungen für Benchmark-Design in Fachbereichen
- Embedding-Generierung: Extraktion von DNA-Sequenzen aus dem Referenzgenom und Generierung von Embeddings mit Sprachmodellen
- Training von Downstream-Modellen: Training von Downstream-Modellen mit generierten Embeddings gekoppelt mit Labels
- Bewertung: Downstream-Modelle verarbeiten Embeddings von Test-DNA-Sequenzen und vergleichen sie mit echten Labels
BEND verwendet das WebDataset-Framework zum Speichern, Laden und Shuffling von Embeddings:
- Shard-Speicherung: Embeddings werden in .tar-Dateien (Shards) gespeichert
- Worker-Zuweisung: Jeder Shard wird einem einzelnen Worker zugewiesen
- Puffer-Shuffling: Jeder Worker hat seinen eigenen Puffer und shuffelt nur Samples aus den ihm zugewiesenen Shards
Das Paper analysiert Datenzugriffsmuster unter verschiedenen Konfigurationen durch Visualisierung:
- Kein Shuffling: Sequenzieller Datenzugriff
- BEND (1 Worker): Shards werden sequenziell zugegriffen, intern sequenziell gelesen
- BEND (maximale Worker): Mehrere Shards werden parallel zugegriffen, erhöht Stichprobendiversität zwischen Batches, aber nicht innerhalb von Batches
- Vorshuffling: Unabhängig von der Worker-Anzahl wird gute Stichprobendiversität gewährleistet
Shuffling von Datenannotationen vor dem Speichern in Shards, um sicherzustellen, dass Samples aus jedem Teil des Datensatzes in jedem Shard gespeichert werden können.
- Vorverarbeitungsphase: Shuffling von Sequenzannotationen vor der Embedding-Generierung
- Speicherphase: Speichern von geshuffelten Daten in Shards
- Ladephase: Normaler WebDataset-Ladefluss, aber da Daten bereits vorgeshuffelt sind, beeinflusst die Worker-Anzahl nicht mehr die Stichprobendiversität
- Hardwareunabhängigkeit: Eliminiert Abhängigkeit von Worker-Anzahl und Puffergröße
- Effizienzerhaltung: Ändert keine Implementierungsdetails von BEND, behält ursprüngliche Effizienz
- Leistungsverbesserung: Behält oder verbessert Leistung bei allen Aufgaben
Verwendung von sieben Aufgaben aus dem BEND-Benchmark-Framework:
- Überwachte Aufgaben: CpG-Methylierung, Histon-Modifikation, Chromatin-Zugänglichkeit, Genfindung, Enhancer-Annotation
- Unüberwachte Aufgaben: Vorhersage von Auswirkungen nicht-kodierender Varianten auf Expression und Krankheit
Getestete drei DNA-Sprachmodelle mit unterschiedlichen Architekturen:
- HyenaDNA-tiny-1k: Modell basierend auf Hyena-Architektur
- DNABERT-2: DNA-Sprachmodell basierend auf BERT
- ResNet-LM: Baseline-Modell von BEND
- AUROC: Für CpG-Methylierungs- und Histon-Modifikationsaufgaben
- MCC: Für Genfindungsaufgaben
- Hyperparameter-Einflussexperiment: Vergleich der Auswirkungen unterschiedlicher Worker-Anzahlen und Puffergrößen auf die Leistung
- Validierung über Architekturen: Validierung der Wirksamkeit der Vorshuffling-Methode bei drei Modellarchitekturen
- Datenmerkmalsanalyse: Analyse von Überlappungssituationen kontinuierlicher Sequenzen in verschiedenen Aufgaben
Tabelle 1: Testergebnisse von HyenaDNA-tiny-1k unter verschiedenen Hyperparameter-Konfigurationen
| Aufgabe | Metrik | Max. Worker | 1 Worker | 1000 Puffer | Kein Puffer |
|---|
| CpG-Methylierung | AUROC | 0.878 | 0.868 | - | - |
| Histon-Modifikation | AUROC | 0.766 | 0.756 | - | - |
| Genfindung | MCC | - | - | 0.115 | 0.076 |
Vorshuffling-Ergebnisse: Alle Konfigurationen erreichen optimale oder nahezu optimale Leistung und eliminieren Hardwareabhängigkeit.
Tabelle 2: Vergleichsergebnisse von drei Modellen bei der CpG-Methylierungsaufgabe (AUROC)
| Modell | BEND | Vorshuffling | Verbesserung |
|---|
| HyenaDNA-tiny-1k | 0.868 | 0.900 | +3.2% |
| DNABERT-2 | 0.893 | 0.910 | +1.7% |
| ResNet-LM | 0.890 | 0.919 | +2.9% |
Tabelle 3: Sequenzüberlappungssituationen in verschiedenen Aufgaben
| Aufgabe | Überlappungssequenz-% | Median Überlappungs-Nukleotide-% | Gewichtete Überlappungs-% |
|---|
| CpG-Methylierung | 51.88% | 87.70% | 45.50% |
| Histon-Modifikation | 17.03% | 19.92% | 3.39% |
| Genfindung | 7.09% | 12.39% | 0.88% |
| Enhancer-Annotation | 1.75% | 49.27% | 0.86% |
| Chromatin-Zugänglichkeit | 28.29% | 20.31% | 5.75% |
Die CpG-Methylierungsaufgabe zeigt den höchsten Sequenzüberlappungsgrad, was erklärt, warum diese Aufgabe am meisten von Vorshuffling profitiert.
Vorshuffling verbessert nicht nur die absolute Leistung, sondern ändert auch die relative Rangfolge der Modelle:
- Unter BEND-Konfiguration: DNABERT-2 ≈ ResNet-LM > HyenaDNA-tiny-1k
- Nach Vorshuffling: ResNet-LM > DNABERT-2 > HyenaDNA-tiny-1k
- BEND: Erstes umfassendes Benchmark-Framework speziell für DNA-Sprachmodelle
- WebDataset: Framework für hochperformante E/A beim Deep Learning in großem Maßstab
- HyenaDNA: Langfristige Genomsequenz-Modellierung mit Einzelnukleotid-Auflösung
- DNABERT-2: Effizientes Grundmodell für Multi-Spezies-Genome
- ResNet-LM: Baseline-Modell basierend auf Residual Networks
Das Paper trägt praktische Erfahrungen im Bereich Benchmark-Design bei, besonders in Fachbereichen, wo standardmäßige ML-Praktiken zu unerwarteten Konsequenzen führen können.
- Hardwareabhängigkeitsproblem: Hyperparameter basierend auf Rechenressourcenauswahl (Worker-Anzahl und Puffergröße) beeinflussen unbeabsichtigt Benchmark-Ergebnisse
- Architekturunabhängigkeit: Modelle mit unterschiedlichen Backbone-Architekturen profitieren von angemessenem Shuffling, mit Leistungsverbesserungen bis zu 4%
- Rangfolgenauswirkung: Unzureichendes Shuffling beeinflusst nicht nur absolute Leistung, sondern ändert auch relative Rangfolgen zwischen Modellen
- Einfache und effektive Lösung: Vorshuffling von Daten ist eine einfache Korrektur zur Entkopplung der Benchmark-Leistung von hardwarespezifischen Hyperparametern
- Framework-spezifisch: Forschung konzentriert sich hauptsächlich auf BEND-Framework, andere Benchmark-Frameworks können unterschiedliche Probleme aufweisen
- Aufgabenabdeckung: Obwohl mehrere Aufgaben getestet wurden, ist die Abdeckung auf die von BEND bereitgestellten Aufgaben beschränkt
- Modellbereich: Nur drei Modellarchitekturen wurden getestet, möglicherweise nicht alle Arten von DNA-Sprachmodellen abdeckend
- Erweiterung auf andere Benchmarks: Anwendung der entdeckten Probleme und Lösungen auf andere Bioinformatik-Benchmarks
- Automatisierte Erkennung: Entwicklung von Tools zur automatischen Erkennung potenzieller Verzerrungen in Benchmark-Implementierungen
- Umfassende Best-Practice-Richtlinien: Erstellung umfassenderer Richtlinien für Benchmark-Design in Fachbereichen
- Hoher praktischer Wert: Entdeckung wichtiger Probleme in praktischen Benchmarks mit sofort anwendbaren Lösungen
- Tiefgehende Analyse: Klare Darstellung der Problemursachen durch Visualisierung und quantitative Analyse
- Ausreichende Validierung: Validierung der Universalität des Problems und Wirksamkeit der Lösung über mehrere Modelle und Aufgaben
- Klare Schreibweise: Klare Papierstruktur, leicht verständliche Problembeschreibung und Lösung
- Open-Source-Beitrag: Bereitstellung öffentlicher Code-Implementierung
- Zufälligkeit der Problementdeckung: Keine systematische Methode zur Prävention oder Erkennung ähnlicher Probleme
- Unzureichende theoretische Analyse: Mangel an theoretischer Erklärung, warum bestimmte Aufgaben stärker beeinflusst werden als andere
- Einschränkungen der Lösung: Obwohl Vorshuffling effektiv ist, möglicherweise nicht auf alle Arten von Sequenzdaten anwendbar
- Fehlende Kostenanalyse: Keine detaillierte Analyse der Rechenkosten der Vorshuffling-Methode
- Beitrag zum Bereich: Wichtige methodologische Verbesserung für die Bewertung von DNA-Sprachmodellen
- Praktischer Wert: Direkte Verbesserung der Zuverlässigkeit des BEND-Benchmarks, Nutzen für die gesamte Forschungsgemeinschaft
- Reproduzierbarkeit: Detaillierte Implementierung und Open-Source-Code ermöglichen einfache Reproduktion und Anwendung
- Inspirativer Wert: Wertvolle Erfahrungen für Benchmark-Design in anderen Fachbereichen
- Genomik-Forschung: Alle DNA-Sprachmodell-Forschung mit BEND-Benchmark
- Sequenz-Modellierung: Andere Aufgaben mit Sequenzüberlappung wie Zeitreihen oder Sequenz-Modellierung
- Benchmark-Design: Benchmark-Framework-Design mit großen Datensätzen
- Verteiltes Training: Verteilte maschinelle Lernsysteme mit Datenlade- und Shuffling-Strategien
- Marin et al. (2024). BEND: Benchmarking DNA language models on biologically meaningful tasks.
- Aizman et al. (2020). High performance I/O for large scale deep learning.
- Nguyen et al. (2023). HyenaDNA: Long-range genomic sequence modeling at single nucleotide resolution.
- Zhou et al. (2023). DNABERT-2: Efficient foundation model and benchmark for multi-species genome.
Zusammenfassung: Dieses Paper entdeckt und löst ein wichtiges praktisches Problem beim Benchmarking von DNA-Sprachmodellen. Obwohl das Problem selbst relativ einfach ist, hat es weitreichende Auswirkungen. Der Wert des Papers liegt darin, die Forschungsgemeinschaft darauf hinzuweisen, dass scheinbar kleine Implementierungsdetails erhebliche Auswirkungen auf Benchmark-Ergebnisse haben können, und eine praktische Lösung bereitzustellen. Dies ist von großer Bedeutung für die Gewährleistung der Fairness und Zuverlässigkeit von Benchmarks.