2025-11-24T17:34:17.619375

Same model, better performance: the impact of shuffling on DNA Language Models benchmarking

Greco, Rawlik

Large Language Models are increasingly popular in genomics due to their potential to decode complex biological sequences. Hence, researchers require a standardized benchmark to evaluate DNA Language Models (DNA LMs) capabilities. However, evaluating DNA LMs is a complex task that intersects genomic's domain-specific challenges and machine learning methodologies, where seemingly minor implementation details can significantly compromise benchmark validity. We demonstrate this through BEND (Benchmarking DNA Language Models), where hardware-dependent hyperparameters -- number of data loading workers and buffer sizes -- create spurious performance variations of up to 4% for identical models. The problem stems from inadequate data shuffling interacting with domain specific data characteristics. Experiments with three DNA language models (HyenaDNA, DNABERT-2, ResNet-LM) show these artifacts affect both absolute performance and relative model rankings. We propose a simple solution: pre-shuffling data before storage eliminates hardware dependencies while maintaining efficiency. This work highlights how standard ML practices can interact unexpectedly with domain-specific data characteristics, with broader implications for benchmark design in specialized domains.

academic

Gleiches Modell, bessere Leistung: Die Auswirkungen des Shufflings auf DNA-Sprachmodell-Benchmarking

Grundlegende Informationen

Paper-ID: 2510.12617
Titel: Same model, better performance: the impact of shuffling on DNA Language Models benchmarking
Autoren: Davide Greco, Konrad Rawlik (University of Edinburgh, Baillie Gifford Pandemic Science Hub)
Klassifizierung: q-bio.GN cs.LG
Veröffentlichungsdatum: 15. Oktober 2025 (arXiv Preprint)
Paper-Link: https://arxiv.org/abs/2510.12617

Zusammenfassung

Große Sprachmodelle werden in der Genomik zunehmend populär, da sie das Potenzial haben, komplexe biologische Sequenzen zu dekodieren. Daher benötigen Forscher standardisierte Benchmarks zur Bewertung der Fähigkeiten von DNA-Sprachmodellen (DNA LMs). Die Bewertung von DNA LMs ist jedoch eine komplexe Aufgabe, die die Schnittmenge von genomikspezifischen Herausforderungen und maschinellen Lernmethoden darstellt, wobei scheinbar kleine Implementierungsdetails die Validität von Benchmarks erheblich beeinträchtigen können. Die Autoren demonstrieren dies anhand von BEND (Benchmarking DNA Language Models), wobei hardwarebezogene Hyperparameter – die Anzahl der Datenlade-Worker und die Puffergröße – für dasselbe Modell zu bis zu 4% falschen Leistungsschwankungen führen. Das Problem entsteht durch die Wechselwirkung zwischen unzureichendem Datenshuffling und domänenspezifischen Datenmerkmalen. Experimente mit drei DNA-Sprachmodellen (HyenaDNA, DNABERT-2, ResNet-LM) zeigen, dass diese Artefakte sowohl die absolute Leistung als auch die relative Modellrangfolge beeinflussen. Die Autoren schlagen eine einfache Lösung vor: Das Vorshuffling von Daten vor dem Speichern kann die Hardwareabhängigkeit eliminieren und gleichzeitig die Effizienz bewahren.

Forschungshintergrund und Motivation

Kernproblem

Das Kernproblem dieser Forschung ist die Implementierungsverzerrung beim Benchmarking von DNA-Sprachmodellen. Konkret:

Hardwareabhängigkeit: Benchmark-Ergebnisse werden durch hardwarebezogene Hyperparameter (Worker-Anzahl, Puffergröße) beeinflusst
Unzureichendes Datenshuffling: Aufgrund der besonderen Natur von Genomdaten (räumliche Abhängigkeit, Sequenzüberlappung) können standardmäßige maschinelle Lernpraktiken zu unerwarteten Verzerrungen führen
Bewertungsgerechtigkeit: Forscher mit unterschiedlichen Rechenressourcen können unterschiedliche Benchmark-Ergebnisse erhalten, was die Fairness der Bewertung beeinträchtigt

Bedeutung des Problems

Grundlage des wissenschaftlichen Fortschritts: Standardisierte Benchmarks sind die Grundlage des wissenschaftlichen Fortschritts im maschinellen Lernen und ermöglichen es Forschern, Methoden zu vergleichen und Verbesserungen zu verfolgen
Herausforderungen in aufstrebenden Bereichen: In aufstrebenden Bereichen wie der Genomik ist domänenspezifisches Wissen selten und die Prinzipien der Benchmark-Gestaltung befinden sich noch in der Entwicklung
Ressourcengerechtigkeit: Sicherstellung, dass Benchmarks nicht Forscher mit besseren Rechenressourcen bevorzugen

Einschränkungen bestehender Methoden

Obwohl das BEND-Benchmark-Framework eine umfassende Suite von überwachten Genomik-Aufgaben bietet, weist es folgende Probleme auf:

Einsatz komplexer Datenlade-Mechanismen mit einer zweistufigen Shuffling-Strategie für große Datensätze
Einführung von Abhängigkeiten von hardwarespezifischen Hyperparametern
In Kombination mit inhärenten Merkmalen von Genomdaten (signifikante Überlappung zwischen kontinuierlichen DNA-Sequenzproben) führt dies zu unzureichendem Datenshuffling

Kernbeiträge

Entdeckung und Quantifizierung systematischer Verzerrungen beim Benchmarking: Nachweis, dass hardwarebezogene Hyperparameter zu Leistungsschwankungen von bis zu 4% für dasselbe Modell führen können
Bereitstellung konkreter Problemanalyse: Tiefgehende Analyse der Wechselwirkung zwischen Datenshuffling-Mechanismen im WebDataset-Framework und Merkmalen von Genomdaten
Vorschlag einer einfachen und effektiven Lösung: Die Vorshuffling-Methode kann Hardwareabhängigkeit eliminieren und gleichzeitig die Leistung bei allen Aufgaben beibehalten oder verbessern
Validierung über Architekturen hinweg: Validierung der Universalität des Problems und der Wirksamkeit der Lösung bei drei verschiedenen DNA-Sprachmodell-Architekturen
Bereitstellung von Best-Practice-Richtlinien für Benchmark-Design: Konkrete Erfahrungen und Empfehlungen für Benchmark-Design in Fachbereichen

Methodische Details

Problemanalyse

Datenverarbeitungsfluss des BEND-Frameworks

Embedding-Generierung: Extraktion von DNA-Sequenzen aus dem Referenzgenom und Generierung von Embeddings mit Sprachmodellen
Training von Downstream-Modellen: Training von Downstream-Modellen mit generierten Embeddings gekoppelt mit Labels
Bewertung: Downstream-Modelle verarbeiten Embeddings von Test-DNA-Sequenzen und vergleichen sie mit echten Labels

WebDataset-Speicher- und Laademechanismus

BEND verwendet das WebDataset-Framework zum Speichern, Laden und Shuffling von Embeddings:

Shard-Speicherung: Embeddings werden in .tar-Dateien (Shards) gespeichert
Worker-Zuweisung: Jeder Shard wird einem einzelnen Worker zugewiesen
Puffer-Shuffling: Jeder Worker hat seinen eigenen Puffer und shuffelt nur Samples aus den ihm zugewiesenen Shards

Datenzugriffsmuster-Analyse

Das Paper analysiert Datenzugriffsmuster unter verschiedenen Konfigurationen durch Visualisierung:

Kein Shuffling: Sequenzieller Datenzugriff
BEND (1 Worker): Shards werden sequenziell zugegriffen, intern sequenziell gelesen
BEND (maximale Worker): Mehrere Shards werden parallel zugegriffen, erhöht Stichprobendiversität zwischen Batches, aber nicht innerhalb von Batches
Vorshuffling: Unabhängig von der Worker-Anzahl wird gute Stichprobendiversität gewährleistet

Lösung: Vorshuffling-Methode

Kernidee

Shuffling von Datenannotationen vor dem Speichern in Shards, um sicherzustellen, dass Samples aus jedem Teil des Datensatzes in jedem Shard gespeichert werden können.

Implementierungsdetails

Vorverarbeitungsphase: Shuffling von Sequenzannotationen vor der Embedding-Generierung
Speicherphase: Speichern von geshuffelten Daten in Shards
Ladephase: Normaler WebDataset-Ladefluss, aber da Daten bereits vorgeshuffelt sind, beeinflusst die Worker-Anzahl nicht mehr die Stichprobendiversität

Vorteile

Hardwareunabhängigkeit: Eliminiert Abhängigkeit von Worker-Anzahl und Puffergröße
Effizienzerhaltung: Ändert keine Implementierungsdetails von BEND, behält ursprüngliche Effizienz
Leistungsverbesserung: Behält oder verbessert Leistung bei allen Aufgaben

Experimentelle Einrichtung

Datensätze

Verwendung von sieben Aufgaben aus dem BEND-Benchmark-Framework:

Überwachte Aufgaben: CpG-Methylierung, Histon-Modifikation, Chromatin-Zugänglichkeit, Genfindung, Enhancer-Annotation
Unüberwachte Aufgaben: Vorhersage von Auswirkungen nicht-kodierender Varianten auf Expression und Krankheit

Modelle

Getestete drei DNA-Sprachmodelle mit unterschiedlichen Architekturen:

HyenaDNA-tiny-1k: Modell basierend auf Hyena-Architektur
DNABERT-2: DNA-Sprachmodell basierend auf BERT
ResNet-LM: Baseline-Modell von BEND

Bewertungsmetriken

AUROC: Für CpG-Methylierungs- und Histon-Modifikationsaufgaben
MCC: Für Genfindungsaufgaben

Experimentelles Design

Hyperparameter-Einflussexperiment: Vergleich der Auswirkungen unterschiedlicher Worker-Anzahlen und Puffergrößen auf die Leistung
Validierung über Architekturen: Validierung der Wirksamkeit der Vorshuffling-Methode bei drei Modellarchitekturen
Datenmerkmalsanalyse: Analyse von Überlappungssituationen kontinuierlicher Sequenzen in verschiedenen Aufgaben

Experimentelle Ergebnisse

Hauptergebnisse

Hyperparameter-Einfluss

Tabelle 1: Testergebnisse von HyenaDNA-tiny-1k unter verschiedenen Hyperparameter-Konfigurationen

Aufgabe	Metrik	Max. Worker	1 Worker	1000 Puffer	Kein Puffer
CpG-Methylierung	AUROC	0.878	0.868	-	-
Histon-Modifikation	AUROC	0.766	0.756	-	-
Genfindung	MCC	-	-	0.115	0.076

Vorshuffling-Ergebnisse: Alle Konfigurationen erreichen optimale oder nahezu optimale Leistung und eliminieren Hardwareabhängigkeit.

Validierung über Architekturen

Tabelle 2: Vergleichsergebnisse von drei Modellen bei der CpG-Methylierungsaufgabe (AUROC)

Modell	BEND	Vorshuffling	Verbesserung
HyenaDNA-tiny-1k	0.868	0.900	+3.2%
DNABERT-2	0.893	0.910	+1.7%
ResNet-LM	0.890	0.919	+2.9%

Wichtigste Erkenntnisse

Datenüberlappungsanalyse

Tabelle 3: Sequenzüberlappungssituationen in verschiedenen Aufgaben

Aufgabe	Überlappungssequenz-%	Median Überlappungs-Nukleotide-%	Gewichtete Überlappungs-%
CpG-Methylierung	51.88%	87.70%	45.50%
Histon-Modifikation	17.03%	19.92%	3.39%
Genfindung	7.09%	12.39%	0.88%
Enhancer-Annotation	1.75%	49.27%	0.86%
Chromatin-Zugänglichkeit	28.29%	20.31%	5.75%

Die CpG-Methylierungsaufgabe zeigt den höchsten Sequenzüberlappungsgrad, was erklärt, warum diese Aufgabe am meisten von Vorshuffling profitiert.

Änderungen der Modellrangfolge

Vorshuffling verbessert nicht nur die absolute Leistung, sondern ändert auch die relative Rangfolge der Modelle:

Unter BEND-Konfiguration: DNABERT-2 ≈ ResNet-LM > HyenaDNA-tiny-1k
Nach Vorshuffling: ResNet-LM > DNABERT-2 > HyenaDNA-tiny-1k

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Hardwareabhängigkeitsproblem: Hyperparameter basierend auf Rechenressourcenauswahl (Worker-Anzahl und Puffergröße) beeinflussen unbeabsichtigt Benchmark-Ergebnisse
Architekturunabhängigkeit: Modelle mit unterschiedlichen Backbone-Architekturen profitieren von angemessenem Shuffling, mit Leistungsverbesserungen bis zu 4%
Rangfolgenauswirkung: Unzureichendes Shuffling beeinflusst nicht nur absolute Leistung, sondern ändert auch relative Rangfolgen zwischen Modellen
Einfache und effektive Lösung: Vorshuffling von Daten ist eine einfache Korrektur zur Entkopplung der Benchmark-Leistung von hardwarespezifischen Hyperparametern

Einschränkungen

Framework-spezifisch: Forschung konzentriert sich hauptsächlich auf BEND-Framework, andere Benchmark-Frameworks können unterschiedliche Probleme aufweisen
Aufgabenabdeckung: Obwohl mehrere Aufgaben getestet wurden, ist die Abdeckung auf die von BEND bereitgestellten Aufgaben beschränkt
Modellbereich: Nur drei Modellarchitekturen wurden getestet, möglicherweise nicht alle Arten von DNA-Sprachmodellen abdeckend

Zukünftige Richtungen

Erweiterung auf andere Benchmarks: Anwendung der entdeckten Probleme und Lösungen auf andere Bioinformatik-Benchmarks
Automatisierte Erkennung: Entwicklung von Tools zur automatischen Erkennung potenzieller Verzerrungen in Benchmark-Implementierungen
Umfassende Best-Practice-Richtlinien: Erstellung umfassenderer Richtlinien für Benchmark-Design in Fachbereichen

Tiefgehende Bewertung

Stärken

Hoher praktischer Wert: Entdeckung wichtiger Probleme in praktischen Benchmarks mit sofort anwendbaren Lösungen
Tiefgehende Analyse: Klare Darstellung der Problemursachen durch Visualisierung und quantitative Analyse
Ausreichende Validierung: Validierung der Universalität des Problems und Wirksamkeit der Lösung über mehrere Modelle und Aufgaben
Klare Schreibweise: Klare Papierstruktur, leicht verständliche Problembeschreibung und Lösung
Open-Source-Beitrag: Bereitstellung öffentlicher Code-Implementierung

Schwächen

Zufälligkeit der Problementdeckung: Keine systematische Methode zur Prävention oder Erkennung ähnlicher Probleme
Unzureichende theoretische Analyse: Mangel an theoretischer Erklärung, warum bestimmte Aufgaben stärker beeinflusst werden als andere
Einschränkungen der Lösung: Obwohl Vorshuffling effektiv ist, möglicherweise nicht auf alle Arten von Sequenzdaten anwendbar
Fehlende Kostenanalyse: Keine detaillierte Analyse der Rechenkosten der Vorshuffling-Methode

Auswirkungen

Beitrag zum Bereich: Wichtige methodologische Verbesserung für die Bewertung von DNA-Sprachmodellen
Praktischer Wert: Direkte Verbesserung der Zuverlässigkeit des BEND-Benchmarks, Nutzen für die gesamte Forschungsgemeinschaft
Reproduzierbarkeit: Detaillierte Implementierung und Open-Source-Code ermöglichen einfache Reproduktion und Anwendung
Inspirativer Wert: Wertvolle Erfahrungen für Benchmark-Design in anderen Fachbereichen

Anwendungsszenarien

Genomik-Forschung: Alle DNA-Sprachmodell-Forschung mit BEND-Benchmark
Sequenz-Modellierung: Andere Aufgaben mit Sequenzüberlappung wie Zeitreihen oder Sequenz-Modellierung
Benchmark-Design: Benchmark-Framework-Design mit großen Datensätzen
Verteiltes Training: Verteilte maschinelle Lernsysteme mit Datenlade- und Shuffling-Strategien

Literaturverzeichnis

Marin et al. (2024). BEND: Benchmarking DNA language models on biologically meaningful tasks.
Aizman et al. (2020). High performance I/O for large scale deep learning.
Nguyen et al. (2023). HyenaDNA: Long-range genomic sequence modeling at single nucleotide resolution.
Zhou et al. (2023). DNABERT-2: Efficient foundation model and benchmark for multi-species genome.

Zusammenfassung: Dieses Paper entdeckt und löst ein wichtiges praktisches Problem beim Benchmarking von DNA-Sprachmodellen. Obwohl das Problem selbst relativ einfach ist, hat es weitreichende Auswirkungen. Der Wert des Papers liegt darin, die Forschungsgemeinschaft darauf hinzuweisen, dass scheinbar kleine Implementierungsdetails erhebliche Auswirkungen auf Benchmark-Ergebnisse haben können, und eine praktische Lösung bereitzustellen. Dies ist von großer Bedeutung für die Gewährleistung der Fairness und Zuverlässigkeit von Benchmarks.