2025-11-24T17:34:17.619375

Same model, better performance: the impact of shuffling on DNA Language Models benchmarking

Greco, Rawlik

Large Language Models are increasingly popular in genomics due to their potential to decode complex biological sequences. Hence, researchers require a standardized benchmark to evaluate DNA Language Models (DNA LMs) capabilities. However, evaluating DNA LMs is a complex task that intersects genomic's domain-specific challenges and machine learning methodologies, where seemingly minor implementation details can significantly compromise benchmark validity. We demonstrate this through BEND (Benchmarking DNA Language Models), where hardware-dependent hyperparameters -- number of data loading workers and buffer sizes -- create spurious performance variations of up to 4% for identical models. The problem stems from inadequate data shuffling interacting with domain specific data characteristics. Experiments with three DNA language models (HyenaDNA, DNABERT-2, ResNet-LM) show these artifacts affect both absolute performance and relative model rankings. We propose a simple solution: pre-shuffling data before storage eliminates hardware dependencies while maintaining efficiency. This work highlights how standard ML practices can interact unexpectedly with domain-specific data characteristics, with broader implications for benchmark design in specialized domains.

academic

Même modèle, meilleures performances : l'impact du mélange sur l'évaluation comparative des modèles de langage ADN

Informations de base

ID de l'article : 2510.12617
Titre : Same model, better performance: the impact of shuffling on DNA Language Models benchmarking
Auteurs : Davide Greco, Konrad Rawlik (Université d'Édimbourg, Baillie Gifford Pandemic Science Hub)
Classification : q-bio.GN cs.LG
Date de publication : 15 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.12617

Résumé

Les grands modèles de langage deviennent de plus en plus populaires en génomique en raison de leur potentiel pour décoder des séquences biologiques complexes. Par conséquent, les chercheurs ont besoin de repères normalisés pour évaluer les capacités des modèles de langage ADN (DNA LMs). Cependant, l'évaluation des DNA LMs est une tâche complexe impliquant l'intersection des défis spécifiques au domaine de la génomique et de la méthodologie d'apprentissage automatique, où de minuscules détails d'implémentation apparemment insignifiants peuvent compromettre considérablement la validité des repères. Les auteurs le démontrent par le biais de BEND (Benchmarking DNA Language Models), où des hyperparamètres liés au matériel — le nombre de workers de chargement de données et la taille du tampon — créent des variations de performance fictives jusqu'à 4 % pour le même modèle. Le problème provient de l'interaction entre un mélange de données inadéquat et les caractéristiques des données spécifiques au domaine. Les expériences utilisant trois modèles de langage ADN (HyenaDNA, DNABERT-2, ResNet-LM) montrent que ces artefacts affectent à la fois la performance absolue et le classement relatif des modèles. Les auteurs proposent une solution simple : le pré-mélange des données avant le stockage peut éliminer la dépendance au matériel tout en maintenant l'efficacité.

Contexte et motivation de la recherche

Problème fondamental

Le problème fondamental que cette recherche vise à résoudre est le biais d'implémentation dans l'évaluation comparative des modèles de langage ADN. Plus précisément :

Dépendance au matériel : Les résultats des repères sont affectés par des hyperparamètres liés au matériel (nombre de workers, taille du tampon)
Mélange de données inadéquat : En raison de la nature particulière des données génomiques (dépendance spatiale, chevauchement de séquences), les pratiques standard d'apprentissage automatique peuvent produire des biais inattendus
Équité de l'évaluation : Les chercheurs disposant de ressources informatiques différentes peuvent obtenir des résultats de repères différents, compromettant l'équité de l'évaluation

Importance du problème

Fondation du progrès scientifique : Les repères normalisés constituent la base du progrès scientifique en apprentissage automatique, permettant aux chercheurs de comparer les méthodes et de suivre les améliorations
Défis des domaines émergents : Dans les domaines émergents comme la génomique, les connaissances spécifiques au domaine sont rares et les principes de conception des repères sont encore en cours d'établissement
Équité des ressources : Assurer que l'évaluation comparative ne favorise pas les chercheurs disposant de meilleures ressources informatiques

Limitations des approches existantes

Bien que le cadre de repères BEND fournisse une suite complète de tâches génomiques supervisées, il présente les problèmes suivants :

Adoption d'un mécanisme complexe de chargement de données avec une stratégie de mélange à deux niveaux pour traiter les ensembles de données à grande échelle
Introduction d'une dépendance à des hyperparamètres spécifiques au matériel
Combiné avec les caractéristiques inhérentes aux données génomiques (chevauchement significatif entre les échantillons de séquences ADN continues), cela entraîne un mélange de données inadéquat

Contributions principales

Découverte et quantification des biais systématiques dans l'évaluation comparative : Démonstration que les hyperparamètres liés au matériel peuvent entraîner des variations de performance jusqu'à 4 % pour le même modèle
Analyse concrète du problème : Analyse approfondie de l'interaction entre le mécanisme de mélange de données dans le cadre WebDataset et les caractéristiques des données génomiques
Proposition d'une solution simple et efficace : La méthode de pré-mélange peut éliminer la dépendance au matériel tout en maintenant ou en améliorant la performance sur toutes les tâches
Validation inter-architectures : Vérification de l'universalité du problème et de l'efficacité de la solution sur trois architectures différentes de modèles de langage ADN
Fourniture de meilleures pratiques pour la conception de repères : Fourniture d'expériences concrètes et de recommandations pour la conception de repères dans les domaines spécialisés

Détails méthodologiques

Analyse du problème

Flux de traitement des données du cadre BEND

Génération d'embeddings : Extraction de séquences ADN du génome de référence et génération d'embeddings à l'aide d'un modèle de langage
Entraînement du modèle en aval : Entraînement d'un modèle en aval utilisant les embeddings générés appariés avec des étiquettes
Évaluation : Le modèle en aval traite les embeddings de séquences ADN de l'ensemble de test et les compare avec les étiquettes réelles

Mécanisme de stockage et de chargement WebDataset

BEND utilise le cadre WebDataset pour stocker, charger et mélanger les embeddings :

Stockage fragmenté : Les embeddings sont stockés dans des fichiers .tar (fragments)
Allocation de workers : Chaque fragment est assigné à un seul worker
Mélange du tampon : Chaque worker dispose de son propre tampon, mélangeant uniquement les échantillons du fragment assigné à ce worker

Analyse des modèles d'accès aux données

L'article analyse par visualisation les modèles d'accès aux données sous différentes configurations :

Sans mélange : Accès séquentiel aux données
BEND (1 worker) : Accès séquentiel aux fragments, lecture séquentielle interne
BEND (workers maximaux) : Accès parallèle à plusieurs fragments, augmentant la diversité des échantillons entre les lots mais n'affectant pas la diversité au sein des lots
Pré-mélange : Assure une bonne diversité des échantillons indépendamment du nombre de workers

Solution : Méthode de pré-mélange

Idée centrale

Mélanger les annotations de données avant leur stockage dans les fragments, assurant que les échantillons de n'importe quelle partie de l'ensemble de données peuvent être stockés dans n'importe quel fragment.

Détails d'implémentation

Phase de prétraitement : Mélange des annotations de séquences avant la génération d'embeddings
Phase de stockage : Stockage des données mélangées dans les fragments
Phase de chargement : Flux de chargement WebDataset normal, mais comme les données sont pré-mélangées, le nombre de workers n'affecte plus la diversité des échantillons

Avantages

Indépendance du matériel : Élimine la dépendance au nombre de workers et à la taille du tampon
Maintien de l'efficacité : Ne modifie pas les détails d'implémentation de BEND, préservant l'efficacité originale
Amélioration de la performance : Maintient ou améliore la performance sur toutes les tâches

Configuration expérimentale

Ensembles de données

Utilisation de sept tâches du cadre de repères BEND :

Tâches supervisées : Méthylation CpG, modifications d'histones, accessibilité de la chromatine, découverte de gènes, annotation d'enhanceurs
Tâches non supervisées : Prédiction des effets des variantes non codantes sur l'expression et la maladie

Modèles

Test de trois architectures différentes de modèles de langage ADN :

HyenaDNA-tiny-1k : Modèle basé sur l'architecture Hyena
DNABERT-2 : Modèle de langage ADN basé sur BERT
ResNet-LM : Modèle de base proposé par BEND

Métriques d'évaluation

AUROC : Pour les tâches de méthylation CpG et de modifications d'histones
MCC : Pour la tâche de découverte de gènes

Conception expérimentale

Expérience d'impact des hyperparamètres : Comparaison de l'impact du nombre de workers et de la taille du tampon sur la performance
Validation inter-architectures : Vérification de l'efficacité de la méthode de pré-mélange sur trois architectures de modèles
Analyse des caractéristiques des données : Analyse du chevauchement de séquences continues dans différentes tâches

Résultats expérimentaux

Résultats principaux

Impact des hyperparamètres

Tableau 1 : Résultats de test de HyenaDNA-tiny-1k sous différentes configurations d'hyperparamètres

Tâche	Métrique	Workers max	1 worker	Tampon 1000	Pas de tampon
Méthylation CpG	AUROC	0.878	0.868	-	-
Modifications d'histones	AUROC	0.766	0.756	-	-
Découverte de gènes	MCC	-	-	0.115	0.076

Résultats du pré-mélange : Atteinte de la performance optimale ou proche de l'optimale sous toutes les configurations, éliminant la dépendance au matériel.

Validation inter-architectures

Tableau 2 : Comparaison de trois modèles sur la tâche de méthylation CpG (AUROC)

Modèle	BEND	Pré-mélange	Amélioration
HyenaDNA-tiny-1k	0.868	0.900	+3.2%
DNABERT-2	0.893	0.910	+1.7%
ResNet-LM	0.890	0.919	+2.9%

Découvertes clés

Analyse du chevauchement de données

Tableau 3 : Situation du chevauchement de séquences continues dans chaque tâche

Tâche	Pourcentage de séquences chevauchantes	Pourcentage médian de nucléotides chevauchants	Pourcentage de chevauchement pondéré
Méthylation CpG	51.88%	87.70%	45.50%
Modifications d'histones	17.03%	19.92%	3.39%
Découverte de gènes	7.09%	12.39%	0.88%
Annotation d'enhanceurs	1.75%	49.27%	0.86%
Accessibilité de la chromatine	28.29%	20.31%	5.75%

La tâche de méthylation CpG affiche le degré de chevauchement de séquences le plus élevé, ce qui explique pourquoi cette tâche bénéficie le plus du pré-mélange.

Changements du classement des modèles

Le pré-mélange non seulement améliore la performance absolue, mais modifie également le classement relatif des modèles :

Configuration BEND : DNABERT-2 ≈ ResNet-LM > HyenaDNA-tiny-1k
Après pré-mélange : ResNet-LM > DNABERT-2 > HyenaDNA-tiny-1k

Travaux connexes

Cadres de repères

BEND : Premier cadre de repères complet spécialement conçu pour les modèles de langage ADN
WebDataset : Cadre d'apprentissage profond à grande échelle pour les E/S haute performance

Modèles de langage ADN

HyenaDNA : Modélisation de séquences génomiques longues, résolution au nucléotide unique
DNABERT-2 : Modèle de base efficace pour les génomes multi-espèces
ResNet-LM : Modèle de base basé sur les réseaux résiduels

Meilleures pratiques en conception de repères

L'article contribue à l'expérience pratique dans le domaine de la conception de repères, en particulier dans les cas où les pratiques standard de ML peuvent produire des conséquences inattendues dans les domaines spécialisés.

Conclusion et discussion

Conclusions principales

Problème de dépendance au matériel : Les hyperparamètres basés sur le choix des ressources informatiques (nombre de workers et taille du tampon) affectent involontairement les résultats des repères
Indépendance de l'architecture : Les modèles avec différentes architectures de base bénéficient tous d'un mélange approprié, avec des améliorations de performance jusqu'à 4 %
Impact sur le classement : Un mélange inapproprié affecte non seulement la performance absolue mais modifie également le classement relatif entre les modèles
Solution simple et efficace : Le pré-mélange des données est une correction simple pour découpler la performance des repères des hyperparamètres spécifiques au matériel

Limitations

Cadre spécifique : La recherche se concentre principalement sur le cadre BEND, d'autres cadres de repères peuvent présenter des problèmes différents
Couverture des tâches : Bien que plusieurs tâches aient été testées, elles restent limitées à l'ensemble des tâches fournies par BEND
Portée des modèles : Seules trois architectures de modèles ont été testées, ce qui peut ne pas couvrir tous les types de modèles de langage ADN

Directions futures

Extension à d'autres repères : Application des découvertes et solutions à d'autres repères en bioinformatique
Détection automatisée : Développement d'outils pour détecter automatiquement les biais potentiels dans les implémentations de repères
Guide des meilleures pratiques : Établissement de directives plus complètes pour la conception de repères dans les domaines spécialisés

Évaluation approfondie

Points forts

Valeur pratique élevée : Découverte d'un problème important dans l'évaluation comparative réelle, fourniture d'une solution immédiatement utilisable
Analyse approfondie : Démonstration claire de la racine du problème par visualisation et analyse quantitative
Validation suffisante : Vérification de l'universalité du problème et de l'efficacité de la solution sur plusieurs modèles et tâches
Rédaction claire : Structure d'article claire, description du problème et solution faciles à comprendre
Contribution open source : Fourniture d'une implémentation de code public

Insuffisances

Nature accidentelle de la découverte du problème : L'article ne fournit pas de méthode systématique pour prévenir ou détecter des problèmes similaires
Analyse théorique insuffisante : Manque d'explication théorique sur pourquoi certaines tâches sont plus affectées que d'autres
Limitations de la solution : Bien que le pré-mélange soit efficace, il peut ne pas s'appliquer à tous les types de données de séquences
Analyse des coûts de calcul : Pas d'analyse détaillée des frais généraux de calcul de la méthode de pré-mélange

Impact

Contribution au domaine : Fourniture d'une amélioration méthodologique importante pour l'évaluation des modèles de langage ADN
Valeur pratique : Amélioration directe de la fiabilité du repère BEND, bénéficiant à l'ensemble de la communauté de recherche
Reproductibilité : Fourniture d'une implémentation détaillée et de code open source, facile à reproduire et à appliquer
Valeur inspirante : Fourniture d'expériences précieuses pour la conception de repères dans d'autres domaines spécialisés

Scénarios d'application

Recherche en génomique : Toute recherche sur les modèles de langage ADN utilisant le repère BEND
Modélisation de séquences : Autres tâches de modélisation de séries temporelles ou de séquences impliquant un chevauchement de séquences
Conception de repères : Conception de cadres de repères nécessitant le traitement d'ensembles de données à grande échelle
Entraînement distribué : Systèmes d'apprentissage automatique distribué nécessitant de considérer les stratégies de chargement et de mélange de données

Références

Marin et al. (2024). BEND: Benchmarking DNA language models on biologically meaningful tasks.
Aizman et al. (2020). High performance I/O for large scale deep learning.
Nguyen et al. (2023). HyenaDNA: Long-range genomic sequence modeling at single nucleotide resolution.
Zhou et al. (2023). DNABERT-2: Efficient foundation model and benchmark for multi-species genome.

Résumé : Cet article découvre et résout un problème pratique important dans l'évaluation comparative des modèles de langage ADN. Bien que le problème lui-même soit relativement simple, son impact est profond. La valeur de l'article réside dans le rappel à la communauté de recherche que les détails d'implémentation apparemment mineurs peuvent avoir un impact significatif sur les résultats des repères, et il fournit une solution pratique. Ceci est d'une importance capitale pour assurer l'équité et la fiabilité de l'évaluation comparative.