Large Language Models are increasingly popular in genomics due to their potential to decode complex biological sequences. Hence, researchers require a standardized benchmark to evaluate DNA Language Models (DNA LMs) capabilities. However, evaluating DNA LMs is a complex task that intersects genomic's domain-specific challenges and machine learning methodologies, where seemingly minor implementation details can significantly compromise benchmark validity. We demonstrate this through BEND (Benchmarking DNA Language Models), where hardware-dependent hyperparameters -- number of data loading workers and buffer sizes -- create spurious performance variations of up to 4% for identical models. The problem stems from inadequate data shuffling interacting with domain specific data characteristics. Experiments with three DNA language models (HyenaDNA, DNABERT-2, ResNet-LM) show these artifacts affect both absolute performance and relative model rankings. We propose a simple solution: pre-shuffling data before storage eliminates hardware dependencies while maintaining efficiency. This work highlights how standard ML practices can interact unexpectedly with domain-specific data characteristics, with broader implications for benchmark design in specialized domains.
- ID de l'article : 2510.12617
- Titre : Same model, better performance: the impact of shuffling on DNA Language Models benchmarking
- Auteurs : Davide Greco, Konrad Rawlik (Université d'Édimbourg, Baillie Gifford Pandemic Science Hub)
- Classification : q-bio.GN cs.LG
- Date de publication : 15 octobre 2025 (prépublication arXiv)
- Lien de l'article : https://arxiv.org/abs/2510.12617
Les grands modèles de langage deviennent de plus en plus populaires en génomique en raison de leur potentiel pour décoder des séquences biologiques complexes. Par conséquent, les chercheurs ont besoin de repères normalisés pour évaluer les capacités des modèles de langage ADN (DNA LMs). Cependant, l'évaluation des DNA LMs est une tâche complexe impliquant l'intersection des défis spécifiques au domaine de la génomique et de la méthodologie d'apprentissage automatique, où de minuscules détails d'implémentation apparemment insignifiants peuvent compromettre considérablement la validité des repères. Les auteurs le démontrent par le biais de BEND (Benchmarking DNA Language Models), où des hyperparamètres liés au matériel — le nombre de workers de chargement de données et la taille du tampon — créent des variations de performance fictives jusqu'à 4 % pour le même modèle. Le problème provient de l'interaction entre un mélange de données inadéquat et les caractéristiques des données spécifiques au domaine. Les expériences utilisant trois modèles de langage ADN (HyenaDNA, DNABERT-2, ResNet-LM) montrent que ces artefacts affectent à la fois la performance absolue et le classement relatif des modèles. Les auteurs proposent une solution simple : le pré-mélange des données avant le stockage peut éliminer la dépendance au matériel tout en maintenant l'efficacité.
Le problème fondamental que cette recherche vise à résoudre est le biais d'implémentation dans l'évaluation comparative des modèles de langage ADN. Plus précisément :
- Dépendance au matériel : Les résultats des repères sont affectés par des hyperparamètres liés au matériel (nombre de workers, taille du tampon)
- Mélange de données inadéquat : En raison de la nature particulière des données génomiques (dépendance spatiale, chevauchement de séquences), les pratiques standard d'apprentissage automatique peuvent produire des biais inattendus
- Équité de l'évaluation : Les chercheurs disposant de ressources informatiques différentes peuvent obtenir des résultats de repères différents, compromettant l'équité de l'évaluation
- Fondation du progrès scientifique : Les repères normalisés constituent la base du progrès scientifique en apprentissage automatique, permettant aux chercheurs de comparer les méthodes et de suivre les améliorations
- Défis des domaines émergents : Dans les domaines émergents comme la génomique, les connaissances spécifiques au domaine sont rares et les principes de conception des repères sont encore en cours d'établissement
- Équité des ressources : Assurer que l'évaluation comparative ne favorise pas les chercheurs disposant de meilleures ressources informatiques
Bien que le cadre de repères BEND fournisse une suite complète de tâches génomiques supervisées, il présente les problèmes suivants :
- Adoption d'un mécanisme complexe de chargement de données avec une stratégie de mélange à deux niveaux pour traiter les ensembles de données à grande échelle
- Introduction d'une dépendance à des hyperparamètres spécifiques au matériel
- Combiné avec les caractéristiques inhérentes aux données génomiques (chevauchement significatif entre les échantillons de séquences ADN continues), cela entraîne un mélange de données inadéquat
- Découverte et quantification des biais systématiques dans l'évaluation comparative : Démonstration que les hyperparamètres liés au matériel peuvent entraîner des variations de performance jusqu'à 4 % pour le même modèle
- Analyse concrète du problème : Analyse approfondie de l'interaction entre le mécanisme de mélange de données dans le cadre WebDataset et les caractéristiques des données génomiques
- Proposition d'une solution simple et efficace : La méthode de pré-mélange peut éliminer la dépendance au matériel tout en maintenant ou en améliorant la performance sur toutes les tâches
- Validation inter-architectures : Vérification de l'universalité du problème et de l'efficacité de la solution sur trois architectures différentes de modèles de langage ADN
- Fourniture de meilleures pratiques pour la conception de repères : Fourniture d'expériences concrètes et de recommandations pour la conception de repères dans les domaines spécialisés
- Génération d'embeddings : Extraction de séquences ADN du génome de référence et génération d'embeddings à l'aide d'un modèle de langage
- Entraînement du modèle en aval : Entraînement d'un modèle en aval utilisant les embeddings générés appariés avec des étiquettes
- Évaluation : Le modèle en aval traite les embeddings de séquences ADN de l'ensemble de test et les compare avec les étiquettes réelles
BEND utilise le cadre WebDataset pour stocker, charger et mélanger les embeddings :
- Stockage fragmenté : Les embeddings sont stockés dans des fichiers .tar (fragments)
- Allocation de workers : Chaque fragment est assigné à un seul worker
- Mélange du tampon : Chaque worker dispose de son propre tampon, mélangeant uniquement les échantillons du fragment assigné à ce worker
L'article analyse par visualisation les modèles d'accès aux données sous différentes configurations :
- Sans mélange : Accès séquentiel aux données
- BEND (1 worker) : Accès séquentiel aux fragments, lecture séquentielle interne
- BEND (workers maximaux) : Accès parallèle à plusieurs fragments, augmentant la diversité des échantillons entre les lots mais n'affectant pas la diversité au sein des lots
- Pré-mélange : Assure une bonne diversité des échantillons indépendamment du nombre de workers
Mélanger les annotations de données avant leur stockage dans les fragments, assurant que les échantillons de n'importe quelle partie de l'ensemble de données peuvent être stockés dans n'importe quel fragment.
- Phase de prétraitement : Mélange des annotations de séquences avant la génération d'embeddings
- Phase de stockage : Stockage des données mélangées dans les fragments
- Phase de chargement : Flux de chargement WebDataset normal, mais comme les données sont pré-mélangées, le nombre de workers n'affecte plus la diversité des échantillons
- Indépendance du matériel : Élimine la dépendance au nombre de workers et à la taille du tampon
- Maintien de l'efficacité : Ne modifie pas les détails d'implémentation de BEND, préservant l'efficacité originale
- Amélioration de la performance : Maintient ou améliore la performance sur toutes les tâches
Utilisation de sept tâches du cadre de repères BEND :
- Tâches supervisées : Méthylation CpG, modifications d'histones, accessibilité de la chromatine, découverte de gènes, annotation d'enhanceurs
- Tâches non supervisées : Prédiction des effets des variantes non codantes sur l'expression et la maladie
Test de trois architectures différentes de modèles de langage ADN :
- HyenaDNA-tiny-1k : Modèle basé sur l'architecture Hyena
- DNABERT-2 : Modèle de langage ADN basé sur BERT
- ResNet-LM : Modèle de base proposé par BEND
- AUROC : Pour les tâches de méthylation CpG et de modifications d'histones
- MCC : Pour la tâche de découverte de gènes
- Expérience d'impact des hyperparamètres : Comparaison de l'impact du nombre de workers et de la taille du tampon sur la performance
- Validation inter-architectures : Vérification de l'efficacité de la méthode de pré-mélange sur trois architectures de modèles
- Analyse des caractéristiques des données : Analyse du chevauchement de séquences continues dans différentes tâches
Tableau 1 : Résultats de test de HyenaDNA-tiny-1k sous différentes configurations d'hyperparamètres
| Tâche | Métrique | Workers max | 1 worker | Tampon 1000 | Pas de tampon |
|---|
| Méthylation CpG | AUROC | 0.878 | 0.868 | - | - |
| Modifications d'histones | AUROC | 0.766 | 0.756 | - | - |
| Découverte de gènes | MCC | - | - | 0.115 | 0.076 |
Résultats du pré-mélange : Atteinte de la performance optimale ou proche de l'optimale sous toutes les configurations, éliminant la dépendance au matériel.
Tableau 2 : Comparaison de trois modèles sur la tâche de méthylation CpG (AUROC)
| Modèle | BEND | Pré-mélange | Amélioration |
|---|
| HyenaDNA-tiny-1k | 0.868 | 0.900 | +3.2% |
| DNABERT-2 | 0.893 | 0.910 | +1.7% |
| ResNet-LM | 0.890 | 0.919 | +2.9% |
Tableau 3 : Situation du chevauchement de séquences continues dans chaque tâche
| Tâche | Pourcentage de séquences chevauchantes | Pourcentage médian de nucléotides chevauchants | Pourcentage de chevauchement pondéré |
|---|
| Méthylation CpG | 51.88% | 87.70% | 45.50% |
| Modifications d'histones | 17.03% | 19.92% | 3.39% |
| Découverte de gènes | 7.09% | 12.39% | 0.88% |
| Annotation d'enhanceurs | 1.75% | 49.27% | 0.86% |
| Accessibilité de la chromatine | 28.29% | 20.31% | 5.75% |
La tâche de méthylation CpG affiche le degré de chevauchement de séquences le plus élevé, ce qui explique pourquoi cette tâche bénéficie le plus du pré-mélange.
Le pré-mélange non seulement améliore la performance absolue, mais modifie également le classement relatif des modèles :
- Configuration BEND : DNABERT-2 ≈ ResNet-LM > HyenaDNA-tiny-1k
- Après pré-mélange : ResNet-LM > DNABERT-2 > HyenaDNA-tiny-1k
- BEND : Premier cadre de repères complet spécialement conçu pour les modèles de langage ADN
- WebDataset : Cadre d'apprentissage profond à grande échelle pour les E/S haute performance
- HyenaDNA : Modélisation de séquences génomiques longues, résolution au nucléotide unique
- DNABERT-2 : Modèle de base efficace pour les génomes multi-espèces
- ResNet-LM : Modèle de base basé sur les réseaux résiduels
L'article contribue à l'expérience pratique dans le domaine de la conception de repères, en particulier dans les cas où les pratiques standard de ML peuvent produire des conséquences inattendues dans les domaines spécialisés.
- Problème de dépendance au matériel : Les hyperparamètres basés sur le choix des ressources informatiques (nombre de workers et taille du tampon) affectent involontairement les résultats des repères
- Indépendance de l'architecture : Les modèles avec différentes architectures de base bénéficient tous d'un mélange approprié, avec des améliorations de performance jusqu'à 4 %
- Impact sur le classement : Un mélange inapproprié affecte non seulement la performance absolue mais modifie également le classement relatif entre les modèles
- Solution simple et efficace : Le pré-mélange des données est une correction simple pour découpler la performance des repères des hyperparamètres spécifiques au matériel
- Cadre spécifique : La recherche se concentre principalement sur le cadre BEND, d'autres cadres de repères peuvent présenter des problèmes différents
- Couverture des tâches : Bien que plusieurs tâches aient été testées, elles restent limitées à l'ensemble des tâches fournies par BEND
- Portée des modèles : Seules trois architectures de modèles ont été testées, ce qui peut ne pas couvrir tous les types de modèles de langage ADN
- Extension à d'autres repères : Application des découvertes et solutions à d'autres repères en bioinformatique
- Détection automatisée : Développement d'outils pour détecter automatiquement les biais potentiels dans les implémentations de repères
- Guide des meilleures pratiques : Établissement de directives plus complètes pour la conception de repères dans les domaines spécialisés
- Valeur pratique élevée : Découverte d'un problème important dans l'évaluation comparative réelle, fourniture d'une solution immédiatement utilisable
- Analyse approfondie : Démonstration claire de la racine du problème par visualisation et analyse quantitative
- Validation suffisante : Vérification de l'universalité du problème et de l'efficacité de la solution sur plusieurs modèles et tâches
- Rédaction claire : Structure d'article claire, description du problème et solution faciles à comprendre
- Contribution open source : Fourniture d'une implémentation de code public
- Nature accidentelle de la découverte du problème : L'article ne fournit pas de méthode systématique pour prévenir ou détecter des problèmes similaires
- Analyse théorique insuffisante : Manque d'explication théorique sur pourquoi certaines tâches sont plus affectées que d'autres
- Limitations de la solution : Bien que le pré-mélange soit efficace, il peut ne pas s'appliquer à tous les types de données de séquences
- Analyse des coûts de calcul : Pas d'analyse détaillée des frais généraux de calcul de la méthode de pré-mélange
- Contribution au domaine : Fourniture d'une amélioration méthodologique importante pour l'évaluation des modèles de langage ADN
- Valeur pratique : Amélioration directe de la fiabilité du repère BEND, bénéficiant à l'ensemble de la communauté de recherche
- Reproductibilité : Fourniture d'une implémentation détaillée et de code open source, facile à reproduire et à appliquer
- Valeur inspirante : Fourniture d'expériences précieuses pour la conception de repères dans d'autres domaines spécialisés
- Recherche en génomique : Toute recherche sur les modèles de langage ADN utilisant le repère BEND
- Modélisation de séquences : Autres tâches de modélisation de séries temporelles ou de séquences impliquant un chevauchement de séquences
- Conception de repères : Conception de cadres de repères nécessitant le traitement d'ensembles de données à grande échelle
- Entraînement distribué : Systèmes d'apprentissage automatique distribué nécessitant de considérer les stratégies de chargement et de mélange de données
- Marin et al. (2024). BEND: Benchmarking DNA language models on biologically meaningful tasks.
- Aizman et al. (2020). High performance I/O for large scale deep learning.
- Nguyen et al. (2023). HyenaDNA: Long-range genomic sequence modeling at single nucleotide resolution.
- Zhou et al. (2023). DNABERT-2: Efficient foundation model and benchmark for multi-species genome.
Résumé : Cet article découvre et résout un problème pratique important dans l'évaluation comparative des modèles de langage ADN. Bien que le problème lui-même soit relativement simple, son impact est profond. La valeur de l'article réside dans le rappel à la communauté de recherche que les détails d'implémentation apparemment mineurs peuvent avoir un impact significatif sur les résultats des repères, et il fournit une solution pratique. Ceci est d'une importance capitale pour assurer l'équité et la fiabilité de l'évaluation comparative.