Recent advances in machine learning force fields (MLFFs) are revolutionizing molecular simulations by bridging the gap between quantum-mechanical (QM) accuracy and the computational efficiency of mechanistic potentials. However, the development of reliable MLFFs for biomolecular systems remains constrained by the scarcity of high-quality, chemically diverse QM datasets that span all of the major classes of biomolecules expressed in living cells. Crucially, such a comprehensive dataset must be computed using non-empirical or minimally empirical approximations to solving the Schrödinger equation. To address these limitations, we introduce the QCell dataset -- a curated collection of 525k new QM calculations for biomolecular fragments encompassing carbohydrates, nucleic acids, lipids, dimers, and ion clusters. QCell complements existing datasets, bringing the total number of available data points to 41 million molecular systems, all calculated using hybrid density functional theory with nonlocal many-body dispersion interactions, as captured by the PBE0+MBD(-NL) level of quantum mechanics. The QCell dataset therefore provides a valuable resource for training next-generation MLFFs capable of modeling the intricate interactions that govern biomolecular dynamics beyond small molecules and proteins.
- ID de l'article : 2510.09939
- Titre : QCell: Comprehensive Quantum-Mechanical Dataset Spanning Diverse Biomolecular Fragments
- Auteurs : Adil Kabylda, Sergio Suárez-Dou, Nils Davoine, Florian N. Brünig, Alexandre Tkatchenko
- Classification : physics.chem-ph
- Date de publication : 11 octobre 2025 (prépublication arXiv)
- Lien de l'article : https://arxiv.org/abs/2510.09939
Les avancées récentes dans les champs de force d'apprentissage automatique (MLFFs) révolutionnent la simulation moléculaire en établissant un pont entre la précision quantique-mécanique et l'efficacité computationnelle des potentiels classiques. Cependant, le développement de MLFFs fiables pour les systèmes biomoléculaires reste limité par la pénurie d'ensembles de données quantique-mécaniques de haute qualité et chimiquement diversifiés, qui doivent couvrir toutes les principales classes de biomolécules exprimées dans les cellules vivantes. Il est essentiel que de tels ensembles de données complets soient calculés en utilisant des approximations non-empiriques ou minimalement empiriques de l'équation de Schrödinger. Pour résoudre ces limitations, les auteurs introduisent l'ensemble de données QCell — une collection sélectionnée contenant 525 000 nouveaux calculs quantique-mécaniques couvrant des fragments biomoléculaires de glucides, acides nucléiques, lipides, dimères et agrégats ioniques. QCell complète les ensembles de données existants, portant le nombre total de points de données disponibles à 41 millions de systèmes moléculaires, tous calculés en utilisant la théorie de la fonctionnelle de la densité hybride avec interactions de dispersion multi-corps non-locales, capturés au niveau quantique-mécanique PBE0+MBD(-NL).
- Problème fondamental : Les ensembles de données quantique-mécaniques existants couvrent principalement les petites molécules et les protéines, présentant des lacunes significatives pour trois grandes classes de biomolécules — les acides nucléiques, les lipides et les glucides — qui représentent environ 40 % de la biomasse cellulaire.
- Importance :
- L'espace chimique des biomolécules possède des caractéristiques uniques, sa complexité provenant principalement de l'espace conformationnel de blocs de construction chimiques relativement limités et répétitifs
- La modélisation précise des interactions biomoléculaires est cruciale pour la chimie computationnelle et la biophysique
- Les MLFFs nécessitent des ensembles de données QM diversifiés et de haute qualité pour représenter fidèlement l'espace chimique rencontré dans les systèmes biomoléculaires
- Limitations des approches existantes :
- Les méthodes QM traditionnelles offrent une haute précision mais une faible efficacité computationnelle
- Les champs de force atomiques empiriques offrent une haute efficacité mais une précision limitée
- Les ensembles de données existants tels que GEMS, QCML, OMol25, bien que représentant des progrès, présentent toujours des lacunes significatives pour les trois grandes classes de biomolécules
- Motivation de la recherche :
- Combler les lacunes dans les ensembles de données biomoléculaires
- Utiliser un niveau de théorie quantique-mécanique non-empirique cohérent
- Fournir des ressources d'entraînement complètes pour la prochaine génération de MLFFs
- Construction de l'ensemble de données QCell : Contenant 525 881 nouveaux calculs QM de fragments biomoléculaires, couvrant les acides nucléiques, lipides, glucides, ions/eau et dimères non-covalents
- Extension de la couverture des données : Combiné avec les ensembles de données existants, le nombre total de points de données atteint 41 millions de systèmes moléculaires, couvrant 82 éléments chimiques
- Niveau théorique unifié : Tous les calculs utilisent le niveau PBE0+MBD(-NL), assurant la cohérence des données
- Échantillonnage conformationnel approfondi : Accent mis sur la diversité conformationnelle dans les environnements chimiques pertinents biologiquement
- Validation technique : Qualité de l'ensemble de données vérifiée par analyse structurale et entraînement de champs de force d'apprentissage automatique
L'ensemble de données QCell a été construit selon un flux de travail en cinq étapes :
- Gestion de la bibliothèque de blocs de construction et génération initiale de structures 3D
- Échantillonnage conformationnel extensif (dynamique moléculaire ou outils de génération conformationnelle dédiés)
- Sélection de fragments représentatifs
- Pré-optimisation par la méthode DFTB+MBD
- Calculs quantique-mécaniques de haute qualité PBE0+MBD(-NL)
- Utilisation du Nucleic Acid Builder pour construire des heptamères d'ADN double hélice solvatés (formes A-, B-, Z-ADN)
- Simulations de dynamique moléculaire utilisant le champ de force OL21
- Extraction de fragments de trimères double-chaîne centraux des trajectoires d'heptamères
- Inclusion de dimères de paires de bases d'ADN et de fragments d'ARN en phase gazeuse
- Utilisation de CHARMM-GUI Membrane Builder pour générer des structures de membranes phospholipidiques
- Couverture de phospholipides POPC, POPE, POPG, POPS et cholestérol
- Simulations de production de 500 ns utilisant le champ de force Lipid21
- Sélection de monomères, dimères et trimères d'acides gras basée sur la proximité géométrique
- Construction d'une bibliothèque de 52 monosaccharides courants, incluant les configurations isomères α/β de pentoses et hexoses
- Construction de disaccharides et de liaisons sucre-peptide utilisant PyMOL
- Génération de conformations utilisant le programme CREST, seuil d'énergie maximale de 12 kcal/mol
- Regroupement par angles dièdres de liaison et sélection de conformations représentatives
- Préparation de systèmes ioniques solvatés, avec les ions placés au centre d'une boîte d'eau
- Utilisation du champ de force MBpol pour les ions monovalents, champ de force AMBER pour les ions divalents
- Capture des effets de solvatation à différents niveaux d'hydratation (1-100 molécules d'eau)
- Niveau théorique : PBE0+MBD(-NL) — fonctionnelle hybride non-empirique avec traitement de la dispersion multi-corps
- Logiciel : Code FHI-aims
- Ensemble de base : Ensemble "tight" pour les petites molécules, ensemble "intermediate" pour les molécules >350 atomes
- Critères de convergence : Énergie totale 10^-5 eV, somme des valeurs propres 10^-3 eV, densité de charge 10^-5 electrons/ų, forces 10^-4 eV/Å
| Catégorie | Nombre | Atomes | Éléments | Niveau Théorique |
|---|
| Acides nucléiques | 34 838 | 14-382 | H,C,N,O,Na,Mg,S,P | PBE0+MBD-NL |
| Lipides | 16 000 | 125-402 | H,C,N,O,P | PBE0+MBD |
| Glucides | 74 087 | 35-75 | H,C,N,O | PBE0+MBD |
| Ions/Eau | 30 000 | 4-303 | H,O,Na,Cl,K,Mg,Ca | PBE0+MBD-NL |
| Dimères non-covalents | 370 956 | 2-34 | 20 éléments | PBE0+MBD-NL |
- Vérification des descripteurs géométriques structuraux
- Erreur absolue moyenne (MAE) des forces des champs de force d'apprentissage automatique
- Comparaison des fonctions de distribution radiale avec les valeurs de référence expérimentales
Entraînement de MLFFs utilisant l'architecture SO3LR pour évaluer la qualité de l'ensemble de données :
- Trois tailles de modèles : petit, moyen, grand
- Fonction de perte combinée : forces, moments dipolaires, rapports Hirshfeld, énergies (poids 100:10:10:1)
- Troncature longue portée de 10 Å, entraînement sur GPU A100 pendant 180 heures
- Acides nucléiques : Les distributions de distances phosphate-phosphate et d'angles de flexion du squelette des fragments d'ADN reproduisent les valeurs attendues pour les formes A-, B-, Z-ADN
- Lipides : Les distributions de rayon de giration des fragments d'acides gras reflètent raisonnablement l'extension et l'empilement des chaînes
- Glucides : Les angles dièdres des liaisons N/O-glycosidiques couvrent l'espace conformationnel complet, reproduisant tous les principaux rotamères
- Ions/Eau : Les fonctions de distribution radiale correspondent aux distances d'hydratation expérimentales, avec des positions de pics ion-oxygène et O-O précises
Résultats de MAE des forces pour différents sous-ensembles de données :
- Acides nucléiques : ~0,8 kcal/mol/Å (modèle grand)
- Lipides : ~0,6 kcal/mol/Å (modèle grand)
- Glucides : ~0,5 kcal/mol/Å (modèle grand)
- Ions/Eau : ~0,7 kcal/mol/Å (modèle grand)
- DES370k : ~0,8 kcal/mol/Å (modèle grand)
Les erreurs diminuent systématiquement avec la capacité du modèle, la plupart des sous-ensembles atteignant une précision inférieure à 1 kcal/mol/Å, démontrant la cohérence interne de l'ensemble de données et la capacité de généralisation des MLFFs modernes sur des systèmes chimiquement diversifiés.
- QM7-X : Petites molécules organiques, 4,19 millions de points de données
- MD22 : Trajectoires de dynamique moléculaire
- GEMS : Stratégie de fragmentation hiérarchique des protéines
- SPICE : Molécules de type médicament et peptides
- QCML : Cartographie systématique de l'espace chimique des petites molécules
- OMol25 : Ensemble d'hétérogénéité chimique
- Première couverture systématique des trois grandes classes de biomolécules : acides nucléiques, lipides, glucides
- Niveau théorique non-empirique unifié assurant la cohérence des données
- Échantillonnage conformationnel approfondi axé sur les environnements chimiques pertinents biologiquement
- Compatibilité parfaite avec les ensembles de données existants pour l'entraînement unifié
- L'ensemble de données QCell comble avec succès les lacunes importantes dans les données QM biomoléculaires
- Le niveau théorique unifié PBE0+MBD(-NL) assure la compatibilité avec les ensembles de données existants
- La validation structurale confirme la rationalité chimique et la diversité de l'ensemble de données
- La validation par apprentissage automatique démontre d'excellentes performances prédictives
- Les fonctions de distribution radiale des ions divalents présentent de légers écarts par rapport aux valeurs expérimentales
- La taille des fragments est limitée à 402 atomes maximum
- L'accent est mis principalement sur les éléments pertinents biologiquement, avec une diversité élémentaire relativement limitée
- L'équilibre entre les environnements en phase gazeuse et en solution nécessite une optimisation supplémentaire
- Extension à des fragments biomoléculaires plus grands
- Inclusion d'effets de solvant supplémentaires et de conditions environnementales
- Validation et calibration supplémentaires avec les données expérimentales
- Développement de nouvelles architectures MLFF spécialisées pour les biomolécules
- Comble une lacune importante : Première résolution systématique de l'insuffisance de données pour les acides nucléiques, lipides et glucides
- Méthodologie rigoureuse : Utilisation de méthodes quantique-mécaniques non-empiriques avec une base théorique solide
- Qualité des données élevée : Validations multiples assurant la rationalité des structures et énergies
- Grande valeur pratique : Compatible avec les ensembles de données existants, directement utilisable pour l'entraînement de MLFFs
- Accès ouvert : Ensemble de données publiquement disponible, favorisant le développement du domaine
- Coût computationnel : Le coût élevé des calculs PBE0+MBD(-NL) limite l'expansion de l'ensemble de données
- Limitations des fragments : La limite de 402 atomes peut ne pas capturer complètement les interactions longue portée
- Simplification environnementale : Considération principalement de la phase gazeuse et de la solvatation simple, modélisation insuffisante des environnements biologiques complexes
- Validation limitée : Absence de comparaison directe avec des méthodes de haute précision (par exemple, CCSD(T))
- Contribution académique : Fournit une base de données importante pour le développement de MLFFs biomoléculaires
- Valeur pratique : Applicable directement à la conception de médicaments, simulations biomoléculaires et autres domaines
- Reproductibilité : Description méthodologique détaillée et données ouvertes assurent la reproductibilité
- Promotion du développement : Peut favoriser le développement de nouvelles méthodes de modélisation biomoléculaire
- Entraînement de MLFFs biomoléculaires : Utilisation directe pour l'entraînement de champs de force universels couvrant plusieurs biomolécules
- Conception de médicaments : Fournit des données pour la modélisation des interactions protéine-ligand et ADN-médicament
- Biologie membranaire : Les données lipidiques peuvent être utilisées pour l'étude des protéines membranaires et des interactions membranaires
- Biologie des sucres : Les données glucidiques soutiennent la recherche sur les glycoprotéines et les glycolipides
- Développement de méthodes : Fournit des données de référence pour les nouvelles méthodes de chimie quantique et les architectures MLFF
Cet article cite 58 références importantes couvrant les méthodes de chimie quantique, les champs de force d'apprentissage automatique, la simulation biomoléculaire et les ensembles de données connexes, fournissant une base théorique et un soutien technique solides pour la recherche.