2025-11-12T18:43:10.001533

QCell: Comprehensive Quantum-Mechanical Dataset Spanning Diverse Biomolecular Fragments

Kabylda, Suárez-Dou, Davoine et al.
Recent advances in machine learning force fields (MLFFs) are revolutionizing molecular simulations by bridging the gap between quantum-mechanical (QM) accuracy and the computational efficiency of mechanistic potentials. However, the development of reliable MLFFs for biomolecular systems remains constrained by the scarcity of high-quality, chemically diverse QM datasets that span all of the major classes of biomolecules expressed in living cells. Crucially, such a comprehensive dataset must be computed using non-empirical or minimally empirical approximations to solving the Schrödinger equation. To address these limitations, we introduce the QCell dataset -- a curated collection of 525k new QM calculations for biomolecular fragments encompassing carbohydrates, nucleic acids, lipids, dimers, and ion clusters. QCell complements existing datasets, bringing the total number of available data points to 41 million molecular systems, all calculated using hybrid density functional theory with nonlocal many-body dispersion interactions, as captured by the PBE0+MBD(-NL) level of quantum mechanics. The QCell dataset therefore provides a valuable resource for training next-generation MLFFs capable of modeling the intricate interactions that govern biomolecular dynamics beyond small molecules and proteins.
academic

QCell: Umfassendes quantenmechanisches Datensatz über diverse biomolekulare Fragmente

Grundinformationen

  • Papier-ID: 2510.09939
  • Titel: QCell: Comprehensive Quantum-Mechanical Dataset Spanning Diverse Biomolecular Fragments
  • Autoren: Adil Kabylda, Sergio Suárez-Dou, Nils Davoine, Florian N. Brünig, Alexandre Tkatchenko
  • Klassifizierung: physics.chem-ph
  • Veröffentlichungsdatum: 11. Oktober 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2510.09939

Zusammenfassung

Jüngste Fortschritte in Kraftfeldern mit maschinellem Lernen (MLFFs) revolutionieren die Molekulardynamik-Simulation, indem sie eine Brücke zwischen quantenmechanischer Genauigkeit und rechnerischer Effizienz mechanischer Potenziale schlagen. Die Entwicklung zuverlässiger MLFFs für biomolekulare Systeme ist jedoch durch den Mangel an hochwertigen, chemisch vielfältigen quantenmechanischen Datensätzen begrenzt, die alle wichtigen biomolekularen Kategorien abdecken müssen, die in lebenden Zellen exprimiert werden. Entscheidend ist, dass solche umfassenden Datensätze unter Verwendung nicht-empirischer oder minimal-empirischer Näherungen zur Lösung der Schrödinger-Gleichung berechnet werden müssen. Um diese Einschränkungen zu beheben, stellen die Autoren den QCell-Datensatz vor – eine kuratierte Sammlung von 525.000 neuen quantenmechanischen Berechnungen, die biomolekulare Fragmente von Kohlenhydraten, Nukleinsäuren, Lipiden, Dimeren und Ionenclustern umfasst. QCell ergänzt bestehende Datensätze und bringt die Gesamtzahl verfügbarer Datenpunkte auf 41 Millionen Molekülsysteme, alle berechnet mit hybrider Dichtefunktionaltheorie mit nicht-lokalen Vielteilchen-Dispersionseffekten, erfasst auf dem quantenmechanischen Niveau PBE0+MBD(-NL).

Forschungshintergrund und Motivation

Problemdefinition

  1. Kernproblem: Bestehende quantenmechanische Datensätze decken hauptsächlich kleine Moleküle und Proteine ab, während es erhebliche Lücken bei drei großen biomolekularen Kategorien – Nukleinsäuren, Lipiden und Kohlenhydraten – gibt, die etwa 40% der Zellbiomasse ausmachen.
  2. Bedeutung:
    • Der biomolekulare chemische Raum hat einzigartige Merkmale, wobei die Komplexität hauptsächlich aus dem Konformationsraum einer relativ begrenzten Anzahl wiederholter chemischer Bausteine stammt
    • Eine genaue Modellierung biomolekularer Wechselwirkungen ist für Computerchemie und Biophysik von entscheidender Bedeutung
    • MLFFs benötigen vielfältige und hochwertige QM-Datensätze, um den chemischen Raum, der in biomolekularen Systemen auftritt, treu darzustellen
  3. Einschränkungen bestehender Methoden:
    • Traditionelle QM-Methoden bieten hohe Genauigkeit, aber geringe Recheneffizienz
    • Empirische Atomkraftfelder bieten hohe Effizienz, aber begrenzte Genauigkeit
    • Bestehende Datensätze wie GEMS, QCML, OMol25 zeigen zwar Fortschritte, weisen aber immer noch erhebliche Lücken in den drei großen biomolekularen Kategorien auf
  4. Forschungsmotivation:
    • Lücken in biomolekularen Datensätzen schließen
    • Konsistente nicht-empirische quantenmechanische Theorieniveaus verwenden
    • Umfassende Trainingsressourcen für die nächste Generation von MLFFs bereitstellen

Kernbeiträge

  1. Konstruktion des QCell-Datensatzes: Enthält 525.881 neue QM-Berechnungen biomolekularer Fragmente, die Nukleinsäuren, Lipide, Kohlenhydrate, Ionen/Wasser und nicht-kovalente Dimere abdecken
  2. Erweiterte Datensatzabdeckung: In Kombination mit bestehenden Datensätzen erreicht die Gesamtzahl 41 Millionen Molekülsysteme, die 82 chemische Elemente abdecken
  3. Einheitliches Theorieniveau: Alle Berechnungen verwenden das PBE0+MBD(-NL)-Niveau, um Datenkonsistenz zu gewährleisten
  4. Tiefe Konformationsprobenahme: Konzentration auf Konformationsvielfalt in biologisch relevanten chemischen Umgebungen
  5. Technische Validierung: Datensatzqualität wurde durch Strukturanalyse und Maschinenlernkraftfeld-Training validiert

Methodische Details

Datensatz-Konstruktionsablauf

Der QCell-Datensatz wurde nach einem fünfschrittigen Arbeitsablauf konstruiert:

  1. Verwaltung der Bausteimbibliothek und Erzeugung anfänglicher 3D-Strukturen
  2. Umfangreiche Konformationsprobenahme (Molekulardynamik oder spezialisierte Konformationsgenerierungswerkzeuge)
  3. Auswahl repräsentativer Fragmente
  4. Voroptimierung mit DFTB+MBD-Methode
  5. Hochwertige quantenmechanische Berechnungen auf PBE0+MBD(-NL)-Niveau

Spezifische Methoden für jede Molekülkategorie

Nukleinsäuren

  • Verwendung des Nucleic Acid Builders zur Konstruktion solvatisierter DNA-Doppelhelix-Heptamere (A-, B-, Z-DNA-Formen)
  • Molekulardynamik-Simulationen mit OL21-Kraftfeld
  • Extraktion von zentralen Doppelstrang-Trimeren aus Heptamer-Trajektorien
  • Einbeziehung von DNA-Basenpaaren und gasförmigen RNA-Fragmenten

Lipide

  • Verwendung von CHARMM-GUI Membrane Builder zur Erzeugung von Phospholipidmembranstrukturen
  • Abdeckung von POPC-, POPE-, POPG-, POPS-Phospholipiden und Cholesterin
  • Produktionssimulationen von 500 ns mit Lipid21-Kraftfeld
  • Auswahl von Fettsäure-Monomeren, -Dimeren und -Trimeren basierend auf geometrischer Nähe

Kohlenhydrate

  • Konstruktion einer Bibliothek von 52 häufigen Monosacchariden, einschließlich α/β-Isomer-Konfigurationen von Pentosen und Hexosen
  • Konstruktion von Disacchariden und Zucker-Peptid-Verknüpfungen mit PyMOL
  • Konformationserzeugung mit dem CREST-Programm, maximale Energieschwelle von 12 kcal/mol
  • Clusterung nach Verknüpfungs-Diederwinkel und Auswahl repräsentativer Konformationen

Ionen und Wasser

  • Vorbereitung solvatisierter Ionensysteme mit Ionen in der Mitte einer Wasserkiste
  • Einwertige Ionen mit MBpol-Kraftfeld, zweiwertige Ionen mit AMBER-Kraftfeld
  • Erfassung von Solvatationseffekten bei verschiedenen Hydratationsniveaus (1-100 Wassermoleküle)

Quantenmechanische Berechnungsdetails

  • Theorieniveau: PBE0+MBD(-NL) – nicht-empirisches Hybridenfunktional mit Vielteilchen-Dispersionsbehandlung
  • Software: FHI-aims-Code
  • Basissatz: "tight"-Basissatz für kleine Moleküle, "intermediate"-Basissatz für Moleküle >350 Atome
  • Konvergenzkriterien: Gesamtenergie 10^-5 eV, Eigenwerte und 10^-3 eV, Ladungsdichte 10^-5 Elektronen/ų, Kräfte 10^-4 eV/Å

Experimentelle Einrichtung

Datensatzzusammensetzung

KategorieAnzahlAtomeElementeTheorieniveau
Nukleinsäuren34.83814-382H,C,N,O,Na,Mg,S,PPBE0+MBD-NL
Lipide16.000125-402H,C,N,O,PPBE0+MBD
Kohlenhydrate74.08735-75H,C,N,OPBE0+MBD
Ionen/Wasser30.0004-303H,O,Na,Cl,K,Mg,CaPBE0+MBD-NL
Nicht-kovalente Dimere370.9562-3420 ElementePBE0+MBD-NL

Bewertungsmetriken

  • Validierung struktureller geometrischer Deskriptoren
  • Mittlerer absoluter Fehler (MAE) der Kräfte von Maschinenlernkraftfeldern
  • Vergleich der radialen Verteilungsfunktion mit experimentellen Referenzwerten

Validierung durch maschinelles Lernen

Training von MLFFs mit SO3LR-Architektur zur Bewertung der Datensatzqualität:

  • Drei Modellgrößen: klein, mittel, groß
  • Kombinierte Verlustfunktion: Kräfte, Dipolmomente, Hirshfeld-Verhältnisse, Energie (Gewichte 100:10:10:1)
  • 10 Å Langreichweiten-Abschneidung, Training auf A100-GPU für 180 Stunden

Experimentelle Ergebnisse

Strukturvalidierungsergebnisse

  1. Nukleinsäuren: Phosphat-Phosphat-Abstände und Skelett-Biegungswinkelverteilungen von DNA-Fragmenten reproduzieren die erwarteten Werte für A-, B-, Z-DNA
  2. Lipide: Trägheitsradius-Verteilungen von Fettsäurefragmenten spiegeln angemessen Kettenstreckung und Packung wider
  3. Kohlenhydrate: N/O-Glykosidische Verknüpfungs-Diederwinkel decken den gesamten Konformationsraum ab und reproduzieren alle wichtigen Rotamere
  4. Ionen/Wasser: Radiale Verteilungsfunktionen stimmen mit experimentellen Hydratationsabständen überein, Positionen der Einwertigen-Ionen-Sauerstoff- und O-O-Peaks sind genau

Maschinenlernleistung

Kraft-MAE-Ergebnisse für verschiedene Datensatz-Teilmengen:

  • Nukleinsäuren: ~0,8 kcal/mol/Å (großes Modell)
  • Lipide: ~0,6 kcal/mol/Å (großes Modell)
  • Kohlenhydrate: ~0,5 kcal/mol/Å (großes Modell)
  • Ionen/Wasser: ~0,7 kcal/mol/Å (großes Modell)
  • DES370k: ~0,8 kcal/mol/Å (großes Modell)

Fehler sinken systematisch mit Modellkapazität, die meisten Teilmengen erreichen unter 1 kcal/mol/Å, was die interne Konsistenz des Datensatzes und die Verallgemeinerungsfähigkeit moderner MLFFs über chemisch vielfältige Systeme hinweg demonstriert.

Verwandte Arbeiten

Bestehende QM-Datensätze

  • QM7-X: Kleine organische Moleküle, 4,19 Millionen Datenpunkte
  • MD22: Molekulardynamik-Trajektorien
  • GEMS: Hierarchische Protein-Fragmentierungsstrategie
  • SPICE: Arzneimittelähnliche Moleküle und Peptide
  • QCML: Systematische Kartierung des kleinen Molekülchemischen Raums
  • OMol25: Chemisch heterogene Sammlung

Vorteile dieses Papiers

  • Erste systematische Abdeckung der drei großen biomolekularen Kategorien: Nukleinsäuren, Lipide, Kohlenhydrate
  • Einheitliches nicht-empirisches Theorieniveau gewährleistet Datenkonsistenz
  • Tiefe Konformationsprobenahme konzentriert sich auf biologisch relevante chemische Umgebungen
  • Perfekte Kompatibilität mit bestehenden Datensätzen für einheitliches Training

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Der QCell-Datensatz schließt erfolgreich wichtige Lücken in QM-Daten für Biomoleküle
  2. Das einheitliche PBE0+MBD(-NL)-Theorieniveau gewährleistet Kompatibilität mit bestehenden Datensätzen
  3. Strukturvalidierung bestätigt die chemische Rationalität und Vielfalt des Datensatzes
  4. Validierung durch maschinelles Lernen zeigt ausgezeichnete Vorhersageleistung

Einschränkungen

  1. Radiale Verteilungsfunktionen zweiwertiger Ionen weichen leicht von experimentellen Werten ab
  2. Fragmentgröße auf 402 Atome begrenzt
  3. Hauptsächlich Fokus auf biologisch relevante Elemente, relative begrenzte Elementvielfalt
  4. Gleichgewicht zwischen gasförmiger und Lösungsphasenumgebung bedarf weiterer Optimierung

Zukünftige Richtungen

  1. Erweiterung auf größere biomolekulare Fragmente
  2. Einbeziehung weiterer Lösungsmitteleffekte und Umgebungsbedingungen
  3. Weitere Validierung und Kalibrierung mit experimentellen Daten
  4. Entwicklung neuer MLFF-Architekturen speziell für Biomoleküle

Tiefgreifende Bewertung

Stärken

  1. Schließt wichtige Lücken: Erste systematische Lösung des Datenmangels bei Nukleinsäuren, Lipiden und Kohlenhydraten
  2. Rigorose Methodik: Verwendung nicht-empirischer Quantenmechanik mit solider theoretischer Grundlage
  3. Hohe Datensatzqualität: Mehrfache Validierung gewährleistet Rationalität von Struktur und Energie
  4. Großer praktischer Wert: Kompatibilität mit bestehenden Datensätzen, direkt für MLFF-Training einsetzbar
  5. Offener Zugang: Öffentlich verfügbarer Datensatz fördert Feldentwicklung

Mängel

  1. Rechenkosten: PBE0+MBD(-NL)-Berechnungen sind kostspielig und begrenzen Datensatzerweiterung
  2. Fragmentbeschränkung: Maximale 402-Atom-Grenze kann Fernwechselwirkungen möglicherweise nicht vollständig erfassen
  3. Vereinfachte Umgebung: Hauptsächlich gasförmige und einfache Solvatisierung, unzureichende Modellierung komplexer biologischer Umgebungen
  4. Begrenzte Validierung: Fehlender direkter Vergleich mit hochpräzisen Methoden (z.B. CCSD(T))

Auswirkungen

  1. Akademischer Beitrag: Bietet wichtige Datenbasis für Entwicklung biomolekularer MLFFs
  2. Praktischer Wert: Direkt anwendbar auf Wirkstoffdesign, Biomolekülsimulation und andere Bereiche
  3. Reproduzierbarkeit: Detaillierte Methodenbeschreibung und offene Daten gewährleisten Reproduzierbarkeit
  4. Förderung der Entwicklung: Kann neue Biomolekülmodellierungsmethoden fördern

Anwendungsszenarien

  1. MLFF-Training für Biomoleküle: Direkt für Training universeller Kraftfelder mit mehreren Biomolekültypen
  2. Wirkstoffdesign: Datenbereitstellung für Protein-Ligand- und DNA-Wirkstoff-Wechselwirkungsmodellierung
  3. Membranbiologie: Lipiddaten für Membranprotein- und Membranwechselwirkungsforschung
  4. Glykobiologie: Kohlenhydratdaten unterstützen Glykoproteins- und Glykolipidforschung
  5. Methodenentwicklung: Benchmark-Testdaten für neue Quantenchemie-Methoden und MLFF-Architekturen

Referenzen

Dieses Papier zitiert 58 wichtige Referenzen, die Quantenchemie-Methoden, Maschinenlernkraftfelder, Biomolekülsimulation und verwandte Datensätze abdecken und eine solide theoretische Grundlage und technische Unterstützung für die Forschung bieten.