2025-11-12T18:43:10.001533

QCell: Comprehensive Quantum-Mechanical Dataset Spanning Diverse Biomolecular Fragments

Kabylda, SuÃ¡rez-Dou, Davoine et al.

Recent advances in machine learning force fields (MLFFs) are revolutionizing molecular simulations by bridging the gap between quantum-mechanical (QM) accuracy and the computational efficiency of mechanistic potentials. However, the development of reliable MLFFs for biomolecular systems remains constrained by the scarcity of high-quality, chemically diverse QM datasets that span all of the major classes of biomolecules expressed in living cells. Crucially, such a comprehensive dataset must be computed using non-empirical or minimally empirical approximations to solving the SchrÃ¶dinger equation. To address these limitations, we introduce the QCell dataset -- a curated collection of 525k new QM calculations for biomolecular fragments encompassing carbohydrates, nucleic acids, lipids, dimers, and ion clusters. QCell complements existing datasets, bringing the total number of available data points to 41 million molecular systems, all calculated using hybrid density functional theory with nonlocal many-body dispersion interactions, as captured by the PBE0+MBD(-NL) level of quantum mechanics. The QCell dataset therefore provides a valuable resource for training next-generation MLFFs capable of modeling the intricate interactions that govern biomolecular dynamics beyond small molecules and proteins.

academic

QCell: विविध जैव-आणविक खंडों को समाहित करने वाला व्यापक क्वांटम-यांत्रिकी डेटासेट

मूल जानकारी

पेपर ID: 2510.09939
शीर्षक: QCell: Comprehensive Quantum-Mechanical Dataset Spanning Diverse Biomolecular Fragments
लेखक: Adil Kabylda, Sergio Suárez-Dou, Nils Davoine, Florian N. Brünig, Alexandre Tkatchenko
वर्गीकरण: physics.chem-ph
प्रकाशन तिथि: 11 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.09939

सारांश

मशीन लर्निंग बल क्षेत्र (MLFFs) में हाल की प्रगति क्वांटम यांत्रिकी सटीकता और यांत्रिक विभवों की कम्प्यूटेशनल दक्षता के बीच एक पुल बनाकर आणविक सिमुलेशन में क्रांतिकारी परिवर्तन ला रही है। हालांकि, जैव-आणविक प्रणालियों के लिए विश्वसनीय MLFFs का विकास उच्च गुणवत्ता, रासायनिक विविधता वाले क्वांटम यांत्रिकी डेटासेट की कमी से सीमित है, जिन्हें जीवित कोशिकाओं में व्यक्त सभी प्रमुख जैव-आणविक श्रेणियों को शामिल करना चाहिए। महत्वपूर्ण रूप से, ऐसे व्यापक डेटासेट को गैर-अनुभवजन्य या न्यूनतम अनुभवजन्य श्रोडिंगर समीकरण समाधान सन्निकटन का उपयोग करके गणना की जानी चाहिए। इन सीमाओं को संबोधित करने के लिए, लेखकों ने QCell डेटासेट प्रस्तुत किया है - जिसमें 525,000 नई क्वांटम यांत्रिकी गणनाओं का एक सुचयनित संग्रह है, जो कार्बोहाइड्रेट, न्यूक्लिक एसिड, लिपिड, डाइमर और आयन समूहों के जैव-आणविक खंडों को शामिल करता है। QCell मौजूदा डेटासेट को पूरक करता है, जिससे उपलब्ध डेटा बिंदुओं की कुल संख्या 41 मिलियन आणविक प्रणालियों तक पहुंचती है, सभी हाइब्रिड घनत्व कार्यात्मक सिद्धांत के साथ गैर-स्थानीय बहु-शरीर फैलाव अंतःक्रिया का उपयोग करके गणना की गई है, जो PBE0+MBD(-NL) क्वांटम यांत्रिकी स्तर द्वारा कैप्चर की गई है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मूल समस्या: मौजूदा क्वांटम यांत्रिकी डेटासेट मुख्य रूप से छोटे अणुओं और प्रोटीन को कवर करते हैं, न्यूक्लिक एसिड, लिपिड और कार्बोहाइड्रेट - इन तीन प्रमुख जैव-आणविक श्रेणियों में महत्वपूर्ण खाली स्थान है, जबकि ये अणु कोशिका के जैव द्रव्यमान का लगभग 40% बनाते हैं।
महत्व:
- जैव-आणविक रासायनिक स्थान अद्वितीय विशेषताएं रखता है, जिसकी जटिलता मुख्य रूप से सीमित पुनरावृत्ति रासायनिक निर्माण ब्लॉकों के संरचनात्मक स्थान से आती है
- जैव-आणविक अंतःक्रिया का सटीक मॉडलिंग कम्प्यूटेशनल रसायन विज्ञान और जैव-भौतिकी के लिए महत्वपूर्ण है
- MLFFs को जैव-आणविक प्रणालियों में सामना किए जाने वाले रासायनिक स्थान को वफादारी से प्रतिनिधित्व करने के लिए विविध और उच्च गुणवत्ता वाले QM डेटासेट की आवश्यकता है
मौजूदा विधियों की सीमाएं:
- पारंपरिक QM विधियां उच्च सटीकता लेकिन कम कम्प्यूटेशनल दक्षता प्रदान करती हैं
- अनुभवजन्य परमाणु बल क्षेत्र उच्च दक्षता लेकिन सीमित सटीकता प्रदान करते हैं
- मौजूदा डेटासेट जैसे GEMS, QCML, OMol25 प्रगति दिखाते हैं, लेकिन तीन प्रमुख जैव-आणविक श्रेणियों में महत्वपूर्ण खाली स्थान बना हुआ है
अनुसंधान प्रेरणा:
- जैव-आणविक डेटासेट में खाली स्थान भरना
- सुसंगत गैर-अनुभवजन्य क्वांटम यांत्रिकी सिद्धांत स्तर का उपयोग करना
- अगली पीढ़ी के MLFFs के लिए व्यापक प्रशिक्षण संसाधन प्रदान करना

मूल योगदान

QCell डेटासेट का निर्माण: 525,881 नई जैव-आणविक खंड QM गणनाओं को शामिल करता है, जो न्यूक्लिक एसिड, लिपिड, कार्बोहाइड्रेट, आयन/जल और गैर-सहसंयोजक डाइमर को कवर करता है
डेटा कवरेज का विस्तार: मौजूदा डेटासेट के साथ संयुक्त, कुल डेटा बिंदु 41 मिलियन आणविक प्रणालियों तक पहुंचते हैं, 82 रासायनिक तत्वों को कवर करते हुए
एकीकृत सिद्धांत स्तर: सभी गणनाएं PBE0+MBD(-NL) स्तर का उपयोग करती हैं, डेटा सुसंगतता सुनिश्चित करते हुए
गहन संरचनात्मक नमूनाकरण: जैव-प्रासंगिक रासायनिक वातावरण के संरचनात्मक विविधता पर ध्यान केंद्रित करता है
तकनीकी सत्यापन: संरचनात्मक विश्लेषण और मशीन लर्निंग बल क्षेत्र प्रशिक्षण के माध्यम से डेटासेट गुणवत्ता का सत्यापन

विधि विवरण

डेटासेट निर्माण प्रवाह

QCell डेटासेट पाँच-चरणीय कार्यप्रवाह का उपयोग करके निर्मित किया गया है:

निर्माण ब्लॉक पुस्तकालय प्रबंधन और प्रारंभिक 3D संरचना पीढ़ी
व्यापक संरचनात्मक नमूनाकरण (आणविक गतिविज्ञान या समर्पित संरचनात्मक पीढ़ी उपकरण)
प्रतिनिधि खंड चयन
DFTB+MBD विधि पूर्व-अनुकूलन
उच्च गुणवत्ता PBE0+MBD(-NL) क्वांटम यांत्रिकी गणना

प्रत्येक आणविक श्रेणी के लिए विशिष्ट विधियां

न्यूक्लिक एसिड

न्यूक्लिक एसिड बिल्डर का उपयोग करके विलायक-युक्त डबल-हेलिक्स DNA सप्तक (A-, B-, Z-DNA रूप) का निर्माण
OL21 बल क्षेत्र का उपयोग करके आणविक गतिविज्ञान सिमुलेशन
सप्तक प्रक्षेपवक्र से केंद्रीय डबल-स्ट्रैंड ट्रिपलेट खंड निष्कर्षण
DNA क्षार-युग्म डाइमर और गैस-चरण RNA खंड शामिल

लिपिड

CHARMM-GUI मेम्ब्रेन बिल्डर का उपयोग करके फॉस्फोलिपिड मेम्ब्रेन संरचना पीढ़ी
POPC, POPE, POPG, POPS फॉस्फोलिपिड और कोलेस्ट्रॉल को शामिल करता है
Lipid21 बल क्षेत्र का उपयोग करके 500 ns उत्पादन सिमुलेशन
ज्यामितीय निकटता के आधार पर फैटी एसिड मोनोमर, डाइमर और ट्रिमर चयन

कार्बोहाइड्रेट

52 सामान्य मोनोसैकेराइड पुस्तकालय का निर्माण, जिसमें पेंटोज़ और हेक्सोज़ के α/β आइसोमर कॉन्फ़िगरेशन शामिल हैं
PyMOL का उपयोग करके डिसैकेराइड और शर्करा-पेप्टाइड लिंकेज का निर्माण
CREST प्रोग्राम का उपयोग करके संरचनात्मक पीढ़ी, 12 kcal/mol अधिकतम ऊर्जा सीमा
संयोजन द्विफलक कोण द्वारा क्लस्टरिंग और प्रतिनिधि संरचनाओं का चयन

आयन और जल

विलायक-युक्त आयन प्रणालियों की तैयारी, आयन जल बॉक्स के केंद्र में रखा गया
एकसंयोजक आयनों के लिए MBpol बल क्षेत्र, द्विसंयोजक आयनों के लिए AMBER बल क्षेत्र
विभिन्न जल संयोजन स्तरों (1-100 जल अणु) पर विलायक प्रभाव को कैप्चर करना

क्वांटम यांत्रिकी गणना विवरण

सिद्धांत स्तर: PBE0+MBD(-NL) - गैर-अनुभवजन्य हाइब्रिड कार्यात्मक प्लस बहु-शरीर फैलाव उपचार
सॉफ्टवेयर: FHI-aims कोड
आधार समुच्चय: छोटे अणुओं के लिए "tight" आधार समुच्चय, >350 परमाणु अणुओं के लिए "intermediate" आधार समुच्चय
अभिसरण मानदंड: कुल ऊर्जा 10^-5 eV, eigenvalue योग 10^-3 eV, आवेश घनत्व 10^-5 electrons/Å³, बल 10^-4 eV/Å

प्रायोगिक सेटअप

डेटासेट संरचना

श्रेणी	मात्रा	परमाणु संख्या	तत्व	सिद्धांत स्तर
न्यूक्लिक एसिड	34,838	14-382	H,C,N,O,Na,Mg,S,P	PBE0+MBD-NL
लिपिड	16,000	125-402	H,C,N,O,P	PBE0+MBD
कार्बोहाइड्रेट	74,087	35-75	H,C,N,O	PBE0+MBD
आयन/जल	30,000	4-303	H,O,Na,Cl,K,Mg,Ca	PBE0+MBD-NL
गैर-सहसंयोजक डाइमर	370,956	2-34	20 तत्व	PBE0+MBD-NL

मूल्यांकन मेट्रिक्स

संरचनात्मक ज्यामिति वर्णनकारी सत्यापन
मशीन लर्निंग बल क्षेत्र के लिए बल माध्य निरपेक्ष त्रुटि (MAE)
प्रायोगिक संदर्भ मानों के साथ रेडियल वितरण फ़ंक्शन तुलना

मशीन लर्निंग सत्यापन

SO3LR आर्किटेक्चर का उपयोग करके MLFFs को प्रशिक्षित करना, डेटासेट गुणवत्ता का मूल्यांकन:

तीन मॉडल आकार: छोटा, मध्यम, बड़ा
संयुक्त हानि फ़ंक्शन: बल, द्विध्रुव क्षण, Hirshfeld अनुपात, ऊर्जा (भार 100:10:10:1)
10 Å लंबी-श्रेणी कटऑफ, A100 GPU प्रशिक्षण 180 घंटे

प्रायोगिक परिणाम

संरचनात्मक सत्यापन परिणाम

न्यूक्लिक एसिड: DNA खंडों के फॉस्फेट-फॉस्फेट दूरी और कंकाल झुकाव कोण वितरण A-, B-, Z-DNA के अपेक्षित मानों को पुनः प्रस्तुत करते हैं
लिपिड: फैटी एसिड खंडों के gyration की त्रिज्या वितरण श्रृंखला विस्तार और पैकिंग को उचित रूप से प्रतिबिंबित करता है
कार्बोहाइड्रेट: N/O-glycosidic लिंकेज द्विफलक कोण संपूर्ण संरचनात्मक स्थान को कवर करते हैं, सभी प्रमुख rotamers को पुनः प्रस्तुत करते हैं
आयन/जल: रेडियल वितरण फ़ंक्शन प्रायोगिक जल संयोजन दूरी से मेल खाते हैं, एकसंयोजक आयन-ऑक्सीजन और O-O शिखर स्थिति सटीक है

मशीन लर्निंग प्रदर्शन

विभिन्न डेटासेट उपसमुच्चय के लिए बल MAE परिणाम:

न्यूक्लिक एसिड: ~0.8 kcal/mol/Å (बड़ा मॉडल)
लिपिड: ~0.6 kcal/mol/Å (बड़ा मॉडल)
कार्बोहाइड्रेट: ~0.5 kcal/mol/Å (बड़ा मॉडल)
आयन/जल: ~0.7 kcal/mol/Å (बड़ा मॉडल)
DES370k: ~0.8 kcal/mol/Å (बड़ा मॉडल)

त्रुटि मॉडल क्षमता के साथ व्यवस्थित रूप से घटती है, अधिकांश उपसमुच्चय 1 kcal/mol/Å से नीचे पहुंचते हैं, डेटासेट आंतरिक सुसंगतता और रासायनिक विविधता प्रणालियों में आधुनिक MLFFs की सामान्यीकरण क्षमता को प्रदर्शित करते हैं।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

QCell डेटासेट ने जैव-आणविक QM डेटा में महत्वपूर्ण खाली स्थान को सफलतापूर्वक भरा है
एकीकृत PBE0+MBD(-NL) सिद्धांत स्तर मौजूदा डेटासेट के साथ संगतता सुनिश्चित करता है
संरचनात्मक सत्यापन डेटासेट की रासायनिक तर्कसंगतता और विविधता की पुष्टि करता है
मशीन लर्निंग सत्यापन उत्कृष्ट पूर्वानुमानित प्रदर्शन दिखाता है

सीमाएं

द्विसंयोजक आयनों के लिए रेडियल वितरण फ़ंक्शन प्रायोगिक मानों से थोड़ा विचलित है
खंड आकार 402 परमाणुओं तक सीमित है
मुख्य रूप से जैव-प्रासंगिक तत्वों पर ध्यान केंद्रित, तत्व विविधता अपेक्षाकृत सीमित है
गैस-चरण और समाधान-चरण वातावरण का संतुलन आगे अनुकूलन की आवश्यकता है

भविष्य की दिशाएं

बड़े जैव-आणविक खंडों तक विस्तार
अधिक विलायक प्रभाव और पर्यावरणीय स्थितियों को शामिल करना
प्रायोगिक डेटा के साथ आगे सत्यापन और अंशांकन
जैव-आणविक के लिए विशेष नई MLFF आर्किटेक्चर विकास

गहन मूल्यांकन

लाभ

महत्वपूर्ण खाली स्थान भरना: न्यूक्लिक एसिड, लिपिड, कार्बोहाइड्रेट डेटा कमी समस्या का पहली बार व्यवस्थित समाधान
विधि कठोरता: गैर-अनुभवजन्य क्वांटम यांत्रिकी विधि अपनाई गई, सिद्धांत आधार मजबूत है
उच्च डेटा गुणवत्ता: बहु-स्तरीय सत्यापन संरचना और ऊर्जा की तर्कसंगतता सुनिश्चित करता है
बड़ा व्यावहारिक मूल्य: मौजूदा डेटासेट के साथ संगत, MLFF प्रशिक्षण के लिए सीधे उपयोग योग्य
खुली पहुंच: डेटासेट सार्वजनिक रूप से उपलब्ध, क्षेत्र विकास को बढ़ावा देता है

कमियां

कम्प्यूटेशनल लागत: PBE0+MBD(-NL) गणना उच्च लागत, डेटासेट आकार विस्तार को सीमित करता है
खंड सीमाएं: 402 परमाणु की अधिकतम सीमा लंबी-श्रेणी अंतःक्रिया को पूरी तरह कैप्चर नहीं कर सकती
पर्यावरण सरलीकरण: मुख्य रूप से गैस-चरण और सरल विलायकीकरण पर विचार, जटिल जैविक वातावरण मॉडलिंग अपर्याप्त है
सीमित सत्यापन: उच्च सटीकता विधियों (जैसे CCSD(T)) के साथ प्रत्यक्ष तुलना की कमी

प्रभाव

शैक्षणिक योगदान: जैव-आणविक MLFF विकास के लिए महत्वपूर्ण डेटा आधार प्रदान करता है
व्यावहारिक मूल्य: दवा डिजाइन, जैव-आणविक सिमुलेशन आदि क्षेत्रों में सीधे अनुप्रयोग
पुनरुत्पादनीयता: विस्तृत विधि विवरण और खुला डेटा पुनरुत्पादनीयता सुनिश्चित करता है
विकास को बढ़ावा: नई जैव-आणविक मॉडलिंग विधियों के विकास को प्रोत्साहित कर सकता है

लागू परिदृश्य

जैव-आणविक MLFF प्रशिक्षण: विविध जैव-आणविक को कवर करने वाले सामान्य बल क्षेत्र प्रशिक्षण के लिए सीधे उपयोग
दवा डिजाइन: प्रोटीन-लिगेंड, DNA-दवा अंतःक्रिया मॉडलिंग के लिए डेटा प्रदान करता है
झिल्ली जीव विज्ञान: लिपिड डेटा झिल्ली प्रोटीन और झिल्ली अंतःक्रिया अनुसंधान के लिए उपयोग किया जा सकता है
शर्करा जीव विज्ञान: कार्बोहाइड्रेट डेटा ग्लाइकोप्रोटीन और ग्लाइकोलिपिड अनुसंधान का समर्थन करता है
विधि विकास: नई क्वांटम रसायन विधियों और MLFF आर्किटेक्चर के लिए बेंचमार्क परीक्षण डेटा प्रदान करता है

संदर्भ

यह पेपर 58 महत्वपूर्ण संदर्भों का हवाला देता है, जो क्वांटम रसायन विधियों, मशीन लर्निंग बल क्षेत्र, जैव-आणविक सिमुलेशन और संबंधित डेटासेट के मुख्य कार्यों को शामिल करते हैं, जो अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार और तकनीकी समर्थन प्रदान करते हैं।