Recent advances in machine learning force fields (MLFFs) are revolutionizing molecular simulations by bridging the gap between quantum-mechanical (QM) accuracy and the computational efficiency of mechanistic potentials. However, the development of reliable MLFFs for biomolecular systems remains constrained by the scarcity of high-quality, chemically diverse QM datasets that span all of the major classes of biomolecules expressed in living cells. Crucially, such a comprehensive dataset must be computed using non-empirical or minimally empirical approximations to solving the Schrödinger equation. To address these limitations, we introduce the QCell dataset -- a curated collection of 525k new QM calculations for biomolecular fragments encompassing carbohydrates, nucleic acids, lipids, dimers, and ion clusters. QCell complements existing datasets, bringing the total number of available data points to 41 million molecular systems, all calculated using hybrid density functional theory with nonlocal many-body dispersion interactions, as captured by the PBE0+MBD(-NL) level of quantum mechanics. The QCell dataset therefore provides a valuable resource for training next-generation MLFFs capable of modeling the intricate interactions that govern biomolecular dynamics beyond small molecules and proteins.
academic- معرّف الورقة: 2510.09939
- العنوان: QCell: Comprehensive Quantum-Mechanical Dataset Spanning Diverse Biomolecular Fragments
- المؤلفون: Adil Kabylda, Sergio Suárez-Dou, Nils Davoine, Florian N. Brünig, Alexandre Tkatchenko
- التصنيف: physics.chem-ph
- تاريخ النشر: 11 أكتوبر 2025 (نسخة أولية على arXiv)
- رابط الورقة: https://arxiv.org/abs/2510.09939
يُحدث التقدم الأخير في مجال حقول القوة المستندة إلى التعلم الآلي (MLFFs) ثورة في محاكاة الجزيئات من خلال بناء جسر بين دقة الميكانيكا الكمية والكفاءة الحسابية للجهود الميكانيكية. ومع ذلك، فإن تطوير حقول قوة موثوقة للأنظمة البيوجزيئية يظل محدوداً بسبب نقص مجموعات بيانات الميكانيكا الكمية عالية الجودة والمتنوعة كيميائياً، والتي يجب أن تغطي جميع الفئات البيوجزيئية الرئيسية المعبّر عنها في الخلايا الحية. من الأهمية بمكان أن تُحسب مجموعة البيانات الشاملة هذه باستخدام تقريبات معادلة شرودنغر غير التجريبية أو الحد الأدنى من التجريبية. لمعالجة هذه القيود، يقدم المؤلفون مجموعة بيانات QCell - مجموعة منتقاة تحتوي على 525,000 حساب جديد للميكانيكا الكمية، تغطي أجزاء بيوجزيئية من الكربوهيدرات والأحماض النووية والدهون والثنائيات والعناقيد الأيونية. تكمل QCell مجموعات البيانات الموجودة، مما يرفع إجمالي نقاط البيانات المتاحة إلى 41 مليون نظام جزيئي، وكلها محسوبة باستخدام نظرية الدالة الكثافة الهجينة مع تفاعلات التشتت متعددة الأجسام غير المحلية، والتي يتم التقاطها على مستوى الميكانيكا الكمية PBE0+MBD(-NL).
- المشكلة الأساسية: تغطي مجموعات بيانات الميكانيكا الكمية الموجودة بشكل أساسي الجزيئات الصغيرة والبروتينات، مع وجود فجوات كبيرة في ثلاث فئات بيوجزيئية رئيسية - الأحماض النووية والدهون والكربوهيدرات - والتي تشكل حوالي 40% من الكتلة البيولوجية للخلية.
- الأهمية:
- يتمتع الفضاء الكيميائي للبيوجزيئات بخصائص فريدة، حيث تنبع التعقيدات بشكل أساسي من الفضاء التشكيلي لكتل بناء كيميائية محدودة نسبياً ومتكررة
- يعتبر النمذجة الدقيقة للتفاعلات البيوجزيئية حاسمة للكيمياء الحسابية والفيزياء الحيوية
- تحتاج حقول القوة المستندة إلى التعلم الآلي إلى مجموعات بيانات متنوعة وعالية الجودة من الميكانيكا الكمية لتمثيل الفضاء الكيميائي الموجود في الأنظمة البيوجزيئية بأمانة
- قيود الطرق الموجودة:
- تتمتع طرق الميكانيكا الكمية التقليدية بدقة عالية لكن كفاءة حسابية منخفضة
- تتمتع حقول القوة الذرية التجريبية بكفاءة عالية لكن دقة محدودة
- مجموعات البيانات الموجودة مثل GEMS و QCML و OMol25، على الرغم من التقدم، لا تزال تحتوي على فجوات كبيرة في الفئات البيوجزيئية الثلاث الرئيسية
- الدافع البحثي:
- ملء الفجوات في مجموعات بيانات البيوجزيئات
- استخدام مستوى نظري موحد من الميكانيكا الكمية غير التجريبية
- توفير موارد تدريب شاملة لحقول القوة من الجيل التالي
- بناء مجموعة بيانات QCell: تحتوي على 525,881 حساب جديد للميكانيكا الكمية لأجزاء بيوجزيئية، تغطي الأحماض النووية والدهون والكربوهيدرات والأيونات/الماء والثنائيات غير المترابطة تساهمياً
- توسيع نطاق تغطية البيانات: عند دمجها مع مجموعات البيانات الموجودة، يصل إجمالي نقاط البيانات إلى 41 مليون نظام جزيئي، يغطي 82 عنصراً كيميائياً
- مستوى نظري موحد: يتم إجراء جميع الحسابات على مستوى PBE0+MBD(-NL)، مما يضمن اتساق البيانات
- أخذ عينات تشكيلية عميقة: التركيز على التنوع التشكيلي في البيئات الكيميائية ذات الصلة البيولوجية
- التحقق التقني: التحقق من جودة مجموعة البيانات من خلال التحليل الهيكلي وتدريب حقول القوة المستندة إلى التعلم الآلي
تتبع مجموعة بيانات QCell سير عمل من خمس خطوات:
- إدارة مكتبة الكتل البنائية وتوليد الهياكل ثلاثية الأبعاد الأولية
- أخذ عينات تشكيلية واسعة (ديناميكيات جزيئية أو أدوات توليد تشكيلية متخصصة)
- اختيار الأجزاء الممثلة
- التحسين المسبق باستخدام طريقة DFTB+MBD
- حسابات الميكانيكا الكمية عالية الجودة PBE0+MBD(-NL)
- استخدام Nucleic Acid Builder لبناء حلزونات DNA سباعية الأساس المذابة (أشكال A- و B- و Z-DNA)
- إجراء محاكاة ديناميكيات جزيئية باستخدام حقل القوة OL21
- استخراج أجزاء ثلاثية الأساس ذات السلسلة المزدوجة المركزية من المسارات السباعية
- تضمين ثنائيات قاعدة DNA وأجزاء RNA في الطور الغازي
- استخدام CHARMM-GUI Membrane Builder لتوليد هياكل الأغشية الفسفورية
- تغطية الدهون الفسفورية POPC و POPE و POPG و POPS والكوليسترول
- إجراء محاكاة إنتاجية لمدة 500 نانوثانية باستخدام حقل القوة Lipid21
- اختيار أحادي وثنائي وثلاثي الأحماض الدهنية بناءً على القرب الهندسي
- بناء مكتبة تضم 52 نوعاً من السكريات الأحادية الشائعة، بما في ذلك الخماسيات والسداسيات في تكوينات α/β الايزومرية
- استخدام PyMOL لبناء ثنائيات السكريات والروابط السكرية-الببتيدية
- توليد التشكيلات باستخدام برنامج CREST، مع حد أقصى للطاقة 12 كيلو كالوري/مول
- تجميع الأجزاء حسب الزوايا ثنائية الأساس المترابطة واختيار التشكيلات الممثلة
- تحضير أنظمة أيونية مذابة، مع وضع الأيونات في مركز صندوق الماء
- استخدام حقل القوة MBpol للأيونات أحادية التكافؤ وحقل القوة AMBER للأيونات ثنائية التكافؤ
- التقاط تأثيرات الذوبان في مستويات مختلفة من الماء المائي (1-100 جزيء ماء)
- المستوى النظري: PBE0+MBD(-NL) - دالة هجينة غير تجريبية مع معالجة التشتت متعددة الأجسام
- البرنامج: كود FHI-aims
- مجموعة الأساس: استخدام مجموعة "tight" للجزيئات الصغيرة ومجموعة "intermediate" للجزيئات التي تحتوي على >350 ذرة
- معايير التقارب: الطاقة الكلية 10^-5 eV، مجموع القيم الذاتية 10^-3 eV، كثافة الشحنة 10^-5 electrons/ų، القوة 10^-4 eV/Å
| الفئة | العدد | عدد الذرات | العناصر | المستوى النظري |
|---|
| الأحماض النووية | 34,838 | 14-382 | H,C,N,O,Na,Mg,S,P | PBE0+MBD-NL |
| الدهون | 16,000 | 125-402 | H,C,N,O,P | PBE0+MBD |
| الكربوهيدرات | 74,087 | 35-75 | H,C,N,O | PBE0+MBD |
| الأيونات/الماء | 30,000 | 4-303 | H,O,Na,Cl,K,Mg,Ca | PBE0+MBD-NL |
| الثنائيات غير المترابطة تساهمياً | 370,956 | 2-34 | 20 عنصراً | PBE0+MBD-NL |
- التحقق من واصفات الهندسة الهيكلية
- متوسط الخطأ المطلق للقوة (MAE) لحقول القوة المستندة إلى التعلم الآلي
- مقارنة دالة التوزيع الشعاعي مع قيم مرجعية تجريبية
تدريب حقول القوة المستندة إلى التعلم الآلي باستخدام معمارية SO3LR لتقييم جودة مجموعة البيانات:
- ثلاثة أحجام نماذج: صغير ومتوسط وكبير
- دالة خسارة مشتركة: القوة والعزم ثنائي القطب ونسبة Hirshfeld والطاقة (أوزان 100:10:10:1)
- قطع طويل المدى بقيمة 10 Å، تدريب على GPU A100 لمدة 180 ساعة
- الأحماس النووية: تعيد أجزاء DNA توزيع مسافات الفوسفات-الفوسفات وزوايا انحناء الهيكل العظمي المتوقعة لأشكال A- و B- و Z-DNA
- الدهون: يعكس توزيع نصف قطر الدوران لأجزاء الأحماض الدهنية بشكل معقول امتداد السلسلة والتراص
- الكربوهيدرات: تغطي زوايا الرابطة ثنائية الأساس N/O-glycosidic الفضاء التشكيلي الكامل، وتعيد إنتاج جميع الحالات الدورانية الرئيسية
- الأيونات/الماء: تتطابق دوال التوزيع الشعاعي مع مسافات الماء المائي التجريبية، مع دقة في مواضع ذروة الأيون أحادي التكافؤ-الأكسجين و O-O
نتائج MAE للقوة لأجزاء مختلفة من مجموعة البيانات:
- الأحماس النووية: ~0.8 كيلو كالوري/مول/Å (نموذج كبير)
- الدهون: ~0.6 كيلو كالوري/مول/Å (نموذج كبير)
- الكربوهيدرات: ~0.5 كيلو كالوري/مول/Å (نموذج كبير)
- الأيونات/الماء: ~0.7 كيلو كالوري/مول/Å (نموذج كبير)
- DES370k: ~0.8 كيلو كالوري/مول/Å (نموذج كبير)
ينخفض الخطأ بشكل منهجي مع زيادة سعة النموذج، حيث تحقق معظم الأجزاء أقل من 1 كيلو كالوري/مول/Å، مما يثبت اتساق البيانات وقدرة حقول القوة الحديثة على التعميم عبر الأنظمة المتنوعة كيميائياً.
- QM7-X: جزيئات عضوية صغيرة، 4.19 مليون نقطة بيانات
- MD22: مسارات ديناميكيات جزيئية
- GEMS: استراتيجية تجزئة هرمية للبروتينات
- SPICE: جزيئات شبيهة بالعقاقير والببتيدات
- QCML: رسم منهجي للفضاء الكيميائي للجزيئات الصغيرة
- OMol25: مجموعة متغايرة كيميائياً
- أول تغطية منهجية للفئات البيوجزيئية الثلاث الرئيسية: الأحماس النووية والدهون والكربوهيدرات
- مستوى نظري موحد غير تجريبي يضمن اتساق البيانات
- أخذ عينات تشكيلية عميقة تركز على البيئات الكيميائية ذات الصلة البيولوجية
- توافق مثالي مع مجموعات البيانات الموجودة، مما يسمح بالتدريب الموحد
- تملأ مجموعة بيانات QCell بنجاح فجوة مهمة في بيانات الميكانيكا الكمية للبيوجزيئات
- يضمن مستوى النظرية الموحد PBE0+MBD(-NL) التوافق مع مجموعات البيانات الموجودة
- يؤكد التحقق الهيكلي على المعقولية الكيميائية والتنوع في مجموعة البيانات
- يُظهر التحقق من التعلم الآلي أداءً تنبؤياً ممتازاً
- تظهر دوال التوزيع الشعاعي للأيونات ثنائية التكافؤ انحرافات طفيفة عن القيم التجريبية
- يقتصر حجم الأجزاء على 402 ذرة كحد أقصى
- التركيز الأساسي على العناصر ذات الصلة البيولوجية، مع تنوع عنصري محدود نسبياً
- لا يزال التوازن بين البيئات الطورية الغازية والمحلول يتطلب تحسيناً إضافياً
- التوسع إلى أجزاء بيوجزيئية أكبر
- تضمين المزيد من تأثيرات المذيب والظروف البيئية
- التحقق والمعايرة الإضافية مع البيانات التجريبية
- تطوير معماريات MLFF جديدة متخصصة للبيوجزيئات
- ملء فجوة مهمة: أول معالجة منهجية لنقص البيانات في الأحماس النووية والدهون والكربوهيدرات
- منهجية صارمة: استخدام طرق الميكانيكا الكمية غير التجريبية مع أساس نظري قوي
- جودة بيانات عالية: تحقق متعدد الطبقات يضمن معقولية الهياكل والطاقات
- قيمة عملية كبيرة: توافق مع مجموعات البيانات الموجودة، قابلة للاستخدام المباشر في تدريب MLFF
- الوصول المفتوح: مجموعة البيانات متاحة للجمهور، مما يعزز تطور المجال
- التكلفة الحسابية: تتطلب حسابات PBE0+MBD(-NL) تكاليف حسابية عالية، مما يحد من توسيع حجم مجموعة البيانات
- قيود الأجزاء: قد يكون الحد الأقصى 402 ذرة غير كافٍ لالتقاط التفاعلات طويلة المدى بشكل كامل
- تبسيط البيئة: التركيز الأساسي على الطور الغازي والذوبان البسيط، مع نمذجة غير كافية للبيئات البيولوجية المعقدة
- التحقق المحدود: نقص المقارنة المباشرة مع طرق عالية الدقة (مثل CCSD(T))
- المساهمة الأكاديمية: توفير أساس بيانات مهم لتطوير MLFF للبيوجزيئات
- القيمة العملية: قابلة للتطبيق المباشر في تصميم العقاقير ومحاكاة البيوجزيئات
- قابلية التكرار: الوصف التفصيلي للطريقة والبيانات المفتوحة يضمان قابلية التكرار
- دفع التطور: قد تحفز على تطوير طرق نمذجة جديدة للبيوجزيئات
- تدريب MLFF للبيوجزيئات: الاستخدام المباشر في تدريب حقول قوة عامة تغطي أنواعاً متعددة من البيوجزيئات
- تصميم العقاقير: توفير بيانات لنمذجة تفاعلات البروتين-الليجند و DNA-العقار
- بيولوجيا الأغشية: يمكن استخدام بيانات الدهون في دراسة بروتينات الأغشية والتفاعلات الغشائية
- بيولوجيا السكريات: تدعم بيانات الكربوهيدرات أبحاث البروتينات السكرية والدهون السكرية
- تطوير الطرق: توفير بيانات اختبار أساسية لطرق الكيمياء الكمية الجديدة ومعماريات MLFF
تستشهد هذه الورقة بـ 58 مرجعاً مهماً، تغطي طرق الكيمياء الكمية وحقول القوة المستندة إلى التعلم الآلي ومحاكاة البيوجزيئات ومجموعات البيانات ذات الصلة، مما يوفر أساساً نظرياً قوياً ودعماً تقنياً للبحث.