2025-11-12T18:43:10.001533

QCell: Comprehensive Quantum-Mechanical Dataset Spanning Diverse Biomolecular Fragments

Kabylda, Suárez-Dou, Davoine et al.
Recent advances in machine learning force fields (MLFFs) are revolutionizing molecular simulations by bridging the gap between quantum-mechanical (QM) accuracy and the computational efficiency of mechanistic potentials. However, the development of reliable MLFFs for biomolecular systems remains constrained by the scarcity of high-quality, chemically diverse QM datasets that span all of the major classes of biomolecules expressed in living cells. Crucially, such a comprehensive dataset must be computed using non-empirical or minimally empirical approximations to solving the Schrödinger equation. To address these limitations, we introduce the QCell dataset -- a curated collection of 525k new QM calculations for biomolecular fragments encompassing carbohydrates, nucleic acids, lipids, dimers, and ion clusters. QCell complements existing datasets, bringing the total number of available data points to 41 million molecular systems, all calculated using hybrid density functional theory with nonlocal many-body dispersion interactions, as captured by the PBE0+MBD(-NL) level of quantum mechanics. The QCell dataset therefore provides a valuable resource for training next-generation MLFFs capable of modeling the intricate interactions that govern biomolecular dynamics beyond small molecules and proteins.
academic

QCell: مجموعة بيانات شاملة للميكانيكا الكمية تغطي أجزاء بيوجزيئية متنوعة

المعلومات الأساسية

  • معرّف الورقة: 2510.09939
  • العنوان: QCell: Comprehensive Quantum-Mechanical Dataset Spanning Diverse Biomolecular Fragments
  • المؤلفون: Adil Kabylda, Sergio Suárez-Dou, Nils Davoine, Florian N. Brünig, Alexandre Tkatchenko
  • التصنيف: physics.chem-ph
  • تاريخ النشر: 11 أكتوبر 2025 (نسخة أولية على arXiv)
  • رابط الورقة: https://arxiv.org/abs/2510.09939

الملخص

يُحدث التقدم الأخير في مجال حقول القوة المستندة إلى التعلم الآلي (MLFFs) ثورة في محاكاة الجزيئات من خلال بناء جسر بين دقة الميكانيكا الكمية والكفاءة الحسابية للجهود الميكانيكية. ومع ذلك، فإن تطوير حقول قوة موثوقة للأنظمة البيوجزيئية يظل محدوداً بسبب نقص مجموعات بيانات الميكانيكا الكمية عالية الجودة والمتنوعة كيميائياً، والتي يجب أن تغطي جميع الفئات البيوجزيئية الرئيسية المعبّر عنها في الخلايا الحية. من الأهمية بمكان أن تُحسب مجموعة البيانات الشاملة هذه باستخدام تقريبات معادلة شرودنغر غير التجريبية أو الحد الأدنى من التجريبية. لمعالجة هذه القيود، يقدم المؤلفون مجموعة بيانات QCell - مجموعة منتقاة تحتوي على 525,000 حساب جديد للميكانيكا الكمية، تغطي أجزاء بيوجزيئية من الكربوهيدرات والأحماض النووية والدهون والثنائيات والعناقيد الأيونية. تكمل QCell مجموعات البيانات الموجودة، مما يرفع إجمالي نقاط البيانات المتاحة إلى 41 مليون نظام جزيئي، وكلها محسوبة باستخدام نظرية الدالة الكثافة الهجينة مع تفاعلات التشتت متعددة الأجسام غير المحلية، والتي يتم التقاطها على مستوى الميكانيكا الكمية PBE0+MBD(-NL).

الخلفية البحثية والدافع

تعريف المشكلة

  1. المشكلة الأساسية: تغطي مجموعات بيانات الميكانيكا الكمية الموجودة بشكل أساسي الجزيئات الصغيرة والبروتينات، مع وجود فجوات كبيرة في ثلاث فئات بيوجزيئية رئيسية - الأحماض النووية والدهون والكربوهيدرات - والتي تشكل حوالي 40% من الكتلة البيولوجية للخلية.
  2. الأهمية:
    • يتمتع الفضاء الكيميائي للبيوجزيئات بخصائص فريدة، حيث تنبع التعقيدات بشكل أساسي من الفضاء التشكيلي لكتل بناء كيميائية محدودة نسبياً ومتكررة
    • يعتبر النمذجة الدقيقة للتفاعلات البيوجزيئية حاسمة للكيمياء الحسابية والفيزياء الحيوية
    • تحتاج حقول القوة المستندة إلى التعلم الآلي إلى مجموعات بيانات متنوعة وعالية الجودة من الميكانيكا الكمية لتمثيل الفضاء الكيميائي الموجود في الأنظمة البيوجزيئية بأمانة
  3. قيود الطرق الموجودة:
    • تتمتع طرق الميكانيكا الكمية التقليدية بدقة عالية لكن كفاءة حسابية منخفضة
    • تتمتع حقول القوة الذرية التجريبية بكفاءة عالية لكن دقة محدودة
    • مجموعات البيانات الموجودة مثل GEMS و QCML و OMol25، على الرغم من التقدم، لا تزال تحتوي على فجوات كبيرة في الفئات البيوجزيئية الثلاث الرئيسية
  4. الدافع البحثي:
    • ملء الفجوات في مجموعات بيانات البيوجزيئات
    • استخدام مستوى نظري موحد من الميكانيكا الكمية غير التجريبية
    • توفير موارد تدريب شاملة لحقول القوة من الجيل التالي

المساهمات الأساسية

  1. بناء مجموعة بيانات QCell: تحتوي على 525,881 حساب جديد للميكانيكا الكمية لأجزاء بيوجزيئية، تغطي الأحماض النووية والدهون والكربوهيدرات والأيونات/الماء والثنائيات غير المترابطة تساهمياً
  2. توسيع نطاق تغطية البيانات: عند دمجها مع مجموعات البيانات الموجودة، يصل إجمالي نقاط البيانات إلى 41 مليون نظام جزيئي، يغطي 82 عنصراً كيميائياً
  3. مستوى نظري موحد: يتم إجراء جميع الحسابات على مستوى PBE0+MBD(-NL)، مما يضمن اتساق البيانات
  4. أخذ عينات تشكيلية عميقة: التركيز على التنوع التشكيلي في البيئات الكيميائية ذات الصلة البيولوجية
  5. التحقق التقني: التحقق من جودة مجموعة البيانات من خلال التحليل الهيكلي وتدريب حقول القوة المستندة إلى التعلم الآلي

شرح الطريقة

سير عمل بناء مجموعة البيانات

تتبع مجموعة بيانات QCell سير عمل من خمس خطوات:

  1. إدارة مكتبة الكتل البنائية وتوليد الهياكل ثلاثية الأبعاد الأولية
  2. أخذ عينات تشكيلية واسعة (ديناميكيات جزيئية أو أدوات توليد تشكيلية متخصصة)
  3. اختيار الأجزاء الممثلة
  4. التحسين المسبق باستخدام طريقة DFTB+MBD
  5. حسابات الميكانيكا الكمية عالية الجودة PBE0+MBD(-NL)

الطرق المحددة لكل فئة جزيئية

الأحماض النووية

  • استخدام Nucleic Acid Builder لبناء حلزونات DNA سباعية الأساس المذابة (أشكال A- و B- و Z-DNA)
  • إجراء محاكاة ديناميكيات جزيئية باستخدام حقل القوة OL21
  • استخراج أجزاء ثلاثية الأساس ذات السلسلة المزدوجة المركزية من المسارات السباعية
  • تضمين ثنائيات قاعدة DNA وأجزاء RNA في الطور الغازي

الدهون

  • استخدام CHARMM-GUI Membrane Builder لتوليد هياكل الأغشية الفسفورية
  • تغطية الدهون الفسفورية POPC و POPE و POPG و POPS والكوليسترول
  • إجراء محاكاة إنتاجية لمدة 500 نانوثانية باستخدام حقل القوة Lipid21
  • اختيار أحادي وثنائي وثلاثي الأحماض الدهنية بناءً على القرب الهندسي

الكربوهيدرات

  • بناء مكتبة تضم 52 نوعاً من السكريات الأحادية الشائعة، بما في ذلك الخماسيات والسداسيات في تكوينات α/β الايزومرية
  • استخدام PyMOL لبناء ثنائيات السكريات والروابط السكرية-الببتيدية
  • توليد التشكيلات باستخدام برنامج CREST، مع حد أقصى للطاقة 12 كيلو كالوري/مول
  • تجميع الأجزاء حسب الزوايا ثنائية الأساس المترابطة واختيار التشكيلات الممثلة

الأيونات والماء

  • تحضير أنظمة أيونية مذابة، مع وضع الأيونات في مركز صندوق الماء
  • استخدام حقل القوة MBpol للأيونات أحادية التكافؤ وحقل القوة AMBER للأيونات ثنائية التكافؤ
  • التقاط تأثيرات الذوبان في مستويات مختلفة من الماء المائي (1-100 جزيء ماء)

تفاصيل حسابات الميكانيكا الكمية

  • المستوى النظري: PBE0+MBD(-NL) - دالة هجينة غير تجريبية مع معالجة التشتت متعددة الأجسام
  • البرنامج: كود FHI-aims
  • مجموعة الأساس: استخدام مجموعة "tight" للجزيئات الصغيرة ومجموعة "intermediate" للجزيئات التي تحتوي على >350 ذرة
  • معايير التقارب: الطاقة الكلية 10^-5 eV، مجموع القيم الذاتية 10^-3 eV، كثافة الشحنة 10^-5 electrons/ų، القوة 10^-4 eV/Å

الإعداد التجريبي

تكوين مجموعة البيانات

الفئةالعددعدد الذراتالعناصرالمستوى النظري
الأحماض النووية34,83814-382H,C,N,O,Na,Mg,S,PPBE0+MBD-NL
الدهون16,000125-402H,C,N,O,PPBE0+MBD
الكربوهيدرات74,08735-75H,C,N,OPBE0+MBD
الأيونات/الماء30,0004-303H,O,Na,Cl,K,Mg,CaPBE0+MBD-NL
الثنائيات غير المترابطة تساهمياً370,9562-3420 عنصراًPBE0+MBD-NL

مؤشرات التقييم

  • التحقق من واصفات الهندسة الهيكلية
  • متوسط الخطأ المطلق للقوة (MAE) لحقول القوة المستندة إلى التعلم الآلي
  • مقارنة دالة التوزيع الشعاعي مع قيم مرجعية تجريبية

التحقق من التعلم الآلي

تدريب حقول القوة المستندة إلى التعلم الآلي باستخدام معمارية SO3LR لتقييم جودة مجموعة البيانات:

  • ثلاثة أحجام نماذج: صغير ومتوسط وكبير
  • دالة خسارة مشتركة: القوة والعزم ثنائي القطب ونسبة Hirshfeld والطاقة (أوزان 100:10:10:1)
  • قطع طويل المدى بقيمة 10 Å، تدريب على GPU A100 لمدة 180 ساعة

نتائج التجارب

نتائج التحقق الهيكلي

  1. الأحماس النووية: تعيد أجزاء DNA توزيع مسافات الفوسفات-الفوسفات وزوايا انحناء الهيكل العظمي المتوقعة لأشكال A- و B- و Z-DNA
  2. الدهون: يعكس توزيع نصف قطر الدوران لأجزاء الأحماض الدهنية بشكل معقول امتداد السلسلة والتراص
  3. الكربوهيدرات: تغطي زوايا الرابطة ثنائية الأساس N/O-glycosidic الفضاء التشكيلي الكامل، وتعيد إنتاج جميع الحالات الدورانية الرئيسية
  4. الأيونات/الماء: تتطابق دوال التوزيع الشعاعي مع مسافات الماء المائي التجريبية، مع دقة في مواضع ذروة الأيون أحادي التكافؤ-الأكسجين و O-O

أداء التعلم الآلي

نتائج MAE للقوة لأجزاء مختلفة من مجموعة البيانات:

  • الأحماس النووية: ~0.8 كيلو كالوري/مول/Å (نموذج كبير)
  • الدهون: ~0.6 كيلو كالوري/مول/Å (نموذج كبير)
  • الكربوهيدرات: ~0.5 كيلو كالوري/مول/Å (نموذج كبير)
  • الأيونات/الماء: ~0.7 كيلو كالوري/مول/Å (نموذج كبير)
  • DES370k: ~0.8 كيلو كالوري/مول/Å (نموذج كبير)

ينخفض الخطأ بشكل منهجي مع زيادة سعة النموذج، حيث تحقق معظم الأجزاء أقل من 1 كيلو كالوري/مول/Å، مما يثبت اتساق البيانات وقدرة حقول القوة الحديثة على التعميم عبر الأنظمة المتنوعة كيميائياً.

الأعمال ذات الصلة

مجموعات بيانات الميكانيكا الكمية الموجودة

  • QM7-X: جزيئات عضوية صغيرة، 4.19 مليون نقطة بيانات
  • MD22: مسارات ديناميكيات جزيئية
  • GEMS: استراتيجية تجزئة هرمية للبروتينات
  • SPICE: جزيئات شبيهة بالعقاقير والببتيدات
  • QCML: رسم منهجي للفضاء الكيميائي للجزيئات الصغيرة
  • OMol25: مجموعة متغايرة كيميائياً

مزايا هذا العمل

  • أول تغطية منهجية للفئات البيوجزيئية الثلاث الرئيسية: الأحماس النووية والدهون والكربوهيدرات
  • مستوى نظري موحد غير تجريبي يضمن اتساق البيانات
  • أخذ عينات تشكيلية عميقة تركز على البيئات الكيميائية ذات الصلة البيولوجية
  • توافق مثالي مع مجموعات البيانات الموجودة، مما يسمح بالتدريب الموحد

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. تملأ مجموعة بيانات QCell بنجاح فجوة مهمة في بيانات الميكانيكا الكمية للبيوجزيئات
  2. يضمن مستوى النظرية الموحد PBE0+MBD(-NL) التوافق مع مجموعات البيانات الموجودة
  3. يؤكد التحقق الهيكلي على المعقولية الكيميائية والتنوع في مجموعة البيانات
  4. يُظهر التحقق من التعلم الآلي أداءً تنبؤياً ممتازاً

القيود

  1. تظهر دوال التوزيع الشعاعي للأيونات ثنائية التكافؤ انحرافات طفيفة عن القيم التجريبية
  2. يقتصر حجم الأجزاء على 402 ذرة كحد أقصى
  3. التركيز الأساسي على العناصر ذات الصلة البيولوجية، مع تنوع عنصري محدود نسبياً
  4. لا يزال التوازن بين البيئات الطورية الغازية والمحلول يتطلب تحسيناً إضافياً

الاتجاهات المستقبلية

  1. التوسع إلى أجزاء بيوجزيئية أكبر
  2. تضمين المزيد من تأثيرات المذيب والظروف البيئية
  3. التحقق والمعايرة الإضافية مع البيانات التجريبية
  4. تطوير معماريات MLFF جديدة متخصصة للبيوجزيئات

التقييم المتعمق

المزايا

  1. ملء فجوة مهمة: أول معالجة منهجية لنقص البيانات في الأحماس النووية والدهون والكربوهيدرات
  2. منهجية صارمة: استخدام طرق الميكانيكا الكمية غير التجريبية مع أساس نظري قوي
  3. جودة بيانات عالية: تحقق متعدد الطبقات يضمن معقولية الهياكل والطاقات
  4. قيمة عملية كبيرة: توافق مع مجموعات البيانات الموجودة، قابلة للاستخدام المباشر في تدريب MLFF
  5. الوصول المفتوح: مجموعة البيانات متاحة للجمهور، مما يعزز تطور المجال

أوجه القصور

  1. التكلفة الحسابية: تتطلب حسابات PBE0+MBD(-NL) تكاليف حسابية عالية، مما يحد من توسيع حجم مجموعة البيانات
  2. قيود الأجزاء: قد يكون الحد الأقصى 402 ذرة غير كافٍ لالتقاط التفاعلات طويلة المدى بشكل كامل
  3. تبسيط البيئة: التركيز الأساسي على الطور الغازي والذوبان البسيط، مع نمذجة غير كافية للبيئات البيولوجية المعقدة
  4. التحقق المحدود: نقص المقارنة المباشرة مع طرق عالية الدقة (مثل CCSD(T))

التأثير

  1. المساهمة الأكاديمية: توفير أساس بيانات مهم لتطوير MLFF للبيوجزيئات
  2. القيمة العملية: قابلة للتطبيق المباشر في تصميم العقاقير ومحاكاة البيوجزيئات
  3. قابلية التكرار: الوصف التفصيلي للطريقة والبيانات المفتوحة يضمان قابلية التكرار
  4. دفع التطور: قد تحفز على تطوير طرق نمذجة جديدة للبيوجزيئات

السيناريوهات القابلة للتطبيق

  1. تدريب MLFF للبيوجزيئات: الاستخدام المباشر في تدريب حقول قوة عامة تغطي أنواعاً متعددة من البيوجزيئات
  2. تصميم العقاقير: توفير بيانات لنمذجة تفاعلات البروتين-الليجند و DNA-العقار
  3. بيولوجيا الأغشية: يمكن استخدام بيانات الدهون في دراسة بروتينات الأغشية والتفاعلات الغشائية
  4. بيولوجيا السكريات: تدعم بيانات الكربوهيدرات أبحاث البروتينات السكرية والدهون السكرية
  5. تطوير الطرق: توفير بيانات اختبار أساسية لطرق الكيمياء الكمية الجديدة ومعماريات MLFF

المراجع

تستشهد هذه الورقة بـ 58 مرجعاً مهماً، تغطي طرق الكيمياء الكمية وحقول القوة المستندة إلى التعلم الآلي ومحاكاة البيوجزيئات ومجموعات البيانات ذات الصلة، مما يوفر أساساً نظرياً قوياً ودعماً تقنياً للبحث.