2025-11-13T10:34:10.524110

Accelerating Molecular Dynamics Simulations with Foundation Neural Network Models using Multiple Time-Step and Distillation

Cattin, Plé, Adjoua et al.
We present a strategy to accelerate molecular dynamics simulations using foundation neural network models. To do so, we apply a dual-level neural network multi-time-step (MTS) strategy where the target accurate potential is coupled to a simpler but faster model obtained via a distillation process. Thus, the 3.5 Å-cutoff distilled model is sufficient to capture the fast varying forces, i.e. mainly bonded interactions, from the accurate potential allowing its use in a reversible reference system propagator algorithms (RESPA)-like formalism. The approach conserves accuracy, preserving both static and dynamical properties, while enabling to evaluate the costly model only every 3 to 6 fs depending on the system. Consequently, large simulation speedups over standard 1 fs integration are observed: 4-fold in homogeneous systems and 2.7-fold in large solvated proteins. Such a strategy is applicable to any neural network potential and reduces their performance gap with classical force fields.
academic

फाउंडेशन न्यूरल नेटवर्क मॉडल का उपयोग करके बहु समय-चरण और आसवन के साथ आणविक गतिशीलता सिमुलेशन को तेज करना

मूल जानकारी

  • पेपर ID: 2510.06562
  • शीर्षक: फाउंडेशन न्यूरल नेटवर्क मॉडल का उपयोग करके बहु समय-चरण और आसवन के साथ आणविक गतिशीलता सिमुलेशन को तेज करना
  • लेखक: कोम कैटिन, थॉमस प्ले, ओलिवियर एडजुआ, निकोलाई गौरॉड, लुई लागार्डेरे, जीन-फिलिप पिकेमल
  • वर्गीकरण: physics.chem-ph
  • प्रकाशन समय: 14 अक्टूबर 2025 (arXiv v2)
  • पेपर लिंक: https://arxiv.org/abs/2510.06562

सारांश

यह पेपर फाउंडेशन न्यूरल नेटवर्क मॉडल का उपयोग करके आणविक गतिशीलता सिमुलेशन को तेज करने की एक रणनीति प्रस्तुत करता है। यह विधि द्विस्तरीय न्यूरल नेटवर्क बहु समय-चरण (MTS) रणनीति का उपयोग करती है, जो लक्ष्य सटीक संभावित ऊर्जा को आसवन प्रक्रिया के माध्यम से प्राप्त अधिक सरल लेकिन तेज़ मॉडल के साथ युग्मित करती है। 3.5 Å कटऑफ वाला आसवन मॉडल सटीक संभावित ऊर्जा में तेजी से बदलने वाली शक्तियों (मुख्य रूप से बंधन संबंधी अंतःक्रिया) को पकड़ने के लिए पर्याप्त है, जो प्रतिवर्ती संदर्भ प्रणाली प्रसार एल्गोरिथ्म (RESPA) जैसे रूप में उपयोग की अनुमति देता है। यह विधि सटीकता को बनाए रखती है, स्थिर और गतिशील गुणों को संरक्षित करती है, जबकि सिस्टम के आधार पर केवल हर 3 से 6 fs में महंगे मॉडल का मूल्यांकन करती है। इसलिए, मानक 1 fs एकीकरण की तुलना में महत्वपूर्ण सिमुलेशन त्वरण देखा गया: समान प्रणालियों में 4 गुना, बड़े विलायक-युक्त प्रोटीन में 2.7 गुना।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

न्यूरल नेटवर्क संभावनाएं (NNPs) हालांकि क्वांटम यांत्रिकी के करीब सटीकता प्रदान कर सकती हैं, लेकिन पारंपरिक अनुभवजन्य संभावनाओं की तुलना में कम्प्यूटेशनल लागत काफी अधिक है, जो बड़ी प्रणालियों और लंबे समय के पैमाने के सिमुलेशन में उनके अनुप्रयोग को सीमित करता है। मुख्य बाधाएं हैं:

  1. उच्च-आवृत्ति गति के समय एकीकरण की आवश्यकता: आणविक गतिशीलता को बंधन कंपन जैसी उच्च-आवृत्ति गति को हल करने के लिए छोटे समय चरण (0.5-1 fs) का उपयोग करना चाहिए
  2. महंगा बल मूल्यांकन: ML मॉडल की कम्प्यूटेशनल गहनता कई महंगे बल मूल्यांकन की ओर ले जाती है
  3. शास्त्रीय बल क्षेत्र के साथ प्रदर्शन अंतर: NNPs की कम्प्यूटेशनल लागत व्यापक अनुप्रयोग में बाधा डालती है

अनुसंधान प्रेरणा

बहु समय-चरण (MTS) एकीकारक शास्त्रीय आणविक सिमुलेशन में प्रभावी साबित हुए हैं, लेकिन अभी तक ML संभावनाओं के क्षेत्र में अनुकूलित नहीं किए गए हैं। यह अनुसंधान निम्नलिखित का उद्देश्य रखता है:

  • ML संभावनाओं के लिए पहली RESPA-आधारित MTS योजना विकसित करना
  • विभिन्न जटिलता और अनुमान लागत वाले कई न्यूरल नेटवर्क का उपयोग करके कुशल MTS योजना लागू करना
  • NNPs और शास्त्रीय बल क्षेत्र के बीच प्रदर्शन अंतर को कम करना

मुख्य योगदान

  1. ML संभावनाओं के लिए पहली MTS योजना: ML संभावनाओं के लिए पहली RESPA-आधारित बहु समय-चरण एकीकरण योजना प्रस्तावित की गई है
  2. ज्ञान आसवन रणनीति: तेज़ अल्प-दूरी मॉडल बनाने के लिए दो आसवन रणनीतियां (प्रणाली-विशिष्ट मॉडल और सार्वभौमिक मॉडल) विकसित की गई हैं
  3. महत्वपूर्ण कम्प्यूटेशनल त्वरण: सटीकता बनाए रखते हुए 4 गुना (समान प्रणाली) और 2.7 गुना (प्रोटीन-लिगेंड परिसर) त्वरण प्राप्त किया गया है
  4. व्यापक प्रयोज्यता: यह रणनीति किसी भी न्यूरल नेटवर्क संभावना पर लागू होती है, जिसमें सार्वभौमिकता है
  5. पूर्ण कार्यान्वयन और सत्यापन: FeNNol लाइब्रेरी और Tinker-HP पैकेज में कार्यान्वित, और कई प्रणालियों के माध्यम से सत्यापित

विधि विवरण

कार्य परिभाषा

इस अनुसंधान का कार्य दो अलग-अलग जटिलता वाली न्यूरल नेटवर्क संभावनाओं का उपयोग करके एक बहु समय-चरण एकीकरण योजना डिजाइन करना है:

  • इनपुट: आणविक प्रणाली के निर्देशांक और वेग
  • आउटपुट: त्वरित MD प्रक्षेपवक्र, एकल समय-चरण योजना के समान सटीकता बनाए रखते हुए
  • बाधाएं: स्थिर और गतिशील गुणों की सटीकता बनाए रखना

मॉडल आर्किटेक्चर

द्विस्तरीय न्यूरल नेटवर्क डिजाइन

  1. संदर्भ मॉडल: FeNNix-Bio1(M) - दायरे-पृथक समतुल्य ट्रांसफॉर्मर आर्किटेक्चर पर आधारित
    • ग्रहणशील क्षेत्र: 11 Å (दो संदेश पारण)
    • निकट और दूरवर्ती ध्यान सिर शामिल
    • उच्च सटीकता लेकिन कम्प्यूटेशनल रूप से महंगा
  2. तेज़ मॉडल: आसवन किया गया हल्का मॉडल
    • ग्रहणशील क्षेत्र: 3.5 Å (एक संदेश पारण)
    • दूरवर्ती ध्यान सिर को हटाया गया
    • तेजी से बदलने वाली "बंधन" शक्तियों पर ध्यान केंद्रित
    • अनुमान गति में लगभग 10 गुना सुधार

BAOAB-RESPA एकीकरण योजना

एल्गोरिथ्म प्रवाह इस प्रकार है:

एल्गोरिथ्म 1: FENNIX बल विभाजन के साथ MTS एकीकरण चरण
1: यदि पहला चरण है तो
2:   Fsmall ← FENNIXsmall(x)
3:   F ← FENNIXlarge(x)
4: अंत यदि
5: v ← v + Δt/(2m) · (F - Fsmall)
6: i = 1 से nslow तक के लिए करें
7:   v ← v + Δt/(2m·nslow) · Fsmall
8:   x ← x + Δt/(2·nslow) · v
9:   v ← thermo(v, Δt/nslow)  # थर्मोस्टेट लागू करें
10:  x ← x + Δt/(2·nslow) · v
11:  Fsmall ← FENNIXsmall(x)
12:  v ← v + Δt/(2m·nslow) · Fsmall
13: अंत के लिए
14: F ← FENNIXlarge(x)
15: v ← v + Δt/(2m) · (F - Fsmall)

तकनीकी नवाचार बिंदु

ज्ञान आसवन रणनीति

  1. प्रणाली-विशिष्ट मॉडल:
    • संदर्भ डेटासेट उत्पन्न करने के लिए छोटे MD सिमुलेशन का उपयोग
    • बड़ी प्रणालियों की कम्प्यूटेशनल बोझ को कम करने के लिए खंडीकरण रणनीति का उपयोग
    • संदर्भ मॉडल द्वारा लेबल किए गए डेटा पर प्रशिक्षण
  2. सार्वभौमिक मॉडल:
    • SPICE2 डेटासेट के उपसमुच्चय पर प्रशिक्षित
    • प्रणालियों में पुन: उपयोग योग्य
    • आगे की सूक्ष्म-ट्यूनिंग के लिए प्रारंभिकीकरण बिंदु के रूप में कार्य कर सकता है

बल विघटन तंत्र

  • तेज़ मॉडल द्वारा उच्च-आवृत्ति बंधन अंतःक्रिया को पकड़ना
  • संदर्भ मॉडल आवधिक सुधार प्रदान करता है
  • बल अंतर (F - Fsmall) के माध्यम से कुशल अद्यतन

प्रायोगिक सेटअप

परीक्षण प्रणालियां

  1. बल्क जल: 648 परमाणु जल बॉक्स, स्थिरता परीक्षण के लिए
  2. विलायक-युक्त छोटे अणु: इथेनॉल, बेंजीन, ट्राइमेथिलामाइन, डाइएथिल सल्फाइड, एसिटिक एसिड
  3. प्रोटीन-लिगेंड परिसर: लाइसोजाइम-फेनॉल परिसर (PDB ID: 4I7L)

मूल्यांकन मेट्रिक्स

  • गतिशील गुण: विसरण गुणांक, वेग स्वत: सहसंबंध स्पेक्ट्रा
  • थर्मोडायनामिक गुण: रेडियल वितरण फ़ंक्शन, तापमान, संभावित ऊर्जा
  • मुक्त ऊर्जा: जलयोजन मुक्त ऊर्जा (HFE)
  • संरचनात्मक गुण: प्रोटीन RMSD, लिगेंड बंधन पैटर्न

कार्यान्वयन विवरण

  • आंतरिक समय चरण: 1 fs (मानक) या 1.75 fs (प्रोटीन प्रणाली)
  • बाहरी समय चरण: 2-6 fs, प्रणाली और हाइड्रोजन द्रव्यमान पुनर्वितरण (HMR) के उपयोग पर निर्भर
  • थर्मोस्टेट: BAOAB Langevin एकीकारक
  • बल कटऑफ: 150 kcal/mol/Å (स्थिरता में सुधार के लिए)

प्रायोगिक परिणाम

मुख्य परिणाम

बल्क जल प्रणाली

  • स्थिरता: 2-3 fs बाहरी समय चरण पर स्थिर, HMR 5-6 fs तक विस्तार योग्य
  • गतिशील गुण: विसरण गुणांक STS के 2.2×10⁻⁵ cm²/s से 2.1-2.6×10⁻⁵ cm²/s की सीमा में बना रहता है
  • संरचनात्मक गुण: रेडियल वितरण फ़ंक्शन STS परिणामों के साथ सांख्यिकीय त्रुटि सीमा के भीतर सहमत
  • त्वरण अनुपात: 4 गुना त्वरण

विलायक-युक्त छोटे अणु

जलयोजन मुक्त ऊर्जा गणना परिणाम:

  • प्रणाली-विशिष्ट मॉडल: MAE = 0.091 kcal/mol, RMSE = 0.124 kcal/mol, R² = 0.996
  • सार्वभौमिक मॉडल: MAE = 0.103 kcal/mol, RMSE = 0.138 kcal/mol, R² = 0.995

प्रोटीन-लिगेंड परिसर

  • स्थिरता: 3.5 fs बाहरी समय चरण पर 20 ns स्थिर सिमुलेशन
  • संरचना संरक्षण: प्रोटीन मुख्य श्रृंखला RMSD < 2 Å, लिगेंड बंधन पैटर्न स्थिर
  • त्वरण अनुपात: 2.7 गुना त्वरण
  • प्रदर्शन: एकल A100 GPU पर लगभग 7 ns/दिन प्राप्त

विलोपन प्रयोग

समय चरण निर्भरता

वेग स्वत: सहसंबंध स्पेक्ट्रा विश्लेषण के माध्यम से पाया गया:

  • MTS एकीकरण कलाकृतियां O-H स्ट्रेचिंग मोड के ओवरटोन के साथ युग्मन
  • HMR आवृत्ति को 7500 cm⁻¹ से 4000 cm⁻¹ तक कम करता है, बड़े समय चरण की अनुमति देता है

मॉडल तुलना

  • प्रणाली-विशिष्ट मॉडल सार्वभौमिक मॉडल की तुलना में अधिक स्थिर
  • सार्वभौमिक मॉडल को कुछ प्रणालियों (जैसे बेंजीन) में समय चरण को 3 fs तक कम करने की आवश्यकता है

स्थिरता विश्लेषण

बल अंतर वितरण विश्लेषण दिखाता है:

  • अधिकांश बल अंतर 0 kcal/mol/Å के करीब
  • 150 kcal/mol/Å से शुरू होने वाला लंबी पूंछ वितरण, संभावित ऊर्जा सतह के "छेद" के अनुरूप
  • बल कटऑफ रणनीति स्थिरता में प्रभावी ढंग से सुधार करती है

संबंधित कार्य

बहु समय-चरण विधियां

  • शास्त्रीय MTS: शास्त्रीय बल क्षेत्र में RESPA एल्गोरिथ्म का सफल अनुप्रयोग
  • भौतिक विघटन: पारंपरिक विधियां भौतिक अंतःक्रिया के प्राकृतिक विघटन पर आधारित
  • ML संभावनाएं चुनौती: प्राकृतिक बल विघटन की कमी, नई रणनीति की आवश्यकता

न्यूरल नेटवर्क संभावनाएं

  • विकास का इतिहास: Behler-Parrinello से आधुनिक फाउंडेशन मॉडल तक
  • कम्प्यूटेशनल चुनौतियां: सटीकता में सुधार कम्प्यूटेशनल लागत में वृद्धि के साथ आता है
  • त्वरण रणनीतियां: यह कार्य पहली बार NNPs पर MTS लागू करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. ML संभावनाओं के लिए पहली MTS योजना सफलतापूर्वक कार्यान्वित की गई है
  2. सटीकता बनाए रखते हुए महत्वपूर्ण त्वरण (4 गुना और 2.7 गुना) प्राप्त किया गया है
  3. विधि सार्वभौमिक है, किसी भी न्यूरल नेटवर्क संभावना पर लागू होती है
  4. बड़े पैमाने पर, लंबे समय के पैमाने पर उच्च-सटीकता MD सिमुलेशन के लिए नए मार्ग खोले गए हैं

सीमाएं

  1. समय चरण सीमा: अनुनाद प्रभाव से सीमित, अधिकतम बाहरी समय चरण लगभग 6 fs
  2. संभावित ऊर्जा सतह छेद: आसवन मॉडल की अपूर्णता आकस्मिक अस्थिरता का कारण बनती है
  3. प्रणाली निर्भरता: जटिल प्रणालियों को अधिक रूढ़िवादी समय चरण सेटिंग की आवश्यकता होती है
  4. कोड अनुकूलन: द्विस्तरीय विधि की दक्षता में अभी भी सुधार की गुंजाइश है

भविष्य की दिशाएं

  1. यादृच्छिक समय चरण: JUMP एकीकारक जैसे यादृच्छिक RESPA वेरिएंट का अन्वेषण
  2. सक्रिय शिक्षा: खंड-आधारित सक्रिय शिक्षा रणनीति का उपयोग करके छोटे मॉडल में सुधार
  3. बड़े समय चरण: संभावित ऊर्जा सतह के छेद को भरकर बड़े समय चरण प्राप्त करना
  4. कोड अनुकूलन: द्विस्तरीय विधि की कम्प्यूटेशनल दक्षता में आगे सुधार

गहन मूल्यांकन

शक्तियां

  1. मजबूत नवाचार: पहली बार MTS विधि को ML संभावनाओं के क्षेत्र में सफलतापूर्वक लागू किया गया है
  2. उच्च व्यावहारिक मूल्य: महत्वपूर्ण त्वरण अनुपात उच्च-सटीकता लंबे समय के सिमुलेशन को संभव बनाता है
  3. पूर्ण विधि: पूर्ण कार्यान्वयन और बहु-प्रणाली सत्यापन प्रदान करता है
  4. ठोस सैद्धांतिक आधार: परिपक्व RESPA सिद्धांत पर आधारित, ज्ञान आसवन के साथ संयुक्त
  5. अच्छी सार्वभौमिकता: किसी भी न्यूरल नेटवर्क संभावना पर लागू होती है

कमियां

  1. स्थिरता समस्या: जटिल प्रणालियों में अभी भी आकस्मिक अस्थिरता मौजूद है
  2. समय चरण सीमित: शास्त्रीय बल क्षेत्र की तुलना में, उपलब्ध समय चरण अभी भी छोटा है
  3. मॉडल प्रशिक्षण ओवरहेड: प्रणाली-विशिष्ट मॉडल को अतिरिक्त प्रशिक्षण समय की आवश्यकता है
  4. अपर्याप्त सैद्धांतिक विश्लेषण: विधि अभिसरण और त्रुटि प्रसार का कठोर विश्लेषण अभाव

प्रभाव

  1. शैक्षणिक मूल्य: ML संभावनाओं के व्यावहारिकीकरण के लिए महत्वपूर्ण तकनीकी मार्ग प्रदान करता है
  2. अनुप्रयोग संभावनाएं: नमूनाकरण विधियों के साथ संयुक्त होकर वास्तविक बड़े पैमाने पर सिमुलेशन प्राप्त कर सकता है
  3. इंजीनियरिंग महत्व: NNPs और शास्त्रीय बल क्षेत्र के बीच प्रदर्शन अंतर को कम करता है
  4. पुनरुत्पादनीयता: पूर्ण ओपन-सोर्स कार्यान्वयन प्रदान करता है

लागू परिदृश्य

  1. दवा डिजाइन: प्रोटीन-लिगेंड अंतःक्रिया के लंबे समय के सिमुलेशन
  2. सामग्री विज्ञान: बड़े पैमाने पर सामग्री गुणों की सटीक भविष्यवाणी
  3. जैव रसायन: एंजाइम उत्प्रेरण जैसी जटिल जैविक प्रक्रियाओं का अध्ययन
  4. रासायनिक प्रतिक्रिया: क्वांटम यांत्रिकी सटीकता की आवश्यकता वाली गतिविज्ञान अनुसंधान

संदर्भ

यह पेपर 49 महत्वपूर्ण संदर्भों का हवाला देता है, जो न्यूरल नेटवर्क संभावनाओं, बहु समय-चरण विधियों, ज्ञान आसवन और अन्य मुख्य क्षेत्रों के शास्त्रीय और नवीनतम कार्यों को शामिल करते हैं, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।


समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो बहु समय-चरण विधि को मशीन लर्निंग संभावनाओं के क्षेत्र में सफलतापूर्वक लाता है, NNPs कम्प्यूटेशनल दक्षता समस्या को हल करने के लिए एक नवीन और व्यावहारिक समाधान प्रदान करता है। हालांकि कुछ तकनीकी सीमाएं मौजूद हैं, लेकिन इसका अग्रणी योगदान और महत्वपूर्ण व्यावहारिक मूल्य इसे इस क्षेत्र में एक महत्वपूर्ण प्रगति बनाता है।