2025-11-24T07:55:17.096511

Multitask finetuning and acceleration of chemical pretrained models for small molecule drug property prediction

Adrian, Chung, Boyd et al.
Chemical pretrained models, sometimes referred to as foundation models, are receiving considerable interest for drug discovery applications. The general chemical knowledge extracted from self-supervised training has the potential to improve predictions for critical drug discovery endpoints, including on-target potency and ADMET properties. Multi-task learning has previously been successfully leveraged to improve predictive models. Here, we show that enabling multitasking in finetuning of chemical pretrained graph neural network models such as Kinetic GROVER Multi-Task (KERMT), an enhanced version of the GROVER model, and Knowledge-guided Pre-training of Graph Transformer (KGPT) significantly improves performance over non-pretrained graph neural network models. Surprisingly, we find that the performance improvement from finetuning KERMT in a multitask manner is most significant at larger data sizes. Additionally, we publish two multitask ADMET data splits to enable more accurate benchmarking of multitask deep learning methods for drug property prediction. Finally, we provide an accelerated implementation of the KERMT model on GitHub, unlocking large-scale pretraining, finetuning, and inference in industrial drug discovery workflows.
academic

रासायनिक पूर्व-प्रशिक्षित मॉडल का बहु-कार्य सूक्ष्म-समंजन और त्वरण: छोटे अणु दवा संपत्ति पूर्वानुमान के लिए

मूल जानकारी

  • पेपर ID: 2510.12719
  • शीर्षक: Multitask finetuning and acceleration of chemical pretrained models for small molecule drug property prediction
  • लेखक: Matthew Adrian, Yunsie Chung, Kevin Boyd, Saee Paliwal, Srimukh Prasad Veccham, Alan C. Cheng
  • संस्थान: Merck & Co., Inc. और NVIDIA BioNeMo
  • वर्गीकरण: cs.LG (मशीन लर्निंग), q-bio.QM (मात्रात्मक जीव विज्ञान विधियाँ)
  • प्रकाशन तिथि: 14 अक्टूबर 2025
  • पेपर लिंक: https://arxiv.org/abs/2510.12719v1

सारांश

रासायनिक पूर्व-प्रशिक्षित मॉडल (जिन्हें आधार मॉडल भी कहा जाता है) दवा खोज अनुप्रयोगों में व्यापक ध्यान आकर्षित कर रहे हैं। स्व-पर्यवेक्षित प्रशिक्षण के माध्यम से निकाले गए सामान्य रासायनिक ज्ञान में लक्ष्य प्रभावकारिता और ADMET गुणों सहित महत्वपूर्ण दवा खोज अंतिम बिंदुओं की भविष्यवाणी में सुधार की संभावना है। यह अध्ययन दर्शाता है कि रासायनिक पूर्व-प्रशिक्षित ग्राफ न्यूरल नेटवर्क मॉडल (जैसे KERMT और KPGT) के सूक्ष्म-समंजन में बहु-कार्य शिक्षा को सक्षम करने से गैर-पूर्व-प्रशिक्षित ग्राफ न्यूरल नेटवर्क मॉडल की तुलना में प्रदर्शन में उल्लेखनीय वृद्धि होती है। आश्चर्यजनक रूप से, KERMT बहु-कार्य सूक्ष्म-समंजन का प्रदर्शन लाभ बड़े डेटा पैमाने पर सबसे अधिक स्पष्ट है। इसके अतिरिक्त, लेखकों ने दो बहु-कार्य ADMET डेटासेट विभाजन जारी किए हैं और KERMT मॉडल का एक त्वरित कार्यान्वयन प्रदान किया है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्याएं

  1. डेटा अल्पता की चुनौती: दवा खोज में, विशेषकर लक्ष्य प्रभावकारिता पूर्वानुमान जैसे कार्यों में, लेबल किया गया डेटा आमतौर पर सीमित होता है (10¹ से 10⁶ अणु), जबकि संपूर्ण रासायनिक स्थान का अनुमान लगभग 10⁶⁰ अणुओं का है
  2. पारंपरिक विधियों की सीमाएं: पर्यवेक्षित ग्राफ न्यूरल नेटवर्क छोटे डेटा परिदृश्यों में सीमित प्रदर्शन करते हैं, आमतौर पर यादृच्छिक वन जैसी शास्त्रीय विधियों पर निर्भर होते हैं
  3. बहु-कार्य शिक्षा की संभावना: ADMET गुणों के बीच सहसंबंध मौजूद है, जो बहु-कार्य शिक्षा के लिए अवसर प्रदान करता है, लेकिन रासायनिक पूर्व-प्रशिक्षित मॉडल सूक्ष्म-समंजन में अभी तक पूरी तरह से अन्वेषित नहीं किया गया है

अनुसंधान प्रेरणा

  • बड़े पैमाने पर अलेबल रासायनिक डेटा का उपयोग करके पूर्व-प्रशिक्षण, सामान्य रासायनिक ज्ञान और पैटर्न सीखना
  • रासायनिक पूर्व-प्रशिक्षित मॉडल सूक्ष्म-समंजन में बहु-कार्य शिक्षा की संभावना की खोज
  • औद्योगिक-स्तरीय दवा खोज प्रक्रिया में कम्प्यूटेशनल दक्षता समस्याओं को हल करना

मूल योगदान

  1. पहला व्यवस्थित अध्ययन: रासायनिक पूर्व-प्रशिक्षित मॉडल सूक्ष्म-समंजन में बहु-कार्य शिक्षा विधियों का परिचय
  2. KERMT मॉडल वृद्धि: GROVER का एक उन्नत संस्करण प्रस्तावित करना, वितरित पूर्व-प्रशिक्षण और त्वरित अनुमान का समर्थन करना
  3. प्रति-सहज खोज: यह साबित करना कि KERMT बड़े डेटा पैमाने पर बेहतर प्रदर्शन करता है, पूर्व-प्रशिक्षित मॉडल मुख्य रूप से छोटे डेटा परिदृश्यों में लाभकारी होने की धारणा को चुनौती देता है
  4. बेंचमार्क डेटासेट: दो बहु-कार्य ADMET डेटासेट विभाजन जारी करना, विधि तुलना मूल्यांकन को बढ़ावा देना
  5. इंजीनियरिंग अनुकूलन: त्वरित कार्यान्वयन प्रदान करना, औद्योगिक-स्तरीय अनुप्रयोग का समर्थन करना

विधि विवरण

कार्य परिभाषा

इनपुट: अणु की SMILES स्ट्रिंग या आणविक ग्राफ प्रतिनिधित्व आउटपुट: कई ADMET गुणों या लक्ष्य प्रभावकारिता की भविष्यवाणी मूल्य उद्देश्य: बहु-कार्य शिक्षा के माध्यम से दवा संपत्ति पूर्वानुमान कार्यों पर रासायनिक पूर्व-प्रशिक्षित मॉडल के प्रदर्शन में सुधार

मॉडल आर्किटेक्चर

KERMT (गतिज GROVER बहु-कार्य)

  • आधार आर्किटेक्चर: GROVER के ग्राफ ट्रांसफॉर्मर मॉडल पर आधारित
  • पूर्व-प्रशिक्षण कार्य:
    • नोड/किनारा स्तरीय वर्गीकरण: नोड/किनारा एम्बेडिंग से k-hop स्थानीय उप-ग्राफ की पहचान
    • ग्राफ स्तरीय बहु-लेबल वर्गीकरण: ग्राफ एम्बेडिंग से अणु में मौजूद कार्यात्मक समूहों की पहचान
  • पैरामीटर स्केल: ~51 मिलियन पैरामीटर (आधार संस्करण)
  • पूर्व-प्रशिक्षण डेटा: 11 मिलियन यौगिक (ZINC15 और ChEMBL से)

KPGT (ज्ञान-निर्देशित ग्राफ ट्रांसफॉर्मर का पूर्व-प्रशिक्षण)

  • विशेषता: आणविक रेखा ग्राफ प्रतिनिधित्व + ज्ञान नोड (K-node) का उपयोग
  • पूर्व-प्रशिक्षण कार्य:
    • मुखौटा किए गए नोड और K-node विशेषताओं की भविष्यवाणी
    • RDKit फिंगरप्रिंट की भविष्यवाणी
    • 200 आणविक विवरणकों की भविष्यवाणी
  • पैरामीटर स्केल: ~100 मिलियन पैरामीटर
  • पूर्व-प्रशिक्षण डेटा: 2 मिलियन अणु (ChEMBL29)

बहु-कार्य सूक्ष्म-समंजन रणनीति

  • एकल-कार्य सूक्ष्म-समंजन: केवल एनकोडर और फीडफॉरवर्ड नेटवर्क वजन को अपडेट करना एकल संपत्ति की भविष्यवाणी के लिए
  • बहु-कार्य सूक्ष्म-समंजन: फीडफॉरवर्ड नेटवर्क आउटपुट n मान n गुणों के अनुरूप, एनकोडर वजन एक साथ अपडेट किए जाते हैं

तकनीकी नवाचार बिंदु

  1. वितरित पूर्व-प्रशिक्षण: PyTorch DDP का उपयोग करके बहु-GPU समानांतर पूर्व-प्रशिक्षण, 8 GPU पर 86% स्केलिंग दक्षता प्राप्त करना
  2. त्वरित अनुमान: cuik-molmaker पैकेज को एकीकृत करना, 2.2x सूक्ष्म-समंजन त्वरण और 2.9x अनुमान त्वरण प्राप्त करना
  3. स्वचालित हाइपरपैरामीटर अनुकूलन: Optuna को एकीकृत करना हाइपरपैरामीटर खोज के लिए
  4. मेमोरी अनुकूलन: गतिशील रूप से आणविक ग्राफ और विवरणक उत्पन्न करना, 34% मेमोरी उपयोग में कमी

प्रयोगात्मक सेटअप

डेटासेट

आंतरिक डेटासेट (Merck)

  • ADMET डेटा: 30 अंतिम बिंदु, 800,733 यौगिक (2024 तक)
  • लक्ष्य प्रभावकारिता: लक्ष्य 1 (744 यौगिक), लक्ष्य 2 (1,163 यौगिक)
  • विभाजन विधि: 80-20 समय विभाजन (18 अप्रैल 2018 को सीमा बिंदु)

सार्वजनिक डेटासेट

  • साहित्य ADMET डेटा: 25 अंतिम बिंदु, 114,112 यौगिक
  • Biogen डेटासेट: 6 अंतिम बिंदु, 3,521 यौगिक
  • BindingDB: EGFR (9,462 यौगिक), BTK (9,337 यौगिक) आदि
  • विभाजन विधि: PCA आयाम में कमी Morgan फिंगरप्रिंट के आधार पर क्लस्टरिंग विभाजन

मूल्यांकन मेट्रिक्स

  • प्राथमिक मेट्रिक: Pearson r² सहसंबंध गुणांक
  • सहायक मेट्रिक्स: निर्धारण गुणांक R², माध्य निरपेक्ष त्रुटि (MAE), मूल माध्य वर्ग त्रुटि (RMSE)
  • वर्गीकरण मूल्यांकन: वर्गीकरण संवर्धन प्लॉट, उच्च प्रभावकारिता अणुओं के सही वर्गीकरण दर का मूल्यांकन

तुलनात्मक विधियाँ

  • आधार रेखा: Chemprop (D-MPNN)
  • पूर्व-प्रशिक्षित मॉडल: MoLFormer, KPGT, KERMT
  • मूल्यांकन मोड: एकल-कार्य (ST) और बहु-कार्य (MT) वेरिएंट

प्रयोगात्मक परिणाम

मुख्य परिणाम

आंतरिक ADMET डेटा प्रदर्शन

Merck आंतरिक डेटा के समय विभाजन परीक्षण में:

  • KERMT MT: 5 मुख्य अंतिम बिंदुओं में सर्वोत्तम या संयुक्त सर्वोत्तम प्रदर्शन
  • प्रदर्शन वृद्धि: 30 अंतिम बिंदुओं में 18 में Chemprop MT की तुलना में बेहतर
  • औसत सुधार: Pearson r² में 0.02 (Chemprop की तुलना में) और 0.04 (KPGT की तुलना में) वृद्धि

विशिष्ट परिणाम (Pearson r²):

  • Papp: KERMT MT (0.712) बनाम Chemprop MT (0.657)
  • EPSA: KERMT MT (0.822) बनाम Chemprop MT (0.805)
  • Fu,p मानव: KERMT MT (0.666) बनाम Chemprop MT (0.641)

सार्वजनिक डेटासेट प्रदर्शन

  • सार्वजनिक ADMET डेटा: KPGT बेहतर प्रदर्शन (9/25 अंतिम बिंदुओं में सर्वोत्तम), KERMT MT केवल 3/25 में सर्वोत्तम
  • Biogen डेटा: नमूना आकार की कमी के कारण, परिणाम विश्वास में कम हैं
  • डेटा स्केल निर्भरता: KERMT बड़े डेटासेट (>10k नमूने) पर बेहतर प्रदर्शन करता है, KPGT छोटे डेटासेट (<3k नमूने) पर बेहतर है

डेटा स्केल विश्लेषण

मुख्य खोज: KERMT का लाभ बड़े डेटा पैमाने पर अधिक स्पष्ट है

  • महत्वपूर्ण बिंदु: प्रशिक्षण सेट >60k डेटा बिंदु होने पर, KERMT Chemprop से काफी बेहतर है
  • पैरामीटर स्केल प्रभाव: KERMT (51 मिलियन पैरामीटर) Chemprop (5 मिलियन पैरामीटर) की तुलना में छोटे डेटा पर अधिक आसानी से ओवरफिट करता है
  • बहु-कार्य लाभ: कार्यों की संख्या बढ़ने के साथ (1→30 कार्य), KERMT प्रदर्शन निरंतर सुधरता है

रासायनिक स्थान सामान्यीकरण क्षमता

Tanimoto समानता विश्लेषण के माध्यम से:

  • सामंजस्य लाभ: KERMT सभी समानता अंतराल (0.35-0.7) में Chemprop से बेहतर है
  • सामान्यीकरण क्षमता: हालांकि विशेष रूप से कम समानता यौगिकों के लिए नहीं, समग्र सामान्यीकरण क्षमता मजबूत है
  • चक्रीय पेप्टाइड पूर्वानुमान: चक्रीय पेप्टाइड उप-सेट पर दोनों मॉडल समान प्रदर्शन करते हैं (Pearson r² = 0.36)

पूर्व-प्रशिक्षण डेटा प्रभाव

आंतरिक डेटा के साथ पुनः प्रशिक्षण के प्रयोग दिखाते हैं:

  • सीमित सुधार: यहां तक कि जब पूर्व-प्रशिक्षण डेटा डाउनस्ट्रीम कार्य के लिए अधिक समान हो, प्रदर्शन सुधार सीमित है
  • चक्रीय पेप्टाइड प्रदर्शन: आधार KERMT मॉडल आंतरिक पूर्व-प्रशिक्षित मॉडल की तुलना में चक्रीय पेप्टाइड कार्य पर बेहतर है (5/12 बनाम 1/12 कार्य)
  • अंतर्दृष्टि: प्रासंगिक जानकारी को बेहतर तरीके से कैप्चर करने के लिए पूर्व-प्रशिक्षण कार्यों में सुधार की आवश्यकता है

संबंधित कार्य

रासायनिक पूर्व-प्रशिक्षित मॉडल

  • GROVER: ग्राफ ट्रांसफॉर्मर, परमाणु और बंधन संदेश पारित करना
  • MoLFormer: SMILES-आधारित भाषा मॉडल, घूर्णन स्थिति एन्कोडिंग
  • KPGT: ज्ञान-निर्देशित ग्राफ ट्रांसफॉर्मर, आणविक विवरणक को एकीकृत करना

बहु-कार्य शिक्षा

  • पारंपरिक अनुप्रयोग: मुख्य रूप से शुरुआत से प्रशिक्षित गहरी शिक्षा आर्किटेक्चर के लिए उपयोग किया जाता है
  • इस पेपर का योगदान: रासायनिक पूर्व-प्रशिक्षित मॉडल सूक्ष्म-समंजन के लिए बहु-कार्य शिक्षा का पहला व्यवस्थित अनुप्रयोग

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. बहु-कार्य सूक्ष्म-समंजन प्रभावकारिता: KERMT बहु-कार्य सूक्ष्म-समंजन प्रदर्शन में उल्लेखनीय रूप से सुधार करता है, विशेषकर बड़े डेटा परिदृश्यों में
  2. डेटा स्केल निर्भरता: पूर्व-प्रशिक्षित मॉडल मुख्य रूप से छोटे डेटा में लाभकारी होने की पारंपरिक धारणा को चुनौती देता है
  3. मॉडल चयन मार्गदर्शन: बड़े मध्यम डेटा के लिए KERMT MT का उपयोग करने की सिफारिश, छोटे डेटा के लिए KPGT ST
  4. इंजीनियरिंग व्यवहार्यता: त्वरित कार्यान्वयन औद्योगिक-स्तरीय अनुप्रयोग को संभव बनाता है

सीमाएं

  1. पूर्व-प्रशिक्षण कार्य अनुकूलन: वर्तमान पूर्व-प्रशिक्षण कार्य डाउनस्ट्रीम कार्य प्रासंगिक जानकारी को पूरी तरह से कैप्चर नहीं कर सकते हैं
  2. चक्रीय पेप्टाइड पूर्वानुमान: विशेष आणविक प्रकारों पर सुधार सीमित है
  3. डेटासेट अंतर: आंतरिक और सार्वजनिक डेटासेट परिणाम असंगत हैं, विधि सामान्यीकरण मूल्यांकन को प्रभावित करते हैं
  4. कम्प्यूटेशनल संसाधन आवश्यकताएं: बड़े पैरामीटर मॉडल को अधिक कम्प्यूटेशनल संसाधनों की आवश्यकता है

भविष्य की दिशाएं

  1. पूर्व-प्रशिक्षण कार्य सुधार: डाउनस्ट्रीम बहु-कार्य शिक्षा के लिए अधिक उपयुक्त पूर्व-प्रशिक्षण उद्देश्यों को डिजाइन करना
  2. मॉड्यूलर सूक्ष्म-समंजन: विभिन्न डेटा पैमानों पर आंशिक रूप से जमे हुए एनकोडर के प्रभाव का अध्ययन करना
  3. क्रॉस-मोडल विस्तार: प्रोटीन-छोटे अणु संयुक्त पूर्व-प्रशिक्षण की खोज
  4. बेंचमार्क डेटासेट: अधिक उच्च-गुणवत्ता वाले बहु-कार्य बेंचमार्क विकसित करना

गहन मूल्यांकन

शक्तियां

  1. उच्च व्यावहारिक मूल्य: औद्योगिक दवा खोज में वास्तविक समस्याओं को सीधे हल करना
  2. व्यापक प्रयोग: कई डेटासेट, मॉडल और मूल्यांकन आयामों को कवर करना
  3. प्रति-सहज खोज: क्षेत्र की धारणाओं को चुनौती देना, नई अंतर्दृष्टि प्रदान करना
  4. इंजीनियरिंग योगदान: पूर्ण ओपन-सोर्स कार्यान्वयन और त्वरण अनुकूलन प्रदान करना
  5. डेटा योगदान: मानकीकृत बहु-कार्य बेंचमार्क डेटासेट जारी करना

कमियां

  1. सैद्धांतिक विश्लेषण अपर्याप्त: यह समझाने के लिए गहन सैद्धांतिक व्याख्या की कमी कि KERMT बड़े डेटा पर बेहतर क्यों प्रदर्शन करता है
  2. पूर्व-प्रशिक्षण रणनीति: बहु-कार्य शिक्षा के लिए अनुकूलित पूर्व-प्रशिक्षण विधियों की पूरी तरह से खोज नहीं की गई है
  3. सांख्यिकीय महत्व: कुछ परिणामों का सांख्यिकीय महत्व विश्लेषण अधिक कठोर हो सकता है
  4. कम्प्यूटेशनल लागत विश्लेषण: विस्तृत कम्प्यूटेशनल लागत तुलना विश्लेषण की कमी

प्रभाव

  1. शैक्षणिक प्रभाव: रासायनिक सूचना विज्ञान और बहु-कार्य शिक्षा के अंतर-अनुशासनात्मक क्षेत्र के लिए महत्वपूर्ण संदर्भ प्रदान करना
  2. औद्योगिक अनुप्रयोग: फार्मास्यूटिकल कंपनियों की ADMET पूर्वानुमान प्रक्रिया के लिए सीधे लागू होना
  3. ओपन-सोर्स योगदान: कोड और डेटा की खुली पहुंच क्षेत्र विकास को बढ़ावा देना
  4. पद्धति योगदान: रासायनिक पूर्व-प्रशिक्षित मॉडल मूल्यांकन के लिए नए मानक स्थापित करना

लागू परिदृश्य

  1. बड़ी फार्मास्यूटिकल कंपनियां: बड़े पैमाने पर ADMET डेटा वाली संस्थाएं
  2. बहु-संपत्ति अनुकूलन: एक साथ कई आणविक गुणों की भविष्यवाणी करने की आवश्यकता वाले परिदृश्य
  3. औद्योगिक प्रक्रिया: उच्च-दक्षता अनुमान की आवश्यकता वाले उत्पादन वातावरण
  4. अनुसंधान बेंचमार्क: बहु-कार्य रासायनिक संपत्ति पूर्वानुमान के लिए मानक आधार रेखा के रूप में

संदर्भ

पेपर 47 महत्वपूर्ण संदर्भों का हवाला देता है, जिसमें शामिल हैं:

  • रासायनिक पूर्व-प्रशिक्षित मॉडल की मूल कार्य (GROVER, MoLFormer, KPGT)
  • ADMET पूर्वानुमान की शास्त्रीय विधियां और डेटासेट
  • बहु-कार्य शिक्षा की सैद्धांतिक नींव
  • आणविक प्रतिनिधित्व शिक्षा और ग्राफ न्यूरल नेटवर्क
  • दवा खोज में मशीन लर्निंग अनुप्रयोग की समीक्षाएं

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुप्रयोग अनुसंधान पेपर है, जिसमें सैद्धांतिक योगदान, प्रयोगात्मक सत्यापन और इंजीनियरिंग कार्यान्वयन के संदर्भ में महत्वपूर्ण मूल्य है। विशेषकर इसकी प्रति-सहज खोज और पूर्ण ओपन-सोर्स योगदान, रासायनिक सूचना विज्ञान क्षेत्र के विकास को आगे बढ़ाने में महत्वपूर्ण महत्व रखते हैं।