Chemical pretrained models, sometimes referred to as foundation models, are receiving considerable interest for drug discovery applications. The general chemical knowledge extracted from self-supervised training has the potential to improve predictions for critical drug discovery endpoints, including on-target potency and ADMET properties. Multi-task learning has previously been successfully leveraged to improve predictive models. Here, we show that enabling multitasking in finetuning of chemical pretrained graph neural network models such as Kinetic GROVER Multi-Task (KERMT), an enhanced version of the GROVER model, and Knowledge-guided Pre-training of Graph Transformer (KGPT) significantly improves performance over non-pretrained graph neural network models. Surprisingly, we find that the performance improvement from finetuning KERMT in a multitask manner is most significant at larger data sizes. Additionally, we publish two multitask ADMET data splits to enable more accurate benchmarking of multitask deep learning methods for drug property prediction. Finally, we provide an accelerated implementation of the KERMT model on GitHub, unlocking large-scale pretraining, finetuning, and inference in industrial drug discovery workflows.
- पेपर ID: 2510.12719
- शीर्षक: Multitask finetuning and acceleration of chemical pretrained models for small molecule drug property prediction
- लेखक: Matthew Adrian, Yunsie Chung, Kevin Boyd, Saee Paliwal, Srimukh Prasad Veccham, Alan C. Cheng
- संस्थान: Merck & Co., Inc. और NVIDIA BioNeMo
- वर्गीकरण: cs.LG (मशीन लर्निंग), q-bio.QM (मात्रात्मक जीव विज्ञान विधियाँ)
- प्रकाशन तिथि: 14 अक्टूबर 2025
- पेपर लिंक: https://arxiv.org/abs/2510.12719v1
रासायनिक पूर्व-प्रशिक्षित मॉडल (जिन्हें आधार मॉडल भी कहा जाता है) दवा खोज अनुप्रयोगों में व्यापक ध्यान आकर्षित कर रहे हैं। स्व-पर्यवेक्षित प्रशिक्षण के माध्यम से निकाले गए सामान्य रासायनिक ज्ञान में लक्ष्य प्रभावकारिता और ADMET गुणों सहित महत्वपूर्ण दवा खोज अंतिम बिंदुओं की भविष्यवाणी में सुधार की संभावना है। यह अध्ययन दर्शाता है कि रासायनिक पूर्व-प्रशिक्षित ग्राफ न्यूरल नेटवर्क मॉडल (जैसे KERMT और KPGT) के सूक्ष्म-समंजन में बहु-कार्य शिक्षा को सक्षम करने से गैर-पूर्व-प्रशिक्षित ग्राफ न्यूरल नेटवर्क मॉडल की तुलना में प्रदर्शन में उल्लेखनीय वृद्धि होती है। आश्चर्यजनक रूप से, KERMT बहु-कार्य सूक्ष्म-समंजन का प्रदर्शन लाभ बड़े डेटा पैमाने पर सबसे अधिक स्पष्ट है। इसके अतिरिक्त, लेखकों ने दो बहु-कार्य ADMET डेटासेट विभाजन जारी किए हैं और KERMT मॉडल का एक त्वरित कार्यान्वयन प्रदान किया है।
- डेटा अल्पता की चुनौती: दवा खोज में, विशेषकर लक्ष्य प्रभावकारिता पूर्वानुमान जैसे कार्यों में, लेबल किया गया डेटा आमतौर पर सीमित होता है (10¹ से 10⁶ अणु), जबकि संपूर्ण रासायनिक स्थान का अनुमान लगभग 10⁶⁰ अणुओं का है
- पारंपरिक विधियों की सीमाएं: पर्यवेक्षित ग्राफ न्यूरल नेटवर्क छोटे डेटा परिदृश्यों में सीमित प्रदर्शन करते हैं, आमतौर पर यादृच्छिक वन जैसी शास्त्रीय विधियों पर निर्भर होते हैं
- बहु-कार्य शिक्षा की संभावना: ADMET गुणों के बीच सहसंबंध मौजूद है, जो बहु-कार्य शिक्षा के लिए अवसर प्रदान करता है, लेकिन रासायनिक पूर्व-प्रशिक्षित मॉडल सूक्ष्म-समंजन में अभी तक पूरी तरह से अन्वेषित नहीं किया गया है
- बड़े पैमाने पर अलेबल रासायनिक डेटा का उपयोग करके पूर्व-प्रशिक्षण, सामान्य रासायनिक ज्ञान और पैटर्न सीखना
- रासायनिक पूर्व-प्रशिक्षित मॉडल सूक्ष्म-समंजन में बहु-कार्य शिक्षा की संभावना की खोज
- औद्योगिक-स्तरीय दवा खोज प्रक्रिया में कम्प्यूटेशनल दक्षता समस्याओं को हल करना
- पहला व्यवस्थित अध्ययन: रासायनिक पूर्व-प्रशिक्षित मॉडल सूक्ष्म-समंजन में बहु-कार्य शिक्षा विधियों का परिचय
- KERMT मॉडल वृद्धि: GROVER का एक उन्नत संस्करण प्रस्तावित करना, वितरित पूर्व-प्रशिक्षण और त्वरित अनुमान का समर्थन करना
- प्रति-सहज खोज: यह साबित करना कि KERMT बड़े डेटा पैमाने पर बेहतर प्रदर्शन करता है, पूर्व-प्रशिक्षित मॉडल मुख्य रूप से छोटे डेटा परिदृश्यों में लाभकारी होने की धारणा को चुनौती देता है
- बेंचमार्क डेटासेट: दो बहु-कार्य ADMET डेटासेट विभाजन जारी करना, विधि तुलना मूल्यांकन को बढ़ावा देना
- इंजीनियरिंग अनुकूलन: त्वरित कार्यान्वयन प्रदान करना, औद्योगिक-स्तरीय अनुप्रयोग का समर्थन करना
इनपुट: अणु की SMILES स्ट्रिंग या आणविक ग्राफ प्रतिनिधित्व
आउटपुट: कई ADMET गुणों या लक्ष्य प्रभावकारिता की भविष्यवाणी मूल्य
उद्देश्य: बहु-कार्य शिक्षा के माध्यम से दवा संपत्ति पूर्वानुमान कार्यों पर रासायनिक पूर्व-प्रशिक्षित मॉडल के प्रदर्शन में सुधार
- आधार आर्किटेक्चर: GROVER के ग्राफ ट्रांसफॉर्मर मॉडल पर आधारित
- पूर्व-प्रशिक्षण कार्य:
- नोड/किनारा स्तरीय वर्गीकरण: नोड/किनारा एम्बेडिंग से k-hop स्थानीय उप-ग्राफ की पहचान
- ग्राफ स्तरीय बहु-लेबल वर्गीकरण: ग्राफ एम्बेडिंग से अणु में मौजूद कार्यात्मक समूहों की पहचान
- पैरामीटर स्केल: ~51 मिलियन पैरामीटर (आधार संस्करण)
- पूर्व-प्रशिक्षण डेटा: 11 मिलियन यौगिक (ZINC15 और ChEMBL से)
- विशेषता: आणविक रेखा ग्राफ प्रतिनिधित्व + ज्ञान नोड (K-node) का उपयोग
- पूर्व-प्रशिक्षण कार्य:
- मुखौटा किए गए नोड और K-node विशेषताओं की भविष्यवाणी
- RDKit फिंगरप्रिंट की भविष्यवाणी
- 200 आणविक विवरणकों की भविष्यवाणी
- पैरामीटर स्केल: ~100 मिलियन पैरामीटर
- पूर्व-प्रशिक्षण डेटा: 2 मिलियन अणु (ChEMBL29)
- एकल-कार्य सूक्ष्म-समंजन: केवल एनकोडर और फीडफॉरवर्ड नेटवर्क वजन को अपडेट करना एकल संपत्ति की भविष्यवाणी के लिए
- बहु-कार्य सूक्ष्म-समंजन: फीडफॉरवर्ड नेटवर्क आउटपुट n मान n गुणों के अनुरूप, एनकोडर वजन एक साथ अपडेट किए जाते हैं
- वितरित पूर्व-प्रशिक्षण: PyTorch DDP का उपयोग करके बहु-GPU समानांतर पूर्व-प्रशिक्षण, 8 GPU पर 86% स्केलिंग दक्षता प्राप्त करना
- त्वरित अनुमान: cuik-molmaker पैकेज को एकीकृत करना, 2.2x सूक्ष्म-समंजन त्वरण और 2.9x अनुमान त्वरण प्राप्त करना
- स्वचालित हाइपरपैरामीटर अनुकूलन: Optuna को एकीकृत करना हाइपरपैरामीटर खोज के लिए
- मेमोरी अनुकूलन: गतिशील रूप से आणविक ग्राफ और विवरणक उत्पन्न करना, 34% मेमोरी उपयोग में कमी
- ADMET डेटा: 30 अंतिम बिंदु, 800,733 यौगिक (2024 तक)
- लक्ष्य प्रभावकारिता: लक्ष्य 1 (744 यौगिक), लक्ष्य 2 (1,163 यौगिक)
- विभाजन विधि: 80-20 समय विभाजन (18 अप्रैल 2018 को सीमा बिंदु)
- साहित्य ADMET डेटा: 25 अंतिम बिंदु, 114,112 यौगिक
- Biogen डेटासेट: 6 अंतिम बिंदु, 3,521 यौगिक
- BindingDB: EGFR (9,462 यौगिक), BTK (9,337 यौगिक) आदि
- विभाजन विधि: PCA आयाम में कमी Morgan फिंगरप्रिंट के आधार पर क्लस्टरिंग विभाजन
- प्राथमिक मेट्रिक: Pearson r² सहसंबंध गुणांक
- सहायक मेट्रिक्स: निर्धारण गुणांक R², माध्य निरपेक्ष त्रुटि (MAE), मूल माध्य वर्ग त्रुटि (RMSE)
- वर्गीकरण मूल्यांकन: वर्गीकरण संवर्धन प्लॉट, उच्च प्रभावकारिता अणुओं के सही वर्गीकरण दर का मूल्यांकन
- आधार रेखा: Chemprop (D-MPNN)
- पूर्व-प्रशिक्षित मॉडल: MoLFormer, KPGT, KERMT
- मूल्यांकन मोड: एकल-कार्य (ST) और बहु-कार्य (MT) वेरिएंट
Merck आंतरिक डेटा के समय विभाजन परीक्षण में:
- KERMT MT: 5 मुख्य अंतिम बिंदुओं में सर्वोत्तम या संयुक्त सर्वोत्तम प्रदर्शन
- प्रदर्शन वृद्धि: 30 अंतिम बिंदुओं में 18 में Chemprop MT की तुलना में बेहतर
- औसत सुधार: Pearson r² में 0.02 (Chemprop की तुलना में) और 0.04 (KPGT की तुलना में) वृद्धि
विशिष्ट परिणाम (Pearson r²):
- Papp: KERMT MT (0.712) बनाम Chemprop MT (0.657)
- EPSA: KERMT MT (0.822) बनाम Chemprop MT (0.805)
- Fu,p मानव: KERMT MT (0.666) बनाम Chemprop MT (0.641)
- सार्वजनिक ADMET डेटा: KPGT बेहतर प्रदर्शन (9/25 अंतिम बिंदुओं में सर्वोत्तम), KERMT MT केवल 3/25 में सर्वोत्तम
- Biogen डेटा: नमूना आकार की कमी के कारण, परिणाम विश्वास में कम हैं
- डेटा स्केल निर्भरता: KERMT बड़े डेटासेट (>10k नमूने) पर बेहतर प्रदर्शन करता है, KPGT छोटे डेटासेट (<3k नमूने) पर बेहतर है
मुख्य खोज: KERMT का लाभ बड़े डेटा पैमाने पर अधिक स्पष्ट है
- महत्वपूर्ण बिंदु: प्रशिक्षण सेट >60k डेटा बिंदु होने पर, KERMT Chemprop से काफी बेहतर है
- पैरामीटर स्केल प्रभाव: KERMT (51 मिलियन पैरामीटर) Chemprop (5 मिलियन पैरामीटर) की तुलना में छोटे डेटा पर अधिक आसानी से ओवरफिट करता है
- बहु-कार्य लाभ: कार्यों की संख्या बढ़ने के साथ (1→30 कार्य), KERMT प्रदर्शन निरंतर सुधरता है
Tanimoto समानता विश्लेषण के माध्यम से:
- सामंजस्य लाभ: KERMT सभी समानता अंतराल (0.35-0.7) में Chemprop से बेहतर है
- सामान्यीकरण क्षमता: हालांकि विशेष रूप से कम समानता यौगिकों के लिए नहीं, समग्र सामान्यीकरण क्षमता मजबूत है
- चक्रीय पेप्टाइड पूर्वानुमान: चक्रीय पेप्टाइड उप-सेट पर दोनों मॉडल समान प्रदर्शन करते हैं (Pearson r² = 0.36)
आंतरिक डेटा के साथ पुनः प्रशिक्षण के प्रयोग दिखाते हैं:
- सीमित सुधार: यहां तक कि जब पूर्व-प्रशिक्षण डेटा डाउनस्ट्रीम कार्य के लिए अधिक समान हो, प्रदर्शन सुधार सीमित है
- चक्रीय पेप्टाइड प्रदर्शन: आधार KERMT मॉडल आंतरिक पूर्व-प्रशिक्षित मॉडल की तुलना में चक्रीय पेप्टाइड कार्य पर बेहतर है (5/12 बनाम 1/12 कार्य)
- अंतर्दृष्टि: प्रासंगिक जानकारी को बेहतर तरीके से कैप्चर करने के लिए पूर्व-प्रशिक्षण कार्यों में सुधार की आवश्यकता है
- GROVER: ग्राफ ट्रांसफॉर्मर, परमाणु और बंधन संदेश पारित करना
- MoLFormer: SMILES-आधारित भाषा मॉडल, घूर्णन स्थिति एन्कोडिंग
- KPGT: ज्ञान-निर्देशित ग्राफ ट्रांसफॉर्मर, आणविक विवरणक को एकीकृत करना
- पारंपरिक अनुप्रयोग: मुख्य रूप से शुरुआत से प्रशिक्षित गहरी शिक्षा आर्किटेक्चर के लिए उपयोग किया जाता है
- इस पेपर का योगदान: रासायनिक पूर्व-प्रशिक्षित मॉडल सूक्ष्म-समंजन के लिए बहु-कार्य शिक्षा का पहला व्यवस्थित अनुप्रयोग
- बहु-कार्य सूक्ष्म-समंजन प्रभावकारिता: KERMT बहु-कार्य सूक्ष्म-समंजन प्रदर्शन में उल्लेखनीय रूप से सुधार करता है, विशेषकर बड़े डेटा परिदृश्यों में
- डेटा स्केल निर्भरता: पूर्व-प्रशिक्षित मॉडल मुख्य रूप से छोटे डेटा में लाभकारी होने की पारंपरिक धारणा को चुनौती देता है
- मॉडल चयन मार्गदर्शन: बड़े मध्यम डेटा के लिए KERMT MT का उपयोग करने की सिफारिश, छोटे डेटा के लिए KPGT ST
- इंजीनियरिंग व्यवहार्यता: त्वरित कार्यान्वयन औद्योगिक-स्तरीय अनुप्रयोग को संभव बनाता है
- पूर्व-प्रशिक्षण कार्य अनुकूलन: वर्तमान पूर्व-प्रशिक्षण कार्य डाउनस्ट्रीम कार्य प्रासंगिक जानकारी को पूरी तरह से कैप्चर नहीं कर सकते हैं
- चक्रीय पेप्टाइड पूर्वानुमान: विशेष आणविक प्रकारों पर सुधार सीमित है
- डेटासेट अंतर: आंतरिक और सार्वजनिक डेटासेट परिणाम असंगत हैं, विधि सामान्यीकरण मूल्यांकन को प्रभावित करते हैं
- कम्प्यूटेशनल संसाधन आवश्यकताएं: बड़े पैरामीटर मॉडल को अधिक कम्प्यूटेशनल संसाधनों की आवश्यकता है
- पूर्व-प्रशिक्षण कार्य सुधार: डाउनस्ट्रीम बहु-कार्य शिक्षा के लिए अधिक उपयुक्त पूर्व-प्रशिक्षण उद्देश्यों को डिजाइन करना
- मॉड्यूलर सूक्ष्म-समंजन: विभिन्न डेटा पैमानों पर आंशिक रूप से जमे हुए एनकोडर के प्रभाव का अध्ययन करना
- क्रॉस-मोडल विस्तार: प्रोटीन-छोटे अणु संयुक्त पूर्व-प्रशिक्षण की खोज
- बेंचमार्क डेटासेट: अधिक उच्च-गुणवत्ता वाले बहु-कार्य बेंचमार्क विकसित करना
- उच्च व्यावहारिक मूल्य: औद्योगिक दवा खोज में वास्तविक समस्याओं को सीधे हल करना
- व्यापक प्रयोग: कई डेटासेट, मॉडल और मूल्यांकन आयामों को कवर करना
- प्रति-सहज खोज: क्षेत्र की धारणाओं को चुनौती देना, नई अंतर्दृष्टि प्रदान करना
- इंजीनियरिंग योगदान: पूर्ण ओपन-सोर्स कार्यान्वयन और त्वरण अनुकूलन प्रदान करना
- डेटा योगदान: मानकीकृत बहु-कार्य बेंचमार्क डेटासेट जारी करना
- सैद्धांतिक विश्लेषण अपर्याप्त: यह समझाने के लिए गहन सैद्धांतिक व्याख्या की कमी कि KERMT बड़े डेटा पर बेहतर क्यों प्रदर्शन करता है
- पूर्व-प्रशिक्षण रणनीति: बहु-कार्य शिक्षा के लिए अनुकूलित पूर्व-प्रशिक्षण विधियों की पूरी तरह से खोज नहीं की गई है
- सांख्यिकीय महत्व: कुछ परिणामों का सांख्यिकीय महत्व विश्लेषण अधिक कठोर हो सकता है
- कम्प्यूटेशनल लागत विश्लेषण: विस्तृत कम्प्यूटेशनल लागत तुलना विश्लेषण की कमी
- शैक्षणिक प्रभाव: रासायनिक सूचना विज्ञान और बहु-कार्य शिक्षा के अंतर-अनुशासनात्मक क्षेत्र के लिए महत्वपूर्ण संदर्भ प्रदान करना
- औद्योगिक अनुप्रयोग: फार्मास्यूटिकल कंपनियों की ADMET पूर्वानुमान प्रक्रिया के लिए सीधे लागू होना
- ओपन-सोर्स योगदान: कोड और डेटा की खुली पहुंच क्षेत्र विकास को बढ़ावा देना
- पद्धति योगदान: रासायनिक पूर्व-प्रशिक्षित मॉडल मूल्यांकन के लिए नए मानक स्थापित करना
- बड़ी फार्मास्यूटिकल कंपनियां: बड़े पैमाने पर ADMET डेटा वाली संस्थाएं
- बहु-संपत्ति अनुकूलन: एक साथ कई आणविक गुणों की भविष्यवाणी करने की आवश्यकता वाले परिदृश्य
- औद्योगिक प्रक्रिया: उच्च-दक्षता अनुमान की आवश्यकता वाले उत्पादन वातावरण
- अनुसंधान बेंचमार्क: बहु-कार्य रासायनिक संपत्ति पूर्वानुमान के लिए मानक आधार रेखा के रूप में
पेपर 47 महत्वपूर्ण संदर्भों का हवाला देता है, जिसमें शामिल हैं:
- रासायनिक पूर्व-प्रशिक्षित मॉडल की मूल कार्य (GROVER, MoLFormer, KPGT)
- ADMET पूर्वानुमान की शास्त्रीय विधियां और डेटासेट
- बहु-कार्य शिक्षा की सैद्धांतिक नींव
- आणविक प्रतिनिधित्व शिक्षा और ग्राफ न्यूरल नेटवर्क
- दवा खोज में मशीन लर्निंग अनुप्रयोग की समीक्षाएं
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुप्रयोग अनुसंधान पेपर है, जिसमें सैद्धांतिक योगदान, प्रयोगात्मक सत्यापन और इंजीनियरिंग कार्यान्वयन के संदर्भ में महत्वपूर्ण मूल्य है। विशेषकर इसकी प्रति-सहज खोज और पूर्ण ओपन-सोर्स योगदान, रासायनिक सूचना विज्ञान क्षेत्र के विकास को आगे बढ़ाने में महत्वपूर्ण महत्व रखते हैं।