Antibodies are essential proteins responsible for immune responses in organisms, capable of specifically recognizing antigen molecules of pathogens. Recent advances in generative models have significantly enhanced rational antibody design. However, existing methods mainly create antibodies from scratch without template constraints, leading to model optimization challenges and unnatural sequences. To address these issues, we propose a retrieval-augmented diffusion framework, termed RADAb, for efficient antibody design. Our method leverages a set of structural homologous motifs that align with query structural constraints to guide the generative model in inversely optimizing antibodies according to desired design criteria. Specifically, we introduce a structure-informed retrieval mechanism that integrates these exemplar motifs with the input backbone through a novel dual-branch denoising module, utilizing both structural and evolutionary information. Additionally, we develop a conditional diffusion model that iteratively refines the optimization process by incorporating both global context and local evolutionary conditions. Our approach is agnostic to the choice of generative models. Empirical experiments demonstrate that our method achieves state-of-the-art performance in multiple antibody inverse folding and optimization tasks, offering a new perspective on biomolecular generative models.
- पेपर ID: 2410.15040
- शीर्षक: संरचना-सूचित एंटीबॉडी डिजाइन और अनुकूलन के लिए पुनर्प्राप्ति संवर्धित विसरण मॉडल
- लेखक: Zichen Wang, Yaokun Ji, Jianing Tian, Shuangjia Zheng
- वर्गीकरण: cs.AI
- प्रकाशन सम्मेलन: ICLR 2025
- पेपर लिंक: https://arxiv.org/abs/2410.15040
एंटीबॉडी शरीर की प्रतिरक्षा प्रतिक्रिया के लिए जिम्मेदार महत्वपूर्ण प्रोटीन हैं, जो रोगजनकों के एंटीजन अणुओं को विशेष रूप से पहचान सकते हैं। हालांकि जनरेटिव मॉडल की हाल की प्रगति ने तर्कसंगत एंटीबॉडी डिजाइन क्षमता में उल्लेखनीय सुधार किया है, मौजूदा विधियां मुख्य रूप से एंटीबॉडी को शुरुआत से बनाती हैं और टेम्पलेट बाधाओं की कमी होती है, जिससे मॉडल अनुकूलन कठिन और गैर-प्राकृतिक अनुक्रम समस्याएं होती हैं। इन समस्याओं को हल करने के लिए, यह पेपर कुशल एंटीबॉडी डिजाइन के लिए एक पुनर्प्राप्ति संवर्धित विसरण ढांचा RADAb प्रस्तावित करता है। यह विधि क्वेरी संरचना बाधाओं के साथ संरेखित संरचनात्मक समरूप मोटिफ्स के एक सेट का उपयोग करके जनरेटिव मॉडल को वांछित डिजाइन मानदंडों के अनुसार एंटीबॉडी को विपरीत रूप से अनुकूलित करने के लिए निर्देशित करती है। विशेष रूप से, एक संरचनात्मक जानकारी पुनर्प्राप्ति तंत्र पेश किया गया है, जो एक नोवल दोहरी-शाखा डीनोइजिंग मॉड्यूल के माध्यम से इन उदाहरण मोटिफ्स को इनपुट कंकाल के साथ एकीकृत करता है, जबकि संरचनात्मक और विकासवादी जानकारी का उपयोग करता है। इसके अलावा, एक सशर्त विसरण मॉडल विकसित किया गया है, जो वैश्विक संदर्भ और स्थानीय विकासवादी शर्तों को जोड़कर पुनरावृत्तिमूलक अनुकूलन प्रक्रिया को अनुकूलित करता है। यह विधि जनरेटिव मॉडल की पसंद से स्वतंत्र है, और प्रयोग कई एंटीबॉडी विपरीत-फोल्डिंग और अनुकूलन कार्यों पर अत्याधुनिक प्रदर्शन प्राप्त करते हैं।
एंटीबॉडी डिजाइन का मुख्य चुनौती यह है कि पूर्वनिर्धारित जैव रासायनिक विशेषताओं वाले कार्यात्मक एंटीबॉडी अनुक्रम कैसे उत्पन्न किए जाएं। पारंपरिक एंटीबॉडी विकास श्रम-गहन प्रायोगिक विधियों पर निर्भर करता है, जैसे पशु प्रतिरक्षा या बड़े पैमाने पर एंटीबॉडी लाइब्रेरी की स्क्रीनिंग, जो अक्सर चिकित्सा-संबंधित एपिटोप्स के लिए एंटीबॉडी प्रभावी ढंग से उत्पन्न नहीं कर सकते।
- डेटा की कमी: मुख्य रूप से SAbDab डेटाबेस पर निर्भर करता है, जिसमें दस हजार से कम एंटीजन-एंटीबॉडी जटिल संरचनाएं हैं, जो मॉडल की उच्च-क्रम इंटरैक्शन जानकारी को कैप्चर करने की क्षमता को सीमित करता है
- शुरुआत से डिजाइन की कठिनाई: मौजूदा विधियां शून्य से एंटीबॉडी अनुक्रम डिजाइन करने का प्रयास करती हैं, टेम्पलेट-आधारित मार्गदर्शन की कमी होती है, और बड़ी मात्रा में डेटा और व्यापक प्रशिक्षण की आवश्यकता होती है
- संरचनात्मक बाधा की कमी: वर्तमान जनरेटिव मॉडल संरचनात्मक बाधाओं का पालन करने वाले और वांछित जैविक विशेषताओं वाले एंटीबॉडी डिजाइन करने में कठिनाई करते हैं
यह पेपर टेम्पलेट-आधारित और खंड-आधारित एंटीबॉडी डिजाइन से प्रेरित है, जिसका उद्देश्य है:
- टेम्पलेट-जागरूक स्थानीय और वैश्विक प्रोटीन ज्यामितीय जानकारी का उपयोग करके मॉडल जनरेशन क्षमता को बढ़ाना
- अतिफिटिंग को रोकने के लिए मोटिफ विकासवादी संकेत को एकीकृत करना
- व्यावहारिक अनुप्रयोगों में न्यूनतम प्रशिक्षण या सूक्ष्म-ट्यूनिंग की आवश्यकता होना
- पहला पुनर्प्राप्ति-संवर्धित जनरेशन ढांचा: तर्कसंगत एंटीबॉडी डिजाइन के लिए पहला पुनर्प्राप्ति-संवर्धित जनरेशन ढांचा प्रस्तावित करता है, जो वांछित कंकाल संरचना और विशेषताओं को पूरा करने वाले कार्यात्मक CDR-जैसे खंडों के सेट का उपयोग करके जनरेशन को निर्देशित करता है
- नोवल पुनर्प्राप्ति तंत्र: संरचनात्मक जानकारी पुनर्प्राप्ति तंत्र पेश करता है, जो दोहरी-शाखा डीनोइजिंग मॉड्यूल के माध्यम से उदाहरण मोटिफ्स को इनपुट कंकाल के साथ एकीकृत करता है, संरचनात्मक और विकासवादी जानकारी का उपयोग करता है
- महत्वपूर्ण प्रदर्शन सुधार: कई एंटीबॉडी विपरीत-फोल्डिंग कार्यों में अत्याधुनिक विधि में सुधार, जैसे लंबे CDRH3 विपरीत-फोल्डिंग कार्य में AAR में 8.08% सुधार, कार्यात्मक अनुकूलन कार्य में औसत निरपेक्ष ΔΔG में 7 cal/mol सुधार
एंटीबॉडी फ्रेमवर्क जटिल Cab, एंटीजन Cag और पुनर्प्राप्त CDR-जैसे खंड A दिए गए, लक्ष्य CDR क्षेत्र R={sj∣j∈{a+1,...,a+m}} के अनुक्रम वितरण की भविष्यवाणी करना है, जहां m CDR की लंबाई है, a प्रारंभिक स्थिति है।
MASTER एल्गोरिथ्म का उपयोग करके संरचनात्मक पुनर्प्राप्ति:
- इनपुट: CDR कंकाल परमाणु निर्देशांक सेट X={xk∣k∈{1,...,m}}
- समानता माप: कंकाल परमाणुओं का मूल माध्य वर्ग विचलन (RMSD)
- आउटपुट: संरचनात्मक रूप से समान CDR-जैसे खंड सेट A={Ai∣i∈{1,...,k}}
वैश्विक ज्यामितीय संदर्भ शाखा:
- संदर्भ एन्कोडर: एकल अवशेष विशेषताएं zi और अवशेष-जोड़ी विशेषताएं yij निकालता है
- विकासवादी एन्कोडर: ESM2 का उपयोग करके एंटीबॉडी अनुक्रम की विकासवादी एम्बेडिंग et निकालता है
- संरचनात्मक जानकारी नेटवर्क: IPA परतों के माध्यम से प्रसंस्करण, वैश्विक संभाव्यता प्रतिनिधित्व rglobal आउटपुट करता है
स्थानीय CDR-केंद्रित शाखा:
- CDR-केंद्रित अक्षीय ध्यान: छद्म MSA मैट्रिक्स P का निर्माण:
P=concat((Sab∪Rgt),E)
जहां E CDR-जैसे अनुक्रम मैट्रिक्स है
- tied row attention तंत्र: एक साथ कई पंक्तियों के ध्यान स्कोर पर विचार करता है, संरचनात्मक समानता का उपयोग करता है
- जानकारी संलयन: स्किप कनेक्शन के माध्यम से rlocal और rglobal को संलयित करता है
अग्रगामी प्रक्रिया शोर जोड़ना:
q(sjt∣sjt−1)=Multinomial((1−βt)⋅onehot(sjt−1)+βt⋅201⋅1)
विपरीत डीनोइजिंग प्रक्रिया:
p(sjt−1∣Rt,Cab,Cag,A)=Multinomial[F(Rt,Cab,Cag,et)+G(F(Rt,Cab,Cag,et),A)][j]
- संरचनात्मक जानकारी पुनर्प्राप्ति: MASTER एल्गोरिथ्म का उपयोग करके कंकाल संरचना के आधार पर CDR-जैसे खंडों को पुनर्प्राप्त करता है, अनुक्रम जानकारी रिसाव से बचता है
- दोहरी-शाखा आर्किटेक्चर: वैश्विक शाखा एंटीजन-एंटीबॉडी जटिल संदर्भ को कैप्चर करती है, स्थानीय शाखा समरूप विकासवादी जानकारी सीखती है
- tied row attention: विशेष रूप से डिजाइन किया गया ध्यान तंत्र संरचनात्मक समानता का पूर्ण उपयोग करता है
- मॉडल स्वतंत्रता: ढांचा किसी भी विसरण जनरेशन मॉडल के साथ एकीकृत हो सकता है
- प्रशिक्षण सेट: SAbDab डेटाबेस, 4Å से कम रिजोल्यूशन वाली संरचनाओं को हटाया गया, CDRH3 क्षेत्र के आधार पर 50% अनुक्रम समानता क्लस्टरिंग
- परीक्षण सेट: 50 PDB फाइलें, 63 एंटीबॉडी-एंटीजन जटिल संरचनाएं शामिल हैं
- CDR-जैसे खंड डेटाबेस: गैर-अनावश्यक PDB से निर्मित, संरचनात्मक रूप से संगत CDR-जैसे रैखिक कार्यात्मक मोटिफ्स शामिल हैं
- अमीनो एसिड पुनर्प्राप्ति दर (AAR): डिजाइन किए गए अनुक्रम और वास्तविक CDR अनुक्रम में समान अमीनो एसिड स्थितियों का अनुपात
- स्व-संगति RMSD (scRMSD): पुनः-फोल्ड किए गए एंटीबॉडी संरचना के बाद CDR क्षेत्र के Cα परमाणुओं का RMSD
- प्रशंसनीयता (Plausibility): AntiBERTy का उपयोग करके गणना की गई छद्म लॉग-संभावना
- पारंपरिक विधियां: Grafting (शीर्ष-1 पुनर्प्राप्त खंड को सीधे प्रत्यारोपित करना)
- गहन शिक्षण विधियां: ProteinMPNN, ESM-IF1, Diffab-fix, AbMPNN
- अनुकूलक: Adam, सीखने की दर 0.0001
- बैच आकार: 8
- CDRH3 अलग से 100,000 पुनरावृत्तियों के लिए प्रशिक्षित, अन्य CDR क्षेत्र 250,000 पुनरावृत्तियों के लिए संयुक्त रूप से प्रशिक्षित
- विसरण समय चरण: 100 चरण
एंटीबॉडी CDR अनुक्रम विपरीत-फोल्डिंग परिणाम:
| विधि | CDRH3 AAR(%) | CDRH3 scRMSD | CDRH3 Plausibility |
|---|
| Grafting | 19.63 | 3.20 | -0.591 |
| ProteinMPNN | 41.77 | 2.27 | -0.605 |
| Diffab-fix | 49.17 | 2.24 | -0.541 |
| AbMPNN | 52.99 | 2.80 | -0.675 |
| RADAb | 57.02 | 2.23 | -0.530 |
लंबे CDRH3 अनुक्रम डिजाइन परिणाम (लंबाई >14):
| विधि | AAR(%) | scRMSD | Plausibility |
|---|
| Diffab-fix | 42.26 | 3.02 | -0.740 |
| RADAb | 51.35 | 2.52 | -0.747 |
बंधन ऊर्जा अनुकूलन परिणाम:
| विधि | ΔΔG↓ | ΔΔG-seq↓ | IMP-seq(%)↑ |
|---|
| Grafting | 135.17 | 40.22 | 32.69 |
| ProteinMPNN | 127.14 | 24.72 | 35.51 |
| Diffab-fix | 116.36 | 14.05 | 34.52 |
| RADAb | 109.16 | 7.06 | 37.30 |
| घटक | AAR(%) | scRMSD | Plausibility |
|---|
| पूर्ण मॉडल | 57.02 | 2.23 | -0.530 |
| पुनर्प्राप्ति संवर्धन के बिना | 52.15 | 2.39 | -0.529 |
| विकासवादी एम्बेडिंग के बिना | 51.36 | 2.23 | -0.538 |
| आधारभूत Diffab | 49.17 | 2.24 | -0.541 |
SARS-CoV-2 तटस्थकरण एंटीबॉडी (PDB: 7d6i) के उदाहरण के रूप में, 50 उत्पन्न CDRH3 अनुक्रमों में से 68% नमूने मूल जटिल की तुलना में कम ΔG मान प्रदर्शित करते हैं, जो कार्यात्मक अनुकूलन प्रभाव को प्रमाणित करता है।
- पारंपरिक विधियां: ऊर्जा कार्य अनुकूलन और अनुक्रम समानता पर आधारित विधियां
- मशीन लर्निंग विधियां:
- एंटीबॉडी अनुक्रम डिजाइन: भाषा मॉडल और विपरीत-फोल्डिंग मॉडल
- एंटीजन-विशिष्ट अनुक्रम-संरचना सहयोगी डिजाइन: ग्राफ न्यूरल नेटवर्क विधियां
प्रोटीन डिजाइन में विसरण मॉडल का अनुप्रयोग, DDPM की अग्रगामी शोर प्रक्रिया और विपरीत जनरेशन प्रक्रिया सहित।
RAG तकनीक NLP क्षेत्र से कंप्यूटर विजन और आणविक जनरेशन क्षेत्र तक विस्तारित होती है, यह पेपर इसे पहली बार एंटीबॉडी डिजाइन में लागू करता है।
- RADAb कई एंटीबॉडी डिजाइन कार्यों पर अत्याधुनिक प्रदर्शन प्राप्त करता है
- पुनर्प्राप्ति-संवर्धन तंत्र मॉडल की जनरेशन गुणवत्ता और कार्यात्मकता में महत्वपूर्ण सुधार करता है
- दोहरी-शाखा आर्किटेक्चर वैश्विक संदर्भ और स्थानीय विकासवादी जानकारी को प्रभावी ढंग से एकीकृत करता है
- प्रायोगिक सत्यापन अपर्याप्त: अभी तक गीले प्रयोगों में पूर्ण रूप से सत्यापित नहीं किया गया है
- कम्प्यूटेशनल ओवरहेड: संरचनात्मक पुनर्प्राप्ति और ESM2 एन्कोडिंग को अधिक कम्प्यूटेशनल संसाधनों की आवश्यकता होती है
- डेटा रिसाव जोखिम: अनुक्रम-संरचना सहयोगी डिजाइन में वर्तमान पुनर्प्राप्ति तंत्र लागू करने में डेटा रिसाव जोखिम है
- गीले प्रयोग सत्यापन मुख्य कार्यों में से एक होगा
- विभिन्न प्रोटीन मोटिफ डिजाइन के लिए मॉडल का विस्तार करना
- डेटा रिसाव समस्या से बचने के लिए PPI पुनर्प्राप्ति की खोज करना
- मजबूत नवाचार: पहली बार पुनर्प्राप्ति-संवर्धन तकनीक को एंटीबॉडी डिजाइन में लागू करता है, नोवल दोहरी-शाखा आर्किटेक्चर प्रस्तावित करता है
- ठोस तकनीक: संरचनात्मक जानकारी पुनर्प्राप्ति तंत्र का डिजाइन तर्कसंगत है, अनुक्रम जानकारी रिसाव से बचता है
- व्यापक प्रयोग: कई कार्यों और मेट्रिक्स पर व्यापक मूल्यांकन, विलोपन प्रयोग सहित
- उत्कृष्ट प्रदर्शन: सभी मूल्यांकन कार्यों पर अत्याधुनिक प्रदर्शन प्राप्त करता है
- व्यावहारिकता सत्यापन प्रतीक्षा में: गीले प्रयोग सत्यापन की कमी, वास्तविक अनुप्रयोग प्रभाव अज्ञात है
- उच्च कम्प्यूटेशनल जटिलता: पुनर्प्राप्ति प्रक्रिया और दोहरी-शाखा नेटवर्क कम्प्यूटेशनल बोझ बढ़ाते हैं
- सीमित प्रयोज्यता: मुख्य रूप से विपरीत-फोल्डिंग कार्यों पर केंद्रित, पूर्ण-परमाणु डिजाइन में सीमाएं हैं
- शैक्षणिक योगदान: जैविक अणु जनरेशन मॉडल के लिए नया दृष्टिकोण प्रदान करता है, प्रोटीन डिजाइन में पुनर्प्राप्ति-संवर्धन तकनीक के अनुप्रयोग को आगे बढ़ाता है
- व्यावहारिक मूल्य: एंटीबॉडी दवा डिजाइन प्रक्रिया को तेज करने और प्रायोगिक लागत को कम करने की संभावना है
- पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और खुला-स्रोत कोड प्रदान करता है
- ज्ञात एंटीबॉडी टेम्पलेट के आधार पर CDR अनुकूलन डिजाइन
- संरचनात्मक बाधाओं को बनाए रखने की आवश्यकता वाले एंटीबॉडी अनुक्रम सुधार
- एंटीबॉडी親和力परिपक्वता और कार्यात्मक अनुकूलन
यह पेपर एंटीबॉडी डिजाइन, विसरण मॉडल और पुनर्प्राप्ति-संवर्धित जनरेशन क्षेत्रों के महत्वपूर्ण कार्यों को उद्धृत करता है, जो RADAb ढांचे के लिए ठोस सैद्धांतिक आधार और तकनीकी समर्थन प्रदान करता है।
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो एंटीबॉडी डिजाइन क्षेत्र में एक नोवल पुनर्प्राप्ति-संवर्धित विसरण ढांचा प्रस्तावित करता है। तकनीकी समाधान का डिजाइन तर्कसंगत है, प्रायोगिक मूल्यांकन व्यापक है, और परिणाम विश्वास्पद हैं। हालांकि व्यावहारिक अनुप्रयोग सत्यापन में अभी भी सुधार की आवश्यकता है, लेकिन यह प्रोटीन डिजाइन क्षेत्र के लिए एक नई अनुसंधान दिशा खोलता है, जिसमें महत्वपूर्ण शैक्षणिक मूल्य और अनुप्रयोग संभावनाएं हैं।