2025-11-11T13:16:09.695232

Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization

Wang, Ji, Tian et al.

Antibodies are essential proteins responsible for immune responses in organisms, capable of specifically recognizing antigen molecules of pathogens. Recent advances in generative models have significantly enhanced rational antibody design. However, existing methods mainly create antibodies from scratch without template constraints, leading to model optimization challenges and unnatural sequences. To address these issues, we propose a retrieval-augmented diffusion framework, termed RADAb, for efficient antibody design. Our method leverages a set of structural homologous motifs that align with query structural constraints to guide the generative model in inversely optimizing antibodies according to desired design criteria. Specifically, we introduce a structure-informed retrieval mechanism that integrates these exemplar motifs with the input backbone through a novel dual-branch denoising module, utilizing both structural and evolutionary information. Additionally, we develop a conditional diffusion model that iteratively refines the optimization process by incorporating both global context and local evolutionary conditions. Our approach is agnostic to the choice of generative models. Empirical experiments demonstrate that our method achieves state-of-the-art performance in multiple antibody inverse folding and optimization tasks, offering a new perspective on biomolecular generative models.

academic

संरचना-सूचित एंटीबॉडी डिजाइन और अनुकूलन के लिए पुनर्प्राप्ति संवर्धित विसरण मॉडल

मूल जानकारी

पेपर ID: 2410.15040
शीर्षक: संरचना-सूचित एंटीबॉडी डिजाइन और अनुकूलन के लिए पुनर्प्राप्ति संवर्धित विसरण मॉडल
लेखक: Zichen Wang, Yaokun Ji, Jianing Tian, Shuangjia Zheng
वर्गीकरण: cs.AI
प्रकाशन सम्मेलन: ICLR 2025
पेपर लिंक: https://arxiv.org/abs/2410.15040

सारांश

एंटीबॉडी शरीर की प्रतिरक्षा प्रतिक्रिया के लिए जिम्मेदार महत्वपूर्ण प्रोटीन हैं, जो रोगजनकों के एंटीजन अणुओं को विशेष रूप से पहचान सकते हैं। हालांकि जनरेटिव मॉडल की हाल की प्रगति ने तर्कसंगत एंटीबॉडी डिजाइन क्षमता में उल्लेखनीय सुधार किया है, मौजूदा विधियां मुख्य रूप से एंटीबॉडी को शुरुआत से बनाती हैं और टेम्पलेट बाधाओं की कमी होती है, जिससे मॉडल अनुकूलन कठिन और गैर-प्राकृतिक अनुक्रम समस्याएं होती हैं। इन समस्याओं को हल करने के लिए, यह पेपर कुशल एंटीबॉडी डिजाइन के लिए एक पुनर्प्राप्ति संवर्धित विसरण ढांचा RADAb प्रस्तावित करता है। यह विधि क्वेरी संरचना बाधाओं के साथ संरेखित संरचनात्मक समरूप मोटिफ्स के एक सेट का उपयोग करके जनरेटिव मॉडल को वांछित डिजाइन मानदंडों के अनुसार एंटीबॉडी को विपरीत रूप से अनुकूलित करने के लिए निर्देशित करती है। विशेष रूप से, एक संरचनात्मक जानकारी पुनर्प्राप्ति तंत्र पेश किया गया है, जो एक नोवल दोहरी-शाखा डीनोइजिंग मॉड्यूल के माध्यम से इन उदाहरण मोटिफ्स को इनपुट कंकाल के साथ एकीकृत करता है, जबकि संरचनात्मक और विकासवादी जानकारी का उपयोग करता है। इसके अलावा, एक सशर्त विसरण मॉडल विकसित किया गया है, जो वैश्विक संदर्भ और स्थानीय विकासवादी शर्तों को जोड़कर पुनरावृत्तिमूलक अनुकूलन प्रक्रिया को अनुकूलित करता है। यह विधि जनरेटिव मॉडल की पसंद से स्वतंत्र है, और प्रयोग कई एंटीबॉडी विपरीत-फोल्डिंग और अनुकूलन कार्यों पर अत्याधुनिक प्रदर्शन प्राप्त करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

एंटीबॉडी डिजाइन का मुख्य चुनौती यह है कि पूर्वनिर्धारित जैव रासायनिक विशेषताओं वाले कार्यात्मक एंटीबॉडी अनुक्रम कैसे उत्पन्न किए जाएं। पारंपरिक एंटीबॉडी विकास श्रम-गहन प्रायोगिक विधियों पर निर्भर करता है, जैसे पशु प्रतिरक्षा या बड़े पैमाने पर एंटीबॉडी लाइब्रेरी की स्क्रीनिंग, जो अक्सर चिकित्सा-संबंधित एपिटोप्स के लिए एंटीबॉडी प्रभावी ढंग से उत्पन्न नहीं कर सकते।

मौजूदा विधियों की सीमाएं

डेटा की कमी: मुख्य रूप से SAbDab डेटाबेस पर निर्भर करता है, जिसमें दस हजार से कम एंटीजन-एंटीबॉडी जटिल संरचनाएं हैं, जो मॉडल की उच्च-क्रम इंटरैक्शन जानकारी को कैप्चर करने की क्षमता को सीमित करता है
शुरुआत से डिजाइन की कठिनाई: मौजूदा विधियां शून्य से एंटीबॉडी अनुक्रम डिजाइन करने का प्रयास करती हैं, टेम्पलेट-आधारित मार्गदर्शन की कमी होती है, और बड़ी मात्रा में डेटा और व्यापक प्रशिक्षण की आवश्यकता होती है
संरचनात्मक बाधा की कमी: वर्तमान जनरेटिव मॉडल संरचनात्मक बाधाओं का पालन करने वाले और वांछित जैविक विशेषताओं वाले एंटीबॉडी डिजाइन करने में कठिनाई करते हैं

अनुसंधान प्रेरणा

यह पेपर टेम्पलेट-आधारित और खंड-आधारित एंटीबॉडी डिजाइन से प्रेरित है, जिसका उद्देश्य है:

टेम्पलेट-जागरूक स्थानीय और वैश्विक प्रोटीन ज्यामितीय जानकारी का उपयोग करके मॉडल जनरेशन क्षमता को बढ़ाना
अतिफिटिंग को रोकने के लिए मोटिफ विकासवादी संकेत को एकीकृत करना
व्यावहारिक अनुप्रयोगों में न्यूनतम प्रशिक्षण या सूक्ष्म-ट्यूनिंग की आवश्यकता होना

मुख्य योगदान

पहला पुनर्प्राप्ति-संवर्धित जनरेशन ढांचा: तर्कसंगत एंटीबॉडी डिजाइन के लिए पहला पुनर्प्राप्ति-संवर्धित जनरेशन ढांचा प्रस्तावित करता है, जो वांछित कंकाल संरचना और विशेषताओं को पूरा करने वाले कार्यात्मक CDR-जैसे खंडों के सेट का उपयोग करके जनरेशन को निर्देशित करता है
नोवल पुनर्प्राप्ति तंत्र: संरचनात्मक जानकारी पुनर्प्राप्ति तंत्र पेश करता है, जो दोहरी-शाखा डीनोइजिंग मॉड्यूल के माध्यम से उदाहरण मोटिफ्स को इनपुट कंकाल के साथ एकीकृत करता है, संरचनात्मक और विकासवादी जानकारी का उपयोग करता है
महत्वपूर्ण प्रदर्शन सुधार: कई एंटीबॉडी विपरीत-फोल्डिंग कार्यों में अत्याधुनिक विधि में सुधार, जैसे लंबे CDRH3 विपरीत-फोल्डिंग कार्य में AAR में 8.08% सुधार, कार्यात्मक अनुकूलन कार्य में औसत निरपेक्ष ΔΔG में 7 cal/mol सुधार

विधि विवरण

कार्य परिभाषा

एंटीबॉडी फ्रेमवर्क जटिल $C_{ab}$ , एंटीजन $C_{ag}$ और पुनर्प्राप्त CDR-जैसे खंड $A$ दिए गए, लक्ष्य CDR क्षेत्र $R = \{s_j | j \in \{a+1, ..., a+m\}\}$ के अनुक्रम वितरण की भविष्यवाणी करना है, जहां $m$ CDR की लंबाई है, $a$ प्रारंभिक स्थिति है।

मॉडल आर्किटेक्चर

1. संरचनात्मक पुनर्प्राप्ति मॉड्यूल

MASTER एल्गोरिथ्म का उपयोग करके संरचनात्मक पुनर्प्राप्ति:

इनपुट: CDR कंकाल परमाणु निर्देशांक सेट $X = \{x_k | k \in \{1, ..., m\}\}$
समानता माप: कंकाल परमाणुओं का मूल माध्य वर्ग विचलन (RMSD)
आउटपुट: संरचनात्मक रूप से समान CDR-जैसे खंड सेट $A = \{A_i | i \in \{1, ..., k\}\}$

2. दोहरी-शाखा डीनोइजिंग नेटवर्क

वैश्विक ज्यामितीय संदर्भ शाखा:

संदर्भ एन्कोडर: एकल अवशेष विशेषताएं $z_i$ और अवशेष-जोड़ी विशेषताएं $y_{ij}$ निकालता है
विकासवादी एन्कोडर: ESM2 का उपयोग करके एंटीबॉडी अनुक्रम की विकासवादी एम्बेडिंग $e^t$ निकालता है
संरचनात्मक जानकारी नेटवर्क: IPA परतों के माध्यम से प्रसंस्करण, वैश्विक संभाव्यता प्रतिनिधित्व $r_{global}$ आउटपुट करता है

स्थानीय CDR-केंद्रित शाखा:

CDR-केंद्रित अक्षीय ध्यान: छद्म MSA मैट्रिक्स $P$ का निर्माण: $P = \text{concat}((S_{ab} \cup R^t_g), E)$ जहां $E$ CDR-जैसे अनुक्रम मैट्रिक्स है
tied row attention तंत्र: एक साथ कई पंक्तियों के ध्यान स्कोर पर विचार करता है, संरचनात्मक समानता का उपयोग करता है
जानकारी संलयन: स्किप कनेक्शन के माध्यम से $r_{local}$ और $r_{global}$ को संलयित करता है

3. सशर्त विसरण प्रक्रिया

अग्रगामी प्रक्रिया शोर जोड़ना: $q(s^t_j | s^{t-1}_j) = \text{Multinomial}((1-\beta_t) \cdot \text{onehot}(s^{t-1}_j) + \beta_t \cdot \frac{1}{20} \cdot \mathbf{1})$

विपरीत डीनोइजिंग प्रक्रिया: $p(s^{t-1}_j | R^t, C_{ab}, C_{ag}, A) = \text{Multinomial}[F(R^t, C_{ab}, C_{ag}, e^t) + G(F(R^t, C_{ab}, C_{ag}, e^t), A)][j]$

तकनीकी नवाचार बिंदु

संरचनात्मक जानकारी पुनर्प्राप्ति: MASTER एल्गोरिथ्म का उपयोग करके कंकाल संरचना के आधार पर CDR-जैसे खंडों को पुनर्प्राप्त करता है, अनुक्रम जानकारी रिसाव से बचता है
दोहरी-शाखा आर्किटेक्चर: वैश्विक शाखा एंटीजन-एंटीबॉडी जटिल संदर्भ को कैप्चर करती है, स्थानीय शाखा समरूप विकासवादी जानकारी सीखती है
tied row attention: विशेष रूप से डिजाइन किया गया ध्यान तंत्र संरचनात्मक समानता का पूर्ण उपयोग करता है
मॉडल स्वतंत्रता: ढांचा किसी भी विसरण जनरेशन मॉडल के साथ एकीकृत हो सकता है

प्रयोगात्मक सेटअप

डेटासेट

प्रशिक्षण सेट: SAbDab डेटाबेस, 4Å से कम रिजोल्यूशन वाली संरचनाओं को हटाया गया, CDRH3 क्षेत्र के आधार पर 50% अनुक्रम समानता क्लस्टरिंग
परीक्षण सेट: 50 PDB फाइलें, 63 एंटीबॉडी-एंटीजन जटिल संरचनाएं शामिल हैं
CDR-जैसे खंड डेटाबेस: गैर-अनावश्यक PDB से निर्मित, संरचनात्मक रूप से संगत CDR-जैसे रैखिक कार्यात्मक मोटिफ्स शामिल हैं

मूल्यांकन मेट्रिक्स

अमीनो एसिड पुनर्प्राप्ति दर (AAR): डिजाइन किए गए अनुक्रम और वास्तविक CDR अनुक्रम में समान अमीनो एसिड स्थितियों का अनुपात
स्व-संगति RMSD (scRMSD): पुनः-फोल्ड किए गए एंटीबॉडी संरचना के बाद CDR क्षेत्र के Cα परमाणुओं का RMSD
प्रशंसनीयता (Plausibility): AntiBERTy का उपयोग करके गणना की गई छद्म लॉग-संभावना

तुलना विधियां

पारंपरिक विधियां: Grafting (शीर्ष-1 पुनर्प्राप्त खंड को सीधे प्रत्यारोपित करना)
गहन शिक्षण विधियां: ProteinMPNN, ESM-IF1, Diffab-fix, AbMPNN

कार्यान्वयन विवरण

अनुकूलक: Adam, सीखने की दर 0.0001
बैच आकार: 8
CDRH3 अलग से 100,000 पुनरावृत्तियों के लिए प्रशिक्षित, अन्य CDR क्षेत्र 250,000 पुनरावृत्तियों के लिए संयुक्त रूप से प्रशिक्षित
विसरण समय चरण: 100 चरण

प्रयोगात्मक परिणाम

मुख्य परिणाम

एंटीबॉडी CDR अनुक्रम विपरीत-फोल्डिंग परिणाम:

विधि	CDRH3 AAR(%)	CDRH3 scRMSD	CDRH3 Plausibility
Grafting	19.63	3.20	-0.591
ProteinMPNN	41.77	2.27	-0.605
Diffab-fix	49.17	2.24	-0.541
AbMPNN	52.99	2.80	-0.675
RADAb	57.02	2.23	-0.530

लंबे CDRH3 अनुक्रम डिजाइन परिणाम (लंबाई >14):

विधि	AAR(%)	scRMSD	Plausibility
Diffab-fix	42.26	3.02	-0.740
RADAb	51.35	2.52	-0.747

कार्यात्मक अनुकूलन परिणाम

बंधन ऊर्जा अनुकूलन परिणाम:

विधि	ΔΔG↓	ΔΔG-seq↓	IMP-seq(%)↑
Grafting	135.17	40.22	32.69
ProteinMPNN	127.14	24.72	35.51
Diffab-fix	116.36	14.05	34.52
RADAb	109.16	7.06	37.30

विलोपन प्रयोग

घटक	AAR(%)	scRMSD	Plausibility
पूर्ण मॉडल	57.02	2.23	-0.530
पुनर्प्राप्ति संवर्धन के बिना	52.15	2.39	-0.529
विकासवादी एम्बेडिंग के बिना	51.36	2.23	-0.538
आधारभूत Diffab	49.17	2.24	-0.541

केस विश्लेषण

SARS-CoV-2 तटस्थकरण एंटीबॉडी (PDB: 7d6i) के उदाहरण के रूप में, 50 उत्पन्न CDRH3 अनुक्रमों में से 68% नमूने मूल जटिल की तुलना में कम ΔG मान प्रदर्शित करते हैं, जो कार्यात्मक अनुकूलन प्रभाव को प्रमाणित करता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

RADAb कई एंटीबॉडी डिजाइन कार्यों पर अत्याधुनिक प्रदर्शन प्राप्त करता है
पुनर्प्राप्ति-संवर्धन तंत्र मॉडल की जनरेशन गुणवत्ता और कार्यात्मकता में महत्वपूर्ण सुधार करता है
दोहरी-शाखा आर्किटेक्चर वैश्विक संदर्भ और स्थानीय विकासवादी जानकारी को प्रभावी ढंग से एकीकृत करता है

सीमाएं

प्रायोगिक सत्यापन अपर्याप्त: अभी तक गीले प्रयोगों में पूर्ण रूप से सत्यापित नहीं किया गया है
कम्प्यूटेशनल ओवरहेड: संरचनात्मक पुनर्प्राप्ति और ESM2 एन्कोडिंग को अधिक कम्प्यूटेशनल संसाधनों की आवश्यकता होती है
डेटा रिसाव जोखिम: अनुक्रम-संरचना सहयोगी डिजाइन में वर्तमान पुनर्प्राप्ति तंत्र लागू करने में डेटा रिसाव जोखिम है

भविष्य की दिशाएं

गीले प्रयोग सत्यापन मुख्य कार्यों में से एक होगा
विभिन्न प्रोटीन मोटिफ डिजाइन के लिए मॉडल का विस्तार करना
डेटा रिसाव समस्या से बचने के लिए PPI पुनर्प्राप्ति की खोज करना

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: पहली बार पुनर्प्राप्ति-संवर्धन तकनीक को एंटीबॉडी डिजाइन में लागू करता है, नोवल दोहरी-शाखा आर्किटेक्चर प्रस्तावित करता है
ठोस तकनीक: संरचनात्मक जानकारी पुनर्प्राप्ति तंत्र का डिजाइन तर्कसंगत है, अनुक्रम जानकारी रिसाव से बचता है
व्यापक प्रयोग: कई कार्यों और मेट्रिक्स पर व्यापक मूल्यांकन, विलोपन प्रयोग सहित
उत्कृष्ट प्रदर्शन: सभी मूल्यांकन कार्यों पर अत्याधुनिक प्रदर्शन प्राप्त करता है

कमियां

व्यावहारिकता सत्यापन प्रतीक्षा में: गीले प्रयोग सत्यापन की कमी, वास्तविक अनुप्रयोग प्रभाव अज्ञात है
उच्च कम्प्यूटेशनल जटिलता: पुनर्प्राप्ति प्रक्रिया और दोहरी-शाखा नेटवर्क कम्प्यूटेशनल बोझ बढ़ाते हैं
सीमित प्रयोज्यता: मुख्य रूप से विपरीत-फोल्डिंग कार्यों पर केंद्रित, पूर्ण-परमाणु डिजाइन में सीमाएं हैं

प्रभाव

शैक्षणिक योगदान: जैविक अणु जनरेशन मॉडल के लिए नया दृष्टिकोण प्रदान करता है, प्रोटीन डिजाइन में पुनर्प्राप्ति-संवर्धन तकनीक के अनुप्रयोग को आगे बढ़ाता है
व्यावहारिक मूल्य: एंटीबॉडी दवा डिजाइन प्रक्रिया को तेज करने और प्रायोगिक लागत को कम करने की संभावना है
पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और खुला-स्रोत कोड प्रदान करता है

प्रयोज्य परिदृश्य

ज्ञात एंटीबॉडी टेम्पलेट के आधार पर CDR अनुकूलन डिजाइन
संरचनात्मक बाधाओं को बनाए रखने की आवश्यकता वाले एंटीबॉडी अनुक्रम सुधार
एंटीबॉडी親和力परिपक्वता और कार्यात्मक अनुकूलन

संदर्भ

यह पेपर एंटीबॉडी डिजाइन, विसरण मॉडल और पुनर्प्राप्ति-संवर्धित जनरेशन क्षेत्रों के महत्वपूर्ण कार्यों को उद्धृत करता है, जो RADAb ढांचे के लिए ठोस सैद्धांतिक आधार और तकनीकी समर्थन प्रदान करता है।

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो एंटीबॉडी डिजाइन क्षेत्र में एक नोवल पुनर्प्राप्ति-संवर्धित विसरण ढांचा प्रस्तावित करता है। तकनीकी समाधान का डिजाइन तर्कसंगत है, प्रायोगिक मूल्यांकन व्यापक है, और परिणाम विश्वास्पद हैं। हालांकि व्यावहारिक अनुप्रयोग सत्यापन में अभी भी सुधार की आवश्यकता है, लेकिन यह प्रोटीन डिजाइन क्षेत्र के लिए एक नई अनुसंधान दिशा खोलता है, जिसमें महत्वपूर्ण शैक्षणिक मूल्य और अनुप्रयोग संभावनाएं हैं।