2025-11-16T00:34:12.699199

Latent Retrieval Augmented Generation of Cross-Domain Protein Binders

Zhang, Kong, Huang et al.
Designing protein binders targeting specific sites, which requires to generate realistic and functional interaction patterns, is a fundamental challenge in drug discovery. Current structure-based generative models are limited in generating nterfaces with sufficient rationality and interpretability. In this paper, we propose Retrieval-Augmented Diffusion for Aligned interface (RADiAnce), a new framework that leverages known interfaces to guide the design of novel binders. By unifying retrieval and generation in a shared contrastive latent space, our model efficiently identifies relevant interfaces for a given binding site and seamlessly integrates them through a conditional latent diffusion generator, enabling cross-domain interface transfer. Extensive exeriments show that RADiAnce significantly outperforms baseline models across multiple metrics, including binding affinity and recovery of geometries and interactions. Additional experimental results validate cross-domain generalization, demonstrating that retrieving interfaces from diverse domains, such as peptides, antibodies, and protein fragments, enhances the generation performance of binders for other domains. Our work establishes a new paradigm for protein binder design that successfully bridges retrieval-based knowledge and generative AI, opening new possibilities for drug discovery.
academic

क्रॉस-डोमेन प्रोटीन बाइंडर्स का लेटेंट रिट्रीवल ऑगमेंटेड जेनरेशन

मूल जानकारी

  • पेपर ID: 2510.10480
  • शीर्षक: Latent Retrieval Augmented Generation of Cross-Domain Protein Binders
  • लेखक: Zishen Zhang, Xiangzhe Kong, Wenbing Huang, Yang Liu
  • वर्गीकरण: cs.LG cs.AI
  • प्रकाशन समय/सम्मेलन: प्रीप्रिंट। समीक्षाधीन (अक्टूबर 2024)
  • पेपर लिंक: https://arxiv.org/abs/2510.10480

सारांश

विशिष्ट साइटों के लिए प्रोटीन बाइंडर्स का डिजाइन दवा खोज में एक मौलिक चुनौती है, जिसके लिए यथार्थवादी और कार्यात्मक अंतःक्रिया पैटर्न की आवश्यकता होती है। वर्तमान संरचना-आधारित जनरेटिव मॉडल पर्याप्त तर्कसंगतता और व्याख्यात्मकता के साथ इंटरफेस उत्पन्न करने में सीमाएं रखते हैं। यह पेपर रिट्रीवल ऑगमेंटेड डिफ्यूजन अलाइनमेंट इंटरफेस फ्रेमवर्क (RADiAnce) प्रस्तावित करता है, जो ज्ञात इंटरफेस का लाभ उठाकर नए बाइंडर्स के डिजाइन को निर्देशित करता है। साझा विपरीत लेटेंट स्पेस में रिट्रीवल और जेनरेशन को एकीकृत करके, यह मॉडल दिए गए बाइंडिंग साइट के लिए प्रासंगिक इंटरफेस को कुशलतापूर्वक पहचान सकता है और सशर्त लेटेंट डिफ्यूजन जेनरेटर के माध्यम से निर्बाध रूप से एकीकृत करके क्रॉस-डोमेन इंटरफेस स्थानांतरण को सक्षम करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मुख्य समस्या

  1. प्रोटीन बाइंडर डिजाइन चुनौती: विशिष्ट प्रोटीन साइटों को लक्षित करने वाले बाइंडर्स का डिजाइन, यथार्थवादी और कार्यात्मक आणविक इंटरफेस अंतःक्रिया पैटर्न उत्पन्न करने की आवश्यकता है
  2. मौजूदा विधियों की सीमाएं: वर्तमान संरचनात्मक जनरेटिव मॉडल में तर्कसंगतता और व्याख्यात्मकता की कमी है, और ज्ञात संरचनात्मक जानकारी का प्रभावी ढंग से उपयोग नहीं कर सकते

महत्व

  • दवा खोज, संरचनात्मक जीव विज्ञान आदि क्षेत्रों में व्यापक अनुप्रयोग मूल्य
  • पारंपरिक विधियां भौतिक या सांख्यिकीय ऊर्जा परिदृश्य नमूनाकरण अनुकूलन पर निर्भर करती हैं, जो कम दक्ष है
  • गहन जनरेटिव मॉडल में प्रगति हुई है, लेकिन फिर भी तर्कसंगत आणविक इंटरफेस उत्पन्न करना मुश्किल है

मौजूदा विधियों की सीमाएं

  1. पूर्व ज्ञान की उपेक्षा: अधिकांश विधियां केवल लक्ष्य बाइंडिंग साइट के आधार पर जेनरेशन करती हैं, मौजूदा प्रोटीन परिसरों में समृद्ध पुन: प्रयोज्य अंतःक्रिया पैटर्न को नजरअंदाज करती हैं
  2. क्रॉस-डोमेन सामान्यीकरण की कमी: विभिन्न प्रकार के बाइंडर्स (जैसे पेप्टाइड्स, एंटीबॉडी, प्रोटीन खंड) के बीच सामान्य अंतःक्रिया मोटिफ्स का प्रभावी ढंग से उपयोग नहीं कर सकते
  3. अपर्याप्त व्याख्यात्मकता: जेनरेशन प्रक्रिया में स्पष्ट जैविक निर्देशन सिद्धांतों की कमी है

मुख्य योगदान

  1. RADiAnce फ्रेमवर्क प्रस्तावित करना: प्रोटीन बाइंडर अनुक्रम-संरचना सहयोगी डिजाइन के लिए रिट्रीवल ऑगमेंटेड जेनरेशन लागू करने वाली पहली विधि
  2. विपरीत लेटेंट स्पेस का निर्माण: रिट्रीवल और जेनरेशन को समर्थन करने वाली साझा लेटेंट प्रतिनिधित्व डिजाइन करना, क्रॉस-डोमेन इंटरफेस समानता माप का समर्थन करना
  3. क्रॉस-डोमेन इंटरफेस स्थानांतरण को लागू करना: विभिन्न बाइंडर प्रकारों से पुनः प्राप्त इंटरफेस अन्य डोमेन बाइंडर्स के जेनरेशन प्रदर्शन को बढ़ा सकते हैं
  4. महत्वपूर्ण प्रदर्शन सुधार: कई मूल्यांकन मेट्रिक्स पर बेसलाइन विधियों से काफी बेहतर, जिसमें बाइंडिंग आत्मीयता, ज्यामिति और अंतःक्रिया पुनः प्राप्ति शामिल है

विधि विवरण

कार्य परिभाषा

  • इनपुट: लक्ष्य प्रोटीन की बाइंडिंग साइट Y (10Å दूरी के भीतर अवशेष)
  • आउटपुट: इस साइट के साथ विशिष्ट रूप से बंधने में सक्षम आणविक बाइंडर X
  • उद्देश्य: सशर्त वितरण p_θ(X | Y, T(Y|D)) को मॉडल करना, जहां T(Y|D) डेटाबेस D से पुनः प्राप्त प्रासंगिक इंटरफेस है

मॉडल आर्किटेक्चर

1. विपरीत वेरिएशनल ऑटोएनकोडर (Contrastive VAE)

एनकोडर: Zx = Eφ(X), Zy = Eφ(Y)
डिकोडर: X̂ = Dξ(Zx, Zy, Y)

मुख्य डिजाइन:

  • बाइंडिंग साइट Y और बाइंडर X को स्वतंत्र रूप से लेटेंट पॉइंट क्लाउड में एनकोड करना
  • लेटेंट चर में स्केलर एम्बेडिंग zi और 3D निर्देशांक z⃗i शामिल हैं
  • विपरीत शिक्षा के माध्यम से सकारात्मक नमूना जोड़ी को संरेखित करना, नकारात्मक नमूना जोड़ी को अस्वीकार करना

हानि फ़ंक्शन:

L(D) = Σ(Lrec + LKL + Lretrieval)

जहां:

  • Lrec: पुनर्निर्माण हानि (क्रॉस-एंट्रॉपी + MSE)
  • LKL: KL विचलन नियमितकरण
  • Lretrieval: द्विदिशीय विपरीत हानि

2. रिट्रीवल ऑगमेंटेड लेटेंट डिफ्यूजन

अग्रगामी प्रक्रिया:

q(u⃗ti | u⃗t-1i) = N(u⃗ti; √(1-βt)·u⃗t-1i, βtI)

विपरीत प्रक्रिया:

pθ(u⃗t-1i | Ztx, Zy, Tv) = N(u⃗t-1i; μ⃗θ(Ztx, Zy, Tv), βtI)

टेम्पलेट एकीकरण तंत्र:

  • डीनोइजिंग कोर के रूप में E(3) समतुल्य ट्रांसफॉर्मर का उपयोग करना
  • क्रॉस-अटेंशन तंत्र के माध्यम से पुनः प्राप्त टेम्पलेट जानकारी को एकीकृत करना
  • क्वेरी-कुंजी-मूल्य गणना: Q = HWQ, K = TWK, V = TWV

तकनीकी नवाचार बिंदु

  1. एकीकृत लेटेंट स्पेस: पहली बार एक ही लेटेंट स्पेस में रिट्रीवल और जेनरेशन को एकीकृत करना, यह सुनिश्चित करना कि पुनः प्राप्त परिणाम सीधे जेनरेशन प्रक्रिया को निर्देशित कर सकते हैं
  2. क्रॉस-डोमेन समानता माप: विपरीत शिक्षा के माध्यम से सीखे गए लेटेंट प्रतिनिधित्व विभिन्न प्रकार के बाइंडर्स के बीच सामान्य अंतःक्रिया मोटिफ्स को पकड़ सकते हैं
  3. सशर्त डिफ्यूजन एकीकरण: रिट्रीवल किए गए इंटरफेस एम्बेडिंग को क्रॉस-अटेंशन और अवशिष्ट MLP के माध्यम से डिफ्यूजन प्रक्रिया में एकीकृत करने का नवाचारी तरीका

प्रयोगात्मक सेटअप

डेटासेट

  1. पेप्टाइड डिजाइन: PepBench डेटासेट
    • प्रशिक्षण: 4,157 परिसरें
    • सत्यापन: 114 परिसरें
    • परीक्षण: 93 LNR बेंचमार्क केस
  2. एंटीबॉडी डिजाइन: SAbDab डेटासेट
    • प्रशिक्षण: 9,473 प्रविष्टियां
    • सत्यापन: 400 प्रविष्टियां
    • परीक्षण: 60 RAbD बेंचमार्क केस
  3. प्रोटीन खंड: ProtFrag डेटासेट
    • 70,498 मोनोमर-व्युत्पन्न प्रोटीन खंड

मूल्यांकन मेट्रिक्स

  • AAR (अमीनो एसिड रिकवरी दर): उत्पन्न अनुक्रम और संदर्भ अनुक्रम के बीच मिलान अनुपात
  • RMSD: Cα निर्देशांक का मूल माध्य वर्ग विचलन
  • ISM (इंटरएक्शन साइट मैचिंग): महत्वपूर्ण भौतिक-रासायनिक अंतःक्रिया की पुनः प्राप्ति की डिग्री
  • ∆∆G: बाइंडिंग मुक्त ऊर्जा परिवर्तन
  • IMP: उत्पन्न बाइंडर प्राकृतिक लिगेंड से बेहतर लक्ष्य का अनुपात

तुलनात्मक विधियां

  • पेप्टाइड डिजाइन: RFDiffusion, PepFlow, PepGLAD, UniMoMo
  • एंटीबॉडी डिजाइन: MEAN, DyMEAN, DiffAb, GeoAB, UniMoMo

प्रयोगात्मक परिणाम

मुख्य परिणाम

पेप्टाइड अनुक्रम-संरचना सहयोगी डिजाइन

मॉडलAAR (%)RMSD (Å)∆∆G (kJ/mol)IMP (%)ISM (%)
RFDiffusion34.684.6924.785.3828.38
PepFlow35.472.8715.7114.1327.83
PepGLAD38.622.7415.2616.1332.63
UniMoMo38.692.312.40940.8649.13
RADiAnce39.422.291.96341.9452.15

एंटीबॉडी CDR डिजाइन

RADiAnce सभी CDR क्षेत्रों (H1, H2, H3, L1, L2, L3) में बेसलाइन विधियों से काफी बेहतर है:

  • H1 क्षेत्र: AAR 90.83% तक सुधार, ∆∆G -8.221 kJ/mol तक सुधार
  • H3 क्षेत्र (सबसे चुनौतीपूर्ण): AAR 54.66% तक पहुंचता है, अन्य विधियों से काफी बेहतर

रिट्रीवल विश्वसनीयता सत्यापन

मॉडल कॉन्फ़िगरेशनITO(%)RC-0.1%RC-0.5%RC-5%
एंटीबॉडी CVAE (पूर्ण)43.9366.6796.67100.0
पेप्टाइड CVAE (पूर्ण)61.4111.5822.5867.74

विलोपन प्रयोग

  1. क्रॉस-डोमेन प्रशिक्षण प्रभाव: बहु-डोमेन डेटा शामिल करना रिट्रीवल और जेनरेशन प्रदर्शन में काफी सुधार करता है
  2. संयुक्त प्रशिक्षण आवश्यकता: VAE और विपरीत हानि दोनों को अनुकूलित करना महत्वपूर्ण है
  3. रिट्रीवल संख्या प्रभाव: उपयुक्त रिट्रीवल (10-20 नमूने) सर्वोत्तम परिणाम देते हैं

केस विश्लेषण

GPIIb/IIIa परिसर (PDB ID: 3NID) के उदाहरण के रूप में:

  • रिट्रीवल निर्देशन के बिना: विशेषता बहु-हाइड्रोजन बॉन्ड अंतःक्रिया को पुनर्निर्माण करना मुश्किल
  • रिट्रीवल ऑगमेंटेड: मुख्य अंतःक्रिया मोटिफ्स को सफलतापूर्वक विरासत में लेता है, आर्जिनिन और टायरोसिन द्वारा मध्यस्थता वाले हाइड्रोजन बॉन्ड पैटर्न को पुनः प्राप्त करता है

संबंधित कार्य

पेप्टाइड डिजाइन

  • शास्त्रीय ऊर्जा नमूनाकरण से गहन जनरेटिव मॉडलिंग की ओर
  • PepFlow/PPFlow बहु-मोडल प्रवाह मिलान को लागू करते हैं
  • PepGLAD ज्यामितीय लेटेंट डिफ्यूजन लागू करता है

एंटीबॉडी डिजाइन

  • पारंपरिक भौतिक नमूनाकरण से गहन शिक्षण फ्रेमवर्क तक
  • DiffAb आदि एंटीजन सशर्त जेनरेशन का परिचय देते हैं
  • PALM-H3 जैसी भाषा मॉडल विधियां ध्यान आकर्षित करती हैं

रिट्रीवल ऑगमेंटेड जेनरेशन

  • शुरुआत में NLP कार्यों में लागू
  • आणविक डिजाइन में f-RAG, IRDiff आदि विधियां
  • यह पेपर प्रोटीन बाइंडर सहयोगी डिजाइन में पहली बार लागू करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. RADiAnce ने रिट्रीवल ऑगमेंटेड प्रोटीन बाइंडर डिजाइन के लिए एक नया प्रतिमान सफलतापूर्वक स्थापित किया है
  2. क्रॉस-डोमेन इंटरफेस स्थानांतरण जेनरेशन प्रदर्शन में काफी सुधार करता है, सामान्य अंतःक्रिया मोटिफ्स के अस्तित्व को सत्यापित करता है
  3. कई बेंचमार्क परीक्षणों में महत्वपूर्ण प्रदर्शन सुधार प्राप्त किया गया है

सीमाएं

  1. प्रदर्शन रिट्रीवल गुणवत्ता पर निर्भर: पुनः प्राप्त परिणामों की प्रासंगिकता सीधे जेनरेशन प्रभाव को प्रभावित करती है
  2. संरचनात्मक वर्णनकर्ता सीमित: वर्तमान समानता माप जटिल संरचनात्मक संबंधों को पूरी तरह से पकड़ नहीं सकता है
  3. कम्प्यूटेशनल जटिलता: बड़े पैमाने पर इंटरफेस डेटाबेस को बनाए रखने और वास्तविक समय रिट्रीवल की आवश्यकता है

भविष्य की दिशाएं

  1. संरचनात्मक वर्णनकर्ता और समानता माप में सुधार
  2. अधिक मजबूत संरचना-जागरूक सशर्त एकीकरण रणनीति की खोज
  3. अधिक आणविक प्रकार और अंतःक्रिया पैटर्न तक विस्तार

गहन मूल्यांकन

शक्तियां

  1. मजबूत नवाचार: प्रोटीन बाइंडर डिजाइन में RAG प्रतिमान को पहली बार पेश करना, तकनीकी मार्ग नवीन है
  2. व्यापक प्रयोग: बहु-डेटासेट, बहु-मेट्रिक्स व्यापक मूल्यांकन, विस्तृत विलोपन प्रयोग शामिल हैं
  3. क्रॉस-डोमेन सामान्यीकरण: विभिन्न बाइंडर प्रकारों के बीच ज्ञान स्थानांतरण की व्यवहार्यता को सत्यापित करता है
  4. उच्च व्यावहारिक मूल्य: HIV-1 CD4 रिसेप्टर एंटीबॉडी डिजाइन आदि वास्तविक अनुप्रयोगों में संभावना प्रदर्शित करता है

कमियां

  1. अपर्याप्त सैद्धांतिक विश्लेषण: क्रॉस-डोमेन समानता माप प्रभावशीलता के सैद्धांतिक व्याख्या की कमी है
  2. कम्प्यूटेशनल दक्षता: बड़े पैमाने पर रिट्रीवल की कम्प्यूटेशनल ओवरहेड और भंडारण आवश्यकताओं का विश्लेषण पर्याप्त नहीं है
  3. जैविक सत्यापन अनुपस्थित: उत्पन्न बाइंडर्स की वास्तविक कार्यात्मकता के प्रयोगशाला सत्यापन की कमी है

प्रभाव

  1. शैक्षणिक योगदान: कम्प्यूटेशनल संरचनात्मक जीव विज्ञान के लिए नई पद्धति संरचना प्रदान करता है
  2. व्यावहारिक मूल्य: दवा खोज और प्रोटीन इंजीनियरिंग अनुप्रयोगों को तेजी से बढ़ाने की संभावना है
  3. पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और कोड प्रदान करता है, पुनरुत्पादन और विस्तार को सुविधाजनक बनाता है

लागू परिदृश्य

  • नई दवा खोज में अग्रणी यौगिक डिजाइन
  • एंटीबॉडी दवाओं का कम्प्यूटेशनल सहायक डिजाइन
  • प्रोटीन अंतःक्रिया अनुसंधान
  • संश्लेषण जीव विज्ञान में प्रोटीन इंजीनियरिंग

संदर्भ

पेपर 54 संबंधित संदर्भों का हवाला देता है, जिसमें प्रोटीन डिजाइन, गहन जनरेटिव मॉडल, रिट्रीवल ऑगमेंटेड जेनरेशन आदि कई क्षेत्रों के महत्वपूर्ण कार्य शामिल हैं, जो अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करते हैं।