Latent Retrieval Augmented Generation of Cross-Domain Protein Binders
Zhang, Kong, Huang et al.
Designing protein binders targeting specific sites, which requires to generate realistic and functional interaction patterns, is a fundamental challenge in drug discovery. Current structure-based generative models are limited in generating nterfaces with sufficient rationality and interpretability. In this paper, we propose Retrieval-Augmented Diffusion for Aligned interface (RADiAnce), a new framework that leverages known interfaces to guide the design of novel binders. By unifying retrieval and generation in a shared contrastive latent space, our model efficiently identifies relevant interfaces for a given binding site and seamlessly integrates them through a conditional latent diffusion generator, enabling cross-domain interface transfer. Extensive exeriments show that RADiAnce significantly outperforms baseline models across multiple metrics, including binding affinity and recovery of geometries and interactions. Additional experimental results validate cross-domain generalization, demonstrating that retrieving interfaces from diverse domains, such as peptides, antibodies, and protein fragments, enhances the generation performance of binders for other domains. Our work establishes a new paradigm for protein binder design that successfully bridges retrieval-based knowledge and generative AI, opening new possibilities for drug discovery.
academic
توليد البروتينات الرابطة عبر المجالات المحسّن بالاسترجاع الكامن
يعتبر تصميم البروتينات الرابطة الموجهة لمواقع محددة تحديًا أساسيًا في اكتشاف الأدوية، حيث يتطلب توليد أنماط تفاعل واقعية وفعالة. تواجه نماذج التوليد الحالية القائمة على البنية قيودًا في توليد واجهات ذات معقولية وقابلية تفسير كافية. تقترح هذه الورقة إطار عمل RADiAnce (Retrieval Augmented Diffusion Aligned Interface)، الذي يستفيد من الواجهات المعروفة لتوجيه تصميم الرابطات الجديدة. من خلال توحيد الاسترجاع والتوليد في فضاء كامن متناقض مشترك، يمكن للنموذج تحديد الواجهات ذات الصلة بكفاءة لموقع ربط معين، والتكامل السلس مع مولد الانتشار الكامن المشروط، مما يحقق نقل الواجهات عبر المجالات.
تجاهل المعرفة السابقة: تركز معظم الطرق على التوليد بناءً على موقع الربط المستهدف فقط، متجاهلة أنماط التفاعل القابلة لإعادة الاستخدام الغنية في المعقدات البروتينية الموجودة
نقص التعميم عبر المجالات: عدم القدرة على الاستفادة الفعالة من الوحدات التفاعلية المشتركة بين أنواع مختلفة من الرابطات (مثل الببتيدات والأجسام المضادة وأجزاء البروتين)
قابلية التفسير غير كافية: تفتقر عملية التوليد إلى مبادئ توجيهية بيولوجية واضحة
تستشهد الورقة بـ 54 مرجعًا ذا صلة، تغطي أعمالًا مهمة في تصميم البروتينات والنماذج التوليدية العميقة والتوليد المحسّن بالاسترجاع وغيرها، مما يوفر أساسًا نظريًا قويًا للبحث.