2025-11-16T00:34:12.699199

Latent Retrieval Augmented Generation of Cross-Domain Protein Binders

Zhang, Kong, Huang et al.

Designing protein binders targeting specific sites, which requires to generate realistic and functional interaction patterns, is a fundamental challenge in drug discovery. Current structure-based generative models are limited in generating nterfaces with sufficient rationality and interpretability. In this paper, we propose Retrieval-Augmented Diffusion for Aligned interface (RADiAnce), a new framework that leverages known interfaces to guide the design of novel binders. By unifying retrieval and generation in a shared contrastive latent space, our model efficiently identifies relevant interfaces for a given binding site and seamlessly integrates them through a conditional latent diffusion generator, enabling cross-domain interface transfer. Extensive exeriments show that RADiAnce significantly outperforms baseline models across multiple metrics, including binding affinity and recovery of geometries and interactions. Additional experimental results validate cross-domain generalization, demonstrating that retrieving interfaces from diverse domains, such as peptides, antibodies, and protein fragments, enhances the generation performance of binders for other domains. Our work establishes a new paradigm for protein binder design that successfully bridges retrieval-based knowledge and generative AI, opening new possibilities for drug discovery.

academic

Latent Retrieval Augmented Generation of Cross-Domain Protein Binders

基本信息

论文ID: 2510.10480
标题: Latent Retrieval Augmented Generation of Cross-Domain Protein Binders
作者: Zishen Zhang, Xiangzhe Kong, Wenbing Huang, Yang Liu
分类: cs.LG cs.AI
发表时间/会议: Preprint. Under review (2024年10月)
论文链接: https://arxiv.org/abs/2510.10480

蛋白质结合子设计挑战：设计能够靶向特定蛋白质位点的结合子，要求生成现实且功能性的分子界面相互作用模式
现有方法的局限性：当前结构生成模型缺乏合理性和可解释性，无法有效利用已知结构信息

重要性

在药物发现、结构生物学等领域具有广泛应用价值
传统方法依赖物理或统计能量景观采样优化，效率较低
深度生成模型虽有进展，但仍难以生成合理的分子界面

现有方法局限

忽略先验知识：大多数方法仅基于目标结合位点进行生成，忽略了现有蛋白质复合物中丰富的可重用相互作用模式
缺乏跨域泛化：无法有效利用不同类型结合子（如肽段、抗体、蛋白质片段）之间的共同相互作用基序
可解释性不足：生成过程缺乏明确的生物学指导原则

核心贡献

提出RADiAnce框架：首个将检索增强生成应用于蛋白质结合子序列-结构协同设计的方法
构建对比潜在空间：设计了统一检索和生成的共享潜在表示，支持跨域界面相似性度量
实现跨域界面转移：验证了从不同结合子类型检索界面能够提升其他域结合子的生成性能
显著性能提升：在多个评价指标上显著优于基线方法，包括结合亲和力、几何形状和相互作用恢复

方法详解

任务定义

输入：目标蛋白质的结合位点Y（10Å距离内的残基）
输出：能够与该位点特异性结合的分子结合子X
目标：建模条件分布 p_θ(X | Y, T(Y|D))，其中T(Y|D)为从数据库D检索的相关界面

模型架构

1. 对比变分自编码器（Contrastive VAE）

编码器：Zx = Eφ(X), Zy = Eφ(Y)
解码器：X̂ = Dξ(Zx, Zy, Y)

关键设计：

将结合位点Y和结合子X独立编码为潜在点云
潜在变量包含标量嵌入zi和3D坐标z⃗i
通过对比学习对齐正样本对，排斥负样本对

损失函数：

L(D) = Σ(Lrec + LKL + Lretrieval)

其中：

Lrec：重构损失（交叉熵+MSE）
LKL：KL散度正则化
Lretrieval：双向对比损失

2. 检索增强潜在扩散

前向过程：

q(u⃗ti | u⃗t-1i) = N(u⃗ti; √(1-βt)·u⃗t-1i, βtI)

反向过程：

pθ(u⃗t-1i | Ztx, Zy, Tv) = N(u⃗t-1i; μ⃗θ(Ztx, Zy, Tv), βtI)

模板集成机制：

使用E(3)等变Transformer作为去噪核心
通过交叉注意力机制整合检索模板信息
查询-键-值计算：Q = HWQ, K = TWK, V = TWV

技术创新点

统一潜在空间：首次在同一潜在空间中实现检索和生成的统一，确保检索结果能够直接指导生成过程
跨域相似性度量：通过对比学习学习到的潜在表示能够捕获不同类型结合子间的共同相互作用基序
条件扩散集成：创新性地将检索到的界面嵌入通过交叉注意力和残差MLP集成到扩散过程中

实验设置

数据集

肽段设计：PepBench数据集
- 训练：4,157个复合物
- 验证：114个复合物
- 测试：93个LNR基准测试案例
抗体设计：SAbDab数据集
- 训练：9,473个条目
- 验证：400个条目
- 测试：60个RAbD基准测试案例
蛋白质片段：ProtFrag数据集
- 70,498个单体衍生蛋白质片段

评价指标

AAR（氨基酸恢复率）：生成序列与参考序列的匹配比例
RMSD：Cα坐标的均方根偏差
ISM（相互作用位点匹配）：关键物理化学相互作用的恢复程度
∆∆G：结合自由能变化
IMP：生成结合子优于天然配体的目标比例

对比方法

肽段设计：RFDiffusion, PepFlow, PepGLAD, UniMoMo
抗体设计：MEAN, DyMEAN, DiffAb, GeoAB, UniMoMo

模型	AAR (%)	RMSD (Å)	∆∆G (kJ/mol)	IMP (%)	ISM (%)
RFDiffusion	34.68	4.69	24.78	5.38	28.38
PepFlow	35.47	2.87	15.71	14.13	27.83
PepGLAD	38.62	2.74	15.26	16.13	32.63
UniMoMo	38.69	2.31	2.409	40.86	49.13
RADiAnce	39.42	2.29	1.963	41.94	52.15