2025-11-16T00:34:12.699199

Latent Retrieval Augmented Generation of Cross-Domain Protein Binders

Zhang, Kong, Huang et al.
Designing protein binders targeting specific sites, which requires to generate realistic and functional interaction patterns, is a fundamental challenge in drug discovery. Current structure-based generative models are limited in generating nterfaces with sufficient rationality and interpretability. In this paper, we propose Retrieval-Augmented Diffusion for Aligned interface (RADiAnce), a new framework that leverages known interfaces to guide the design of novel binders. By unifying retrieval and generation in a shared contrastive latent space, our model efficiently identifies relevant interfaces for a given binding site and seamlessly integrates them through a conditional latent diffusion generator, enabling cross-domain interface transfer. Extensive exeriments show that RADiAnce significantly outperforms baseline models across multiple metrics, including binding affinity and recovery of geometries and interactions. Additional experimental results validate cross-domain generalization, demonstrating that retrieving interfaces from diverse domains, such as peptides, antibodies, and protein fragments, enhances the generation performance of binders for other domains. Our work establishes a new paradigm for protein binder design that successfully bridges retrieval-based knowledge and generative AI, opening new possibilities for drug discovery.
academic

Latent Retrieval Augmented Generation of Cross-Domain Protein Binders

基本信息

  • 论文ID: 2510.10480
  • 标题: Latent Retrieval Augmented Generation of Cross-Domain Protein Binders
  • 作者: Zishen Zhang, Xiangzhe Kong, Wenbing Huang, Yang Liu
  • 分类: cs.LG cs.AI
  • 发表时间/会议: Preprint. Under review (2024年10月)
  • 论文链接: https://arxiv.org/abs/2510.10480

摘要

设计针对特定位点的蛋白质结合子是药物发现中的基本挑战,需要生成现实且功能性的相互作用模式。当前基于结构的生成模型在生成具有足够合理性和可解释性的界面方面存在局限性。本文提出了检索增强扩散对齐界面框架(RADiAnce),通过利用已知界面来指导新型结合子的设计。通过在共享对比潜在空间中统一检索和生成,该模型能够高效识别给定结合位点的相关界面,并通过条件潜在扩散生成器无缝集成,实现跨域界面转移。

研究背景与动机

核心问题

  1. 蛋白质结合子设计挑战:设计能够靶向特定蛋白质位点的结合子,要求生成现实且功能性的分子界面相互作用模式
  2. 现有方法的局限性:当前结构生成模型缺乏合理性和可解释性,无法有效利用已知结构信息

重要性

  • 在药物发现、结构生物学等领域具有广泛应用价值
  • 传统方法依赖物理或统计能量景观采样优化,效率较低
  • 深度生成模型虽有进展,但仍难以生成合理的分子界面

现有方法局限

  1. 忽略先验知识:大多数方法仅基于目标结合位点进行生成,忽略了现有蛋白质复合物中丰富的可重用相互作用模式
  2. 缺乏跨域泛化:无法有效利用不同类型结合子(如肽段、抗体、蛋白质片段)之间的共同相互作用基序
  3. 可解释性不足:生成过程缺乏明确的生物学指导原则

核心贡献

  1. 提出RADiAnce框架:首个将检索增强生成应用于蛋白质结合子序列-结构协同设计的方法
  2. 构建对比潜在空间:设计了统一检索和生成的共享潜在表示,支持跨域界面相似性度量
  3. 实现跨域界面转移:验证了从不同结合子类型检索界面能够提升其他域结合子的生成性能
  4. 显著性能提升:在多个评价指标上显著优于基线方法,包括结合亲和力、几何形状和相互作用恢复

方法详解

任务定义

  • 输入:目标蛋白质的结合位点Y(10Å距离内的残基)
  • 输出:能够与该位点特异性结合的分子结合子X
  • 目标:建模条件分布 p_θ(X | Y, T(Y|D)),其中T(Y|D)为从数据库D检索的相关界面

模型架构

1. 对比变分自编码器(Contrastive VAE)

编码器:Zx = Eφ(X), Zy = Eφ(Y)
解码器:X̂ = Dξ(Zx, Zy, Y)

关键设计

  • 将结合位点Y和结合子X独立编码为潜在点云
  • 潜在变量包含标量嵌入zi和3D坐标z⃗i
  • 通过对比学习对齐正样本对,排斥负样本对

损失函数

L(D) = Σ(Lrec + LKL + Lretrieval)

其中:

  • Lrec:重构损失(交叉熵+MSE)
  • LKL:KL散度正则化
  • Lretrieval:双向对比损失

2. 检索增强潜在扩散

前向过程

q(u⃗ti | u⃗t-1i) = N(u⃗ti; √(1-βt)·u⃗t-1i, βtI)

反向过程

pθ(u⃗t-1i | Ztx, Zy, Tv) = N(u⃗t-1i; μ⃗θ(Ztx, Zy, Tv), βtI)

模板集成机制

  • 使用E(3)等变Transformer作为去噪核心
  • 通过交叉注意力机制整合检索模板信息
  • 查询-键-值计算:Q = HWQ, K = TWK, V = TWV

技术创新点

  1. 统一潜在空间:首次在同一潜在空间中实现检索和生成的统一,确保检索结果能够直接指导生成过程
  2. 跨域相似性度量:通过对比学习学习到的潜在表示能够捕获不同类型结合子间的共同相互作用基序
  3. 条件扩散集成:创新性地将检索到的界面嵌入通过交叉注意力和残差MLP集成到扩散过程中

实验设置

数据集

  1. 肽段设计:PepBench数据集
    • 训练:4,157个复合物
    • 验证:114个复合物
    • 测试:93个LNR基准测试案例
  2. 抗体设计:SAbDab数据集
    • 训练:9,473个条目
    • 验证:400个条目
    • 测试:60个RAbD基准测试案例
  3. 蛋白质片段:ProtFrag数据集
    • 70,498个单体衍生蛋白质片段

评价指标

  • AAR(氨基酸恢复率):生成序列与参考序列的匹配比例
  • RMSD:Cα坐标的均方根偏差
  • ISM(相互作用位点匹配):关键物理化学相互作用的恢复程度
  • ∆∆G:结合自由能变化
  • IMP:生成结合子优于天然配体的目标比例

对比方法

  • 肽段设计:RFDiffusion, PepFlow, PepGLAD, UniMoMo
  • 抗体设计:MEAN, DyMEAN, DiffAb, GeoAB, UniMoMo

实验结果

主要结果

肽段序列-结构协同设计

模型AAR (%)RMSD (Å)∆∆G (kJ/mol)IMP (%)ISM (%)
RFDiffusion34.684.6924.785.3828.38
PepFlow35.472.8715.7114.1327.83
PepGLAD38.622.7415.2616.1332.63
UniMoMo38.692.312.40940.8649.13
RADiAnce39.422.291.96341.9452.15

抗体CDR设计

RADiAnce在所有CDR区域(H1, H2, H3, L1, L2, L3)均显著优于基线方法:

  • H1区域:AAR提升至90.83%,∆∆G改善至-8.221 kJ/mol
  • H3区域(最具挑战性):AAR达到54.66%,显著优于其他方法

检索可靠性验证

模型配置ITO(%)RC-0.1%RC-0.5%RC-5%
抗体CVAE(完整)43.9366.6796.67100.0
肽段CVAE(完整)61.4111.5822.5867.74

消融实验

  1. 跨域训练效果:包含多域数据显著提升检索和生成性能
  2. 联合训练必要性:同时优化VAE和对比损失至关重要
  3. 检索数量影响:适量检索(10-20个样本)效果最佳

案例分析

以GPIIb/IIIa复合物(PDB ID: 3NID)为例:

  • 无检索指导:难以重构特征性多氢键相互作用
  • 检索增强:成功继承关键相互作用基序,恢复精氨酸和酪氨酸介导的氢键模式

相关工作

肽段设计

  • 从经典能量采样转向深度生成建模
  • PepFlow/PPFlow采用多模态流匹配
  • PepGLAD应用几何潜在扩散

抗体设计

  • 从传统物理采样到深度学习框架
  • DiffAb等引入抗原条件生成
  • 语言模型方法如PALM-H3获得关注

检索增强生成

  • 最初应用于NLP任务
  • 分子设计中的f-RAG、IRDiff等方法
  • 本文首次应用于蛋白质结合子协同设计

结论与讨论

主要结论

  1. RADiAnce成功建立了检索增强蛋白质结合子设计的新范式
  2. 跨域界面转移显著提升生成性能,验证了共同相互作用基序的存在
  3. 在多个基准测试中取得显著性能提升

局限性

  1. 性能依赖检索质量:检索结果的相关性直接影响生成效果
  2. 结构描述符有限:当前相似性度量可能无法完全捕获复杂的结构关系
  3. 计算复杂度:需要维护大规模界面数据库并进行实时检索

未来方向

  1. 改进结构描述符和相似性度量
  2. 探索更鲁棒的结构感知条件集成策略
  3. 扩展到更多分子类型和相互作用模式

深度评价

优点

  1. 创新性强:首次将RAG范式引入蛋白质结合子设计,技术路线新颖
  2. 实验充分:多数据集、多指标的全面评估,包含详细的消融实验
  3. 跨域泛化:验证了不同结合子类型间知识迁移的可行性
  4. 实用价值高:在HIV-1 CD4受体抗体设计等实际应用中展现潜力

不足

  1. 理论分析不足:缺乏对跨域相似性度量有效性的理论解释
  2. 计算效率:大规模检索的计算开销和存储需求分析不够详细
  3. 生物学验证缺失:缺乏实验室验证生成结合子的实际功能

影响力

  1. 学术贡献:为计算结构生物学提供了新的方法论框架
  2. 实用价值:有望加速药物发现和蛋白质工程应用
  3. 可复现性:提供了详细的实现细节和代码,便于复现和扩展

适用场景

  • 新药发现中的先导化合物设计
  • 抗体药物的计算辅助设计
  • 蛋白质相互作用研究
  • 合成生物学中的蛋白质工程

参考文献

论文引用了54篇相关文献,涵盖了蛋白质设计、深度生成模型、检索增强生成等多个领域的重要工作,为研究提供了坚实的理论基础。