2025-11-16T00:34:12.699199

Latent Retrieval Augmented Generation of Cross-Domain Protein Binders

Zhang, Kong, Huang et al.

Designing protein binders targeting specific sites, which requires to generate realistic and functional interaction patterns, is a fundamental challenge in drug discovery. Current structure-based generative models are limited in generating nterfaces with sufficient rationality and interpretability. In this paper, we propose Retrieval-Augmented Diffusion for Aligned interface (RADiAnce), a new framework that leverages known interfaces to guide the design of novel binders. By unifying retrieval and generation in a shared contrastive latent space, our model efficiently identifies relevant interfaces for a given binding site and seamlessly integrates them through a conditional latent diffusion generator, enabling cross-domain interface transfer. Extensive exeriments show that RADiAnce significantly outperforms baseline models across multiple metrics, including binding affinity and recovery of geometries and interactions. Additional experimental results validate cross-domain generalization, demonstrating that retrieving interfaces from diverse domains, such as peptides, antibodies, and protein fragments, enhances the generation performance of binders for other domains. Our work establishes a new paradigm for protein binder design that successfully bridges retrieval-based knowledge and generative AI, opening new possibilities for drug discovery.

academic

クロスドメイン蛋白質バインダーの潜在検索増強生成

基本情報

論文ID: 2510.10480
タイトル: Latent Retrieval Augmented Generation of Cross-Domain Protein Binders
著者: Zishen Zhang, Xiangzhe Kong, Wenbing Huang, Yang Liu
分類: cs.LG cs.AI
発表時期/会議: プレプリント。査読中（2024年10月）
論文リンク: https://arxiv.org/abs/2510.10480

要約

特定部位を標的とする蛋白質バインダーの設計は、医薬品発見における基本的な課題であり、現実的で機能的な相互作用パターンの生成が必要とされています。現在の構造ベースの生成モデルは、十分な妥当性と解釈可能性を備えたインターフェースの生成に限界があります。本論文では、既知のインターフェースを活用して新規バインダーの設計を指導する検索増強拡散アライメントインターフェースフレームワーク（RADiAnce）を提案します。共有対比潜在空間における検索と生成の統一を通じて、本モデルは与えられたバインディングサイトに対する関連インターフェースを効率的に識別し、条件付き潜在拡散生成器を通じてシームレスに統合することで、クロスドメインインターフェース転移を実現します。

研究背景と動機

核心的課題

蛋白質バインダー設計の課題：特定の蛋白質部位を標的とするバインダーの設計には、現実的で機能的な分子インターフェース相互作用パターンの生成が必要
既存方法の限界：現在の構造生成モデルは妥当性と解釈可能性に欠け、既知の構造情報を効果的に活用できない

重要性

医薬品発見、構造生物学などの分野における広範な応用価値
従来の方法は物理的または統計的エネルギーランドスケープサンプリング最適化に依存し、効率が低い
深層生成モデルは進展しているものの、依然として合理的な分子インターフェースの生成が困難

既存方法の限界

先験知識の無視：ほとんどの方法は標的バインディングサイトのみに基づいて生成を行い、既存蛋白質複合体に含まれる豊富な再利用可能な相互作用パターンを無視している
クロスドメイン汎化の欠如：ペプチド、抗体、蛋白質フラグメントなど異なるタイプのバインダー間の共通相互作用モチーフを効果的に活用できない
解釈可能性の不足：生成プロセスに明確な生物学的指導原則が欠けている

核心的貢献

RADiAnceフレームワークの提案：蛋白質バインダーの配列-構造協調設計に検索増強生成を適用した初の方法
対比潜在空間の構築：検索と生成を統一する共有潜在表現を設計し、クロスドメインインターフェース類似性の測定をサポート
クロスドメインインターフェース転移の実現：異なるバインダータイプからの検索インターフェースが他のドメインのバインダー生成性能を向上させることを検証
顕著な性能向上：複数の評価指標において基線方法を大幅に上回る、結合親和性、幾何学的形状および相互作用回復を含む

方法の詳細説明

タスク定義

入力：標的蛋白質のバインディングサイトY（10Å距離内の残基）
出力：当該サイトと特異的に結合できる分子バインダーX
目標：条件付き分布 p_θ(X | Y, T(Y|D)) をモデル化、ここでT(Y|D)はデータベースDから検索された関連インターフェース

モデルアーキテクチャ

1. 対比変分自己符号化器（Contrastive VAE）

エンコーダ：Zx = Eφ(X), Zy = Eφ(Y)
デコーダ：X̂ = Dξ(Zx, Zy, Y)

主要設計：

バインディングサイトYとバインダーXを独立して潜在点群にエンコード
潜在変数はスカラー埋め込みziと3D座標z⃗iを含む
対比学習を通じて正のサンプルペアをアライン、負のサンプルペアを排斥

損失関数：

L(D) = Σ(Lrec + LKL + Lretrieval)

ここで：

Lrec：再構成損失（交差エントロピー+MSE）
LKL：KL発散正則化
Lretrieval：双方向対比損失

2. 検索増強潜在拡散

前向きプロセス：

q(u⃗ti | u⃗t-1i) = N(u⃗ti; √(1-βt)·u⃗t-1i, βtI)

逆向きプロセス：

pθ(u⃗t-1i | Ztx, Zy, Tv) = N(u⃗t-1i; μ⃗θ(Ztx, Zy, Tv), βtI)

テンプレート統合メカニズム：

E(3)等変Transformerをデノイジングコアとして使用
クロスアテンション機構を通じて検索テンプレート情報を統合
クエリ-キー-値計算：Q = HWQ, K = TWK, V = TWV

技術的革新点

統一潜在空間：同一潜在空間における検索と生成の統一を初めて実現、検索結果が生成プロセスを直接指導することを保証
クロスドメイン類似性測定：対比学習を通じて学習された潜在表現は、異なるタイプのバインダー間の共通相互作用モチーフをキャプチャ可能
条件付き拡散統合：検索されたインターフェース埋め込みをクロスアテンションと残差MLPを通じて拡散プロセスに統合する革新的な方法

実験設定

データセット

ペプチド設計：PepBenchデータセット
- 訓練：4,157個の複合体
- 検証：114個の複合体
- テスト：93個のLNRベンチマークケース
抗体設計：SAbDabデータセット
- 訓練：9,473個のエントリ
- 検証：400個のエントリ
- テスト：60個のRAbDベンチマークケース
蛋白質フラグメント：ProtFragデータセット
- 70,498個のモノマー由来蛋白質フラグメント

評価指標

AAR（アミノ酸回復率）：生成配列と参照配列のマッチング比率
RMSD：Cα座標の二乗平均平方根偏差
ISM（相互作用サイトマッチング）：主要な物理化学相互作用の回復程度
∆∆G：結合自由エネルギー変化
IMP：生成バインダーが天然リガンドを上回る標的の比率

比較方法

ペプチド設計：RFDiffusion、PepFlow、PepGLAD、UniMoMo
抗体設計：MEAN、DyMEAN、DiffAb、GeoAB、UniMoMo

モデル	AAR (%)	RMSD (Å)	∆∆G (kJ/mol)	IMP (%)	ISM (%)
RFDiffusion	34.68	4.69	24.78	5.38	28.38
PepFlow	35.47	2.87	15.71	14.13	27.83
PepGLAD	38.62	2.74	15.26	16.13	32.63
UniMoMo	38.69	2.31	2.409	40.86	49.13
RADiAnce	39.42	2.29	1.963	41.94	52.15