2025-11-16T00:34:12.699199

Latent Retrieval Augmented Generation of Cross-Domain Protein Binders

Zhang, Kong, Huang et al.
Designing protein binders targeting specific sites, which requires to generate realistic and functional interaction patterns, is a fundamental challenge in drug discovery. Current structure-based generative models are limited in generating nterfaces with sufficient rationality and interpretability. In this paper, we propose Retrieval-Augmented Diffusion for Aligned interface (RADiAnce), a new framework that leverages known interfaces to guide the design of novel binders. By unifying retrieval and generation in a shared contrastive latent space, our model efficiently identifies relevant interfaces for a given binding site and seamlessly integrates them through a conditional latent diffusion generator, enabling cross-domain interface transfer. Extensive exeriments show that RADiAnce significantly outperforms baseline models across multiple metrics, including binding affinity and recovery of geometries and interactions. Additional experimental results validate cross-domain generalization, demonstrating that retrieving interfaces from diverse domains, such as peptides, antibodies, and protein fragments, enhances the generation performance of binders for other domains. Our work establishes a new paradigm for protein binder design that successfully bridges retrieval-based knowledge and generative AI, opening new possibilities for drug discovery.
academic

クロスドメイン蛋白質バインダーの潜在検索増強生成

基本情報

  • 論文ID: 2510.10480
  • タイトル: Latent Retrieval Augmented Generation of Cross-Domain Protein Binders
  • 著者: Zishen Zhang, Xiangzhe Kong, Wenbing Huang, Yang Liu
  • 分類: cs.LG cs.AI
  • 発表時期/会議: プレプリント。査読中(2024年10月)
  • 論文リンク: https://arxiv.org/abs/2510.10480

要約

特定部位を標的とする蛋白質バインダーの設計は、医薬品発見における基本的な課題であり、現実的で機能的な相互作用パターンの生成が必要とされています。現在の構造ベースの生成モデルは、十分な妥当性と解釈可能性を備えたインターフェースの生成に限界があります。本論文では、既知のインターフェースを活用して新規バインダーの設計を指導する検索増強拡散アライメントインターフェースフレームワーク(RADiAnce)を提案します。共有対比潜在空間における検索と生成の統一を通じて、本モデルは与えられたバインディングサイトに対する関連インターフェースを効率的に識別し、条件付き潜在拡散生成器を通じてシームレスに統合することで、クロスドメインインターフェース転移を実現します。

研究背景と動機

核心的課題

  1. 蛋白質バインダー設計の課題:特定の蛋白質部位を標的とするバインダーの設計には、現実的で機能的な分子インターフェース相互作用パターンの生成が必要
  2. 既存方法の限界:現在の構造生成モデルは妥当性と解釈可能性に欠け、既知の構造情報を効果的に活用できない

重要性

  • 医薬品発見、構造生物学などの分野における広範な応用価値
  • 従来の方法は物理的または統計的エネルギーランドスケープサンプリング最適化に依存し、効率が低い
  • 深層生成モデルは進展しているものの、依然として合理的な分子インターフェースの生成が困難

既存方法の限界

  1. 先験知識の無視:ほとんどの方法は標的バインディングサイトのみに基づいて生成を行い、既存蛋白質複合体に含まれる豊富な再利用可能な相互作用パターンを無視している
  2. クロスドメイン汎化の欠如:ペプチド、抗体、蛋白質フラグメントなど異なるタイプのバインダー間の共通相互作用モチーフを効果的に活用できない
  3. 解釈可能性の不足:生成プロセスに明確な生物学的指導原則が欠けている

核心的貢献

  1. RADiAnceフレームワークの提案:蛋白質バインダーの配列-構造協調設計に検索増強生成を適用した初の方法
  2. 対比潜在空間の構築:検索と生成を統一する共有潜在表現を設計し、クロスドメインインターフェース類似性の測定をサポート
  3. クロスドメインインターフェース転移の実現:異なるバインダータイプからの検索インターフェースが他のドメインのバインダー生成性能を向上させることを検証
  4. 顕著な性能向上:複数の評価指標において基線方法を大幅に上回る、結合親和性、幾何学的形状および相互作用回復を含む

方法の詳細説明

タスク定義

  • 入力:標的蛋白質のバインディングサイトY(10Å距離内の残基)
  • 出力:当該サイトと特異的に結合できる分子バインダーX
  • 目標:条件付き分布 p_θ(X | Y, T(Y|D)) をモデル化、ここでT(Y|D)はデータベースDから検索された関連インターフェース

モデルアーキテクチャ

1. 対比変分自己符号化器(Contrastive VAE)

エンコーダ:Zx = Eφ(X), Zy = Eφ(Y)
デコーダ:X̂ = Dξ(Zx, Zy, Y)

主要設計

  • バインディングサイトYとバインダーXを独立して潜在点群にエンコード
  • 潜在変数はスカラー埋め込みziと3D座標z⃗iを含む
  • 対比学習を通じて正のサンプルペアをアライン、負のサンプルペアを排斥

損失関数

L(D) = Σ(Lrec + LKL + Lretrieval)

ここで:

  • Lrec:再構成損失(交差エントロピー+MSE)
  • LKL:KL発散正則化
  • Lretrieval:双方向対比損失

2. 検索増強潜在拡散

前向きプロセス

q(u⃗ti | u⃗t-1i) = N(u⃗ti; √(1-βt)·u⃗t-1i, βtI)

逆向きプロセス

pθ(u⃗t-1i | Ztx, Zy, Tv) = N(u⃗t-1i; μ⃗θ(Ztx, Zy, Tv), βtI)

テンプレート統合メカニズム

  • E(3)等変Transformerをデノイジングコアとして使用
  • クロスアテンション機構を通じて検索テンプレート情報を統合
  • クエリ-キー-値計算:Q = HWQ, K = TWK, V = TWV

技術的革新点

  1. 統一潜在空間:同一潜在空間における検索と生成の統一を初めて実現、検索結果が生成プロセスを直接指導することを保証
  2. クロスドメイン類似性測定:対比学習を通じて学習された潜在表現は、異なるタイプのバインダー間の共通相互作用モチーフをキャプチャ可能
  3. 条件付き拡散統合:検索されたインターフェース埋め込みをクロスアテンションと残差MLPを通じて拡散プロセスに統合する革新的な方法

実験設定

データセット

  1. ペプチド設計:PepBenchデータセット
    • 訓練:4,157個の複合体
    • 検証:114個の複合体
    • テスト:93個のLNRベンチマークケース
  2. 抗体設計:SAbDabデータセット
    • 訓練:9,473個のエントリ
    • 検証:400個のエントリ
    • テスト:60個のRAbDベンチマークケース
  3. 蛋白質フラグメント:ProtFragデータセット
    • 70,498個のモノマー由来蛋白質フラグメント

評価指標

  • AAR(アミノ酸回復率):生成配列と参照配列のマッチング比率
  • RMSD:Cα座標の二乗平均平方根偏差
  • ISM(相互作用サイトマッチング):主要な物理化学相互作用の回復程度
  • ∆∆G:結合自由エネルギー変化
  • IMP:生成バインダーが天然リガンドを上回る標的の比率

比較方法

  • ペプチド設計:RFDiffusion、PepFlow、PepGLAD、UniMoMo
  • 抗体設計:MEAN、DyMEAN、DiffAb、GeoAB、UniMoMo

実験結果

主要結果

ペプチド配列-構造協調設計

モデルAAR (%)RMSD (Å)∆∆G (kJ/mol)IMP (%)ISM (%)
RFDiffusion34.684.6924.785.3828.38
PepFlow35.472.8715.7114.1327.83
PepGLAD38.622.7415.2616.1332.63
UniMoMo38.692.312.40940.8649.13
RADiAnce39.422.291.96341.9452.15

抗体CDR設計

RADiAnceはすべてのCDR領域(H1、H2、H3、L1、L2、L3)において基線方法を大幅に上回る:

  • H1領域:AARは90.83%に向上、∆∆Gは-8.221 kJ/molに改善
  • H3領域(最も困難):AARは54.66%に達し、他の方法を大幅に上回る

検索信頼性の検証

モデル構成ITO(%)RC-0.1%RC-0.5%RC-5%
抗体CVAE(完全)43.9366.6796.67100.0
ペプチドCVAE(完全)61.4111.5822.5867.74

アブレーション実験

  1. クロスドメイン訓練効果:複数ドメインデータを含めることで検索と生成性能が大幅に向上
  2. 共同訓練の必要性:VAEと対比損失の同時最適化が重要
  3. 検索数の影響:適切な検索数(10~20サンプル)で最適な効果

ケース分析

GPIIb/IIIa複合体(PDB ID: 3NID)の例:

  • 検索指導なし:特性的な多水素結合相互作用の再構成が困難
  • 検索増強:主要な相互作用モチーフを成功裏に継承、アルギニンとチロシン仲介の水素結合パターンを回復

関連研究

ペプチド設計

  • 古典的エネルギーサンプリングから深層生成モデリングへの転換
  • PepFlow/PPFlowは多モーダルフロー整合を採用
  • PepGLADは幾何潜在拡散を適用

抗体設計

  • 従来の物理サンプリングから深層学習フレームワークへ
  • DiffAbなどは抗原条件付き生成を導入
  • PALM-H3などの言語モデルアプローチが注目を集める

検索増強生成

  • 最初はNLPタスクに適用
  • 分子設計におけるf-RAG、IRDiffなどの方法
  • 本論文は蛋白質バインダー協調設計への初の適用

結論と考察

主要な結論

  1. RADiAnceは蛋白質バインダー設計における検索増強の新しいパラダイムを確立
  2. クロスドメインインターフェース転移は生成性能を大幅に向上させ、共通相互作用モチーフの存在を検証
  3. 複数のベンチマークテストで顕著な性能向上を達成

限界

  1. 検索品質への性能依存:検索結果の関連性が生成効果に直接影響
  2. 構造記述子の限定:現在の類似性測定は複雑な構造関係を完全にキャプチャできない可能性
  3. 計算複雑性:大規模インターフェースデータベースの維持と実時間検索が必要

今後の方向性

  1. 構造記述子と類似性測定の改善
  2. より堅牢な構造認識条件統合戦略の探索
  3. より多くの分子タイプと相互作用パターンへの拡張

深層評価

利点

  1. 革新性が高い:RAGパラダイムを蛋白質バインダー設計に初めて導入、技術ルートが新規
  2. 実験が充分:複数データセット、複数指標による包括的評価、詳細なアブレーション実験を含む
  3. クロスドメイン汎化:異なるバインダータイプ間の知識転移の実現可能性を検証
  4. 実用価値が高い:HIV-1 CD4受容体抗体設計などの実際の応用で潜在力を示す

不足点

  1. 理論分析の不足:クロスドメイン類似性測定の有効性に関する理論的説明が不足
  2. 計算効率:大規模検索の計算オーバーヘッドとストレージ要件の分析が不十分
  3. 生物学的検証の欠如:生成バインダーの実際の機能に関する実験室検証が不足

影響力

  1. 学術的貢献:計算構造生物学に新しい方法論フレームワークを提供
  2. 実用価値:医薬品発見と蛋白質工学応用の加速に期待
  3. 再現性:詳細な実装詳細とコードを提供し、再現と拡張を容易に

適用シーン

  • 新薬発見における先導化合物の設計
  • 抗体医薬の計算支援設計
  • 蛋白質相互作用研究
  • 合成生物学における蛋白質工学

参考文献

本論文は蛋白質設計、深層生成モデル、検索増強生成など複数分野の重要な研究を含む54篇の関連文献を引用し、研究に堅実な理論的基礎を提供しています。