Antibodies are essential proteins responsible for immune responses in organisms, capable of specifically recognizing antigen molecules of pathogens. Recent advances in generative models have significantly enhanced rational antibody design. However, existing methods mainly create antibodies from scratch without template constraints, leading to model optimization challenges and unnatural sequences. To address these issues, we propose a retrieval-augmented diffusion framework, termed RADAb, for efficient antibody design. Our method leverages a set of structural homologous motifs that align with query structural constraints to guide the generative model in inversely optimizing antibodies according to desired design criteria. Specifically, we introduce a structure-informed retrieval mechanism that integrates these exemplar motifs with the input backbone through a novel dual-branch denoising module, utilizing both structural and evolutionary information. Additionally, we develop a conditional diffusion model that iteratively refines the optimization process by incorporating both global context and local evolutionary conditions. Our approach is agnostic to the choice of generative models. Empirical experiments demonstrate that our method achieves state-of-the-art performance in multiple antibody inverse folding and optimization tasks, offering a new perspective on biomolecular generative models.
- 論文ID: 2410.15040
- タイトル: Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization
- 著者: Zichen Wang, Yaokun Ji, Jianing Tian, Shuangjia Zheng
- 分類: cs.AI
- 発表会議: ICLR 2025
- 論文リンク: https://arxiv.org/abs/2410.15040
抗体は生体の免疫応答を担う重要なタンパク質であり、病原体の抗原分子を特異的に認識することができます。生成モデルの最近の進展により、合理的な抗体設計能力が大幅に向上しましたが、既存の手法は主にde novo抗体生成に焦点を当てており、テンプレート制約が不足しているため、モデル最適化が困難で非自然配列の問題が生じています。これらの問題を解決するため、本論文は効率的な抗体設計のための検索拡張拡散フレームワークRADAbを提案しています。本手法は、クエリ構造制約と整合した構造ホモログモチーフのセットを利用して、生成モデルが望ましい設計基準に従って抗体を逆向きに最適化するよう指導します。具体的には、構造情報検索メカニズムを導入し、新規の双分岐デノイジングモジュールを通じてこれらの例示モチーフを入力スケルトンと統合しながら、構造情報と進化情報を活用します。さらに、条件付き拡散モデルを開発し、グローバルコンテキストとローカル進化条件を組み合わせることで反復的な最適化プロセスを実現しています。本手法は生成モデルの選択に依存しない設計となっており、複数の抗体逆向き折り畳みおよび最適化タスクにおいて最先端の性能を達成することが実験により実証されています。
抗体設計の中核的な課題は、予め定義された生化学的特性を有する機能的な抗体配列をいかに生成するかです。従来の抗体開発は、動物免疫化やスクリーニング大規模抗体ライブラリなどの労働集約的な実験手法に依存しており、治療関連エピトープに対する抗体を効果的に産生することが困難です。
- データの稀少性:主にSAbDabデータベースに依存しており、1万未満の抗原-抗体複合体構造のみを含むため、高次相互作用情報を捕捉するモデル能力が制限されています
- de novo設計の困難性:既存手法はゼロから抗体配列を設計しようとしており、テンプレートベースの指導が不足しているため、大量のデータと広範な訓練が必要です
- 構造制約の欠如:現在の生成モデルは、構造制約を遵守しながら望ましい生物学的特性を有する抗体を設計することが困難です
本論文はテンプレートおよびフラグメントベースの抗体設計に着想を得て、以下を目指しています:
- テンプレート認識ローカルおよびグローバルタンパク質幾何情報を活用してモデル生成能力を強化する
- 過学習を防ぐためにモチーフ進化シグナルを統合する
- 実用的応用において最小限の訓練または微調整で機能する
- 検索拡張生成フレームワークの初提案:合理的な抗体設計のための初の検索拡張生成フレームワークを提案し、望ましいスケルトン構造と特性を満たす機能的CDRサンプルフラグメントのセットを用いて生成を指導します
- 新規検索メカニズム:構造情報検索メカニズムを導入し、双分岐デノイジングモジュールを通じて例示モチーフを入力スケルトンと統合し、構造情報と進化情報を活用します
- 顕著な性能向上:複数の抗体逆向き折り畳みタスクにおいて最先端手法を改善し、例えば長CDRH3逆向き折り畳みタスクではAARが8.08%向上し、機能最適化タスクでは平均絶対ΔΔGが7 cal/mol改善されています
抗体フレームワーク複合体Cab、抗原Cag、検索されたCDRサンプルフラグメントAが与えられたとき、目標はCDR領域R={sj∣j∈{a+1,...,a+m}}の配列分布を予測することです。ここでmはCDR長、aは開始位置です。
MASTER アルゴリズムを用いた構造検索:
- 入力:CDRスケルトン原子座標セットX={xk∣k∈{1,...,m}}
- 類似度測定:スケルトン原子の二乗平均平方根偏差(RMSD)
- 出力:構造的に類似したCDRサンプルフラグメントセットA={Ai∣i∈{1,...,k}}
グローバル幾何コンテキスト分岐:
- コンテキストエンコーダ:単一残基特徴ziおよび残基対特徴yijを抽出
- 進化エンコーダ:ESM2を使用して抗体配列の進化埋め込みetを抽出
- 構造情報ネットワーク:IPA層スタッキングを通じた処理、グローバル確率表現rglobalを出力
ローカルCDR焦点分岐:
- CDR焦点軸方向注意:疑似MSA行列Pを構築:
P=concat((Sab∪Rgt),E)
ここでEはCDRサンプル配列行列
- tied row attentionメカニズム:複数行注意スコアを同時に考慮し、構造類似性を活用
- 情報融合:スキップ接続を通じてrlocalとrglobalを融合
前向きプロセスノイズ追加:
q(sjt∣sjt−1)=Multinomial((1−βt)⋅onehot(sjt−1)+βt⋅201⋅1)
逆向きデノイジングプロセス:
p(sjt−1∣Rt,Cab,Cag,A)=Multinomial[F(Rt,Cab,Cag,et)+G(F(Rt,Cab,Cag,et),A)][j]
- 構造情報検索:MASTERアルゴリズムを利用してスケルトン構造に基づくCDRサンプルフラグメント検索を実施し、配列情報漏洩を回避
- 双分岐アーキテクチャ:グローバル分岐は抗原-抗体複合体コンテキストを捕捉し、ローカル分岐は同族進化情報を学習
- tied row attention:構造類似性を十分に活用するために特別に設計された注意メカニズム
- モデル非依存性:フレームワークは任意の拡散生成モデルと統合可能
- 訓練セット:SAbDabデータベース、分解能4Å以下の構造を除去、CDRH3領域50%配列類似度に基づくクラスタリング
- テストセット:50個のPDBファイル、63個の抗体-抗原複合体構造を含む
- CDRサンプルフラグメントデータベース:非冗長PDBから構築、構造的に適合したCDRサンプル線形機能モチーフを含む
- アミノ酸回復率(AAR):設計配列と真のCDR配列が同じアミノ酸位置の割合
- 自己一貫性RMSD(scRMSD):再折り畳みされた抗体構造後のCDR領域Cα原子のRMSD
- 妥当性(Plausibility):AntiBERTyを使用して計算された疑似対数尤度
- 従来手法:Grafting(top-1検索フラグメントの直接移植)
- 深層学習手法:ProteinMPNN、ESM-IF1、Diffab-fix、AbMPNN
- オプティマイザ:Adam、学習率0.0001
- バッチサイズ:8
- CDRH3は100,000反復で個別訓練、その他CDR領域は250,000反復で共同訓練
- 拡散タイムステップ:100ステップ
抗体CDR配列逆向き折り畳み結果:
| 手法 | CDRH3 AAR(%) | CDRH3 scRMSD | CDRH3 Plausibility |
|---|
| Grafting | 19.63 | 3.20 | -0.591 |
| ProteinMPNN | 41.77 | 2.27 | -0.605 |
| Diffab-fix | 49.17 | 2.24 | -0.541 |
| AbMPNN | 52.99 | 2.80 | -0.675 |
| RADAb | 57.02 | 2.23 | -0.530 |
長CDRH3配列設計結果(長さ>14):
| 手法 | AAR(%) | scRMSD | Plausibility |
|---|
| Diffab-fix | 42.26 | 3.02 | -0.740 |
| RADAb | 51.35 | 2.52 | -0.747 |
結合能最適化結果:
| 手法 | ΔΔG↓ | ΔΔG-seq↓ | IMP-seq(%)↑ |
|---|
| Grafting | 135.17 | 40.22 | 32.69 |
| ProteinMPNN | 127.14 | 24.72 | 35.51 |
| Diffab-fix | 116.36 | 14.05 | 34.52 |
| RADAb | 109.16 | 7.06 | 37.30 |
| コンポーネント | AAR(%) | scRMSD | Plausibility |
|---|
| 完全モデル | 57.02 | 2.23 | -0.530 |
| 検索拡張なし | 52.15 | 2.39 | -0.529 |
| 進化埋め込みなし | 51.36 | 2.23 | -0.538 |
| ベースラインDiffab | 49.17 | 2.24 | -0.541 |
SARS-CoV-2中和抗体(PDB: 7d6i)の例として、生成された50個のCDRH3配列のうち68%が元の複合体よりも低いΔG値を示し、機能最適化効果を実証しています。
- 従来手法:エネルギー関数最適化および配列類似度ベースの手法
- 機械学習手法:
- 抗体配列設計:言語モデルおよび逆向き折り畳みモデル
- 抗原特異的配列-構造協調設計:グラフニューラルネットワーク手法
タンパク質設計におけるDDPMの前向きノイズプロセスおよび逆向き生成プロセスを含む拡散モデルの応用。
NLP分野から計算機ビジョンおよび分子生成分野へ拡張されたRAG技術。本論文は初めてこれを抗体設計に適用しています。
- RADAbは複数の抗体設計タスクにおいて最先端の性能を達成しています
- 検索拡張メカニズムは生成品質と機能性を大幅に向上させます
- 双分岐アーキテクチャはグローバルコンテキストとローカル進化情報を効果的に統合します
- 実験検証の不足:ウェット実験での十分な検証がまだ行われていません
- 計算オーバーヘッド:構造検索とESM2エンコーディングにはより多くの計算リソースが必要です
- データ漏洩リスク:配列-構造協調設計への現在の検索メカニズム適用にはデータ漏洩リスクが存在します
- ウェット実験検証が主要なタスクの一つとなります
- モデルを様々なタンパク質モチーフ設計に拡張する
- データ漏洩を回避するためのPPI検索の探索
- 革新性が高い:検索拡張技術を抗体設計に初めて適用し、新規の双分岐アーキテクチャを提案しています
- 技術が堅牢:構造情報検索メカニズムの設計は合理的で、配列情報漏洩を回避しています
- 実験が充分:複数のタスクと指標にわたる包括的な評価、アブレーション実験を含みます
- 性能が優秀:すべての評価タスクにおいて最先端の性能を達成しています
- 実用性の検証待ち:ウェット実験検証の欠如、実際の応用効果が未知です
- 計算複雑度が高い:検索プロセスと双分岐ネットワークが計算負担を増加させます
- 適用範囲の制限:主に逆向き折り畳みタスクに焦点を当てており、全原子設計に限界があります
- 学術的貢献:生物分子生成モデルに新しい視点を提供し、タンパク質設計における検索拡張技術の応用を推進します
- 実用的価値:抗体医薬品設計プロセスの加速化と実験コスト削減が期待されます
- 再現性:詳細な実装詳細とオープンソースコードを提供しています
- 既知抗体テンプレートに基づくCDR最適化設計
- 構造制約を保持する必要がある抗体配列改善
- 抗体親和性成熟と機能最適化
本論文は抗体設計、拡散モデル、検索拡張生成などの分野における重要な研究を引用しており、RADAbフレームワークに堅実な理論的基礎と技術的支援を提供しています。
総合評価:これは抗体設計分野における高品質な研究論文であり、革新的な検索拡張拡散フレームワークを提案しています。技術方案の設計は合理的で、実験評価は包括的であり、結果は説得力があります。実際の応用検証の面ではまだ強化の余地がありますが、タンパク質設計分野に新しい研究方向を切り開き、重要な学術的価値と応用前景を有しています。