2025-11-11T13:16:09.695232

Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization

Wang, Ji, Tian et al.

Antibodies are essential proteins responsible for immune responses in organisms, capable of specifically recognizing antigen molecules of pathogens. Recent advances in generative models have significantly enhanced rational antibody design. However, existing methods mainly create antibodies from scratch without template constraints, leading to model optimization challenges and unnatural sequences. To address these issues, we propose a retrieval-augmented diffusion framework, termed RADAb, for efficient antibody design. Our method leverages a set of structural homologous motifs that align with query structural constraints to guide the generative model in inversely optimizing antibodies according to desired design criteria. Specifically, we introduce a structure-informed retrieval mechanism that integrates these exemplar motifs with the input backbone through a novel dual-branch denoising module, utilizing both structural and evolutionary information. Additionally, we develop a conditional diffusion model that iteratively refines the optimization process by incorporating both global context and local evolutionary conditions. Our approach is agnostic to the choice of generative models. Empirical experiments demonstrate that our method achieves state-of-the-art performance in multiple antibody inverse folding and optimization tasks, offering a new perspective on biomolecular generative models.

academic

構造情報を活用した抗体設計・最適化のための検索拡張拡散モデル

基本情報

論文ID: 2410.15040
タイトル: Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization
著者: Zichen Wang, Yaokun Ji, Jianing Tian, Shuangjia Zheng
分類: cs.AI
発表会議: ICLR 2025
論文リンク: https://arxiv.org/abs/2410.15040

要旨

抗体は生体の免疫応答を担う重要なタンパク質であり、病原体の抗原分子を特異的に認識することができます。生成モデルの最近の進展により、合理的な抗体設計能力が大幅に向上しましたが、既存の手法は主にde novo抗体生成に焦点を当てており、テンプレート制約が不足しているため、モデル最適化が困難で非自然配列の問題が生じています。これらの問題を解決するため、本論文は効率的な抗体設計のための検索拡張拡散フレームワークRADAbを提案しています。本手法は、クエリ構造制約と整合した構造ホモログモチーフのセットを利用して、生成モデルが望ましい設計基準に従って抗体を逆向きに最適化するよう指導します。具体的には、構造情報検索メカニズムを導入し、新規の双分岐デノイジングモジュールを通じてこれらの例示モチーフを入力スケルトンと統合しながら、構造情報と進化情報を活用します。さらに、条件付き拡散モデルを開発し、グローバルコンテキストとローカル進化条件を組み合わせることで反復的な最適化プロセスを実現しています。本手法は生成モデルの選択に依存しない設計となっており、複数の抗体逆向き折り畳みおよび最適化タスクにおいて最先端の性能を達成することが実験により実証されています。

研究背景と動機

問題定義

抗体設計の中核的な課題は、予め定義された生化学的特性を有する機能的な抗体配列をいかに生成するかです。従来の抗体開発は、動物免疫化やスクリーニング大規模抗体ライブラリなどの労働集約的な実験手法に依存しており、治療関連エピトープに対する抗体を効果的に産生することが困難です。

既存手法の限界

データの稀少性：主にSAbDabデータベースに依存しており、1万未満の抗原-抗体複合体構造のみを含むため、高次相互作用情報を捕捉するモデル能力が制限されています
de novo設計の困難性：既存手法はゼロから抗体配列を設計しようとしており、テンプレートベースの指導が不足しているため、大量のデータと広範な訓練が必要です
構造制約の欠如：現在の生成モデルは、構造制約を遵守しながら望ましい生物学的特性を有する抗体を設計することが困難です

研究動機

本論文はテンプレートおよびフラグメントベースの抗体設計に着想を得て、以下を目指しています：

テンプレート認識ローカルおよびグローバルタンパク質幾何情報を活用してモデル生成能力を強化する
過学習を防ぐためにモチーフ進化シグナルを統合する
実用的応用において最小限の訓練または微調整で機能する

核心的貢献

検索拡張生成フレームワークの初提案：合理的な抗体設計のための初の検索拡張生成フレームワークを提案し、望ましいスケルトン構造と特性を満たす機能的CDRサンプルフラグメントのセットを用いて生成を指導します
新規検索メカニズム：構造情報検索メカニズムを導入し、双分岐デノイジングモジュールを通じて例示モチーフを入力スケルトンと統合し、構造情報と進化情報を活用します
顕著な性能向上：複数の抗体逆向き折り畳みタスクにおいて最先端手法を改善し、例えば長CDRH3逆向き折り畳みタスクではAARが8.08%向上し、機能最適化タスクでは平均絶対ΔΔGが7 cal/mol改善されています

方法の詳細

タスク定義

抗体フレームワーク複合体 $C_{ab}$ 、抗原 $C_{ag}$ 、検索されたCDRサンプルフラグメント $A$ が与えられたとき、目標はCDR領域 $R = \{s_j | j \in \{a+1, ..., a+m\}\}$ の配列分布を予測することです。ここで $m$ はCDR長、 $a$ は開始位置です。

モデルアーキテクチャ

1. 構造検索モジュール

MASTER アルゴリズムを用いた構造検索：

入力：CDRスケルトン原子座標セット $X = \{x_k | k \in \{1, ..., m\}\}$
類似度測定：スケルトン原子の二乗平均平方根偏差(RMSD)
出力：構造的に類似したCDRサンプルフラグメントセット $A = \{A_i | i \in \{1, ..., k\}\}$

2. 双分岐デノイジングネットワーク

グローバル幾何コンテキスト分岐：

コンテキストエンコーダ：単一残基特徴 $z_i$ および残基対特徴 $y_{ij}$ を抽出
進化エンコーダ：ESM2を使用して抗体配列の進化埋め込み $e^t$ を抽出
構造情報ネットワーク：IPA層スタッキングを通じた処理、グローバル確率表現 $r_{global}$ を出力

ローカルCDR焦点分岐：

CDR焦点軸方向注意：疑似MSA行列 $P$ を構築： $P = \text{concat}((S_{ab} \cup R^t_g), E)$ ここで $E$ はCDRサンプル配列行列
tied row attentionメカニズム：複数行注意スコアを同時に考慮し、構造類似性を活用
情報融合：スキップ接続を通じて $r_{local}$ と $r_{global}$ を融合

3. 条件付き拡散プロセス

前向きプロセスノイズ追加： $q(s^t_j | s^{t-1}_j) = \text{Multinomial}((1-\beta_t) \cdot \text{onehot}(s^{t-1}_j) + \beta_t \cdot \frac{1}{20} \cdot \mathbf{1})$

逆向きデノイジングプロセス： $p(s^{t-1}_j | R^t, C_{ab}, C_{ag}, A) = \text{Multinomial}[F(R^t, C_{ab}, C_{ag}, e^t) + G(F(R^t, C_{ab}, C_{ag}, e^t), A)][j]$

技術的革新点

構造情報検索：MASTERアルゴリズムを利用してスケルトン構造に基づくCDRサンプルフラグメント検索を実施し、配列情報漏洩を回避
双分岐アーキテクチャ：グローバル分岐は抗原-抗体複合体コンテキストを捕捉し、ローカル分岐は同族進化情報を学習
tied row attention：構造類似性を十分に活用するために特別に設計された注意メカニズム
モデル非依存性：フレームワークは任意の拡散生成モデルと統合可能

実験設定

データセット

訓練セット：SAbDabデータベース、分解能4Å以下の構造を除去、CDRH3領域50%配列類似度に基づくクラスタリング
テストセット：50個のPDBファイル、63個の抗体-抗原複合体構造を含む
CDRサンプルフラグメントデータベース：非冗長PDBから構築、構造的に適合したCDRサンプル線形機能モチーフを含む

評価指標

アミノ酸回復率(AAR)：設計配列と真のCDR配列が同じアミノ酸位置の割合
自己一貫性RMSD(scRMSD)：再折り畳みされた抗体構造後のCDR領域Cα原子のRMSD
妥当性(Plausibility)：AntiBERTyを使用して計算された疑似対数尤度

比較手法

従来手法：Grafting（top-1検索フラグメントの直接移植）
深層学習手法：ProteinMPNN、ESM-IF1、Diffab-fix、AbMPNN

実装詳細

オプティマイザ：Adam、学習率0.0001
バッチサイズ：8
CDRH3は100,000反復で個別訓練、その他CDR領域は250,000反復で共同訓練
拡散タイムステップ：100ステップ

実験結果

主要結果

抗体CDR配列逆向き折り畳み結果：

手法	CDRH3 AAR(%)	CDRH3 scRMSD	CDRH3 Plausibility
Grafting	19.63	3.20	-0.591
ProteinMPNN	41.77	2.27	-0.605
Diffab-fix	49.17	2.24	-0.541
AbMPNN	52.99	2.80	-0.675
RADAb	57.02	2.23	-0.530

長CDRH3配列設計結果（長さ>14）：

手法	AAR(%)	scRMSD	Plausibility
Diffab-fix	42.26	3.02	-0.740
RADAb	51.35	2.52	-0.747

機能最適化結果

結合能最適化結果：

手法	ΔΔG↓	ΔΔG-seq↓	IMP-seq(%)↑
Grafting	135.17	40.22	32.69
ProteinMPNN	127.14	24.72	35.51
Diffab-fix	116.36	14.05	34.52
RADAb	109.16	7.06	37.30

アブレーション実験

コンポーネント	AAR(%)	scRMSD	Plausibility
完全モデル	57.02	2.23	-0.530
検索拡張なし	52.15	2.39	-0.529
進化埋め込みなし	51.36	2.23	-0.538
ベースラインDiffab	49.17	2.24	-0.541

ケーススタディ

SARS-CoV-2中和抗体(PDB: 7d6i)の例として、生成された50個のCDRH3配列のうち68%が元の複合体よりも低いΔG値を示し、機能最適化効果を実証しています。

結論と考察

主要な結論

RADAbは複数の抗体設計タスクにおいて最先端の性能を達成しています
検索拡張メカニズムは生成品質と機能性を大幅に向上させます
双分岐アーキテクチャはグローバルコンテキストとローカル進化情報を効果的に統合します

限界

実験検証の不足：ウェット実験での十分な検証がまだ行われていません
計算オーバーヘッド：構造検索とESM2エンコーディングにはより多くの計算リソースが必要です
データ漏洩リスク：配列-構造協調設計への現在の検索メカニズム適用にはデータ漏洩リスクが存在します

今後の方向性

ウェット実験検証が主要なタスクの一つとなります
モデルを様々なタンパク質モチーフ設計に拡張する
データ漏洩を回避するためのPPI検索の探索

深層評価

利点

革新性が高い：検索拡張技術を抗体設計に初めて適用し、新規の双分岐アーキテクチャを提案しています
技術が堅牢：構造情報検索メカニズムの設計は合理的で、配列情報漏洩を回避しています
実験が充分：複数のタスクと指標にわたる包括的な評価、アブレーション実験を含みます
性能が優秀：すべての評価タスクにおいて最先端の性能を達成しています

不足点

実用性の検証待ち：ウェット実験検証の欠如、実際の応用効果が未知です
計算複雑度が高い：検索プロセスと双分岐ネットワークが計算負担を増加させます
適用範囲の制限：主に逆向き折り畳みタスクに焦点を当てており、全原子設計に限界があります

影響力

学術的貢献：生物分子生成モデルに新しい視点を提供し、タンパク質設計における検索拡張技術の応用を推進します
実用的価値：抗体医薬品設計プロセスの加速化と実験コスト削減が期待されます
再現性：詳細な実装詳細とオープンソースコードを提供しています

適用シーン

既知抗体テンプレートに基づくCDR最適化設計
構造制約を保持する必要がある抗体配列改善
抗体親和性成熟と機能最適化

参考文献

本論文は抗体設計、拡散モデル、検索拡張生成などの分野における重要な研究を引用しており、RADAbフレームワークに堅実な理論的基礎と技術的支援を提供しています。

総合評価：これは抗体設計分野における高品質な研究論文であり、革新的な検索拡張拡散フレームワークを提案しています。技術方案の設計は合理的で、実験評価は包括的であり、結果は説得力があります。実際の応用検証の面ではまだ強化の余地がありますが、タンパク質設計分野に新しい研究方向を切り開き、重要な学術的価値と応用前景を有しています。