2025-11-11T13:16:09.695232

Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization

Wang, Ji, Tian et al.

Antibodies are essential proteins responsible for immune responses in organisms, capable of specifically recognizing antigen molecules of pathogens. Recent advances in generative models have significantly enhanced rational antibody design. However, existing methods mainly create antibodies from scratch without template constraints, leading to model optimization challenges and unnatural sequences. To address these issues, we propose a retrieval-augmented diffusion framework, termed RADAb, for efficient antibody design. Our method leverages a set of structural homologous motifs that align with query structural constraints to guide the generative model in inversely optimizing antibodies according to desired design criteria. Specifically, we introduce a structure-informed retrieval mechanism that integrates these exemplar motifs with the input backbone through a novel dual-branch denoising module, utilizing both structural and evolutionary information. Additionally, we develop a conditional diffusion model that iteratively refines the optimization process by incorporating both global context and local evolutionary conditions. Our approach is agnostic to the choice of generative models. Empirical experiments demonstrate that our method achieves state-of-the-art performance in multiple antibody inverse folding and optimization tasks, offering a new perspective on biomolecular generative models.

academic

Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization

Grundinformationen

Paper-ID: 2410.15040
Titel: Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization
Autoren: Zichen Wang, Yaokun Ji, Jianing Tian, Shuangjia Zheng
Klassifizierung: cs.AI
Veröffentlichungskonferenz: ICLR 2025
Paper-Link: https://arxiv.org/abs/2410.15040

Zusammenfassung

Antikörper sind wichtige Proteine, die für die Immunreaktion des Körpers verantwortlich sind und Antigenmoleküle von Krankheitserregern spezifisch erkennen können. Obwohl jüngste Fortschritte bei generativen Modellen die Fähigkeit zum rationalen Antikörperdesign erheblich verbessert haben, erstellen bestehende Methoden hauptsächlich Antikörper von Grund auf neu, ohne Vorlagenbeschränkungen, was zu Optimierungsschwierigkeiten und unnatürlichen Sequenzen führt. Um diese Probleme zu lösen, wird in diesem Papier ein abrufverstärktes Diffusionsframework RADAb für effizientes Antikörperdesign vorgeschlagen. Die Methode nutzt eine Reihe von strukturellen Homologiemotiven, die an Abfragenstruktureinschränkungen ausgerichtet sind, um das generative Modell zu leiten, Antikörper nach gewünschten Designkriterien rückwärts zu optimieren. Konkret wird ein strukturinformations-Abrufsystem eingeführt, das diese Beispielmotive durch ein neuartiges zweigliedriges Denoisingmodul mit dem Eingangsskelett integriert und gleichzeitig strukturelle und evolutionäre Informationen nutzt. Darüber hinaus wird ein bedingtes Diffusionsmodell entwickelt, das den iterativen Optimierungsprozess durch die Kombination von globalem Kontext und lokalen evolutionären Bedingungen verbessert. Die Methode ist modellunabhängig, und Experimente zeigen, dass sie bei mehreren Antikörper-Rückfaltungs- und Optimierungsaufgaben modernste Leistung erreicht.

Forschungshintergrund und Motivation

Problemdefinition

Die Kernherausforderung des Antikörperdesigns besteht darin, funktionelle Antikörpersequenzen mit vordefinierten biochemischen Eigenschaften zu generieren. Die traditionelle Antikörperentwicklung beruht auf arbeitsintensiven experimentellen Methoden wie Tierimmunisierung oder Screening großer Antikörperbibliotheken, die häufig nicht wirksam Antikörper gegen therapeutisch relevante Epitope erzeugen können.

Einschränkungen bestehender Methoden

Datenmangel: Hauptsächlich abhängig von der SAbDab-Datenbank mit weniger als zehntausend Antigen-Antikörper-Komplexstrukturen, was die Fähigkeit des Modells einschränkt, hochrangige Wechselwirkungsinformationen zu erfassen
Schwierigkeiten beim De-novo-Design: Bestehende Methoden versuchen, Antikörpersequenzen von Grund auf zu entwerfen, ohne vorlagengestützte Anleitung, was große Datenmengen und umfangreiches Training erfordert
Fehlende Strukturbeschränkungen: Aktuelle generative Modelle haben Schwierigkeiten, Antikörper zu entwerfen, die Strukturbeschränkungen einhalten und gewünschte biologische Eigenschaften aufweisen

Forschungsmotivation

Inspiriert von vorlagengestützten und fragmentbasierten Antikörperdesignmethoden zielt dieses Papier darauf ab:

Die Generierungsfähigkeit des Modells durch vorlagengestützte lokale und globale Proteingeometrieinformationen zu verbessern
Evolutionäre Signale von Motiven zu integrieren, um Überanpassung zu verhindern
In praktischen Anwendungen minimales Training oder Feinabstimmung zu erfordern

Kernbeiträge

Erstmaliges abrufverstärktes Generationsframework: Vorschlag des ersten abrufverstärkten Generationsframeworks für rationales Antikörperdesign, das funktionelle CDR-ähnliche Fragmentsammlungen verwendet, die gewünschte Skelettstrukturen und Eigenschaften erfüllen
Neuartiger Abrufmechanismus: Einführung eines strukturinformations-Abrufmechanismus, der Beispielmotive durch ein zweigliedriges Denoisingmodul mit dem Eingangsskelett integriert und strukturelle und evolutionäre Informationen nutzt
Signifikante Leistungsverbesserung: Verbesserung modernster Methoden bei mehreren Antikörper-Rückfaltungsaufgaben, wie z.B. 8,08% AAR-Verbesserung bei langen CDRH3-Rückfaltungsaufgaben und durchschnittliche absolute ΔΔG-Verbesserung von 7 cal/mol bei Funktionsoptimierungsaufgaben

Methodische Details

Aufgabendefinition

Gegeben ein Antikörper-Komplexskelett $C_{ab}$ , ein Antigen $C_{ag}$ und abgerufene CDR-ähnliche Fragmente $A$ , besteht das Ziel darin, die Sequenzverteilung der CDR-Region $R = \{s_j | j \in \{a+1, ..., a+m\}\}$ vorherzusagen, wobei $m$ die CDR-Länge und $a$ die Startposition ist.

Modellarchitektur

1. Strukturales Abrufmodul

Verwendung des MASTER-Algorithmus für strukturales Abrufen:

Eingabe: Satz von CDR-Skelettatomkoordinaten $X = \{x_k | k \in \{1, ..., m\}\}$
Ähnlichkeitsmaß: Quadratische Abweichung der Skelettatomkoordinaten (RMSD)
Ausgabe: Satz strukturell ähnlicher CDR-ähnlicher Fragmente $A = \{A_i | i \in \{1, ..., k\}\}$

2. Zweigliedriges Denoisingnetzwerk

Globaler Geometriekontextbranch:

Kontextkodierungsprogramm: Extrahiert Einzelresiduenmerkmale $z_i$ und Residuenpaarmerkmale $y_{ij}$
Evolutionskodierungsprogramm: Verwendet ESM2 zur Extraktion evolutionärer Einbettungen $e^t$ der Antikörpersequenz
Strukturinformationsnetzwerk: Verarbeitet durch gestapelte IPA-Schichten, gibt globale Wahrscheinlichkeitsdarstellung $r_{global}$ aus

Lokaler CDR-fokussierter Branch:

CDR-fokussierte axiale Aufmerksamkeit: Konstruiert Pseudo-MSA-Matrix $P$ : $P = \text{concat}((S_{ab} \cup R^t_g), E)$ wobei $E$ die CDR-ähnliche Sequenzmatrix ist
Tied Row Attention-Mechanismus: Berücksichtigt gleichzeitig mehrere Aufmerksamkeitswerte und nutzt strukturelle Ähnlichkeit
Informationsfusion: Fusioniert $r_{local}$ und $r_{global}$ durch Skip-Verbindungen

3. Bedingter Diffusionsprozess

Rauschzusatz im Vorwärtsprozess: $q(s^t_j | s^{t-1}_j) = \text{Multinomial}((1-\beta_t) \cdot \text{onehot}(s^{t-1}_j) + \beta_t \cdot \frac{1}{20} \cdot \mathbf{1})$

Rückwärts-Denoisingprozess: $p(s^{t-1}_j | R^t, C_{ab}, C_{ag}, A) = \text{Multinomial}[F(R^t, C_{ab}, C_{ag}, e^t) + G(F(R^t, C_{ab}, C_{ag}, e^t), A)][j]$

Technische Innovationspunkte

Strukturinformations-Abrufen: Nutzt den MASTER-Algorithmus zum Abrufen von CDR-ähnlichen Fragmenten basierend auf Skelettstruktur, vermeidet Sequenzinformationslecks
Zweigliedriges Architektur: Der globale Branch erfasst den Antigen-Antikörper-Komplexkontext, der lokale Branch lernt homologe evolutionäre Informationen
Tied Row Attention: Speziell entworfener Aufmerksamkeitsmechanismus nutzt strukturelle Ähnlichkeit vollständig
Modellunabhängigkeit: Framework kann mit beliebigen Diffusions-Generationsmodellen integriert werden

Experimentelle Einrichtung

Datensätze

Trainingssatz: SAbDab-Datenbank, Strukturen mit Auflösung unter 4Å entfernt, basierend auf 50% Sequenzähnlichkeitsclustering der CDRH3-Region
Testsatz: 50 PDB-Dateien mit 63 Antikörper-Antigen-Komplexstrukturen
CDR-ähnliche Fragment-Datenbank: Aus nicht-redundanter PDB konstruiert, enthält strukturkompatible CDR-ähnliche lineare funktionelle Motive

Bewertungsmetriken

Aminosäure-Wiederherstellungsrate (AAR): Anteil der Positionen, an denen die entworfene Sequenz mit der echten CDR-Sequenz übereinstimmt
Selbstkonsistenz-RMSD (scRMSD): RMSD der Cα-Atome der CDR-Region nach Rückfaltung der Antikörperstruktur
Plausibilität: Pseudo-Log-Likelihood berechnet mit AntiBERTy

Vergleichsmethoden

Traditionelle Methoden: Grafting (direkte Transplantation des Top-1-abgerufenen Fragments)
Deep-Learning-Methoden: ProteinMPNN, ESM-IF1, Diffab-fix, AbMPNN

Implementierungsdetails

Optimierer: Adam, Lernrate 0,0001
Batch-Größe: 8
CDRH3 separat trainiert für 100.000 Iterationen, andere CDR-Regionen gemeinsam trainiert für 250.000 Iterationen
Diffusionszeitschritte: 100

Experimentelle Ergebnisse

Hauptergebnisse

Antikörper-CDR-Sequenz-Rückfaltungsergebnisse:

Methode	CDRH3 AAR(%)	CDRH3 scRMSD	CDRH3 Plausibilität
Grafting	19,63	3,20	-0,591
ProteinMPNN	41,77	2,27	-0,605
Diffab-fix	49,17	2,24	-0,541
AbMPNN	52,99	2,80	-0,675
RADAb	57,02	2,23	-0,530

Lange CDRH3-Sequenzdesign-Ergebnisse (Länge >14):

Methode	AAR(%)	scRMSD	Plausibilität
Diffab-fix	42,26	3,02	-0,740
RADAb	51,35	2,52	-0,747

Funktionsoptimierungsergebnisse

Bindungsaffinitäts-Optimierungsergebnisse:

Methode	ΔΔG↓	ΔΔG-seq↓	IMP-seq(%)↑
Grafting	135,17	40,22	32,69
ProteinMPNN	127,14	24,72	35,51
Diffab-fix	116,36	14,05	34,52
RADAb	109,16	7,06	37,30

Ablationsstudien

Komponente	AAR(%)	scRMSD	Plausibilität
Vollständiges Modell	57,02	2,23	-0,530
Ohne Abrufverstärkung	52,15	2,39	-0,529
Ohne evolutionäre Einbettung	51,36	2,23	-0,538
Baseline Diffab	49,17	2,24	-0,541

Fallstudien

Am Beispiel des SARS-CoV-2-neutralisierenden Antikörpers (PDB: 7d6i) zeigen 68% der 50 generierten CDRH3-Sequenzen niedrigere ΔG-Werte als der ursprüngliche Komplex, was die Wirksamkeit der Funktionsoptimierung belegt.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

RADAb erreicht modernste Leistung bei mehreren Antikörperdesign-Aufgaben
Der abrufverstärkte Mechanismus verbessert die Generierungsqualität und Funktionalität des Modells erheblich
Die zweigliedrige Architektur integriert effektiv globalen Kontext und lokale evolutionäre Informationen

Einschränkungen

Unzureichende experimentelle Validierung: Noch nicht ausreichend in Nassexperimenten validiert
Hohe Rechenkosten: Strukturales Abrufen und ESM2-Kodierung erfordern mehr Rechenressourcen
Risiko von Datenlecks: Bei Anwendung des aktuellen Abrufmechanismus im Sequenz-Struktur-Kodesign besteht Datenleck-Risiko

Zukünftige Richtungen

Nassexperimentelle Validierung wird eine Hauptaufgabe sein
Erweiterung des Modells auf verschiedene Proteinmotiv-Designs
Erforschung von PPI-Abrufen zur Vermeidung von Datenleck-Problemen

Tiefgreifende Bewertung

Stärken

Starke Innovativität: Erstmalige Anwendung von Abrufverstärkungstechniken auf Antikörperdesign mit neuartiger zweigliedriger Architektur
Solide Technik: Strukturinformations-Abrufmechanismus ist gut konzipiert und vermeidet Sequenzinformationslecks
Umfassende Experimente: Umfassende Bewertung über mehrere Aufgaben und Metriken, einschließlich Ablationsstudien
Hervorragende Leistung: Erreicht modernste Leistung bei allen Bewertungsaufgaben

Schwächen

Praktische Anwendbarkeit zu validieren: Mangel an Nassexperimentvalidierung, tatsächliche Anwendungseffektivität unbekannt
Hohe Rechenkomplexität: Abrufprozess und zweigliedriges Netzwerk erhöhen die Rechenlast
Begrenzte Anwendbarkeit: Hauptsächlich auf Rückfaltungsaufgaben ausgerichtet, mit Einschränkungen beim Vollatomdesign

Auswirkungen

Akademischer Beitrag: Bietet neue Perspektive für Generationsmodelle biologischer Moleküle, fördert Anwendung von Abrufverstärkungstechniken im Proteindesign
Praktischer Wert: Könnte Antikörperdrug-Designprozess beschleunigen und experimentelle Kosten senken
Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Open-Source-Code

Anwendungsszenarien

CDR-Optimierungsdesign basierend auf bekannten Antikörpervorlagen
Antikörpersequenzverbesserung, die Strukturbeschränkungen beibehält
Antikörperaffinitätsreifung und Funktionsoptimierung

Literaturverzeichnis

Dieses Papier zitiert wichtige Arbeiten in den Bereichen Antikörperdesign, Diffusionsmodelle und abrufverstärkte Generierung und bietet eine solide theoretische Grundlage und technische Unterstützung für das RADAb-Framework.

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das ein innovatives abrufverstärktes Diffusionsframework für das Antikörperdesign vorschlägt. Das technische Schema ist gut konzipiert, die experimentelle Bewertung ist umfassend und die Ergebnisse sind überzeugend. Obwohl die praktische Anwendungsvalidierung noch verstärkt werden muss, eröffnet es neue Forschungsrichtungen im Proteindesign und hat wichtige akademische Werte und Anwendungsperspektiven.

Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization

Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization

Grundinformationen

Zusammenfassung

Forschungshintergrund und Motivation

Problemdefinition

Einschränkungen bestehender Methoden

Forschungsmotivation

Kernbeiträge

Methodische Details

Aufgabendefinition

Modellarchitektur

1. Strukturales Abrufmodul

2. Zweigliedriges Denoisingnetzwerk

3. Bedingter Diffusionsprozess

Technische Innovationspunkte

Experimentelle Einrichtung

Datensätze

Bewertungsmetriken

Vergleichsmethoden

Implementierungsdetails

Experimentelle Ergebnisse

Hauptergebnisse

Funktionsoptimierungsergebnisse

Ablationsstudien

Fallstudien

Verwandte Arbeiten

Antikörperdesign-Methoden

Diffusions-Generationsmodelle

Abrufverstärkte Generierung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Einschränkungen

Zukünftige Richtungen

Tiefgreifende Bewertung

Stärken

Schwächen

Auswirkungen

Anwendungsszenarien

Literaturverzeichnis