2025-11-11T13:16:09.695232

Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization

Wang, Ji, Tian et al.
Antibodies are essential proteins responsible for immune responses in organisms, capable of specifically recognizing antigen molecules of pathogens. Recent advances in generative models have significantly enhanced rational antibody design. However, existing methods mainly create antibodies from scratch without template constraints, leading to model optimization challenges and unnatural sequences. To address these issues, we propose a retrieval-augmented diffusion framework, termed RADAb, for efficient antibody design. Our method leverages a set of structural homologous motifs that align with query structural constraints to guide the generative model in inversely optimizing antibodies according to desired design criteria. Specifically, we introduce a structure-informed retrieval mechanism that integrates these exemplar motifs with the input backbone through a novel dual-branch denoising module, utilizing both structural and evolutionary information. Additionally, we develop a conditional diffusion model that iteratively refines the optimization process by incorporating both global context and local evolutionary conditions. Our approach is agnostic to the choice of generative models. Empirical experiments demonstrate that our method achieves state-of-the-art performance in multiple antibody inverse folding and optimization tasks, offering a new perspective on biomolecular generative models.
academic

Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization

Grundinformationen

  • Paper-ID: 2410.15040
  • Titel: Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization
  • Autoren: Zichen Wang, Yaokun Ji, Jianing Tian, Shuangjia Zheng
  • Klassifizierung: cs.AI
  • Veröffentlichungskonferenz: ICLR 2025
  • Paper-Link: https://arxiv.org/abs/2410.15040

Zusammenfassung

Antikörper sind wichtige Proteine, die für die Immunreaktion des Körpers verantwortlich sind und Antigenmoleküle von Krankheitserregern spezifisch erkennen können. Obwohl jüngste Fortschritte bei generativen Modellen die Fähigkeit zum rationalen Antikörperdesign erheblich verbessert haben, erstellen bestehende Methoden hauptsächlich Antikörper von Grund auf neu, ohne Vorlagenbeschränkungen, was zu Optimierungsschwierigkeiten und unnatürlichen Sequenzen führt. Um diese Probleme zu lösen, wird in diesem Papier ein abrufverstärktes Diffusionsframework RADAb für effizientes Antikörperdesign vorgeschlagen. Die Methode nutzt eine Reihe von strukturellen Homologiemotiven, die an Abfragenstruktureinschränkungen ausgerichtet sind, um das generative Modell zu leiten, Antikörper nach gewünschten Designkriterien rückwärts zu optimieren. Konkret wird ein strukturinformations-Abrufsystem eingeführt, das diese Beispielmotive durch ein neuartiges zweigliedriges Denoisingmodul mit dem Eingangsskelett integriert und gleichzeitig strukturelle und evolutionäre Informationen nutzt. Darüber hinaus wird ein bedingtes Diffusionsmodell entwickelt, das den iterativen Optimierungsprozess durch die Kombination von globalem Kontext und lokalen evolutionären Bedingungen verbessert. Die Methode ist modellunabhängig, und Experimente zeigen, dass sie bei mehreren Antikörper-Rückfaltungs- und Optimierungsaufgaben modernste Leistung erreicht.

Forschungshintergrund und Motivation

Problemdefinition

Die Kernherausforderung des Antikörperdesigns besteht darin, funktionelle Antikörpersequenzen mit vordefinierten biochemischen Eigenschaften zu generieren. Die traditionelle Antikörperentwicklung beruht auf arbeitsintensiven experimentellen Methoden wie Tierimmunisierung oder Screening großer Antikörperbibliotheken, die häufig nicht wirksam Antikörper gegen therapeutisch relevante Epitope erzeugen können.

Einschränkungen bestehender Methoden

  1. Datenmangel: Hauptsächlich abhängig von der SAbDab-Datenbank mit weniger als zehntausend Antigen-Antikörper-Komplexstrukturen, was die Fähigkeit des Modells einschränkt, hochrangige Wechselwirkungsinformationen zu erfassen
  2. Schwierigkeiten beim De-novo-Design: Bestehende Methoden versuchen, Antikörpersequenzen von Grund auf zu entwerfen, ohne vorlagengestützte Anleitung, was große Datenmengen und umfangreiches Training erfordert
  3. Fehlende Strukturbeschränkungen: Aktuelle generative Modelle haben Schwierigkeiten, Antikörper zu entwerfen, die Strukturbeschränkungen einhalten und gewünschte biologische Eigenschaften aufweisen

Forschungsmotivation

Inspiriert von vorlagengestützten und fragmentbasierten Antikörperdesignmethoden zielt dieses Papier darauf ab:

  1. Die Generierungsfähigkeit des Modells durch vorlagengestützte lokale und globale Proteingeometrieinformationen zu verbessern
  2. Evolutionäre Signale von Motiven zu integrieren, um Überanpassung zu verhindern
  3. In praktischen Anwendungen minimales Training oder Feinabstimmung zu erfordern

Kernbeiträge

  1. Erstmaliges abrufverstärktes Generationsframework: Vorschlag des ersten abrufverstärkten Generationsframeworks für rationales Antikörperdesign, das funktionelle CDR-ähnliche Fragmentsammlungen verwendet, die gewünschte Skelettstrukturen und Eigenschaften erfüllen
  2. Neuartiger Abrufmechanismus: Einführung eines strukturinformations-Abrufmechanismus, der Beispielmotive durch ein zweigliedriges Denoisingmodul mit dem Eingangsskelett integriert und strukturelle und evolutionäre Informationen nutzt
  3. Signifikante Leistungsverbesserung: Verbesserung modernster Methoden bei mehreren Antikörper-Rückfaltungsaufgaben, wie z.B. 8,08% AAR-Verbesserung bei langen CDRH3-Rückfaltungsaufgaben und durchschnittliche absolute ΔΔG-Verbesserung von 7 cal/mol bei Funktionsoptimierungsaufgaben

Methodische Details

Aufgabendefinition

Gegeben ein Antikörper-Komplexskelett CabC_{ab}, ein Antigen CagC_{ag} und abgerufene CDR-ähnliche Fragmente AA, besteht das Ziel darin, die Sequenzverteilung der CDR-Region R={sjj{a+1,...,a+m}}R = \{s_j | j \in \{a+1, ..., a+m\}\} vorherzusagen, wobei mm die CDR-Länge und aa die Startposition ist.

Modellarchitektur

1. Strukturales Abrufmodul

Verwendung des MASTER-Algorithmus für strukturales Abrufen:

  • Eingabe: Satz von CDR-Skelettatomkoordinaten X={xkk{1,...,m}}X = \{x_k | k \in \{1, ..., m\}\}
  • Ähnlichkeitsmaß: Quadratische Abweichung der Skelettatomkoordinaten (RMSD)
  • Ausgabe: Satz strukturell ähnlicher CDR-ähnlicher Fragmente A={Aii{1,...,k}}A = \{A_i | i \in \{1, ..., k\}\}

2. Zweigliedriges Denoisingnetzwerk

Globaler Geometriekontextbranch:

  • Kontextkodierungsprogramm: Extrahiert Einzelresiduenmerkmale ziz_i und Residuenpaarmerkmale yijy_{ij}
  • Evolutionskodierungsprogramm: Verwendet ESM2 zur Extraktion evolutionärer Einbettungen ete^t der Antikörpersequenz
  • Strukturinformationsnetzwerk: Verarbeitet durch gestapelte IPA-Schichten, gibt globale Wahrscheinlichkeitsdarstellung rglobalr_{global} aus

Lokaler CDR-fokussierter Branch:

  • CDR-fokussierte axiale Aufmerksamkeit: Konstruiert Pseudo-MSA-Matrix PP: P=concat((SabRgt),E)P = \text{concat}((S_{ab} \cup R^t_g), E) wobei EE die CDR-ähnliche Sequenzmatrix ist
  • Tied Row Attention-Mechanismus: Berücksichtigt gleichzeitig mehrere Aufmerksamkeitswerte und nutzt strukturelle Ähnlichkeit
  • Informationsfusion: Fusioniert rlocalr_{local} und rglobalr_{global} durch Skip-Verbindungen

3. Bedingter Diffusionsprozess

Rauschzusatz im Vorwärtsprozess: q(sjtsjt1)=Multinomial((1βt)onehot(sjt1)+βt1201)q(s^t_j | s^{t-1}_j) = \text{Multinomial}((1-\beta_t) \cdot \text{onehot}(s^{t-1}_j) + \beta_t \cdot \frac{1}{20} \cdot \mathbf{1})

Rückwärts-Denoisingprozess: p(sjt1Rt,Cab,Cag,A)=Multinomial[F(Rt,Cab,Cag,et)+G(F(Rt,Cab,Cag,et),A)][j]p(s^{t-1}_j | R^t, C_{ab}, C_{ag}, A) = \text{Multinomial}[F(R^t, C_{ab}, C_{ag}, e^t) + G(F(R^t, C_{ab}, C_{ag}, e^t), A)][j]

Technische Innovationspunkte

  1. Strukturinformations-Abrufen: Nutzt den MASTER-Algorithmus zum Abrufen von CDR-ähnlichen Fragmenten basierend auf Skelettstruktur, vermeidet Sequenzinformationslecks
  2. Zweigliedriges Architektur: Der globale Branch erfasst den Antigen-Antikörper-Komplexkontext, der lokale Branch lernt homologe evolutionäre Informationen
  3. Tied Row Attention: Speziell entworfener Aufmerksamkeitsmechanismus nutzt strukturelle Ähnlichkeit vollständig
  4. Modellunabhängigkeit: Framework kann mit beliebigen Diffusions-Generationsmodellen integriert werden

Experimentelle Einrichtung

Datensätze

  • Trainingssatz: SAbDab-Datenbank, Strukturen mit Auflösung unter 4Å entfernt, basierend auf 50% Sequenzähnlichkeitsclustering der CDRH3-Region
  • Testsatz: 50 PDB-Dateien mit 63 Antikörper-Antigen-Komplexstrukturen
  • CDR-ähnliche Fragment-Datenbank: Aus nicht-redundanter PDB konstruiert, enthält strukturkompatible CDR-ähnliche lineare funktionelle Motive

Bewertungsmetriken

  1. Aminosäure-Wiederherstellungsrate (AAR): Anteil der Positionen, an denen die entworfene Sequenz mit der echten CDR-Sequenz übereinstimmt
  2. Selbstkonsistenz-RMSD (scRMSD): RMSD der Cα-Atome der CDR-Region nach Rückfaltung der Antikörperstruktur
  3. Plausibilität: Pseudo-Log-Likelihood berechnet mit AntiBERTy

Vergleichsmethoden

  • Traditionelle Methoden: Grafting (direkte Transplantation des Top-1-abgerufenen Fragments)
  • Deep-Learning-Methoden: ProteinMPNN, ESM-IF1, Diffab-fix, AbMPNN

Implementierungsdetails

  • Optimierer: Adam, Lernrate 0,0001
  • Batch-Größe: 8
  • CDRH3 separat trainiert für 100.000 Iterationen, andere CDR-Regionen gemeinsam trainiert für 250.000 Iterationen
  • Diffusionszeitschritte: 100

Experimentelle Ergebnisse

Hauptergebnisse

Antikörper-CDR-Sequenz-Rückfaltungsergebnisse:

MethodeCDRH3 AAR(%)CDRH3 scRMSDCDRH3 Plausibilität
Grafting19,633,20-0,591
ProteinMPNN41,772,27-0,605
Diffab-fix49,172,24-0,541
AbMPNN52,992,80-0,675
RADAb57,022,23-0,530

Lange CDRH3-Sequenzdesign-Ergebnisse (Länge >14):

MethodeAAR(%)scRMSDPlausibilität
Diffab-fix42,263,02-0,740
RADAb51,352,52-0,747

Funktionsoptimierungsergebnisse

Bindungsaffinitäts-Optimierungsergebnisse:

MethodeΔΔG↓ΔΔG-seq↓IMP-seq(%)↑
Grafting135,1740,2232,69
ProteinMPNN127,1424,7235,51
Diffab-fix116,3614,0534,52
RADAb109,167,0637,30

Ablationsstudien

KomponenteAAR(%)scRMSDPlausibilität
Vollständiges Modell57,022,23-0,530
Ohne Abrufverstärkung52,152,39-0,529
Ohne evolutionäre Einbettung51,362,23-0,538
Baseline Diffab49,172,24-0,541

Fallstudien

Am Beispiel des SARS-CoV-2-neutralisierenden Antikörpers (PDB: 7d6i) zeigen 68% der 50 generierten CDRH3-Sequenzen niedrigere ΔG-Werte als der ursprüngliche Komplex, was die Wirksamkeit der Funktionsoptimierung belegt.

Verwandte Arbeiten

Antikörperdesign-Methoden

  1. Traditionelle Methoden: Auf Energiefunktionsoptimierung und Sequenzähnlichkeit basierende Methoden
  2. Machine-Learning-Methoden:
    • Antikörpersequenzdesign: Sprachmodelle und Rückfaltungsmodelle
    • Antigen-spezifisches Sequenz-Struktur-Kodesign: Graphenneuronale Netzwerk-Methoden

Diffusions-Generationsmodelle

Anwendung von Diffusionsmodellen im Proteindesign, einschließlich Vorwärtsrauschprozess und rückwärtiger Generierungsprozess von DDPM.

Abrufverstärkte Generierung

RAG-Technologie erweitert sich von NLP auf Computer Vision und molekulare Generierung, dieses Papier wendet sie erstmals auf Antikörperdesign an.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. RADAb erreicht modernste Leistung bei mehreren Antikörperdesign-Aufgaben
  2. Der abrufverstärkte Mechanismus verbessert die Generierungsqualität und Funktionalität des Modells erheblich
  3. Die zweigliedrige Architektur integriert effektiv globalen Kontext und lokale evolutionäre Informationen

Einschränkungen

  1. Unzureichende experimentelle Validierung: Noch nicht ausreichend in Nassexperimenten validiert
  2. Hohe Rechenkosten: Strukturales Abrufen und ESM2-Kodierung erfordern mehr Rechenressourcen
  3. Risiko von Datenlecks: Bei Anwendung des aktuellen Abrufmechanismus im Sequenz-Struktur-Kodesign besteht Datenleck-Risiko

Zukünftige Richtungen

  1. Nassexperimentelle Validierung wird eine Hauptaufgabe sein
  2. Erweiterung des Modells auf verschiedene Proteinmotiv-Designs
  3. Erforschung von PPI-Abrufen zur Vermeidung von Datenleck-Problemen

Tiefgreifende Bewertung

Stärken

  1. Starke Innovativität: Erstmalige Anwendung von Abrufverstärkungstechniken auf Antikörperdesign mit neuartiger zweigliedriger Architektur
  2. Solide Technik: Strukturinformations-Abrufmechanismus ist gut konzipiert und vermeidet Sequenzinformationslecks
  3. Umfassende Experimente: Umfassende Bewertung über mehrere Aufgaben und Metriken, einschließlich Ablationsstudien
  4. Hervorragende Leistung: Erreicht modernste Leistung bei allen Bewertungsaufgaben

Schwächen

  1. Praktische Anwendbarkeit zu validieren: Mangel an Nassexperimentvalidierung, tatsächliche Anwendungseffektivität unbekannt
  2. Hohe Rechenkomplexität: Abrufprozess und zweigliedriges Netzwerk erhöhen die Rechenlast
  3. Begrenzte Anwendbarkeit: Hauptsächlich auf Rückfaltungsaufgaben ausgerichtet, mit Einschränkungen beim Vollatomdesign

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Perspektive für Generationsmodelle biologischer Moleküle, fördert Anwendung von Abrufverstärkungstechniken im Proteindesign
  2. Praktischer Wert: Könnte Antikörperdrug-Designprozess beschleunigen und experimentelle Kosten senken
  3. Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Open-Source-Code

Anwendungsszenarien

  1. CDR-Optimierungsdesign basierend auf bekannten Antikörpervorlagen
  2. Antikörpersequenzverbesserung, die Strukturbeschränkungen beibehält
  3. Antikörperaffinitätsreifung und Funktionsoptimierung

Literaturverzeichnis

Dieses Papier zitiert wichtige Arbeiten in den Bereichen Antikörperdesign, Diffusionsmodelle und abrufverstärkte Generierung und bietet eine solide theoretische Grundlage und technische Unterstützung für das RADAb-Framework.


Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das ein innovatives abrufverstärktes Diffusionsframework für das Antikörperdesign vorschlägt. Das technische Schema ist gut konzipiert, die experimentelle Bewertung ist umfassend und die Ergebnisse sind überzeugend. Obwohl die praktische Anwendungsvalidierung noch verstärkt werden muss, eröffnet es neue Forschungsrichtungen im Proteindesign und hat wichtige akademische Werte und Anwendungsperspektiven.