Antibodies are essential proteins responsible for immune responses in organisms, capable of specifically recognizing antigen molecules of pathogens. Recent advances in generative models have significantly enhanced rational antibody design. However, existing methods mainly create antibodies from scratch without template constraints, leading to model optimization challenges and unnatural sequences. To address these issues, we propose a retrieval-augmented diffusion framework, termed RADAb, for efficient antibody design. Our method leverages a set of structural homologous motifs that align with query structural constraints to guide the generative model in inversely optimizing antibodies according to desired design criteria. Specifically, we introduce a structure-informed retrieval mechanism that integrates these exemplar motifs with the input backbone through a novel dual-branch denoising module, utilizing both structural and evolutionary information. Additionally, we develop a conditional diffusion model that iteratively refines the optimization process by incorporating both global context and local evolutionary conditions. Our approach is agnostic to the choice of generative models. Empirical experiments demonstrate that our method achieves state-of-the-art performance in multiple antibody inverse folding and optimization tasks, offering a new perspective on biomolecular generative models.
Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization
- Paper-ID: 2410.15040
- Titel: Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization
- Autoren: Zichen Wang, Yaokun Ji, Jianing Tian, Shuangjia Zheng
- Klassifizierung: cs.AI
- Veröffentlichungskonferenz: ICLR 2025
- Paper-Link: https://arxiv.org/abs/2410.15040
Antikörper sind wichtige Proteine, die für die Immunreaktion des Körpers verantwortlich sind und Antigenmoleküle von Krankheitserregern spezifisch erkennen können. Obwohl jüngste Fortschritte bei generativen Modellen die Fähigkeit zum rationalen Antikörperdesign erheblich verbessert haben, erstellen bestehende Methoden hauptsächlich Antikörper von Grund auf neu, ohne Vorlagenbeschränkungen, was zu Optimierungsschwierigkeiten und unnatürlichen Sequenzen führt. Um diese Probleme zu lösen, wird in diesem Papier ein abrufverstärktes Diffusionsframework RADAb für effizientes Antikörperdesign vorgeschlagen. Die Methode nutzt eine Reihe von strukturellen Homologiemotiven, die an Abfragenstruktureinschränkungen ausgerichtet sind, um das generative Modell zu leiten, Antikörper nach gewünschten Designkriterien rückwärts zu optimieren. Konkret wird ein strukturinformations-Abrufsystem eingeführt, das diese Beispielmotive durch ein neuartiges zweigliedriges Denoisingmodul mit dem Eingangsskelett integriert und gleichzeitig strukturelle und evolutionäre Informationen nutzt. Darüber hinaus wird ein bedingtes Diffusionsmodell entwickelt, das den iterativen Optimierungsprozess durch die Kombination von globalem Kontext und lokalen evolutionären Bedingungen verbessert. Die Methode ist modellunabhängig, und Experimente zeigen, dass sie bei mehreren Antikörper-Rückfaltungs- und Optimierungsaufgaben modernste Leistung erreicht.
Die Kernherausforderung des Antikörperdesigns besteht darin, funktionelle Antikörpersequenzen mit vordefinierten biochemischen Eigenschaften zu generieren. Die traditionelle Antikörperentwicklung beruht auf arbeitsintensiven experimentellen Methoden wie Tierimmunisierung oder Screening großer Antikörperbibliotheken, die häufig nicht wirksam Antikörper gegen therapeutisch relevante Epitope erzeugen können.
- Datenmangel: Hauptsächlich abhängig von der SAbDab-Datenbank mit weniger als zehntausend Antigen-Antikörper-Komplexstrukturen, was die Fähigkeit des Modells einschränkt, hochrangige Wechselwirkungsinformationen zu erfassen
- Schwierigkeiten beim De-novo-Design: Bestehende Methoden versuchen, Antikörpersequenzen von Grund auf zu entwerfen, ohne vorlagengestützte Anleitung, was große Datenmengen und umfangreiches Training erfordert
- Fehlende Strukturbeschränkungen: Aktuelle generative Modelle haben Schwierigkeiten, Antikörper zu entwerfen, die Strukturbeschränkungen einhalten und gewünschte biologische Eigenschaften aufweisen
Inspiriert von vorlagengestützten und fragmentbasierten Antikörperdesignmethoden zielt dieses Papier darauf ab:
- Die Generierungsfähigkeit des Modells durch vorlagengestützte lokale und globale Proteingeometrieinformationen zu verbessern
- Evolutionäre Signale von Motiven zu integrieren, um Überanpassung zu verhindern
- In praktischen Anwendungen minimales Training oder Feinabstimmung zu erfordern
- Erstmaliges abrufverstärktes Generationsframework: Vorschlag des ersten abrufverstärkten Generationsframeworks für rationales Antikörperdesign, das funktionelle CDR-ähnliche Fragmentsammlungen verwendet, die gewünschte Skelettstrukturen und Eigenschaften erfüllen
- Neuartiger Abrufmechanismus: Einführung eines strukturinformations-Abrufmechanismus, der Beispielmotive durch ein zweigliedriges Denoisingmodul mit dem Eingangsskelett integriert und strukturelle und evolutionäre Informationen nutzt
- Signifikante Leistungsverbesserung: Verbesserung modernster Methoden bei mehreren Antikörper-Rückfaltungsaufgaben, wie z.B. 8,08% AAR-Verbesserung bei langen CDRH3-Rückfaltungsaufgaben und durchschnittliche absolute ΔΔG-Verbesserung von 7 cal/mol bei Funktionsoptimierungsaufgaben
Gegeben ein Antikörper-Komplexskelett Cab, ein Antigen Cag und abgerufene CDR-ähnliche Fragmente A, besteht das Ziel darin, die Sequenzverteilung der CDR-Region R={sj∣j∈{a+1,...,a+m}} vorherzusagen, wobei m die CDR-Länge und a die Startposition ist.
Verwendung des MASTER-Algorithmus für strukturales Abrufen:
- Eingabe: Satz von CDR-Skelettatomkoordinaten X={xk∣k∈{1,...,m}}
- Ähnlichkeitsmaß: Quadratische Abweichung der Skelettatomkoordinaten (RMSD)
- Ausgabe: Satz strukturell ähnlicher CDR-ähnlicher Fragmente A={Ai∣i∈{1,...,k}}
Globaler Geometriekontextbranch:
- Kontextkodierungsprogramm: Extrahiert Einzelresiduenmerkmale zi und Residuenpaarmerkmale yij
- Evolutionskodierungsprogramm: Verwendet ESM2 zur Extraktion evolutionärer Einbettungen et der Antikörpersequenz
- Strukturinformationsnetzwerk: Verarbeitet durch gestapelte IPA-Schichten, gibt globale Wahrscheinlichkeitsdarstellung rglobal aus
Lokaler CDR-fokussierter Branch:
- CDR-fokussierte axiale Aufmerksamkeit: Konstruiert Pseudo-MSA-Matrix P:
P=concat((Sab∪Rgt),E)
wobei E die CDR-ähnliche Sequenzmatrix ist
- Tied Row Attention-Mechanismus: Berücksichtigt gleichzeitig mehrere Aufmerksamkeitswerte und nutzt strukturelle Ähnlichkeit
- Informationsfusion: Fusioniert rlocal und rglobal durch Skip-Verbindungen
Rauschzusatz im Vorwärtsprozess:
q(sjt∣sjt−1)=Multinomial((1−βt)⋅onehot(sjt−1)+βt⋅201⋅1)
Rückwärts-Denoisingprozess:
p(sjt−1∣Rt,Cab,Cag,A)=Multinomial[F(Rt,Cab,Cag,et)+G(F(Rt,Cab,Cag,et),A)][j]
- Strukturinformations-Abrufen: Nutzt den MASTER-Algorithmus zum Abrufen von CDR-ähnlichen Fragmenten basierend auf Skelettstruktur, vermeidet Sequenzinformationslecks
- Zweigliedriges Architektur: Der globale Branch erfasst den Antigen-Antikörper-Komplexkontext, der lokale Branch lernt homologe evolutionäre Informationen
- Tied Row Attention: Speziell entworfener Aufmerksamkeitsmechanismus nutzt strukturelle Ähnlichkeit vollständig
- Modellunabhängigkeit: Framework kann mit beliebigen Diffusions-Generationsmodellen integriert werden
- Trainingssatz: SAbDab-Datenbank, Strukturen mit Auflösung unter 4Å entfernt, basierend auf 50% Sequenzähnlichkeitsclustering der CDRH3-Region
- Testsatz: 50 PDB-Dateien mit 63 Antikörper-Antigen-Komplexstrukturen
- CDR-ähnliche Fragment-Datenbank: Aus nicht-redundanter PDB konstruiert, enthält strukturkompatible CDR-ähnliche lineare funktionelle Motive
- Aminosäure-Wiederherstellungsrate (AAR): Anteil der Positionen, an denen die entworfene Sequenz mit der echten CDR-Sequenz übereinstimmt
- Selbstkonsistenz-RMSD (scRMSD): RMSD der Cα-Atome der CDR-Region nach Rückfaltung der Antikörperstruktur
- Plausibilität: Pseudo-Log-Likelihood berechnet mit AntiBERTy
- Traditionelle Methoden: Grafting (direkte Transplantation des Top-1-abgerufenen Fragments)
- Deep-Learning-Methoden: ProteinMPNN, ESM-IF1, Diffab-fix, AbMPNN
- Optimierer: Adam, Lernrate 0,0001
- Batch-Größe: 8
- CDRH3 separat trainiert für 100.000 Iterationen, andere CDR-Regionen gemeinsam trainiert für 250.000 Iterationen
- Diffusionszeitschritte: 100
Antikörper-CDR-Sequenz-Rückfaltungsergebnisse:
| Methode | CDRH3 AAR(%) | CDRH3 scRMSD | CDRH3 Plausibilität |
|---|
| Grafting | 19,63 | 3,20 | -0,591 |
| ProteinMPNN | 41,77 | 2,27 | -0,605 |
| Diffab-fix | 49,17 | 2,24 | -0,541 |
| AbMPNN | 52,99 | 2,80 | -0,675 |
| RADAb | 57,02 | 2,23 | -0,530 |
Lange CDRH3-Sequenzdesign-Ergebnisse (Länge >14):
| Methode | AAR(%) | scRMSD | Plausibilität |
|---|
| Diffab-fix | 42,26 | 3,02 | -0,740 |
| RADAb | 51,35 | 2,52 | -0,747 |
Bindungsaffinitäts-Optimierungsergebnisse:
| Methode | ΔΔG↓ | ΔΔG-seq↓ | IMP-seq(%)↑ |
|---|
| Grafting | 135,17 | 40,22 | 32,69 |
| ProteinMPNN | 127,14 | 24,72 | 35,51 |
| Diffab-fix | 116,36 | 14,05 | 34,52 |
| RADAb | 109,16 | 7,06 | 37,30 |
| Komponente | AAR(%) | scRMSD | Plausibilität |
|---|
| Vollständiges Modell | 57,02 | 2,23 | -0,530 |
| Ohne Abrufverstärkung | 52,15 | 2,39 | -0,529 |
| Ohne evolutionäre Einbettung | 51,36 | 2,23 | -0,538 |
| Baseline Diffab | 49,17 | 2,24 | -0,541 |
Am Beispiel des SARS-CoV-2-neutralisierenden Antikörpers (PDB: 7d6i) zeigen 68% der 50 generierten CDRH3-Sequenzen niedrigere ΔG-Werte als der ursprüngliche Komplex, was die Wirksamkeit der Funktionsoptimierung belegt.
- Traditionelle Methoden: Auf Energiefunktionsoptimierung und Sequenzähnlichkeit basierende Methoden
- Machine-Learning-Methoden:
- Antikörpersequenzdesign: Sprachmodelle und Rückfaltungsmodelle
- Antigen-spezifisches Sequenz-Struktur-Kodesign: Graphenneuronale Netzwerk-Methoden
Anwendung von Diffusionsmodellen im Proteindesign, einschließlich Vorwärtsrauschprozess und rückwärtiger Generierungsprozess von DDPM.
RAG-Technologie erweitert sich von NLP auf Computer Vision und molekulare Generierung, dieses Papier wendet sie erstmals auf Antikörperdesign an.
- RADAb erreicht modernste Leistung bei mehreren Antikörperdesign-Aufgaben
- Der abrufverstärkte Mechanismus verbessert die Generierungsqualität und Funktionalität des Modells erheblich
- Die zweigliedrige Architektur integriert effektiv globalen Kontext und lokale evolutionäre Informationen
- Unzureichende experimentelle Validierung: Noch nicht ausreichend in Nassexperimenten validiert
- Hohe Rechenkosten: Strukturales Abrufen und ESM2-Kodierung erfordern mehr Rechenressourcen
- Risiko von Datenlecks: Bei Anwendung des aktuellen Abrufmechanismus im Sequenz-Struktur-Kodesign besteht Datenleck-Risiko
- Nassexperimentelle Validierung wird eine Hauptaufgabe sein
- Erweiterung des Modells auf verschiedene Proteinmotiv-Designs
- Erforschung von PPI-Abrufen zur Vermeidung von Datenleck-Problemen
- Starke Innovativität: Erstmalige Anwendung von Abrufverstärkungstechniken auf Antikörperdesign mit neuartiger zweigliedriger Architektur
- Solide Technik: Strukturinformations-Abrufmechanismus ist gut konzipiert und vermeidet Sequenzinformationslecks
- Umfassende Experimente: Umfassende Bewertung über mehrere Aufgaben und Metriken, einschließlich Ablationsstudien
- Hervorragende Leistung: Erreicht modernste Leistung bei allen Bewertungsaufgaben
- Praktische Anwendbarkeit zu validieren: Mangel an Nassexperimentvalidierung, tatsächliche Anwendungseffektivität unbekannt
- Hohe Rechenkomplexität: Abrufprozess und zweigliedriges Netzwerk erhöhen die Rechenlast
- Begrenzte Anwendbarkeit: Hauptsächlich auf Rückfaltungsaufgaben ausgerichtet, mit Einschränkungen beim Vollatomdesign
- Akademischer Beitrag: Bietet neue Perspektive für Generationsmodelle biologischer Moleküle, fördert Anwendung von Abrufverstärkungstechniken im Proteindesign
- Praktischer Wert: Könnte Antikörperdrug-Designprozess beschleunigen und experimentelle Kosten senken
- Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Open-Source-Code
- CDR-Optimierungsdesign basierend auf bekannten Antikörpervorlagen
- Antikörpersequenzverbesserung, die Strukturbeschränkungen beibehält
- Antikörperaffinitätsreifung und Funktionsoptimierung
Dieses Papier zitiert wichtige Arbeiten in den Bereichen Antikörperdesign, Diffusionsmodelle und abrufverstärkte Generierung und bietet eine solide theoretische Grundlage und technische Unterstützung für das RADAb-Framework.
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das ein innovatives abrufverstärktes Diffusionsframework für das Antikörperdesign vorschlägt. Das technische Schema ist gut konzipiert, die experimentelle Bewertung ist umfassend und die Ergebnisse sind überzeugend. Obwohl die praktische Anwendungsvalidierung noch verstärkt werden muss, eröffnet es neue Forschungsrichtungen im Proteindesign und hat wichtige akademische Werte und Anwendungsperspektiven.