2025-11-16T00:34:12.699199

Latent Retrieval Augmented Generation of Cross-Domain Protein Binders

Zhang, Kong, Huang et al.
Designing protein binders targeting specific sites, which requires to generate realistic and functional interaction patterns, is a fundamental challenge in drug discovery. Current structure-based generative models are limited in generating nterfaces with sufficient rationality and interpretability. In this paper, we propose Retrieval-Augmented Diffusion for Aligned interface (RADiAnce), a new framework that leverages known interfaces to guide the design of novel binders. By unifying retrieval and generation in a shared contrastive latent space, our model efficiently identifies relevant interfaces for a given binding site and seamlessly integrates them through a conditional latent diffusion generator, enabling cross-domain interface transfer. Extensive exeriments show that RADiAnce significantly outperforms baseline models across multiple metrics, including binding affinity and recovery of geometries and interactions. Additional experimental results validate cross-domain generalization, demonstrating that retrieving interfaces from diverse domains, such as peptides, antibodies, and protein fragments, enhances the generation performance of binders for other domains. Our work establishes a new paradigm for protein binder design that successfully bridges retrieval-based knowledge and generative AI, opening new possibilities for drug discovery.
academic

Latente Retrieval-Augmented Generation von domänenübergreifenden Proteinbindern

Grundinformationen

  • Paper-ID: 2510.10480
  • Titel: Latent Retrieval Augmented Generation of Cross-Domain Protein Binders
  • Autoren: Zishen Zhang, Xiangzhe Kong, Wenbing Huang, Yang Liu
  • Klassifizierung: cs.LG cs.AI
  • Veröffentlichungsdatum/Konferenz: Preprint. Zur Überprüfung eingereicht (Oktober 2024)
  • Paper-Link: https://arxiv.org/abs/2510.10480

Zusammenfassung

Die Gestaltung von Proteinbindern für spezifische Bindungsstellen ist eine grundlegende Herausforderung in der Wirkstoffforschung und erfordert die Erzeugung realistischer und funktionaler Wechselwirkungsmuster. Aktuelle strukturbasierte Generierungsmodelle haben Einschränkungen bei der Erzeugung von Schnittstellen mit ausreichender Plausibilität und Interpretierbarkeit. Dieses Papier präsentiert RADiAnce (Retrieval Augmented Diffusion Aligned Interface Framework), das durch die Nutzung bekannter Schnittstellen die Gestaltung neuartiger Binder leitet. Durch die Vereinigung von Retrieval und Generierung in einem gemeinsamen kontrastiven latenten Raum kann das Modell effizient relevante Schnittstellen für eine gegebene Bindungsstelle identifizieren und diese nahtlos durch einen bedingten latenten Diffusions-Generator integrieren, um domänenübergreifende Schnittstellenübertragung zu ermöglichen.

Forschungshintergrund und Motivation

Kernprobleme

  1. Herausforderungen beim Proteinbinder-Design: Die Gestaltung von Bindern, die spezifische Proteinbindungsstellen anvisieren, erfordert die Erzeugung realistischer und funktionaler molekularer Schnittstellenwechselwirkungsmuster
  2. Einschränkungen bestehender Methoden: Aktuelle Strukturgenerierungsmodelle mangelt es an Plausibilität und Interpretierbarkeit, und sie können bekannte Strukturinformationen nicht effektiv nutzen

Bedeutung

  • Breite Anwendungswerte in Wirkstoffforschung, Strukturbiologie und verwandten Bereichen
  • Traditionelle Methoden beruhen auf physikalischer oder statistischer Energielandschafts-Sampling-Optimierung mit geringer Effizienz
  • Obwohl tiefe Generierungsmodelle Fortschritte gemacht haben, ist es immer noch schwierig, plausible molekulare Schnittstellen zu generieren

Einschränkungen bestehender Methoden

  1. Vernachlässigung von Vorwissen: Die meisten Methoden generieren nur auf Basis der Ziel-Bindungsstelle und ignorieren wiederverwendbare Wechselwirkungsmuster in bekannten Proteinkomplexen
  2. Mangelnde domänenübergreifende Verallgemeinerung: Unfähigkeit, gemeinsame Wechselwirkungsmotive zwischen verschiedenen Bindertypen (wie Peptide, Antikörper, Proteinfragmente) effektiv zu nutzen
  3. Unzureichende Interpretierbarkeit: Der Generierungsprozess mangelt es an klaren biologischen Leitprinzipien

Kernbeiträge

  1. Vorstellung des RADiAnce-Frameworks: Erste Methode, die Retrieval-Augmented Generation auf das kooperative Sequenz-Struktur-Design von Proteinbindern anwendet
  2. Konstruktion eines kontrastiven latenten Raums: Entwurf einer gemeinsamen latenten Darstellung, die Retrieval und Generierung vereint und domänenübergreifende Schnittstellenähnlichkeitsmessungen unterstützt
  3. Realisierung domänenübergreifender Schnittstellenübertragung: Validierung, dass das Retrieval von Schnittstellen aus verschiedenen Bindertypen die Generierungsleistung anderer Domänenbinder verbessert
  4. Signifikante Leistungsverbesserung: Deutliche Überlegenheit gegenüber Baseline-Methoden bei mehreren Bewertungsmetriken, einschließlich Bindungsaffinität, Geometrie und Wechselwirkungswiederherstellung

Methodische Details

Aufgabendefinition

  • Eingabe: Bindungsstelle Y des Zielproteins (Reste innerhalb von 10 Å Entfernung)
  • Ausgabe: Molekularer Binder X, der spezifisch an diese Stelle binden kann
  • Ziel: Modellierung der bedingten Verteilung p_θ(X | Y, T(Y|D)), wobei T(Y|D) relevante Schnittstellen sind, die aus Datenbank D abgerufen werden

Modellarchitektur

1. Kontrastive Variational Autoencoder (Contrastive VAE)

Encoder: Zx = Eφ(X), Zy = Eφ(Y)
Decoder: X̂ = Dξ(Zx, Zy, Y)

Schlüsseldesign:

  • Unabhängige Kodierung der Bindungsstelle Y und des Binders X als latente Punktwolken
  • Latente Variablen enthalten skalare Einbettungen zi und 3D-Koordinaten z⃗i
  • Ausrichtung positiver Stichprobenpaare durch kontrastives Lernen, Abstoßung negativer Paare

Verlustfunktion:

L(D) = Σ(Lrec + LKL + Lretrieval)

wobei:

  • Lrec: Rekonstruktionsverlust (Kreuzentropie + MSE)
  • LKL: KL-Divergenz-Regularisierung
  • Lretrieval: Bidirektionaler Kontrastivverlust

2. Retrieval-Augmented Latente Diffusion

Vorwärtsprozess:

q(u⃗ti | u⃗t-1i) = N(u⃗ti; √(1-βt)·u⃗t-1i, βtI)

Rückwärtsprozess:

pθ(u⃗t-1i | Ztx, Zy, Tv) = N(u⃗t-1i; μ⃗θ(Ztx, Zy, Tv), βtI)

Template-Integrationsmechanismus:

  • Verwendung eines E(3)-äquivarianten Transformers als Denoise-Kern
  • Integration abgerufener Template-Informationen durch Cross-Attention-Mechanismus
  • Query-Key-Value-Berechnung: Q = HWQ, K = TWK, V = TWV

Technische Innovationen

  1. Vereinheitlichter latenter Raum: Erstmalige Realisierung der Vereinigung von Retrieval und Generierung im gleichen latenten Raum, um sicherzustellen, dass abgerufene Ergebnisse den Generierungsprozess direkt leiten können
  2. Domänenübergreifende Ähnlichkeitsmessung: Durch kontrastives Lernen erlernte latente Darstellungen können gemeinsame Wechselwirkungsmotive zwischen verschiedenen Bindertypen erfassen
  3. Bedingte Diffusions-Integration: Innovative Integration abgerufener Schnittstelleneinbettungen durch Cross-Attention und residuelle MLPs in den Diffusionsprozess

Experimentelle Einrichtung

Datensätze

  1. Peptid-Design: PepBench-Datensatz
    • Training: 4.157 Komplexe
    • Validierung: 114 Komplexe
    • Test: 93 LNR-Benchmark-Fälle
  2. Antikörper-Design: SAbDab-Datensatz
    • Training: 9.473 Einträge
    • Validierung: 400 Einträge
    • Test: 60 RAbD-Benchmark-Fälle
  3. Proteinfragmente: ProtFrag-Datensatz
    • 70.498 von Monomeren abgeleitete Proteinfragmente

Bewertungsmetriken

  • AAR (Aminosäure-Wiederherstellungsrate): Übereinstimmungsquote zwischen generierter und Referenzsequenz
  • RMSD: Quadratische Abweichung der Cα-Koordinaten
  • ISM (Wechselwirkungsstellen-Matching): Wiederherstellungsgrad kritischer physikochemischer Wechselwirkungen
  • ∆∆G: Änderung der Bindungsfreien Energie
  • IMP: Anteil der Ziele, bei denen der generierte Binder dem natürlichen Liganden überlegen ist

Vergleichsmethoden

  • Peptid-Design: RFDiffusion, PepFlow, PepGLAD, UniMoMo
  • Antikörper-Design: MEAN, DyMEAN, DiffAb, GeoAB, UniMoMo

Experimentelle Ergebnisse

Hauptergebnisse

Kooperatives Peptid-Sequenz-Struktur-Design

ModellAAR (%)RMSD (Å)∆∆G (kJ/mol)IMP (%)ISM (%)
RFDiffusion34,684,6924,785,3828,38
PepFlow35,472,8715,7114,1327,83
PepGLAD38,622,7415,2616,1332,63
UniMoMo38,692,312,40940,8649,13
RADiAnce39,422,291,96341,9452,15

Antikörper-CDR-Design

RADiAnce übertrifft Baseline-Methoden in allen CDR-Regionen (H1, H2, H3, L1, L2, L3) signifikant:

  • H1-Region: AAR verbessert sich auf 90,83 %, ∆∆G verbessert sich auf -8,221 kJ/mol
  • H3-Region (am anspruchsvollsten): AAR erreicht 54,66 %, deutlich besser als andere Methoden

Validierung der Abruf-Zuverlässigkeit

ModellkonfigurationITO(%)RC-0,1%RC-0,5%RC-5%
Antikörper-CVAE (vollständig)43,9366,6796,67100,0
Peptid-CVAE (vollständig)61,4111,5822,5867,74

Ablationsstudien

  1. Domänenübergreifender Trainingseffekt: Die Einbeziehung von Multi-Domain-Daten verbessert die Abruf- und Generierungsleistung erheblich
  2. Notwendigkeit des gemeinsamen Trainings: Gleichzeitige Optimierung von VAE und Kontrastivverlust ist entscheidend
  3. Einfluss der Abrufmenge: Optimale Ergebnisse mit angemessenem Abruf (10-20 Proben)

Fallanalyse

Am Beispiel des GPIIb/IIIa-Komplexes (PDB-ID: 3NID):

  • Ohne Abruf-Anleitung: Schwierigkeiten bei der Rekonstruktion charakteristischer Mehrfach-Wasserstoffbrückenwechselwirkungen
  • Mit Abruf-Verstärkung: Erfolgreiche Übernahme von Schlüssel-Wechselwirkungsmotiven, Wiederherstellung von Arginin- und Tyrosin-vermittelten Wasserstoffbrückenmuster

Verwandte Arbeiten

Peptid-Design

  • Übergang von klassischer Energieprobenahme zu tiefem generativem Modellieren
  • PepFlow/PPFlow nutzen multimodale Flow-Matching
  • PepGLAD wendet geometrische latente Diffusion an

Antikörper-Design

  • Von traditioneller physikalischer Probenahme zu Deep-Learning-Frameworks
  • DiffAb und andere führen antigenbedingte Generierung ein
  • Sprachmodell-Methoden wie PALM-H3 erhalten Aufmerksamkeit

Retrieval-Augmented Generation

  • Ursprünglich in NLP-Aufgaben angewendet
  • f-RAG, IRDiff und andere Methoden im Moleküldesign
  • Dieses Papier wendet es erstmals auf das kooperative Design von Proteinbindern an

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. RADiAnce etabliert erfolgreich ein neues Paradigma für das Retrieval-Augmented-Proteinbinder-Design
  2. Domänenübergreifende Schnittstellenübertragung verbessert die Generierungsleistung erheblich und validiert die Existenz gemeinsamer Wechselwirkungsmotive
  3. Signifikante Leistungsverbesserungen in mehreren Benchmark-Tests

Einschränkungen

  1. Leistungsabhängigkeit von Abrufqualität: Die Relevanz der Abrufergebnisse beeinflusst direkt die Generierungseffektivität
  2. Begrenzte Strukturdeskriptoren: Aktuelle Ähnlichkeitsmessungen erfassen möglicherweise nicht vollständig komplexe Strukturbeziehungen
  3. Rechenkomplexität: Erfordert Wartung großer Schnittstellendatenbanken und Echtzeit-Abruf

Zukünftige Richtungen

  1. Verbesserung von Strukturdeskriptoren und Ähnlichkeitsmessungen
  2. Erforschung robusterer strukturbewusster Bedingungsintegrationstrategien
  3. Erweiterung auf weitere Molekültypen und Wechselwirkungsmuster

Tiefgreifende Bewertung

Stärken

  1. Starke Innovativität: Erstmalige Anwendung des RAG-Paradigmas auf das Proteinbinder-Design mit neuartiger technischer Route
  2. Umfassende Experimente: Umfassende Bewertung über mehrere Datensätze und Metriken mit detaillierten Ablationsstudien
  3. Domänenübergreifende Verallgemeinerung: Validierung der Machbarkeit des Wissenstransfers zwischen verschiedenen Bindertypen
  4. Hoher praktischer Wert: Zeigt Potenzial in praktischen Anwendungen wie HIV-1-CD4-Rezeptor-Antikörper-Design

Mängel

  1. Unzureichende theoretische Analyse: Mangelnde theoretische Erklärung für die Wirksamkeit domänenübergreifender Ähnlichkeitsmessungen
  2. Rechnereffizienz: Unzureichende Analyse der Rechenkosten und Speicheranforderungen großflächiger Abrufe
  3. Fehlende biologische Validierung: Mangel an Laborvalidierung der tatsächlichen Funktionalität generierter Binder

Auswirkungen

  1. Akademischer Beitrag: Bietet einen neuen methodologischen Rahmen für die Computerstrukturbiologie
  2. Praktischer Wert: Verspricht Beschleunigung von Wirkstoffforschung und Proteinengineering-Anwendungen
  3. Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Code für einfache Reproduktion und Erweiterung

Anwendungsszenarien

  • Leitstruktur-Design in der Neuentwicklung von Arzneimitteln
  • Computergestützte Designunterstützung für Antikörpertherapeutika
  • Proteinwechselwirkungsforschung
  • Proteinengineering in der synthetischen Biologie

Literaturverzeichnis

Das Papier zitiert 54 relevante Referenzen, die wichtige Arbeiten in mehreren Bereichen abdecken, darunter Proteindesign, tiefe Generierungsmodelle und Retrieval-Augmented Generation, und bietet eine solide theoretische Grundlage für die Forschung.