Latent Retrieval Augmented Generation of Cross-Domain Protein Binders
Zhang, Kong, Huang et al.
Designing protein binders targeting specific sites, which requires to generate realistic and functional interaction patterns, is a fundamental challenge in drug discovery. Current structure-based generative models are limited in generating nterfaces with sufficient rationality and interpretability. In this paper, we propose Retrieval-Augmented Diffusion for Aligned interface (RADiAnce), a new framework that leverages known interfaces to guide the design of novel binders. By unifying retrieval and generation in a shared contrastive latent space, our model efficiently identifies relevant interfaces for a given binding site and seamlessly integrates them through a conditional latent diffusion generator, enabling cross-domain interface transfer. Extensive exeriments show that RADiAnce significantly outperforms baseline models across multiple metrics, including binding affinity and recovery of geometries and interactions. Additional experimental results validate cross-domain generalization, demonstrating that retrieving interfaces from diverse domains, such as peptides, antibodies, and protein fragments, enhances the generation performance of binders for other domains. Our work establishes a new paradigm for protein binder design that successfully bridges retrieval-based knowledge and generative AI, opening new possibilities for drug discovery.
academic
Latente Retrieval-Augmented Generation von domänenübergreifenden Proteinbindern
Die Gestaltung von Proteinbindern für spezifische Bindungsstellen ist eine grundlegende Herausforderung in der Wirkstoffforschung und erfordert die Erzeugung realistischer und funktionaler Wechselwirkungsmuster. Aktuelle strukturbasierte Generierungsmodelle haben Einschränkungen bei der Erzeugung von Schnittstellen mit ausreichender Plausibilität und Interpretierbarkeit. Dieses Papier präsentiert RADiAnce (Retrieval Augmented Diffusion Aligned Interface Framework), das durch die Nutzung bekannter Schnittstellen die Gestaltung neuartiger Binder leitet. Durch die Vereinigung von Retrieval und Generierung in einem gemeinsamen kontrastiven latenten Raum kann das Modell effizient relevante Schnittstellen für eine gegebene Bindungsstelle identifizieren und diese nahtlos durch einen bedingten latenten Diffusions-Generator integrieren, um domänenübergreifende Schnittstellenübertragung zu ermöglichen.
Herausforderungen beim Proteinbinder-Design: Die Gestaltung von Bindern, die spezifische Proteinbindungsstellen anvisieren, erfordert die Erzeugung realistischer und funktionaler molekularer Schnittstellenwechselwirkungsmuster
Einschränkungen bestehender Methoden: Aktuelle Strukturgenerierungsmodelle mangelt es an Plausibilität und Interpretierbarkeit, und sie können bekannte Strukturinformationen nicht effektiv nutzen
Vernachlässigung von Vorwissen: Die meisten Methoden generieren nur auf Basis der Ziel-Bindungsstelle und ignorieren wiederverwendbare Wechselwirkungsmuster in bekannten Proteinkomplexen
Mangelnde domänenübergreifende Verallgemeinerung: Unfähigkeit, gemeinsame Wechselwirkungsmotive zwischen verschiedenen Bindertypen (wie Peptide, Antikörper, Proteinfragmente) effektiv zu nutzen
Unzureichende Interpretierbarkeit: Der Generierungsprozess mangelt es an klaren biologischen Leitprinzipien
Vorstellung des RADiAnce-Frameworks: Erste Methode, die Retrieval-Augmented Generation auf das kooperative Sequenz-Struktur-Design von Proteinbindern anwendet
Konstruktion eines kontrastiven latenten Raums: Entwurf einer gemeinsamen latenten Darstellung, die Retrieval und Generierung vereint und domänenübergreifende Schnittstellenähnlichkeitsmessungen unterstützt
Realisierung domänenübergreifender Schnittstellenübertragung: Validierung, dass das Retrieval von Schnittstellen aus verschiedenen Bindertypen die Generierungsleistung anderer Domänenbinder verbessert
Signifikante Leistungsverbesserung: Deutliche Überlegenheit gegenüber Baseline-Methoden bei mehreren Bewertungsmetriken, einschließlich Bindungsaffinität, Geometrie und Wechselwirkungswiederherstellung
Vereinheitlichter latenter Raum: Erstmalige Realisierung der Vereinigung von Retrieval und Generierung im gleichen latenten Raum, um sicherzustellen, dass abgerufene Ergebnisse den Generierungsprozess direkt leiten können
Domänenübergreifende Ähnlichkeitsmessung: Durch kontrastives Lernen erlernte latente Darstellungen können gemeinsame Wechselwirkungsmotive zwischen verschiedenen Bindertypen erfassen
Bedingte Diffusions-Integration: Innovative Integration abgerufener Schnittstelleneinbettungen durch Cross-Attention und residuelle MLPs in den Diffusionsprozess
Am Beispiel des GPIIb/IIIa-Komplexes (PDB-ID: 3NID):
Ohne Abruf-Anleitung: Schwierigkeiten bei der Rekonstruktion charakteristischer Mehrfach-Wasserstoffbrückenwechselwirkungen
Mit Abruf-Verstärkung: Erfolgreiche Übernahme von Schlüssel-Wechselwirkungsmotiven, Wiederherstellung von Arginin- und Tyrosin-vermittelten Wasserstoffbrückenmuster
RADiAnce etabliert erfolgreich ein neues Paradigma für das Retrieval-Augmented-Proteinbinder-Design
Domänenübergreifende Schnittstellenübertragung verbessert die Generierungsleistung erheblich und validiert die Existenz gemeinsamer Wechselwirkungsmotive
Signifikante Leistungsverbesserungen in mehreren Benchmark-Tests
Das Papier zitiert 54 relevante Referenzen, die wichtige Arbeiten in mehreren Bereichen abdecken, darunter Proteindesign, tiefe Generierungsmodelle und Retrieval-Augmented Generation, und bietet eine solide theoretische Grundlage für die Forschung.