Latent Retrieval Augmented Generation of Cross-Domain Protein Binders
Zhang, Kong, Huang et al.
Designing protein binders targeting specific sites, which requires to generate realistic and functional interaction patterns, is a fundamental challenge in drug discovery. Current structure-based generative models are limited in generating nterfaces with sufficient rationality and interpretability. In this paper, we propose Retrieval-Augmented Diffusion for Aligned interface (RADiAnce), a new framework that leverages known interfaces to guide the design of novel binders. By unifying retrieval and generation in a shared contrastive latent space, our model efficiently identifies relevant interfaces for a given binding site and seamlessly integrates them through a conditional latent diffusion generator, enabling cross-domain interface transfer. Extensive exeriments show that RADiAnce significantly outperforms baseline models across multiple metrics, including binding affinity and recovery of geometries and interactions. Additional experimental results validate cross-domain generalization, demonstrating that retrieving interfaces from diverse domains, such as peptides, antibodies, and protein fragments, enhances the generation performance of binders for other domains. Our work establishes a new paradigm for protein binder design that successfully bridges retrieval-based knowledge and generative AI, opening new possibilities for drug discovery.
academic
Generazione Aumentata da Recupero Latente di Leganti Proteici Cross-Dominio
La progettazione di leganti proteici specifici per siti di legame è una sfida fondamentale nella scoperta di farmaci, richiedendo la generazione di pattern di interazione realistici e funzionali. I modelli generativi attuali basati su struttura presentano limitazioni nella generazione di interfacce con sufficiente plausibilità e interpretabilità. Questo articolo propone il framework RADiAnce (Retrieval Augmented Diffusion Aligned Interface), che sfrutta interfacce note per guidare la progettazione di nuovi leganti. Unificando il recupero e la generazione in uno spazio latente contrastivo condiviso, il modello identifica efficientemente interfacce rilevanti per un dato sito di legame e le integra perfettamente attraverso un generatore di diffusione latente condizionato, realizzando il trasferimento di interfacce cross-dominio.
Sfide nella Progettazione di Leganti Proteici: La progettazione di leganti in grado di colpire siti proteici specifici richiede la generazione di pattern di interazione molecolare realistici e funzionali
Limitazioni dei Metodi Esistenti: I modelli generativi strutturali attuali mancano di plausibilità e interpretabilità, non riuscendo a sfruttare efficacemente le informazioni strutturali note
Trascuramento della Conoscenza Pregressa: La maggior parte dei metodi genera basandosi solo sul sito di legame target, ignorando i ricchi pattern di interazione riutilizzabili nei complessi proteici esistenti
Mancanza di Generalizzazione Cross-Dominio: Incapacità di sfruttare efficacemente i motivi di interazione comuni tra diversi tipi di leganti (come peptidi, anticorpi, frammenti proteici)
Interpretabilità Insufficiente: Il processo generativo manca di principi guida biologici espliciti
Proposta del Framework RADiAnce: Primo metodo che applica la generazione aumentata da recupero alla progettazione sinergica sequenza-struttura di leganti proteici
Costruzione di Spazio Latente Contrastivo: Progettazione di una rappresentazione latente condivisa che unifica il recupero e la generazione, supportando la misurazione della similarità di interfacce cross-dominio
Realizzazione del Trasferimento di Interfacce Cross-Dominio: Verifica che il recupero di interfacce da diversi tipi di leganti migliora le prestazioni generative di leganti in altri domini
Miglioramento Significativo delle Prestazioni: Superamento sostanziale dei metodi baseline su molteplici metriche di valutazione, inclusa l'affinità di legame, la geometria e il recupero di interazioni
Spazio Latente Unificato: Prima realizzazione dell'unificazione del recupero e della generazione nello stesso spazio latente, garantendo che i risultati del recupero guidino direttamente il processo generativo
Misurazione della Similarità Cross-Dominio: La rappresentazione latente appresa attraverso l'apprendimento contrastivo cattura i motivi di interazione comuni tra diversi tipi di leganti
Integrazione della Diffusione Condizionata: Integrazione innovativa delle interfacce recuperate attraverso cross-attention e MLP residui nel processo di diffusione
RADiAnce stabilisce con successo un nuovo paradigma per la progettazione di leganti proteici aumentata da recupero
Il trasferimento di interfacce cross-dominio migliora significativamente le prestazioni generative, verificando l'esistenza di motivi di interazione comuni
Raggiungimento di miglioramenti significativi delle prestazioni su molteplici benchmark
L'articolo cita 54 lavori correlati, coprendo molteplici campi inclusa la progettazione proteica, i modelli generativi profondi e la generazione aumentata da recupero, fornendo una solida base teorica per la ricerca.