2025-11-16T00:34:12.699199

Latent Retrieval Augmented Generation of Cross-Domain Protein Binders

Zhang, Kong, Huang et al.
Designing protein binders targeting specific sites, which requires to generate realistic and functional interaction patterns, is a fundamental challenge in drug discovery. Current structure-based generative models are limited in generating nterfaces with sufficient rationality and interpretability. In this paper, we propose Retrieval-Augmented Diffusion for Aligned interface (RADiAnce), a new framework that leverages known interfaces to guide the design of novel binders. By unifying retrieval and generation in a shared contrastive latent space, our model efficiently identifies relevant interfaces for a given binding site and seamlessly integrates them through a conditional latent diffusion generator, enabling cross-domain interface transfer. Extensive exeriments show that RADiAnce significantly outperforms baseline models across multiple metrics, including binding affinity and recovery of geometries and interactions. Additional experimental results validate cross-domain generalization, demonstrating that retrieving interfaces from diverse domains, such as peptides, antibodies, and protein fragments, enhances the generation performance of binders for other domains. Our work establishes a new paradigm for protein binder design that successfully bridges retrieval-based knowledge and generative AI, opening new possibilities for drug discovery.
academic

Generazione Aumentata da Recupero Latente di Leganti Proteici Cross-Dominio

Informazioni Fondamentali

  • ID Articolo: 2510.10480
  • Titolo: Latent Retrieval Augmented Generation of Cross-Domain Protein Binders
  • Autori: Zishen Zhang, Xiangzhe Kong, Wenbing Huang, Yang Liu
  • Classificazione: cs.LG cs.AI
  • Data di Pubblicazione/Conferenza: Preprint. In revisione (ottobre 2024)
  • Link Articolo: https://arxiv.org/abs/2510.10480

Riassunto

La progettazione di leganti proteici specifici per siti di legame è una sfida fondamentale nella scoperta di farmaci, richiedendo la generazione di pattern di interazione realistici e funzionali. I modelli generativi attuali basati su struttura presentano limitazioni nella generazione di interfacce con sufficiente plausibilità e interpretabilità. Questo articolo propone il framework RADiAnce (Retrieval Augmented Diffusion Aligned Interface), che sfrutta interfacce note per guidare la progettazione di nuovi leganti. Unificando il recupero e la generazione in uno spazio latente contrastivo condiviso, il modello identifica efficientemente interfacce rilevanti per un dato sito di legame e le integra perfettamente attraverso un generatore di diffusione latente condizionato, realizzando il trasferimento di interfacce cross-dominio.

Contesto di Ricerca e Motivazione

Problemi Fondamentali

  1. Sfide nella Progettazione di Leganti Proteici: La progettazione di leganti in grado di colpire siti proteici specifici richiede la generazione di pattern di interazione molecolare realistici e funzionali
  2. Limitazioni dei Metodi Esistenti: I modelli generativi strutturali attuali mancano di plausibilità e interpretabilità, non riuscendo a sfruttare efficacemente le informazioni strutturali note

Importanza

  • Applicazioni diffuse nella scoperta di farmaci, biologia strutturale e campi correlati
  • I metodi tradizionali dipendono dall'ottimizzazione del campionamento del paesaggio energetico fisico o statistico, con efficienza ridotta
  • Sebbene i modelli generativi profondi abbiano fatto progressi, rimane difficile generare interfacce molecolari plausibili

Limitazioni dei Metodi Esistenti

  1. Trascuramento della Conoscenza Pregressa: La maggior parte dei metodi genera basandosi solo sul sito di legame target, ignorando i ricchi pattern di interazione riutilizzabili nei complessi proteici esistenti
  2. Mancanza di Generalizzazione Cross-Dominio: Incapacità di sfruttare efficacemente i motivi di interazione comuni tra diversi tipi di leganti (come peptidi, anticorpi, frammenti proteici)
  3. Interpretabilità Insufficiente: Il processo generativo manca di principi guida biologici espliciti

Contributi Principali

  1. Proposta del Framework RADiAnce: Primo metodo che applica la generazione aumentata da recupero alla progettazione sinergica sequenza-struttura di leganti proteici
  2. Costruzione di Spazio Latente Contrastivo: Progettazione di una rappresentazione latente condivisa che unifica il recupero e la generazione, supportando la misurazione della similarità di interfacce cross-dominio
  3. Realizzazione del Trasferimento di Interfacce Cross-Dominio: Verifica che il recupero di interfacce da diversi tipi di leganti migliora le prestazioni generative di leganti in altri domini
  4. Miglioramento Significativo delle Prestazioni: Superamento sostanziale dei metodi baseline su molteplici metriche di valutazione, inclusa l'affinità di legame, la geometria e il recupero di interazioni

Dettagli del Metodo

Definizione del Compito

  • Input: Sito di legame della proteina target Y (residui entro 10Å di distanza)
  • Output: Legante molecolare X in grado di legarsi specificamente a questo sito
  • Obiettivo: Modellare la distribuzione condizionata p_θ(X | Y, T(Y|D)), dove T(Y|D) rappresenta interfacce rilevanti recuperate dal database D

Architettura del Modello

1. Autoencoder Variazionale Contrastivo (Contrastive VAE)

Encoder: Zx = Eφ(X), Zy = Eφ(Y)
Decoder: X̂ = Dξ(Zx, Zy, Y)

Progettazioni Chiave:

  • Codifica indipendente del sito di legame Y e del legante X come nuvole di punti latenti
  • Le variabili latenti contengono embedding scalari zi e coordinate 3D z⃗i
  • Allineamento di coppie positive attraverso apprendimento contrastivo, respingimento di coppie negative

Funzione di Perdita:

L(D) = Σ(Lrec + LKL + Lretrieval)

dove:

  • Lrec: perdita di ricostruzione (entropia incrociata + MSE)
  • LKL: regolarizzazione della divergenza KL
  • Lretrieval: perdita contrastiva bidirezionale

2. Diffusione Latente Aumentata da Recupero

Processo Forward:

q(u⃗ti | u⃗t-1i) = N(u⃗ti; √(1-βt)·u⃗t-1i, βtI)

Processo Reverse:

pθ(u⃗t-1i | Ztx, Zy, Tv) = N(u⃗t-1i; μ⃗θ(Ztx, Zy, Tv), βtI)

Meccanismo di Integrazione dei Template:

  • Utilizzo di Transformer equivariante E(3) come nucleo di denoising
  • Integrazione delle informazioni dei template recuperati attraverso meccanismo di cross-attention
  • Calcolo query-chiave-valore: Q = HWQ, K = TWK, V = TWV

Punti di Innovazione Tecnica

  1. Spazio Latente Unificato: Prima realizzazione dell'unificazione del recupero e della generazione nello stesso spazio latente, garantendo che i risultati del recupero guidino direttamente il processo generativo
  2. Misurazione della Similarità Cross-Dominio: La rappresentazione latente appresa attraverso l'apprendimento contrastivo cattura i motivi di interazione comuni tra diversi tipi di leganti
  3. Integrazione della Diffusione Condizionata: Integrazione innovativa delle interfacce recuperate attraverso cross-attention e MLP residui nel processo di diffusione

Configurazione Sperimentale

Dataset

  1. Progettazione di Peptidi: Dataset PepBench
    • Training: 4.157 complessi
    • Validazione: 114 complessi
    • Test: 93 casi benchmark LNR
  2. Progettazione di Anticorpi: Dataset SAbDab
    • Training: 9.473 voci
    • Validazione: 400 voci
    • Test: 60 casi benchmark RAbD
  3. Frammenti Proteici: Dataset ProtFrag
    • 70.498 frammenti proteici derivati da monomeri

Metriche di Valutazione

  • AAR (Amino Acid Recovery Rate): Proporzione di corrispondenza tra sequenza generata e sequenza di riferimento
  • RMSD: Deviazione quadratica media delle coordinate Cα
  • ISM (Interaction Site Matching): Grado di recupero delle interazioni fisico-chimiche critiche
  • ∆∆G: Variazione dell'energia libera di legame
  • IMP: Proporzione di leganti generati superiori al ligando naturale

Metodi di Confronto

  • Progettazione di Peptidi: RFDiffusion, PepFlow, PepGLAD, UniMoMo
  • Progettazione di Anticorpi: MEAN, DyMEAN, DiffAb, GeoAB, UniMoMo

Risultati Sperimentali

Risultati Principali

Progettazione Sinergica Sequenza-Struttura di Peptidi

ModelloAAR (%)RMSD (Å)∆∆G (kJ/mol)IMP (%)ISM (%)
RFDiffusion34.684.6924.785.3828.38
PepFlow35.472.8715.7114.1327.83
PepGLAD38.622.7415.2616.1332.63
UniMoMo38.692.312.40940.8649.13
RADiAnce39.422.291.96341.9452.15

Progettazione CDR di Anticorpi

RADiAnce supera significativamente i metodi baseline in tutte le regioni CDR (H1, H2, H3, L1, L2, L3):

  • Regione H1: AAR migliora fino al 90.83%, ∆∆G migliora fino a -8.221 kJ/mol
  • Regione H3 (più impegnativa): AAR raggiunge il 54.66%, significativamente superiore ad altri metodi

Verifica dell'Affidabilità del Recupero

Configurazione ModelloITO(%)RC-0.1%RC-0.5%RC-5%
CVAE Anticorpi (Completo)43.9366.6796.67100.0
CVAE Peptidi (Completo)61.4111.5822.5867.74

Esperimenti di Ablazione

  1. Effetto dell'Addestramento Cross-Dominio: L'inclusione di dati multi-dominio migliora significativamente le prestazioni di recupero e generazione
  2. Necessità dell'Addestramento Congiunto: L'ottimizzazione simultanea della perdita VAE e contrastiva è cruciale
  3. Impatto del Numero di Recuperi: Un numero moderato di recuperi (10-20 campioni) produce i migliori risultati

Analisi di Casi

Utilizzando il complesso GPIIb/IIIa (PDB ID: 3NID) come esempio:

  • Senza guida di recupero: difficoltà nel ricostruire i caratteristici pattern di legami idrogeno multipli
  • Con recupero aumentato: integrazione riuscita dei motivi di interazione chiave, recupero dei pattern di legami idrogeno mediati da arginina e tirosina

Lavori Correlati

Progettazione di Peptidi

  • Transizione dal campionamento energetico classico alla modellazione generativa profonda
  • PepFlow/PPFlow adottano abbinamento di flusso multimodale
  • PepGLAD applica diffusione latente geometrica

Progettazione di Anticorpi

  • Dal campionamento fisico tradizionale ai framework di apprendimento profondo
  • DiffAb e altri introducono generazione condizionata da antigene
  • Metodi basati su modelli linguistici come PALM-H3 ricevono attenzione

Generazione Aumentata da Recupero

  • Inizialmente applicata a compiti NLP
  • Metodi come f-RAG e IRDiff nella progettazione molecolare
  • Questo articolo applica per la prima volta il metodo alla progettazione sinergica di leganti proteici

Conclusioni e Discussione

Conclusioni Principali

  1. RADiAnce stabilisce con successo un nuovo paradigma per la progettazione di leganti proteici aumentata da recupero
  2. Il trasferimento di interfacce cross-dominio migliora significativamente le prestazioni generative, verificando l'esistenza di motivi di interazione comuni
  3. Raggiungimento di miglioramenti significativi delle prestazioni su molteplici benchmark

Limitazioni

  1. Dipendenza dalla Qualità del Recupero: La rilevanza dei risultati del recupero influenza direttamente l'efficacia della generazione
  2. Descrittori Strutturali Limitati: La misurazione della similarità attuale potrebbe non catturare completamente le relazioni strutturali complesse
  3. Complessità Computazionale: Richiede la manutenzione di un database di interfacce su larga scala e il recupero in tempo reale

Direzioni Future

  1. Miglioramento dei descrittori strutturali e della misurazione della similarità
  2. Esplorazione di strategie di integrazione condizionata consapevoli della struttura più robuste
  3. Estensione a più tipi molecolari e pattern di interazione

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Primo a introdurre il paradigma RAG nella progettazione di leganti proteici, con percorso tecnico innovativo
  2. Esperimenti Completi: Valutazione complessiva su più dataset e metriche, inclusi dettagliati esperimenti di ablazione
  3. Generalizzazione Cross-Dominio: Verifica della fattibilità del trasferimento di conoscenza tra diversi tipi di leganti
  4. Alto Valore Pratico: Dimostra potenziale in applicazioni reali come la progettazione di anticorpi anti-CD4 dell'HIV-1

Insufficienze

  1. Analisi Teorica Limitata: Manca l'analisi teorica dell'efficacia della misurazione della similarità cross-dominio
  2. Efficienza Computazionale: L'analisi del sovraccarico computazionale e dei requisiti di archiviazione del recupero su larga scala è insufficiente
  3. Assenza di Verifica Biologica: Mancano verifiche sperimentali della funzionalità effettiva dei leganti generati

Impatto

  1. Contributo Accademico: Fornisce un nuovo framework metodologico per la biologia strutturale computazionale
  2. Valore Pratico: Promette di accelerare le applicazioni nella scoperta di farmaci e nell'ingegneria proteica
  3. Riproducibilità: Fornisce dettagli di implementazione e codice per facilitare la riproduzione e l'estensione

Scenari Applicabili

  • Progettazione di composti guida nella scoperta di nuovi farmaci
  • Progettazione computazionale assistita di farmaci anticorpali
  • Ricerca sulle interazioni proteiche
  • Ingegneria proteica nella biologia sintetica

Bibliografia

L'articolo cita 54 lavori correlati, coprendo molteplici campi inclusa la progettazione proteica, i modelli generativi profondi e la generazione aumentata da recupero, fornendo una solida base teorica per la ricerca.