2025-11-11T13:16:09.695232

Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization

Wang, Ji, Tian et al.
Antibodies are essential proteins responsible for immune responses in organisms, capable of specifically recognizing antigen molecules of pathogens. Recent advances in generative models have significantly enhanced rational antibody design. However, existing methods mainly create antibodies from scratch without template constraints, leading to model optimization challenges and unnatural sequences. To address these issues, we propose a retrieval-augmented diffusion framework, termed RADAb, for efficient antibody design. Our method leverages a set of structural homologous motifs that align with query structural constraints to guide the generative model in inversely optimizing antibodies according to desired design criteria. Specifically, we introduce a structure-informed retrieval mechanism that integrates these exemplar motifs with the input backbone through a novel dual-branch denoising module, utilizing both structural and evolutionary information. Additionally, we develop a conditional diffusion model that iteratively refines the optimization process by incorporating both global context and local evolutionary conditions. Our approach is agnostic to the choice of generative models. Empirical experiments demonstrate that our method achieves state-of-the-art performance in multiple antibody inverse folding and optimization tasks, offering a new perspective on biomolecular generative models.
academic

Modello di Diffusione Aumentato da Recupero per la Progettazione e l'Ottimizzazione di Anticorpi Informati dalla Struttura

Informazioni Fondamentali

  • ID Articolo: 2410.15040
  • Titolo: Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization
  • Autori: Zichen Wang, Yaokun Ji, Jianing Tian, Shuangjia Zheng
  • Classificazione: cs.AI
  • Conferenza di Pubblicazione: ICLR 2025
  • Link Articolo: https://arxiv.org/abs/2410.15040

Riassunto

Gli anticorpi sono proteine essenziali responsabili della risposta immunitaria dell'organismo, in grado di riconoscere specificamente le molecole antigeniche dei patogeni. Sebbene i recenti progressi nei modelli generativi abbiano significativamente migliorato le capacità di progettazione razionale degli anticorpi, i metodi esistenti creano principalmente anticorpi ex novo mancando di vincoli di template, causando difficoltà di ottimizzazione del modello e problemi di sequenze non naturali. Per affrontare questi problemi, questo articolo propone un framework di diffusione aumentato da recupero RADAb per la progettazione efficiente di anticorpi. Il metodo utilizza un insieme di motivi strutturalmente omologhi allineati ai vincoli di struttura della query per guidare il modello generativo nell'ottimizzazione inversa degli anticorpi secondo i criteri di progettazione desiderati. Nello specifico, introduce un meccanismo di recupero informato dalla struttura che integra questi motivi di esempio con lo scheletro di input attraverso un innovativo modulo di denoising a doppio ramo, sfruttando al contempo informazioni strutturali ed evolutive. Inoltre, sviluppa un modello di diffusione condizionata che ottimizza iterativamente il processo combinando contesto globale e condizioni evolutive locali. Il metodo è indipendente dalla scelta del modello generativo, e gli esperimenti dimostrano prestazioni all'avanguardia su molteplici compiti di ripiegamento inverso e ottimizzazione di anticorpi.

Contesto di Ricerca e Motivazione

Definizione del Problema

La sfida centrale nella progettazione di anticorpi è come generare sequenze di anticorpi funzionali con proprietà biochimiche predefinite. Lo sviluppo tradizionale di anticorpi si basa su metodi sperimentali ad alta intensità di lavoro, come l'immunizzazione animale o lo screening di librerie di anticorpi su larga scala, spesso incapaci di produrre efficacemente anticorpi contro epitopi rilevanti dal punto di vista terapeutico.

Limitazioni dei Metodi Esistenti

  1. Scarsità di Dati: Dipende principalmente dal database SAbDab, contenente meno di diecimila strutture di complessi antigene-anticorpo, limitando la capacità del modello di catturare informazioni di interazioni di ordine superiore
  2. Difficoltà di Progettazione ex novo: I metodi esistenti tentano di progettare sequenze di anticorpi da zero, mancando di guida basata su template, richiedendo grandi quantità di dati e addestramento estensivo
  3. Assenza di Vincoli Strutturali: I modelli generativi attuali hanno difficoltà a progettare anticorpi che rispettino vincoli strutturali e possiedano proprietà biologiche desiderate

Motivazione della Ricerca

Questo articolo è ispirato dalla progettazione di anticorpi basata su template e frammenti, mirando a:

  1. Migliorare le capacità generative del modello sfruttando informazioni geometriche proteiche locali e globali consapevoli del template
  2. Integrare segnali evolutivi dei motivi per prevenire l'overfitting
  3. Richiedere un addestramento o un fine-tuning minimo nelle applicazioni pratiche

Contributi Principali

  1. Framework di Generazione Aumentato da Recupero Pioneristico: Propone il primo framework di generazione aumentato da recupero per la progettazione razionale di anticorpi, utilizzando un insieme di frammenti simili a CDR funzionali che soddisfano la struttura dello scheletro desiderata e le caratteristiche per guidare la generazione
  2. Meccanismo di Recupero Innovativo: Introduce un meccanismo di recupero informato dalla struttura che integra motivi di esempio con lo scheletro di input attraverso un modulo di denoising a doppio ramo, sfruttando informazioni strutturali ed evolutive
  3. Miglioramento Significativo delle Prestazioni: Migliora i metodi all'avanguardia su molteplici compiti di ripiegamento inverso di anticorpi, come un miglioramento dell'AAR dell'8,08% nel compito di ripiegamento inverso di CDRH3 lungo, e un miglioramento medio assoluto di ΔΔG di 7 cal/mol nei compiti di ottimizzazione funzionale

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un complesso di framework anticorpale CabC_{ab}, un antigene CagC_{ag} e frammenti simili a CDR recuperati AA, l'obiettivo è predire la distribuzione di sequenza della regione CDR R={sjj{a+1,...,a+m}}R = \{s_j | j \in \{a+1, ..., a+m\}\}, dove mm è la lunghezza del CDR e aa è la posizione iniziale.

Architettura del Modello

1. Modulo di Recupero Strutturale

Utilizza l'algoritmo MASTER per il recupero strutturale:

  • Input: Insieme di coordinate atomiche dello scheletro CDR X={xkk{1,...,m}}X = \{x_k | k \in \{1, ..., m\}\}
  • Misura di Similarità: Deviazione quadratica media (RMSD) degli atomi dello scheletro
  • Output: Insieme di frammenti simili a CDR strutturalmente simili A={Aii{1,...,k}}A = \{A_i | i \in \{1, ..., k\}\}

2. Rete di Denoising a Doppio Ramo

Ramo di Contesto Geometrico Globale:

  • Codificatore di Contesto: Estrae caratteristiche di singolo residuo ziz_i e caratteristiche di coppia di residui yijy_{ij}
  • Codificatore Evolutivo: Utilizza ESM2 per estrarre embedding evolutivi della sequenza anticorpale ete^t
  • Rete di Informazioni Strutturali: Elabora attraverso strati di livello IPA, producendo rappresentazione di probabilità globale rglobalr_{global}

Ramo Focalizzato su CDR Locale:

  • Attenzione Assiale Focalizzata su CDR: Costruisce matrice pseudo-MSA PP: P=concat((SabRgt),E)P = \text{concat}((S_{ab} \cup R^t_g), E) dove EE è la matrice di sequenza di frammenti di esempio
  • Meccanismo di Attenzione Tied Row: Considera simultaneamente punteggi di attenzione multi-riga, sfruttando similarità strutturale
  • Fusione di Informazioni: Fonde rlocalr_{local} e rglobalr_{global} attraverso connessioni di salto

3. Processo di Diffusione Condizionata

Aggiunta di rumore nel processo forward: q(sjtsjt1)=Multinomial((1βt)onehot(sjt1)+βt1201)q(s^t_j | s^{t-1}_j) = \text{Multinomial}((1-\beta_t) \cdot \text{onehot}(s^{t-1}_j) + \beta_t \cdot \frac{1}{20} \cdot \mathbf{1})

Processo di denoising inverso: p(sjt1Rt,Cab,Cag,A)=Multinomial[F(Rt,Cab,Cag,et)+G(F(Rt,Cab,Cag,et),A)][j]p(s^{t-1}_j | R^t, C_{ab}, C_{ag}, A) = \text{Multinomial}[F(R^t, C_{ab}, C_{ag}, e^t) + G(F(R^t, C_{ab}, C_{ag}, e^t), A)][j]

Punti di Innovazione Tecnica

  1. Recupero Informato dalla Struttura: Utilizza l'algoritmo MASTER per recuperare frammenti simili a CDR basati sulla struttura dello scheletro, evitando perdite di informazioni di sequenza
  2. Architettura a Doppio Ramo: Il ramo globale cattura il contesto del complesso antigene-anticorpo, il ramo locale apprende informazioni evolutive omologhe
  3. Attenzione Tied Row: Meccanismo di attenzione appositamente progettato che sfrutta pienamente la similarità strutturale
  4. Indipendenza dal Modello: Il framework può integrarsi con qualsiasi modello generativo di diffusione

Configurazione Sperimentale

Dataset

  • Set di Addestramento: Database SAbDab, con rimozione di strutture con risoluzione inferiore a 4Å, clustering basato su similarità di sequenza del 50% nella regione CDRH3
  • Set di Test: 50 file PDB, contenenti 63 strutture di complessi anticorpo-antigene
  • Database di Frammenti Simili a CDR: Costruito da PDB non ridondante, contenente motivi funzionali lineari simili a CDR strutturalmente compatibili

Metriche di Valutazione

  1. Tasso di Recupero di Aminoacidi (AAR): Proporzione di posizioni di aminoacidi identici tra la sequenza progettata e la vera sequenza CDR
  2. RMSD di Autoconsistenza (scRMSD): RMSD degli atomi Cα della regione CDR dopo ripiegamento della struttura anticorpale riprogettata
  3. Plausibilità: Pseudo-verosimiglianza logaritmica calcolata utilizzando AntiBERTy

Metodi di Confronto

  • Metodi Tradizionali: Grafting (trasferimento diretto del frammento recuperato top-1)
  • Metodi di Apprendimento Profondo: ProteinMPNN, ESM-IF1, Diffab-fix, AbMPNN

Dettagli di Implementazione

  • Ottimizzatore: Adam, tasso di apprendimento 0.0001
  • Dimensione del batch: 8
  • CDRH3 addestrato separatamente per 100.000 iterazioni, altre regioni CDR addestrate congiuntamente per 250.000 iterazioni
  • Passi temporali di diffusione: 100 passi

Risultati Sperimentali

Risultati Principali

Risultati di Ripiegamento Inverso di Sequenza CDR di Anticorpi:

MetodoCDRH3 AAR(%)CDRH3 scRMSDCDRH3 Plausibility
Grafting19.633.20-0.591
ProteinMPNN41.772.27-0.605
Diffab-fix49.172.24-0.541
AbMPNN52.992.80-0.675
RADAb57.022.23-0.530

Risultati di Progettazione di Sequenza CDRH3 Lunga (lunghezza >14):

MetodoAAR(%)scRMSDPlausibility
Diffab-fix42.263.02-0.740
RADAb51.352.52-0.747

Risultati di Ottimizzazione Funzionale

Risultati di Ottimizzazione dell'Energia di Legame:

MetodoΔΔG↓ΔΔG-seq↓IMP-seq(%)↑
Grafting135.1740.2232.69
ProteinMPNN127.1424.7235.51
Diffab-fix116.3614.0534.52
RADAb109.167.0637.30

Esperimenti di Ablazione

ComponenteAAR(%)scRMSDPlausibility
Modello Completo57.022.23-0.530
Senza Recupero Aumentato52.152.39-0.529
Senza Embedding Evolutivo51.362.23-0.538
Baseline Diffab49.172.24-0.541

Analisi di Casi

Utilizzando l'anticorpo neutralizzante SARS-CoV-2 (PDB: 7d6i) come esempio, il 68% dei 50 campioni di sequenza CDRH3 generati ha mostrato valori di ΔG inferiori rispetto al complesso originale, dimostrando l'effetto di ottimizzazione funzionale.

Lavori Correlati

Metodi di Progettazione di Anticorpi

  1. Metodi Tradizionali: Metodi basati su ottimizzazione di funzioni energetiche e similarità di sequenza
  2. Metodi di Apprendimento Automatico:
    • Progettazione di sequenza anticorpale: Modelli di linguaggio e modelli di ripiegamento inverso
    • Progettazione cooperativa sequenza-struttura specifica per antigene: Metodi di reti neurali grafiche

Modelli Generativi di Diffusione

Applicazione di modelli di diffusione nella progettazione proteica, inclusi il processo di rumore forward di DDPM e il processo di generazione inverso.

Generazione Aumentata da Recupero

Tecnologia RAG estesa dal campo dell'elaborazione del linguaggio naturale alla visione artificiale e alla generazione molecolare, con questo articolo che la applica per la prima volta alla progettazione di anticorpi.

Conclusioni e Discussione

Conclusioni Principali

  1. RADAb raggiunge prestazioni all'avanguardia su molteplici compiti di progettazione di anticorpi
  2. Il meccanismo di recupero aumentato migliora significativamente la qualità generativa e la funzionalità del modello
  3. L'architettura a doppio ramo integra efficacemente il contesto globale e le informazioni evolutive locali

Limitazioni

  1. Verifica Sperimentale Insufficiente: Non ancora completamente verificata in esperimenti umidi
  2. Overhead Computazionale: Il recupero strutturale e la codifica ESM2 richiedono più risorse computazionali
  3. Rischio di Perdita di Dati: L'applicazione del meccanismo di recupero attuale nella progettazione cooperativa sequenza-struttura presenta rischi di perdita di dati

Direzioni Future

  1. La verifica sperimentale umida sarà uno dei compiti principali
  2. Estensione del modello a vari progetti di motivi proteici
  3. Esplorazione del recupero PPI per evitare problemi di perdita di dati

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Prima applicazione della tecnologia di recupero aumentato alla progettazione di anticorpi, propone un'architettura a doppio ramo innovativa
  2. Tecnica Solida: Il meccanismo di recupero informato dalla struttura è ben progettato, evitando perdite di informazioni di sequenza
  3. Esperimenti Completi: Valutazione completa su molteplici compiti e metriche, inclusi esperimenti di ablazione
  4. Prestazioni Eccellenti: Raggiunge prestazioni all'avanguardia su tutti i compiti di valutazione

Insufficienze

  1. Praticità da Verificare: Mancanza di verifica sperimentale umida, effetto di applicazione pratica sconosciuto
  2. Complessità Computazionale Elevata: Il processo di recupero e la rete a doppio ramo aumentano il carico computazionale
  3. Limitazione dell'Ambito di Applicabilità: Principalmente orientato ai compiti di ripiegamento inverso, con limitazioni nella progettazione a atomo completo

Impatto

  1. Contributo Accademico: Fornisce una nuova prospettiva per i modelli generativi di biomolecole, promuove l'applicazione della tecnologia di recupero aumentato nella progettazione proteica
  2. Valore Pratico: Promette di accelerare il processo di progettazione di farmaci anticorpali, riducendo i costi sperimentali
  3. Riproducibilità: Fornisce dettagli di implementazione dettagliati e codice open source

Scenari Applicabili

  1. Progettazione di ottimizzazione CDR basata su template di anticorpi noti
  2. Miglioramento di sequenza anticorpale che richiede il mantenimento di vincoli strutturali
  3. Maturazione dell'affinità anticorpale e ottimizzazione funzionale

Bibliografia

Questo articolo cita lavori importanti nei campi della progettazione di anticorpi, modelli di diffusione e generazione aumentata da recupero, fornendo una base teorica solida e supporto tecnico per il framework RADAb.


Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone un framework di diffusione innovativo aumentato da recupero nel campo della progettazione di anticorpi. La soluzione tecnica è ben progettata, la valutazione sperimentale è completa e i risultati sono convincenti. Sebbene la verifica dell'applicazione pratica richieda ulteriore rafforzamento, apre una nuova direzione di ricerca nel campo della progettazione proteica, con significativo valore accademico e prospettive di applicazione.