Antibodies are essential proteins responsible for immune responses in organisms, capable of specifically recognizing antigen molecules of pathogens. Recent advances in generative models have significantly enhanced rational antibody design. However, existing methods mainly create antibodies from scratch without template constraints, leading to model optimization challenges and unnatural sequences. To address these issues, we propose a retrieval-augmented diffusion framework, termed RADAb, for efficient antibody design. Our method leverages a set of structural homologous motifs that align with query structural constraints to guide the generative model in inversely optimizing antibodies according to desired design criteria. Specifically, we introduce a structure-informed retrieval mechanism that integrates these exemplar motifs with the input backbone through a novel dual-branch denoising module, utilizing both structural and evolutionary information. Additionally, we develop a conditional diffusion model that iteratively refines the optimization process by incorporating both global context and local evolutionary conditions. Our approach is agnostic to the choice of generative models. Empirical experiments demonstrate that our method achieves state-of-the-art performance in multiple antibody inverse folding and optimization tasks, offering a new perspective on biomolecular generative models.
- ID Articolo: 2410.15040
- Titolo: Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization
- Autori: Zichen Wang, Yaokun Ji, Jianing Tian, Shuangjia Zheng
- Classificazione: cs.AI
- Conferenza di Pubblicazione: ICLR 2025
- Link Articolo: https://arxiv.org/abs/2410.15040
Gli anticorpi sono proteine essenziali responsabili della risposta immunitaria dell'organismo, in grado di riconoscere specificamente le molecole antigeniche dei patogeni. Sebbene i recenti progressi nei modelli generativi abbiano significativamente migliorato le capacità di progettazione razionale degli anticorpi, i metodi esistenti creano principalmente anticorpi ex novo mancando di vincoli di template, causando difficoltà di ottimizzazione del modello e problemi di sequenze non naturali. Per affrontare questi problemi, questo articolo propone un framework di diffusione aumentato da recupero RADAb per la progettazione efficiente di anticorpi. Il metodo utilizza un insieme di motivi strutturalmente omologhi allineati ai vincoli di struttura della query per guidare il modello generativo nell'ottimizzazione inversa degli anticorpi secondo i criteri di progettazione desiderati. Nello specifico, introduce un meccanismo di recupero informato dalla struttura che integra questi motivi di esempio con lo scheletro di input attraverso un innovativo modulo di denoising a doppio ramo, sfruttando al contempo informazioni strutturali ed evolutive. Inoltre, sviluppa un modello di diffusione condizionata che ottimizza iterativamente il processo combinando contesto globale e condizioni evolutive locali. Il metodo è indipendente dalla scelta del modello generativo, e gli esperimenti dimostrano prestazioni all'avanguardia su molteplici compiti di ripiegamento inverso e ottimizzazione di anticorpi.
La sfida centrale nella progettazione di anticorpi è come generare sequenze di anticorpi funzionali con proprietà biochimiche predefinite. Lo sviluppo tradizionale di anticorpi si basa su metodi sperimentali ad alta intensità di lavoro, come l'immunizzazione animale o lo screening di librerie di anticorpi su larga scala, spesso incapaci di produrre efficacemente anticorpi contro epitopi rilevanti dal punto di vista terapeutico.
- Scarsità di Dati: Dipende principalmente dal database SAbDab, contenente meno di diecimila strutture di complessi antigene-anticorpo, limitando la capacità del modello di catturare informazioni di interazioni di ordine superiore
- Difficoltà di Progettazione ex novo: I metodi esistenti tentano di progettare sequenze di anticorpi da zero, mancando di guida basata su template, richiedendo grandi quantità di dati e addestramento estensivo
- Assenza di Vincoli Strutturali: I modelli generativi attuali hanno difficoltà a progettare anticorpi che rispettino vincoli strutturali e possiedano proprietà biologiche desiderate
Questo articolo è ispirato dalla progettazione di anticorpi basata su template e frammenti, mirando a:
- Migliorare le capacità generative del modello sfruttando informazioni geometriche proteiche locali e globali consapevoli del template
- Integrare segnali evolutivi dei motivi per prevenire l'overfitting
- Richiedere un addestramento o un fine-tuning minimo nelle applicazioni pratiche
- Framework di Generazione Aumentato da Recupero Pioneristico: Propone il primo framework di generazione aumentato da recupero per la progettazione razionale di anticorpi, utilizzando un insieme di frammenti simili a CDR funzionali che soddisfano la struttura dello scheletro desiderata e le caratteristiche per guidare la generazione
- Meccanismo di Recupero Innovativo: Introduce un meccanismo di recupero informato dalla struttura che integra motivi di esempio con lo scheletro di input attraverso un modulo di denoising a doppio ramo, sfruttando informazioni strutturali ed evolutive
- Miglioramento Significativo delle Prestazioni: Migliora i metodi all'avanguardia su molteplici compiti di ripiegamento inverso di anticorpi, come un miglioramento dell'AAR dell'8,08% nel compito di ripiegamento inverso di CDRH3 lungo, e un miglioramento medio assoluto di ΔΔG di 7 cal/mol nei compiti di ottimizzazione funzionale
Dato un complesso di framework anticorpale Cab, un antigene Cag e frammenti simili a CDR recuperati A, l'obiettivo è predire la distribuzione di sequenza della regione CDR R={sj∣j∈{a+1,...,a+m}}, dove m è la lunghezza del CDR e a è la posizione iniziale.
Utilizza l'algoritmo MASTER per il recupero strutturale:
- Input: Insieme di coordinate atomiche dello scheletro CDR X={xk∣k∈{1,...,m}}
- Misura di Similarità: Deviazione quadratica media (RMSD) degli atomi dello scheletro
- Output: Insieme di frammenti simili a CDR strutturalmente simili A={Ai∣i∈{1,...,k}}
Ramo di Contesto Geometrico Globale:
- Codificatore di Contesto: Estrae caratteristiche di singolo residuo zi e caratteristiche di coppia di residui yij
- Codificatore Evolutivo: Utilizza ESM2 per estrarre embedding evolutivi della sequenza anticorpale et
- Rete di Informazioni Strutturali: Elabora attraverso strati di livello IPA, producendo rappresentazione di probabilità globale rglobal
Ramo Focalizzato su CDR Locale:
- Attenzione Assiale Focalizzata su CDR: Costruisce matrice pseudo-MSA P:
P=concat((Sab∪Rgt),E)
dove E è la matrice di sequenza di frammenti di esempio
- Meccanismo di Attenzione Tied Row: Considera simultaneamente punteggi di attenzione multi-riga, sfruttando similarità strutturale
- Fusione di Informazioni: Fonde rlocal e rglobal attraverso connessioni di salto
Aggiunta di rumore nel processo forward:
q(sjt∣sjt−1)=Multinomial((1−βt)⋅onehot(sjt−1)+βt⋅201⋅1)
Processo di denoising inverso:
p(sjt−1∣Rt,Cab,Cag,A)=Multinomial[F(Rt,Cab,Cag,et)+G(F(Rt,Cab,Cag,et),A)][j]
- Recupero Informato dalla Struttura: Utilizza l'algoritmo MASTER per recuperare frammenti simili a CDR basati sulla struttura dello scheletro, evitando perdite di informazioni di sequenza
- Architettura a Doppio Ramo: Il ramo globale cattura il contesto del complesso antigene-anticorpo, il ramo locale apprende informazioni evolutive omologhe
- Attenzione Tied Row: Meccanismo di attenzione appositamente progettato che sfrutta pienamente la similarità strutturale
- Indipendenza dal Modello: Il framework può integrarsi con qualsiasi modello generativo di diffusione
- Set di Addestramento: Database SAbDab, con rimozione di strutture con risoluzione inferiore a 4Å, clustering basato su similarità di sequenza del 50% nella regione CDRH3
- Set di Test: 50 file PDB, contenenti 63 strutture di complessi anticorpo-antigene
- Database di Frammenti Simili a CDR: Costruito da PDB non ridondante, contenente motivi funzionali lineari simili a CDR strutturalmente compatibili
- Tasso di Recupero di Aminoacidi (AAR): Proporzione di posizioni di aminoacidi identici tra la sequenza progettata e la vera sequenza CDR
- RMSD di Autoconsistenza (scRMSD): RMSD degli atomi Cα della regione CDR dopo ripiegamento della struttura anticorpale riprogettata
- Plausibilità: Pseudo-verosimiglianza logaritmica calcolata utilizzando AntiBERTy
- Metodi Tradizionali: Grafting (trasferimento diretto del frammento recuperato top-1)
- Metodi di Apprendimento Profondo: ProteinMPNN, ESM-IF1, Diffab-fix, AbMPNN
- Ottimizzatore: Adam, tasso di apprendimento 0.0001
- Dimensione del batch: 8
- CDRH3 addestrato separatamente per 100.000 iterazioni, altre regioni CDR addestrate congiuntamente per 250.000 iterazioni
- Passi temporali di diffusione: 100 passi
Risultati di Ripiegamento Inverso di Sequenza CDR di Anticorpi:
| Metodo | CDRH3 AAR(%) | CDRH3 scRMSD | CDRH3 Plausibility |
|---|
| Grafting | 19.63 | 3.20 | -0.591 |
| ProteinMPNN | 41.77 | 2.27 | -0.605 |
| Diffab-fix | 49.17 | 2.24 | -0.541 |
| AbMPNN | 52.99 | 2.80 | -0.675 |
| RADAb | 57.02 | 2.23 | -0.530 |
Risultati di Progettazione di Sequenza CDRH3 Lunga (lunghezza >14):
| Metodo | AAR(%) | scRMSD | Plausibility |
|---|
| Diffab-fix | 42.26 | 3.02 | -0.740 |
| RADAb | 51.35 | 2.52 | -0.747 |
Risultati di Ottimizzazione dell'Energia di Legame:
| Metodo | ΔΔG↓ | ΔΔG-seq↓ | IMP-seq(%)↑ |
|---|
| Grafting | 135.17 | 40.22 | 32.69 |
| ProteinMPNN | 127.14 | 24.72 | 35.51 |
| Diffab-fix | 116.36 | 14.05 | 34.52 |
| RADAb | 109.16 | 7.06 | 37.30 |
| Componente | AAR(%) | scRMSD | Plausibility |
|---|
| Modello Completo | 57.02 | 2.23 | -0.530 |
| Senza Recupero Aumentato | 52.15 | 2.39 | -0.529 |
| Senza Embedding Evolutivo | 51.36 | 2.23 | -0.538 |
| Baseline Diffab | 49.17 | 2.24 | -0.541 |
Utilizzando l'anticorpo neutralizzante SARS-CoV-2 (PDB: 7d6i) come esempio, il 68% dei 50 campioni di sequenza CDRH3 generati ha mostrato valori di ΔG inferiori rispetto al complesso originale, dimostrando l'effetto di ottimizzazione funzionale.
- Metodi Tradizionali: Metodi basati su ottimizzazione di funzioni energetiche e similarità di sequenza
- Metodi di Apprendimento Automatico:
- Progettazione di sequenza anticorpale: Modelli di linguaggio e modelli di ripiegamento inverso
- Progettazione cooperativa sequenza-struttura specifica per antigene: Metodi di reti neurali grafiche
Applicazione di modelli di diffusione nella progettazione proteica, inclusi il processo di rumore forward di DDPM e il processo di generazione inverso.
Tecnologia RAG estesa dal campo dell'elaborazione del linguaggio naturale alla visione artificiale e alla generazione molecolare, con questo articolo che la applica per la prima volta alla progettazione di anticorpi.
- RADAb raggiunge prestazioni all'avanguardia su molteplici compiti di progettazione di anticorpi
- Il meccanismo di recupero aumentato migliora significativamente la qualità generativa e la funzionalità del modello
- L'architettura a doppio ramo integra efficacemente il contesto globale e le informazioni evolutive locali
- Verifica Sperimentale Insufficiente: Non ancora completamente verificata in esperimenti umidi
- Overhead Computazionale: Il recupero strutturale e la codifica ESM2 richiedono più risorse computazionali
- Rischio di Perdita di Dati: L'applicazione del meccanismo di recupero attuale nella progettazione cooperativa sequenza-struttura presenta rischi di perdita di dati
- La verifica sperimentale umida sarà uno dei compiti principali
- Estensione del modello a vari progetti di motivi proteici
- Esplorazione del recupero PPI per evitare problemi di perdita di dati
- Forte Innovatività: Prima applicazione della tecnologia di recupero aumentato alla progettazione di anticorpi, propone un'architettura a doppio ramo innovativa
- Tecnica Solida: Il meccanismo di recupero informato dalla struttura è ben progettato, evitando perdite di informazioni di sequenza
- Esperimenti Completi: Valutazione completa su molteplici compiti e metriche, inclusi esperimenti di ablazione
- Prestazioni Eccellenti: Raggiunge prestazioni all'avanguardia su tutti i compiti di valutazione
- Praticità da Verificare: Mancanza di verifica sperimentale umida, effetto di applicazione pratica sconosciuto
- Complessità Computazionale Elevata: Il processo di recupero e la rete a doppio ramo aumentano il carico computazionale
- Limitazione dell'Ambito di Applicabilità: Principalmente orientato ai compiti di ripiegamento inverso, con limitazioni nella progettazione a atomo completo
- Contributo Accademico: Fornisce una nuova prospettiva per i modelli generativi di biomolecole, promuove l'applicazione della tecnologia di recupero aumentato nella progettazione proteica
- Valore Pratico: Promette di accelerare il processo di progettazione di farmaci anticorpali, riducendo i costi sperimentali
- Riproducibilità: Fornisce dettagli di implementazione dettagliati e codice open source
- Progettazione di ottimizzazione CDR basata su template di anticorpi noti
- Miglioramento di sequenza anticorpale che richiede il mantenimento di vincoli strutturali
- Maturazione dell'affinità anticorpale e ottimizzazione funzionale
Questo articolo cita lavori importanti nei campi della progettazione di anticorpi, modelli di diffusione e generazione aumentata da recupero, fornendo una base teorica solida e supporto tecnico per il framework RADAb.
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone un framework di diffusione innovativo aumentato da recupero nel campo della progettazione di anticorpi. La soluzione tecnica è ben progettata, la valutazione sperimentale è completa e i risultati sono convincenti. Sebbene la verifica dell'applicazione pratica richieda ulteriore rafforzamento, apre una nuova direzione di ricerca nel campo della progettazione proteica, con significativo valore accademico e prospettive di applicazione.