2025-11-11T08:22:09.471735

FP-AbDiff: Improving Score-based Antibody Design by Capturing Nonequilibrium Dynamics through the Underlying Fokker-Planck Equation

Chen, Xiong, Li et al.
Computational antibody design holds immense promise for therapeutic discovery, yet existing generative models are fundamentally limited by two core challenges: (i) a lack of dynamical consistency, which yields physically implausible structures, and (ii) poor generalization due to data scarcity and structural bias. We introduce FP-AbDiff, the first antibody generator to enforce Fokker-Planck Equation (FPE) physics along the entire generative trajectory. Our method minimizes a novel FPE residual loss over the mixed manifold of CDR geometries (R^3 x SO(3)), compelling locally-learned denoising scores to assemble into a globally coherent probability flow. This physics-informed regularizer is synergistically integrated with deep biological priors within a state-of-the-art SE(3)-equivariant diffusion framework. Rigorous evaluation on the RAbD benchmark confirms that FP-AbDiff establishes a new state-of-the-art. In de novo CDR-H3 design, it achieves a mean Root Mean Square Deviation of 0.99 Å when superposing on the variable region, a 25% improvement over the previous state-of-the-art model, AbX, and the highest reported Contact Amino Acid Recovery of 39.91%. This superiority is underscored in the more challenging six-CDR co-design task, where our model delivers consistently superior geometric precision, cutting the average full-chain Root Mean Square Deviation by ~15%, and crucially, achieves the highest full-chain Amino Acid Recovery on the functionally dominant CDR-H3 loop (45.67%). By aligning generative dynamics with physical laws, FP-AbDiff enhances robustness and generalizability, establishing a principled approach for physically faithful and functionally viable antibody design.
academic

FP-AbDiff: Migliorare la Progettazione di Anticorpi Basata su Score Catturando la Dinamica Fuori dall'Equilibrio attraverso l'Equazione di Fokker-Planck Sottostante

Informazioni Fondamentali

  • ID Articolo: 2511.03113
  • Titolo: FP-AbDiff: Improving Score-based Antibody Design by Capturing Nonequilibrium Dynamics through the Underlying Fokker-Planck Equation
  • Autori: Jiameng Chen, Yida Xiong, Kun Li, Hongzhi Zhang, Xiantao Cai, Wenbin Hu, Jia Wu
  • Classificazione: cs.LG cs.AI q-bio.QM
  • Data di Pubblicazione: 5 novembre 2025 (preprint arXiv)
  • Link dell'Articolo: https://arxiv.org/abs/2511.03113

Riassunto

La progettazione computazionale di anticorpi presenta un enorme potenziale nella scoperta terapeutica, ma i modelli generativi esistenti sono limitati da due sfide fondamentali: (i) mancanza di coerenza dinamica, che porta a strutture fisicamente irragionevoli; (ii) scarsa capacità di generalizzazione dovuta alla scarsità di dati e distorsioni strutturali. Questo articolo introduce FP-AbDiff, il primo generatore di anticorpi che applica le leggi fisiche dell'equazione di Fokker-Planck (FPE) lungo l'intera traiettoria generativa. Il metodo minimizza una nuova perdita residua FPE sulla varietà ibrida (R³×SO(3)) della geometria CDR, forzando i punteggi di denoise appresi localmente ad assemblarsi in un flusso probabilistico globalmente coerente. Questo regolarizzatore informato dalla fisica si integra sinergicamente con i priori biologici profondi all'interno di un framework di diffusione equivariante SE(3) all'avanguardia.

Contesto di Ricerca e Motivazione

Definizione del Problema

La progettazione di anticorpi affronta due sfide critiche:

  1. Mancanza di Coerenza Dinamica: I modelli di diffusione esistenti come DiffAb, AbDiffuser e AbX ottimizzano strutture a livelli di rumore indipendenti, senza mai vincolare i percorsi che li collegano. I loro obiettivi di score matching del denoise (DSM) catturano gradienti locali ma ignorano le trasformazioni globali, producendo frequentemente riarrangiamenti di loop chimicamente irragionevoli, impilamenti di catene laterali instabili e conformazioni energeticamente tese.
  2. Capacità di Generalizzazione Insufficiente: I generatori di diffusione funzionano male al di fuori dell'intervallo ristretto dei dataset attuali, limitando il loro valore di applicazione pratica. Il benchmark principale SAbDab contiene meno di 5000 complessi non ridondanti ed è fortemente distorto verso pochi scaffold IgG umani legati a epitopi virali.

Motivazione della Ricerca

La specificità e l'affinità del CDR derivano da sottili e continui movimenti conformazionali, non da snapshot strutturali isolati. I metodi esistenti mancano di un meccanismo esplicito per forzare la coerenza temporale e spesso regrediscono a pattern familiari quando affrontano compiti fuori distribuzione (OOD).

Contributi Principali

  1. Framework di Regolarizzazione FPE Pionieristico: FP-AbDiff introduce il primo framework di diffusione per CDR che applica la coerenza score-Fokker-Planck su R³×SO(3), garantendo un flusso probabilistico globalmente coerente ed eliminando le transizioni di loop non fisiche.
  2. Unificazione di Leggi Fisiche e Priori Biologici: Unisce la fisica di Fokker-Planck con priori evolutivi, geometrici ed energetici in un singolo obiettivo, realizzando la generazione di anticorpi dinamicamente coerente e generalizzabile.
  3. Breakthrough di Performance SOTA: Raggiunge performance all'avanguardia nei compiti di progettazione e ottimizzazione di anticorpi, con RMSD_Fv di 0.99 Å nella progettazione CDR-H3 (miglioramento del 25% rispetto ad AbX) e tasso di recupero di aminoacidi di contatto del 39.91%.

Dettagli del Metodo

Definizione del Compito

La progettazione di anticorpi è formulata come generazione condizionale di CDR dato il contesto strutturale C (antigene e framework). Il CDR è definito dal suo stato reale a t=0, S₀=(A₀,X₀,R₀), che include:

  • Sequenza di aminoacidi A₀
  • Coordinate degli atomi pesanti X₀∈R^(Dx)
  • Orientamenti residui R₀∈SO(3)^(NCDR)

Architettura del Modello

Modellazione della Dinamica Stocastica

Dinamica Traslazionale (Spazio Euclideo): Le coordinate dello scheletro X_t∈R³ evolvono attraverso l'SDE a varianza preservata (VP):

dXt = -½βX(t)Xt dt + √βX(t) dWX,t

Dinamica Rotazionale (Varietà SO(3)): L'orientamento di ogni residuo R_{i,t}∈SO(3) evolve attraverso l'SDE a varianza esplodente (VE):

dRi,t = √βR(t) Σ(Ri,tEa) ∘ dWᵃt

Derivazione dell'Equazione di Fokker-Planck

Per un SDE generale dx_t = f(x_t,t)dt + g(t)dW_t, l'FPE descrive l'evoluzione della densità di probabilità p(x,t):

∂p/∂t = -∇·(fp) + ½g²(t)Δp

Dinamica dello Spazio Euclideo: L'operatore di evoluzione G_X è definito come:

GX[sX,X,t] := ½βX(t)[sX + (∇XsX)X + HX(sX)]

Dinamica della Varietà SO(3): L'operatore di evoluzione G_R è definito come:

GR[sR,R,t] := ½βR(t)[ΔBsR - 2sR + HR(sR)]

Regolarizzazione Residua FPE

Conversione delle previsioni CDR pulite predette dalla rete in punteggi traslazionali e rotazionali precisi attraverso inferenza di score indiretta:

Punteggio traslazionale:

sθ,X(Xt,t|Xθ₀) = -(Xt - αX(t)Xθ₀)/σ²X(t)

Punteggio rotazionale:

sθ,R(Rt,t|Rθ₀) = ∇SO(3) log pIGSO(3)((Rθ₀)ᵀRt; σ²R(t))

Il residuo FPE è definito come:

εX(Xt,t) := ∂tsθ,X(Xt,t|Xθ₀) - GX[sθ,X,Xt,t]
εR(Rt,t) := ∂tsθ,R(Rt,t|Rθ₀) - GR[sθ,R,Rt,t]

Obiettivi di Addestramento

Perdita di Fedeltà:

Lfid = L^X_DSM + L^R_DSM + 0.4·LCE

Priori di Ragionevolezza Biofisica:

Lpriors = LFAPE + 0.5Ldist + 0.1LpLDDT + 0.03Lviol + 0.25Lbb

Regolarizzatore di Coerenza Dinamica:

Lfpe(θ) = Et,St[w(t)(||εX||²/DX + ||εR||²/DR)]

Funzione di Perdita Completa:

Ltotal = Lfid + It<τLpriors + 0.05·Lfpe

Configurazione Sperimentale

Dataset

  • Set di Addestramento: Insieme non ridondante derivato da SAbDab (settembre 2024), identità di sequenza CDR-H3 ≤40%
  • Set di Test: 60 complessi anticorpo-antigene del benchmark RAbD

Metriche di Valutazione

  • Recupero di Sequenza: AAR_Fv, AAR_Full, CAAR (tasso di recupero di aminoacidi di contatto)
  • Precisione Strutturale: RMSD_Fv, RMSD_Full, TM-score, lDDT
  • Fattibilità Funzionale: IMP (percentuale di campioni con ∆∆G<0), DockQ

Metodi di Confronto

  • Modelli di diffusione: DiffAb, AbX
  • Pipeline guidate da energia: RosettaAb
  • GNN equivarianti: dyMEAN, MEAN
  • Modelli di sequenza autoregressivi: HERN

Risultati Sperimentali

Risultati Principali

Compito di Progettazione CDR-H3

ModelloAAR↑TMscore↑lDDT↑CAAR↑RMSD↓DockQ↑
AbX84.90%0.99060.940739.08%1.320.429
FP-AbDiff83.65%0.99290.936339.91%0.990.444

FP-AbDiff raggiunge un miglioramento del 25% su RMSD_Fv, raggiungendo una precisione sub-angstrom di 0.99 Å, e ottiene il CAAR più alto del 39.91%.

Progettazione Sinergica di Sei CDR

Nel compito più impegnativo di progettazione dell'intero paratopo, FP-AbDiff raggiunge il RMSD_Full più basso su tutti e sei i CDR, con errore geometrico medio ridotto di circa il 15% rispetto ad AbX, raggiungendo il più alto AAR_Full (45.67%) sul loop CDR-H3 critico per la funzione.

Esperimenti di Ablazione

Variante del ModelloIMP(%)↑AAR(%)↑RMSD(Å)↓DockQ↑
+R³, +SO(3)28.4245.232.180.4443
-SO(3)35.3044.152.460.4437
-R³29.7643.142.410.4372

Il modello completo raggiunge la massima fedeltà; la rimozione del termine R³ degrada la qualità dello scheletro e dell'interfaccia, mentre la rimozione del termine SO(3) aumenta l'IMP ma peggiora RMSD e AAR.

Esperimenti di Ottimizzazione di Anticorpi

Nell'ottimizzazione iterativa del denoise, AbX segue una traiettoria "alto guadagno ma fragile", mentre FP-AbDiff mantiene da t=8 in poi un RMSD consistentemente più basso e un DockQ più alto, riflettendo un percorso di ottimizzazione più stabile.

Lavori Correlati

Metodi Tradizionali

I metodi iniziali come RosettaAntibodyDesign si basano su funzioni energetiche statistiche e campionamento Monte Carlo, ma sono limitati da alti costi computazionali e efficienza di campionamento limitata.

Metodi di Apprendimento Profondo

  • Modelli Centrati sulla Sequenza: I modelli di linguaggio proteico trattano le proteine come input testuali, ma ignorano i priori spaziali e geometrici
  • Modelli Equivarianti Geometrici: Modelli GNN come MEAN, dyMEAN e predittori come AlphaFold2
  • Modelli di Diffusione: DiffAb, AbDiffuser, ecc., ma mancano di coerenza temporale

Vantaggi di Questo Lavoro

FP-AbDiff è il primo framework che impone l'autoconsistenza fisica nella generazione di anticorpi, affrontando il problema della coerenza dinamica attraverso la regolarizzazione di Fokker-Planck.

Conclusioni e Discussione

Conclusioni Principali

FP-AbDiff, applicando le leggi fisiche di Fokker-Planck, supera costantemente i baseline all'avanguardia in tutti i compiti di valutazione della progettazione di anticorpi, raggiungendo strutture ad alta fedeltà, interfacce precise e traiettorie generative stabili.

Limitazioni

  1. Approssimazioni Numeriche: L'implementazione del residuo FPE si basa su approssimazioni come differenze finite e il trucco di Hutchinson
  2. Overhead Computazionale: Sebbene aumenti solo dell'8% il tempo di addestramento, richiede comunque propagazioni in avanti aggiuntive
  3. Validazione Sperimentale: Mancanza di validazione sperimentale della funzionalità degli anticorpi progettati

Direzioni Future

  1. Migliorare i metodi di approssimazione numerica per aumentare la precisione
  2. Estendere ad altri compiti di progettazione proteica
  3. Incorporare feedback sperimentale per l'ottimizzazione del modello
  4. Esplorare vincoli fisici più complessi

Valutazione Approfondita

Punti di Forza

  1. Innovazione Teorica: Prima introduzione dell'equazione di Fokker-Planck nella progettazione di anticorpi, risolvendo il problema della coerenza dinamica
  2. Avanzamento Tecnico: Combinazione abile di leggi fisiche e apprendimento profondo, realizzando vincoli di coerenza sulla varietà ibrida R³×SO(3)
  3. Esperimenti Completi: Confronti completi con baseline, esperimenti di ablazione e analisi di casi
  4. Performance Eccezionale: Raggiunge SOTA su molteplici metriche, in particolare il miglioramento del 25% in RMSD è significativo

Carenze

  1. Complessità Aumentata: Il metodo è relativamente complesso con molti dettagli di implementazione
  2. Analisi Teorica Insufficiente: Mancanza di garanzie teoriche sulla convergenza della regolarizzazione FPE
  3. Ambito di Applicabilità: Principalmente focalizzato sulla progettazione di anticorpi; la capacità di generalizzazione ad altri progetti proteici è sconosciuta

Impatto

Questo lavoro fornisce un nuovo paradigma di ricerca nel campo dell'intersezione tra biologia computazionale e apprendimento automatico, combinando leggi fisiche con modelli generativi profondi, con significative implicazioni per la progettazione proteica, la scoperta di farmaci e altri campi.

Scenari di Applicazione

  • Progettazione di anticorpi terapeutici
  • Ingegneria e ottimizzazione di anticorpi
  • Altri compiti di generazione molecolare che richiedono coerenza fisica
  • Ricerca in biologia strutturale

Riferimenti Bibliografici

L'articolo cita ampiamente lavori correlati, tra cui:

  • Teoria fondamentale dei modelli di diffusione (Song & Ermon 2019; Ho et al. 2020)
  • Metodi di progettazione di anticorpi (Adolf-Bryfogle et al. 2018; Luo et al. 2022)
  • Apprendimento geometrico profondo (Yim et al. 2023; Bortoli et al. 2022)
  • Applicazioni dell'equazione di Fokker-Planck (Lai et al. 2023)

Questo articolo fornisce un contributo importante nel campo della progettazione computazionale di anticorpi, migliorando significativamente le performance e l'affidabilità dei modelli generativi attraverso l'introduzione di vincoli fisici, offrendo nuove prospettive preziose per la ricerca futura nella progettazione proteica.