2025-11-11T08:22:09.471735

FP-AbDiff: Improving Score-based Antibody Design by Capturing Nonequilibrium Dynamics through the Underlying Fokker-Planck Equation

Chen, Xiong, Li et al.

Computational antibody design holds immense promise for therapeutic discovery, yet existing generative models are fundamentally limited by two core challenges: (i) a lack of dynamical consistency, which yields physically implausible structures, and (ii) poor generalization due to data scarcity and structural bias. We introduce FP-AbDiff, the first antibody generator to enforce Fokker-Planck Equation (FPE) physics along the entire generative trajectory. Our method minimizes a novel FPE residual loss over the mixed manifold of CDR geometries (R^3 x SO(3)), compelling locally-learned denoising scores to assemble into a globally coherent probability flow. This physics-informed regularizer is synergistically integrated with deep biological priors within a state-of-the-art SE(3)-equivariant diffusion framework. Rigorous evaluation on the RAbD benchmark confirms that FP-AbDiff establishes a new state-of-the-art. In de novo CDR-H3 design, it achieves a mean Root Mean Square Deviation of 0.99 Ã when superposing on the variable region, a 25% improvement over the previous state-of-the-art model, AbX, and the highest reported Contact Amino Acid Recovery of 39.91%. This superiority is underscored in the more challenging six-CDR co-design task, where our model delivers consistently superior geometric precision, cutting the average full-chain Root Mean Square Deviation by ~15%, and crucially, achieves the highest full-chain Amino Acid Recovery on the functionally dominant CDR-H3 loop (45.67%). By aligning generative dynamics with physical laws, FP-AbDiff enhances robustness and generalizability, establishing a principled approach for physically faithful and functionally viable antibody design.

academic

FP-AbDiff : Amélioration de la Conception d'Anticorps Basée sur les Scores en Capturant la Dynamique Hors Équilibre par l'Équation de Fokker-Planck Sous-jacente

Informations Fondamentales

ID de l'article : 2511.03113
Titre : FP-AbDiff: Improving Score-based Antibody Design by Capturing Nonequilibrium Dynamics through the Underlying Fokker-Planck Equation
Auteurs : Jiameng Chen, Yida Xiong, Kun Li, Hongzhi Zhang, Xiantao Cai, Wenbin Hu, Jia Wu
Classification : cs.LG cs.AI q-bio.QM
Date de publication : 5 novembre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2511.03113

Résumé

La conception computationnelle d'anticorps présente un potentiel énorme pour la découverte thérapeutique, mais les modèles génératifs existants sont fondamentalement limités par deux défis majeurs : (i) l'absence de cohérence dynamique, conduisant à des structures physiquement déraisonnables ; (ii) une faible capacité de généralisation due à la rareté des données et aux biais structurels. Cet article introduit FP-AbDiff, le premier générateur d'anticorps qui applique la loi physique de l'équation de Fokker-Planck (EFP) sur l'ensemble de la trajectoire de génération. La méthode minimise une perte résiduelle EFP novatrice sur la variété hybride (R³×SO(3)) de la géométrie des CDR, forçant les scores de débruitage appris localement à s'assembler en un flux de probabilité globalement cohérent. Ce régularisateur informé par la physique s'intègre synergiquement avec les priors biologiques profonds dans le cadre de diffusion équivariant SE(3) de pointe.

Contexte de Recherche et Motivation

Définition du Problème

La conception d'anticorps fait face à deux défis clés :

Absence de Cohérence Dynamique : Les modèles de diffusion existants tels que DiffAb, AbDiffuser et AbX optimisent les structures à des niveaux de bruit indépendants, sans jamais contraindre les chemins les reliant. Leurs objectifs d'appariement de scores de débruitage (DSM) capturent les gradients locaux mais ignorent les transformations globales, produisant fréquemment des réarrangements de boucles chimiquement déraisonnables, des empilements de chaînes latérales instables et des conformations énergétiquement tendues.
Capacité de Généralisation Insuffisante : Les générateurs de diffusion fonctionnent mal en dehors de la plage étroite des ensembles de données actuels, limitant leur valeur d'application pratique. L'ensemble de référence principal SAbDab contient moins de 5 000 complexes non redondants et est fortement biaisé vers un petit nombre d'échafaudages IgG humains se liant à des épitopes viraux.

Motivation de la Recherche

La spécificité et l'affinité des CDR proviennent de mouvements conformationnels subtils et continus, plutôt que de simples instantanés structurels isolés. Les méthodes existantes manquent d'un mécanisme explicite pour forcer la cohérence temporelle et recourent souvent à des motifs familiers face à des tâches hors distribution (OOD).

Contributions Principales

Cadre de Régularisation EFP Novateur : FP-AbDiff introduit le premier cadre de diffusion pour les CDR qui applique la cohérence score-Fokker-Planck sur R³×SO(3), garantissant un flux de probabilité globalement cohérent et éliminant les transitions de boucles non physiques.
Unification des Lois Physiques et des Priors Biologiques : Intègre la physique de Fokker-Planck avec les priors évolutifs, géométriques et énergétiques dans un objectif unique, réalisant une génération d'anticorps dynamiquement cohérente et généralisable.
Percée de Performance SOTA : Réalise les performances de pointe sur les tâches de conception et d'optimisation d'anticorps, atteignant une précision de 0,99 Å en RMSDFv dans la conception CDR-H3 (amélioration de 25% par rapport à AbX) et un taux de récupération d'acides aminés de contact de 39,91%.

Détails de la Méthode

Définition de la Tâche

La conception d'anticorps est formulée comme la génération conditionnelle de CDR étant donné le contexte structurel C (antigène et cadre). Les CDR sont définis par leur état réel à t=0, S₀=(A₀,X₀,R₀), incluant :

La séquence d'acides aminés A₀
Les coordonnées des atomes lourds X₀∈R^(Dx)
Les orientations résiduelles R₀∈SO(3)^(NCDR)

Architecture du Modèle

Modélisation de la Dynamique Stochastique

Dynamique de Translation (Espace Euclidien) : Les coordonnées du squelette Xt∈R³ évoluent via une équation différentielle stochastique (EDS) à variance préservée (VP) :

dXt = -½βX(t)Xt dt + √βX(t) dWX,t

Dynamique de Rotation (Variété SO(3)) : L'orientation de chaque résidu Ri,t∈SO(3) évolue via une EDS à variance explosive (VE) :

dRi,t = √βR(t) Σ(Ri,tEa) ∘ dWᵃt

Dérivation de l'Équation de Fokker-Planck

Pour une EDS générale dx_t = f(x_t,t)dt + g(t)dW_t, l'EFP décrit l'évolution de la densité de probabilité p(x,t) :

∂p/∂t = -∇·(fp) + ½g²(t)Δp

Dynamique de l'Espace Euclidien : L'opérateur d'évolution GX est défini comme :

GX[sX,X,t] := ½βX(t)[sX + (∇XsX)X + HX(sX)]

Dynamique de la Variété SO(3) : L'opérateur d'évolution GR est défini comme :

GR[sR,R,t] := ½βR(t)[ΔBsR - 2sR + HR(sR)]

Régularisation Résiduelle EFP

Conversion des CDR propres prédits par le réseau en scores de translation et rotation précis via inférence de score indirecte :

Score de translation :

sθ,X(Xt,t|Xθ₀) = -(Xt - αX(t)Xθ₀)/σ²X(t)

Score de rotation :

sθ,R(Rt,t|Rθ₀) = ∇SO(3) log pIGSO(3)((Rθ₀)ᵀRt; σ²R(t))

Résidu EFP défini comme :

εX(Xt,t) := ∂tsθ,X(Xt,t|Xθ₀) - GX[sθ,X,Xt,t]
εR(Rt,t) := ∂tsθ,R(Rt,t|Rθ₀) - GR[sθ,R,Rt,t]

Objectif d'Entraînement

Perte de Fidélité :

Lfid = L^X_DSM + L^R_DSM + 0.4·LCE

Priors de Rationalité Biophysique :

Lpriors = LFAPE + 0.5Ldist + 0.1LpLDDT + 0.03Lviol + 0.25Lbb

Régularisateur de Cohérence Dynamique :

Lfpe(θ) = Et,St[w(t)(||εX||²/DX + ||εR||²/DR)]

Fonction de Perte Complète :

Ltotal = Lfid + It<τLpriors + 0.05·Lfpe

Configuration Expérimentale

Ensemble de Données

Ensemble d'entraînement : Ensemble non redondant dérivé de SAbDab (septembre 2024), identité de séquence CDR-H3 ≤40%
Ensemble de test : 60 complexes anticorps-antigènes de l'ensemble de référence RAbD

Métriques d'Évaluation

Récupération de Séquence : AARFv, AARFull, CAAR (taux de récupération d'acides aminés de contact)
Précision Structurale : RMSDFv, RMSDFull, TM-score, lDDT
Viabilité Fonctionnelle : IMP (pourcentage d'échantillons avec ∆∆G<0), DockQ

Méthodes de Comparaison

Modèles de diffusion : DiffAb, AbX
Pipelines guidés par l'énergie : RosettaAb
GNN équivariants : dyMEAN, MEAN
Modèles de séquence autorégressifs : HERN

Résultats Expérimentaux

Résultats Principaux

Tâche de Conception CDR-H3

Modèle	AAR↑	TMscore↑	lDDT↑	CAAR↑	RMSD↓	DockQ↑
AbX	84,90%	0,9906	0,9407	39,08%	1,32	0,429
FP-AbDiff	83,65%	0,9929	0,9363	39,91%	0,99	0,444

FP-AbDiff réalise une amélioration de 25% en RMSDFv, atteignant une précision sous-angstrom de 0,99 Å, et obtient le plus haut CAAR de 39,91%.

Conception Synergique des Six CDR

Dans la tâche de conception de site de liaison plus exigeante, FP-AbDiff réalise l'erreur géométrique la plus faible sur les six CDR, avec une réduction moyenne d'environ 15% par rapport à AbX, atteignant le plus haut AARFull (45,67%) sur la boucle CDR-H3 critique pour la fonction.

Expériences d'Ablation

Variante du Modèle	IMP(%)↑	AAR(%)↑	RMSD(Å)↓	DockQ↑
+R³, +SO(3)	28,42	45,23	2,18	0,4443
-SO(3)	35,30	44,15	2,46	0,4437
-R³	29,76	43,14	2,41	0,4372

Le modèle complet réalise la plus haute fidélité, la suppression du terme R³ dégrade la qualité du squelette et de l'interface, la suppression du terme SO(3) augmente l'IMP mais détériore le RMSD et l'AAR.

Expériences d'Optimisation d'Anticorps

Dans l'optimisation itérative de débruitage, AbX suit une trajectoire « gain élevé mais fragile », tandis que FP-AbDiff maintient à partir de t=8 un RMSD constamment plus faible et un DockQ plus élevé, reflétant un chemin d'optimisation plus stable.

Travaux Connexes

Méthodes Traditionnelles

Les approches précoces telles que RosettaAntibodyDesign s'appuient sur des fonctions d'énergie statistiques et l'échantillonnage Monte-Carlo, mais sont limitées par des coûts computationnels élevés et une efficacité d'échantillonnage limitée.

Méthodes d'Apprentissage Profond

Modèles Centrés sur la Séquence : Les modèles de langage protéique traitent les protéines comme des entrées textuelles, mais ignorent les priors spatiaux et géométriques
Modèles Géométriquement Équivariants : Les modèles GNN tels que MEAN, dyMEAN et les prédicteurs comme AlphaFold2
Modèles de Diffusion : DiffAb, AbDiffuser, etc., mais manquent de cohérence temporelle

Avantages de cet Article

FP-AbDiff est le premier cadre imposant l'auto-cohérence physique dans la génération d'anticorps, résolvant le problème de cohérence dynamique par régularisation de Fokker-Planck.

Conclusion et Discussion

Conclusions Principales

FP-AbDiff surpasse systématiquement les lignes de base de pointe sur toutes les tâches d'évaluation de conception d'anticorps en appliquant les lois physiques de Fokker-Planck, réalisant des structures de haute fidélité, des interfaces précises et des trajectoires de génération stables.

Limitations

Approximations Numériques : L'implémentation du résidu EFP repose sur des approximations telles que les différences finies et l'astuce de Hutchinson
Surcharge Computationnelle : Bien qu'elle n'augmente que de 8% le temps d'entraînement, elle nécessite des passages avant supplémentaires
Validation Expérimentale : Absence de validation en laboratoire de la fonctionnalité des anticorps conçus

Directions Futures

Améliorer les méthodes d'approximation numérique pour accroître la précision
Étendre à d'autres tâches de conception de protéines
Intégrer les retours expérimentaux pour l'optimisation du modèle
Explorer des contraintes physiques plus complexes

Évaluation Approfondie

Points Forts

Innovation Théorique : Introduction novatrice de l'équation de Fokker-Planck dans la conception d'anticorps, résolvant le problème de cohérence dynamique
Avancée Technique : Combinaison astucieuse des lois physiques et de l'apprentissage profond, réalisant des contraintes de cohérence sur la variété hybride R³×SO(3)
Expérimentation Complète : Comparaisons exhaustives avec les lignes de base, expériences d'ablation et analyses de cas
Performance Remarquable : Atteint SOTA sur plusieurs métriques, l'amélioration de 25% en RMSD étant particulièrement significative

Insuffisances

Complexité Accrue : La méthode est relativement complexe avec de nombreux détails d'implémentation
Analyse Théorique Insuffisante : Absence de garanties théoriques sur la convergence de la régularisation EFP
Portée d'Application : Principalement axée sur la conception d'anticorps, la capacité de généralisation à d'autres conceptions de protéines reste inconnue

Impact

Ce travail fournit un nouveau paradigme de recherche au carrefour de la biologie computationnelle et de l'apprentissage automatique, combinant les lois physiques avec les modèles génératifs profonds, avec une importance significative pour la conception de protéines, la découverte de médicaments et d'autres domaines.

Scénarios d'Application

Conception d'anticorps thérapeutiques
Ingénierie et optimisation d'anticorps
Autres tâches de génération moléculaire nécessitant une cohérence physique
Recherche en biologie structurale

Références

L'article cite largement les travaux connexes, incluant :

Théorie fondamentale des modèles de diffusion (Song & Ermon 2019; Ho et al. 2020)
Méthodes de conception d'anticorps (Adolf-Bryfogle et al. 2018; Luo et al. 2022)
Apprentissage géométrique profond (Yim et al. 2023; Bortoli et al. 2022)
Applications de l'équation de Fokker-Planck (Lai et al. 2023)

Cet article apporte une contribution importante au domaine de la conception computationnelle d'anticorps, améliorant significativement les performances et la fiabilité des modèles génératifs par l'introduction de contraintes physiques, fournissant des perspectives précieuses et novatrices pour la recherche future en conception de protéines.