2025-11-11T08:22:09.471735

FP-AbDiff: Improving Score-based Antibody Design by Capturing Nonequilibrium Dynamics through the Underlying Fokker-Planck Equation

Chen, Xiong, Li et al.
Computational antibody design holds immense promise for therapeutic discovery, yet existing generative models are fundamentally limited by two core challenges: (i) a lack of dynamical consistency, which yields physically implausible structures, and (ii) poor generalization due to data scarcity and structural bias. We introduce FP-AbDiff, the first antibody generator to enforce Fokker-Planck Equation (FPE) physics along the entire generative trajectory. Our method minimizes a novel FPE residual loss over the mixed manifold of CDR geometries (R^3 x SO(3)), compelling locally-learned denoising scores to assemble into a globally coherent probability flow. This physics-informed regularizer is synergistically integrated with deep biological priors within a state-of-the-art SE(3)-equivariant diffusion framework. Rigorous evaluation on the RAbD benchmark confirms that FP-AbDiff establishes a new state-of-the-art. In de novo CDR-H3 design, it achieves a mean Root Mean Square Deviation of 0.99 Å when superposing on the variable region, a 25% improvement over the previous state-of-the-art model, AbX, and the highest reported Contact Amino Acid Recovery of 39.91%. This superiority is underscored in the more challenging six-CDR co-design task, where our model delivers consistently superior geometric precision, cutting the average full-chain Root Mean Square Deviation by ~15%, and crucially, achieves the highest full-chain Amino Acid Recovery on the functionally dominant CDR-H3 loop (45.67%). By aligning generative dynamics with physical laws, FP-AbDiff enhances robustness and generalizability, establishing a principled approach for physically faithful and functionally viable antibody design.
academic

FP-AbDiff : Amélioration de la Conception d'Anticorps Basée sur les Scores en Capturant la Dynamique Hors Équilibre par l'Équation de Fokker-Planck Sous-jacente

Informations Fondamentales

  • ID de l'article : 2511.03113
  • Titre : FP-AbDiff: Improving Score-based Antibody Design by Capturing Nonequilibrium Dynamics through the Underlying Fokker-Planck Equation
  • Auteurs : Jiameng Chen, Yida Xiong, Kun Li, Hongzhi Zhang, Xiantao Cai, Wenbin Hu, Jia Wu
  • Classification : cs.LG cs.AI q-bio.QM
  • Date de publication : 5 novembre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2511.03113

Résumé

La conception computationnelle d'anticorps présente un potentiel énorme pour la découverte thérapeutique, mais les modèles génératifs existants sont fondamentalement limités par deux défis majeurs : (i) l'absence de cohérence dynamique, conduisant à des structures physiquement déraisonnables ; (ii) une faible capacité de généralisation due à la rareté des données et aux biais structurels. Cet article introduit FP-AbDiff, le premier générateur d'anticorps qui applique la loi physique de l'équation de Fokker-Planck (EFP) sur l'ensemble de la trajectoire de génération. La méthode minimise une perte résiduelle EFP novatrice sur la variété hybride (R³×SO(3)) de la géométrie des CDR, forçant les scores de débruitage appris localement à s'assembler en un flux de probabilité globalement cohérent. Ce régularisateur informé par la physique s'intègre synergiquement avec les priors biologiques profonds dans le cadre de diffusion équivariant SE(3) de pointe.

Contexte de Recherche et Motivation

Définition du Problème

La conception d'anticorps fait face à deux défis clés :

  1. Absence de Cohérence Dynamique : Les modèles de diffusion existants tels que DiffAb, AbDiffuser et AbX optimisent les structures à des niveaux de bruit indépendants, sans jamais contraindre les chemins les reliant. Leurs objectifs d'appariement de scores de débruitage (DSM) capturent les gradients locaux mais ignorent les transformations globales, produisant fréquemment des réarrangements de boucles chimiquement déraisonnables, des empilements de chaînes latérales instables et des conformations énergétiquement tendues.
  2. Capacité de Généralisation Insuffisante : Les générateurs de diffusion fonctionnent mal en dehors de la plage étroite des ensembles de données actuels, limitant leur valeur d'application pratique. L'ensemble de référence principal SAbDab contient moins de 5 000 complexes non redondants et est fortement biaisé vers un petit nombre d'échafaudages IgG humains se liant à des épitopes viraux.

Motivation de la Recherche

La spécificité et l'affinité des CDR proviennent de mouvements conformationnels subtils et continus, plutôt que de simples instantanés structurels isolés. Les méthodes existantes manquent d'un mécanisme explicite pour forcer la cohérence temporelle et recourent souvent à des motifs familiers face à des tâches hors distribution (OOD).

Contributions Principales

  1. Cadre de Régularisation EFP Novateur : FP-AbDiff introduit le premier cadre de diffusion pour les CDR qui applique la cohérence score-Fokker-Planck sur R³×SO(3), garantissant un flux de probabilité globalement cohérent et éliminant les transitions de boucles non physiques.
  2. Unification des Lois Physiques et des Priors Biologiques : Intègre la physique de Fokker-Planck avec les priors évolutifs, géométriques et énergétiques dans un objectif unique, réalisant une génération d'anticorps dynamiquement cohérente et généralisable.
  3. Percée de Performance SOTA : Réalise les performances de pointe sur les tâches de conception et d'optimisation d'anticorps, atteignant une précision de 0,99 Å en RMSDFv dans la conception CDR-H3 (amélioration de 25% par rapport à AbX) et un taux de récupération d'acides aminés de contact de 39,91%.

Détails de la Méthode

Définition de la Tâche

La conception d'anticorps est formulée comme la génération conditionnelle de CDR étant donné le contexte structurel C (antigène et cadre). Les CDR sont définis par leur état réel à t=0, S₀=(A₀,X₀,R₀), incluant :

  • La séquence d'acides aminés A₀
  • Les coordonnées des atomes lourds X₀∈R^(Dx)
  • Les orientations résiduelles R₀∈SO(3)^(NCDR)

Architecture du Modèle

Modélisation de la Dynamique Stochastique

Dynamique de Translation (Espace Euclidien) : Les coordonnées du squelette Xt∈R³ évoluent via une équation différentielle stochastique (EDS) à variance préservée (VP) :

dXt = -½βX(t)Xt dt + √βX(t) dWX,t

Dynamique de Rotation (Variété SO(3)) : L'orientation de chaque résidu Ri,t∈SO(3) évolue via une EDS à variance explosive (VE) :

dRi,t = √βR(t) Σ(Ri,tEa) ∘ dWᵃt

Dérivation de l'Équation de Fokker-Planck

Pour une EDS générale dx_t = f(x_t,t)dt + g(t)dW_t, l'EFP décrit l'évolution de la densité de probabilité p(x,t) :

∂p/∂t = -∇·(fp) + ½g²(t)Δp

Dynamique de l'Espace Euclidien : L'opérateur d'évolution GX est défini comme :

GX[sX,X,t] := ½βX(t)[sX + (∇XsX)X + HX(sX)]

Dynamique de la Variété SO(3) : L'opérateur d'évolution GR est défini comme :

GR[sR,R,t] := ½βR(t)[ΔBsR - 2sR + HR(sR)]

Régularisation Résiduelle EFP

Conversion des CDR propres prédits par le réseau en scores de translation et rotation précis via inférence de score indirecte :

Score de translation :

sθ,X(Xt,t|Xθ₀) = -(Xt - αX(t)Xθ₀)/σ²X(t)

Score de rotation :

sθ,R(Rt,t|Rθ₀) = ∇SO(3) log pIGSO(3)((Rθ₀)ᵀRt; σ²R(t))

Résidu EFP défini comme :

εX(Xt,t) := ∂tsθ,X(Xt,t|Xθ₀) - GX[sθ,X,Xt,t]
εR(Rt,t) := ∂tsθ,R(Rt,t|Rθ₀) - GR[sθ,R,Rt,t]

Objectif d'Entraînement

Perte de Fidélité :

Lfid = L^X_DSM + L^R_DSM + 0.4·LCE

Priors de Rationalité Biophysique :

Lpriors = LFAPE + 0.5Ldist + 0.1LpLDDT + 0.03Lviol + 0.25Lbb

Régularisateur de Cohérence Dynamique :

Lfpe(θ) = Et,St[w(t)(||εX||²/DX + ||εR||²/DR)]

Fonction de Perte Complète :

Ltotal = Lfid + It<τLpriors + 0.05·Lfpe

Configuration Expérimentale

Ensemble de Données

  • Ensemble d'entraînement : Ensemble non redondant dérivé de SAbDab (septembre 2024), identité de séquence CDR-H3 ≤40%
  • Ensemble de test : 60 complexes anticorps-antigènes de l'ensemble de référence RAbD

Métriques d'Évaluation

  • Récupération de Séquence : AARFv, AARFull, CAAR (taux de récupération d'acides aminés de contact)
  • Précision Structurale : RMSDFv, RMSDFull, TM-score, lDDT
  • Viabilité Fonctionnelle : IMP (pourcentage d'échantillons avec ∆∆G<0), DockQ

Méthodes de Comparaison

  • Modèles de diffusion : DiffAb, AbX
  • Pipelines guidés par l'énergie : RosettaAb
  • GNN équivariants : dyMEAN, MEAN
  • Modèles de séquence autorégressifs : HERN

Résultats Expérimentaux

Résultats Principaux

Tâche de Conception CDR-H3

ModèleAAR↑TMscore↑lDDT↑CAAR↑RMSD↓DockQ↑
AbX84,90%0,99060,940739,08%1,320,429
FP-AbDiff83,65%0,99290,936339,91%0,990,444

FP-AbDiff réalise une amélioration de 25% en RMSDFv, atteignant une précision sous-angstrom de 0,99 Å, et obtient le plus haut CAAR de 39,91%.

Conception Synergique des Six CDR

Dans la tâche de conception de site de liaison plus exigeante, FP-AbDiff réalise l'erreur géométrique la plus faible sur les six CDR, avec une réduction moyenne d'environ 15% par rapport à AbX, atteignant le plus haut AARFull (45,67%) sur la boucle CDR-H3 critique pour la fonction.

Expériences d'Ablation

Variante du ModèleIMP(%)↑AAR(%)↑RMSD(Å)↓DockQ↑
+R³, +SO(3)28,4245,232,180,4443
-SO(3)35,3044,152,460,4437
-R³29,7643,142,410,4372

Le modèle complet réalise la plus haute fidélité, la suppression du terme R³ dégrade la qualité du squelette et de l'interface, la suppression du terme SO(3) augmente l'IMP mais détériore le RMSD et l'AAR.

Expériences d'Optimisation d'Anticorps

Dans l'optimisation itérative de débruitage, AbX suit une trajectoire « gain élevé mais fragile », tandis que FP-AbDiff maintient à partir de t=8 un RMSD constamment plus faible et un DockQ plus élevé, reflétant un chemin d'optimisation plus stable.

Travaux Connexes

Méthodes Traditionnelles

Les approches précoces telles que RosettaAntibodyDesign s'appuient sur des fonctions d'énergie statistiques et l'échantillonnage Monte-Carlo, mais sont limitées par des coûts computationnels élevés et une efficacité d'échantillonnage limitée.

Méthodes d'Apprentissage Profond

  • Modèles Centrés sur la Séquence : Les modèles de langage protéique traitent les protéines comme des entrées textuelles, mais ignorent les priors spatiaux et géométriques
  • Modèles Géométriquement Équivariants : Les modèles GNN tels que MEAN, dyMEAN et les prédicteurs comme AlphaFold2
  • Modèles de Diffusion : DiffAb, AbDiffuser, etc., mais manquent de cohérence temporelle

Avantages de cet Article

FP-AbDiff est le premier cadre imposant l'auto-cohérence physique dans la génération d'anticorps, résolvant le problème de cohérence dynamique par régularisation de Fokker-Planck.

Conclusion et Discussion

Conclusions Principales

FP-AbDiff surpasse systématiquement les lignes de base de pointe sur toutes les tâches d'évaluation de conception d'anticorps en appliquant les lois physiques de Fokker-Planck, réalisant des structures de haute fidélité, des interfaces précises et des trajectoires de génération stables.

Limitations

  1. Approximations Numériques : L'implémentation du résidu EFP repose sur des approximations telles que les différences finies et l'astuce de Hutchinson
  2. Surcharge Computationnelle : Bien qu'elle n'augmente que de 8% le temps d'entraînement, elle nécessite des passages avant supplémentaires
  3. Validation Expérimentale : Absence de validation en laboratoire de la fonctionnalité des anticorps conçus

Directions Futures

  1. Améliorer les méthodes d'approximation numérique pour accroître la précision
  2. Étendre à d'autres tâches de conception de protéines
  3. Intégrer les retours expérimentaux pour l'optimisation du modèle
  4. Explorer des contraintes physiques plus complexes

Évaluation Approfondie

Points Forts

  1. Innovation Théorique : Introduction novatrice de l'équation de Fokker-Planck dans la conception d'anticorps, résolvant le problème de cohérence dynamique
  2. Avancée Technique : Combinaison astucieuse des lois physiques et de l'apprentissage profond, réalisant des contraintes de cohérence sur la variété hybride R³×SO(3)
  3. Expérimentation Complète : Comparaisons exhaustives avec les lignes de base, expériences d'ablation et analyses de cas
  4. Performance Remarquable : Atteint SOTA sur plusieurs métriques, l'amélioration de 25% en RMSD étant particulièrement significative

Insuffisances

  1. Complexité Accrue : La méthode est relativement complexe avec de nombreux détails d'implémentation
  2. Analyse Théorique Insuffisante : Absence de garanties théoriques sur la convergence de la régularisation EFP
  3. Portée d'Application : Principalement axée sur la conception d'anticorps, la capacité de généralisation à d'autres conceptions de protéines reste inconnue

Impact

Ce travail fournit un nouveau paradigme de recherche au carrefour de la biologie computationnelle et de l'apprentissage automatique, combinant les lois physiques avec les modèles génératifs profonds, avec une importance significative pour la conception de protéines, la découverte de médicaments et d'autres domaines.

Scénarios d'Application

  • Conception d'anticorps thérapeutiques
  • Ingénierie et optimisation d'anticorps
  • Autres tâches de génération moléculaire nécessitant une cohérence physique
  • Recherche en biologie structurale

Références

L'article cite largement les travaux connexes, incluant :

  • Théorie fondamentale des modèles de diffusion (Song & Ermon 2019; Ho et al. 2020)
  • Méthodes de conception d'anticorps (Adolf-Bryfogle et al. 2018; Luo et al. 2022)
  • Apprentissage géométrique profond (Yim et al. 2023; Bortoli et al. 2022)
  • Applications de l'équation de Fokker-Planck (Lai et al. 2023)

Cet article apporte une contribution importante au domaine de la conception computationnelle d'anticorps, améliorant significativement les performances et la fiabilité des modèles génératifs par l'introduction de contraintes physiques, fournissant des perspectives précieuses et novatrices pour la recherche future en conception de protéines.