FP-AbDiff: Improving Score-based Antibody Design by Capturing Nonequilibrium Dynamics through the Underlying Fokker-Planck Equation
Chen, Xiong, Li et al.
Computational antibody design holds immense promise for therapeutic discovery, yet existing generative models are fundamentally limited by two core challenges: (i) a lack of dynamical consistency, which yields physically implausible structures, and (ii) poor generalization due to data scarcity and structural bias. We introduce FP-AbDiff, the first antibody generator to enforce Fokker-Planck Equation (FPE) physics along the entire generative trajectory. Our method minimizes a novel FPE residual loss over the mixed manifold of CDR geometries (R^3 x SO(3)), compelling locally-learned denoising scores to assemble into a globally coherent probability flow. This physics-informed regularizer is synergistically integrated with deep biological priors within a state-of-the-art SE(3)-equivariant diffusion framework. Rigorous evaluation on the RAbD benchmark confirms that FP-AbDiff establishes a new state-of-the-art. In de novo CDR-H3 design, it achieves a mean Root Mean Square Deviation of 0.99 Ã when superposing on the variable region, a 25% improvement over the previous state-of-the-art model, AbX, and the highest reported Contact Amino Acid Recovery of 39.91%. This superiority is underscored in the more challenging six-CDR co-design task, where our model delivers consistently superior geometric precision, cutting the average full-chain Root Mean Square Deviation by ~15%, and crucially, achieves the highest full-chain Amino Acid Recovery on the functionally dominant CDR-H3 loop (45.67%). By aligning generative dynamics with physical laws, FP-AbDiff enhances robustness and generalizability, establishing a principled approach for physically faithful and functionally viable antibody design.
academic
FP-AbDiff : Amélioration de la Conception d'Anticorps Basée sur les Scores en Capturant la Dynamique Hors Équilibre par l'Équation de Fokker-Planck Sous-jacente
La conception computationnelle d'anticorps présente un potentiel énorme pour la découverte thérapeutique, mais les modèles génératifs existants sont fondamentalement limités par deux défis majeurs : (i) l'absence de cohérence dynamique, conduisant à des structures physiquement déraisonnables ; (ii) une faible capacité de généralisation due à la rareté des données et aux biais structurels. Cet article introduit FP-AbDiff, le premier générateur d'anticorps qui applique la loi physique de l'équation de Fokker-Planck (EFP) sur l'ensemble de la trajectoire de génération. La méthode minimise une perte résiduelle EFP novatrice sur la variété hybride (R³×SO(3)) de la géométrie des CDR, forçant les scores de débruitage appris localement à s'assembler en un flux de probabilité globalement cohérent. Ce régularisateur informé par la physique s'intègre synergiquement avec les priors biologiques profonds dans le cadre de diffusion équivariant SE(3) de pointe.
La conception d'anticorps fait face à deux défis clés :
Absence de Cohérence Dynamique : Les modèles de diffusion existants tels que DiffAb, AbDiffuser et AbX optimisent les structures à des niveaux de bruit indépendants, sans jamais contraindre les chemins les reliant. Leurs objectifs d'appariement de scores de débruitage (DSM) capturent les gradients locaux mais ignorent les transformations globales, produisant fréquemment des réarrangements de boucles chimiquement déraisonnables, des empilements de chaînes latérales instables et des conformations énergétiquement tendues.
Capacité de Généralisation Insuffisante : Les générateurs de diffusion fonctionnent mal en dehors de la plage étroite des ensembles de données actuels, limitant leur valeur d'application pratique. L'ensemble de référence principal SAbDab contient moins de 5 000 complexes non redondants et est fortement biaisé vers un petit nombre d'échafaudages IgG humains se liant à des épitopes viraux.
La spécificité et l'affinité des CDR proviennent de mouvements conformationnels subtils et continus, plutôt que de simples instantanés structurels isolés. Les méthodes existantes manquent d'un mécanisme explicite pour forcer la cohérence temporelle et recourent souvent à des motifs familiers face à des tâches hors distribution (OOD).
Cadre de Régularisation EFP Novateur : FP-AbDiff introduit le premier cadre de diffusion pour les CDR qui applique la cohérence score-Fokker-Planck sur R³×SO(3), garantissant un flux de probabilité globalement cohérent et éliminant les transitions de boucles non physiques.
Unification des Lois Physiques et des Priors Biologiques : Intègre la physique de Fokker-Planck avec les priors évolutifs, géométriques et énergétiques dans un objectif unique, réalisant une génération d'anticorps dynamiquement cohérente et généralisable.
Percée de Performance SOTA : Réalise les performances de pointe sur les tâches de conception et d'optimisation d'anticorps, atteignant une précision de 0,99 Å en RMSDFv dans la conception CDR-H3 (amélioration de 25% par rapport à AbX) et un taux de récupération d'acides aminés de contact de 39,91%.
La conception d'anticorps est formulée comme la génération conditionnelle de CDR étant donné le contexte structurel C (antigène et cadre). Les CDR sont définis par leur état réel à t=0, S₀=(A₀,X₀,R₀), incluant :
Dynamique de Translation (Espace Euclidien) :
Les coordonnées du squelette Xt∈R³ évoluent via une équation différentielle stochastique (EDS) à variance préservée (VP) :
dXt = -½βX(t)Xt dt + √βX(t) dWX,t
Dynamique de Rotation (Variété SO(3)) :
L'orientation de chaque résidu Ri,t∈SO(3) évolue via une EDS à variance explosive (VE) :
Dans la tâche de conception de site de liaison plus exigeante, FP-AbDiff réalise l'erreur géométrique la plus faible sur les six CDR, avec une réduction moyenne d'environ 15% par rapport à AbX, atteignant le plus haut AARFull (45,67%) sur la boucle CDR-H3 critique pour la fonction.
Le modèle complet réalise la plus haute fidélité, la suppression du terme R³ dégrade la qualité du squelette et de l'interface, la suppression du terme SO(3) augmente l'IMP mais détériore le RMSD et l'AAR.
Dans l'optimisation itérative de débruitage, AbX suit une trajectoire « gain élevé mais fragile », tandis que FP-AbDiff maintient à partir de t=8 un RMSD constamment plus faible et un DockQ plus élevé, reflétant un chemin d'optimisation plus stable.
Les approches précoces telles que RosettaAntibodyDesign s'appuient sur des fonctions d'énergie statistiques et l'échantillonnage Monte-Carlo, mais sont limitées par des coûts computationnels élevés et une efficacité d'échantillonnage limitée.
Modèles Centrés sur la Séquence : Les modèles de langage protéique traitent les protéines comme des entrées textuelles, mais ignorent les priors spatiaux et géométriques
Modèles Géométriquement Équivariants : Les modèles GNN tels que MEAN, dyMEAN et les prédicteurs comme AlphaFold2
Modèles de Diffusion : DiffAb, AbDiffuser, etc., mais manquent de cohérence temporelle
FP-AbDiff est le premier cadre imposant l'auto-cohérence physique dans la génération d'anticorps, résolvant le problème de cohérence dynamique par régularisation de Fokker-Planck.
FP-AbDiff surpasse systématiquement les lignes de base de pointe sur toutes les tâches d'évaluation de conception d'anticorps en appliquant les lois physiques de Fokker-Planck, réalisant des structures de haute fidélité, des interfaces précises et des trajectoires de génération stables.
Innovation Théorique : Introduction novatrice de l'équation de Fokker-Planck dans la conception d'anticorps, résolvant le problème de cohérence dynamique
Avancée Technique : Combinaison astucieuse des lois physiques et de l'apprentissage profond, réalisant des contraintes de cohérence sur la variété hybride R³×SO(3)
Expérimentation Complète : Comparaisons exhaustives avec les lignes de base, expériences d'ablation et analyses de cas
Performance Remarquable : Atteint SOTA sur plusieurs métriques, l'amélioration de 25% en RMSD étant particulièrement significative
Complexité Accrue : La méthode est relativement complexe avec de nombreux détails d'implémentation
Analyse Théorique Insuffisante : Absence de garanties théoriques sur la convergence de la régularisation EFP
Portée d'Application : Principalement axée sur la conception d'anticorps, la capacité de généralisation à d'autres conceptions de protéines reste inconnue
Ce travail fournit un nouveau paradigme de recherche au carrefour de la biologie computationnelle et de l'apprentissage automatique, combinant les lois physiques avec les modèles génératifs profonds, avec une importance significative pour la conception de protéines, la découverte de médicaments et d'autres domaines.
L'article cite largement les travaux connexes, incluant :
Théorie fondamentale des modèles de diffusion (Song & Ermon 2019; Ho et al. 2020)
Méthodes de conception d'anticorps (Adolf-Bryfogle et al. 2018; Luo et al. 2022)
Apprentissage géométrique profond (Yim et al. 2023; Bortoli et al. 2022)
Applications de l'équation de Fokker-Planck (Lai et al. 2023)
Cet article apporte une contribution importante au domaine de la conception computationnelle d'anticorps, améliorant significativement les performances et la fiabilité des modèles génératifs par l'introduction de contraintes physiques, fournissant des perspectives précieuses et novatrices pour la recherche future en conception de protéines.