2025-11-11T08:22:09.471735

FP-AbDiff: Improving Score-based Antibody Design by Capturing Nonequilibrium Dynamics through the Underlying Fokker-Planck Equation

Chen, Xiong, Li et al.
Computational antibody design holds immense promise for therapeutic discovery, yet existing generative models are fundamentally limited by two core challenges: (i) a lack of dynamical consistency, which yields physically implausible structures, and (ii) poor generalization due to data scarcity and structural bias. We introduce FP-AbDiff, the first antibody generator to enforce Fokker-Planck Equation (FPE) physics along the entire generative trajectory. Our method minimizes a novel FPE residual loss over the mixed manifold of CDR geometries (R^3 x SO(3)), compelling locally-learned denoising scores to assemble into a globally coherent probability flow. This physics-informed regularizer is synergistically integrated with deep biological priors within a state-of-the-art SE(3)-equivariant diffusion framework. Rigorous evaluation on the RAbD benchmark confirms that FP-AbDiff establishes a new state-of-the-art. In de novo CDR-H3 design, it achieves a mean Root Mean Square Deviation of 0.99 Å when superposing on the variable region, a 25% improvement over the previous state-of-the-art model, AbX, and the highest reported Contact Amino Acid Recovery of 39.91%. This superiority is underscored in the more challenging six-CDR co-design task, where our model delivers consistently superior geometric precision, cutting the average full-chain Root Mean Square Deviation by ~15%, and crucially, achieves the highest full-chain Amino Acid Recovery on the functionally dominant CDR-H3 loop (45.67%). By aligning generative dynamics with physical laws, FP-AbDiff enhances robustness and generalizability, establishing a principled approach for physically faithful and functionally viable antibody design.
academic

FP-AbDiff: Verbesserung des Score-basierten Antikörperdesigns durch Erfassung von Nichtgleichgewichtsdynamiken mittels der zugrunde liegenden Fokker-Planck-Gleichung

Grundlegende Informationen

  • Paper-ID: 2511.03113
  • Titel: FP-AbDiff: Improving Score-based Antibody Design by Capturing Nonequilibrium Dynamics through the Underlying Fokker-Planck Equation
  • Autoren: Jiameng Chen, Yida Xiong, Kun Li, Hongzhi Zhang, Xiantao Cai, Wenbin Hu, Jia Wu
  • Klassifizierung: cs.LG cs.AI q-bio.QM
  • Veröffentlichungsdatum: 5. November 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2511.03113

Zusammenfassung

Das computergestützte Antikörperdesign birgt enormes Potenzial für die therapeutische Entdeckung, wird aber durch zwei grundlegende Herausforderungen bei bestehenden Generierungsmodellen eingeschränkt: (i) fehlende Dynamikkonsistenz, die zu physikalisch unplausiblen Strukturen führt; (ii) schlechte Generalisierungsfähigkeit aufgrund von Datenmangel und strukturellen Verzerrungen. Dieser Artikel stellt FP-AbDiff vor, den ersten Antikörpergenerator, der die physikalischen Gesetze der Fokker-Planck-Gleichung (FPE) über die gesamte Generierungsbahn durchsetzt. Die Methode minimiert eine neuartige FPE-Residuumsverlustfunktion auf der hybriden Mannigfaltigkeit (R³×SO(3)) der CDR-Geometrie und zwingt lokal gelernte Denoise-Scores dazu, sich zu einem global konsistenten Wahrscheinlichkeitsfluss zusammenzusetzen. Dieser physikalisch informierte Regularisierer wird synergistisch mit tiefgreifenden biologischen Priors innerhalb eines modernen SE(3)-äquivarianten Diffusionsrahmens integriert.

Forschungshintergrund und Motivation

Problemdefinition

Das Antikörperdesign steht vor zwei kritischen Herausforderungen:

  1. Fehlende Dynamikkonsistenz: Bestehende Diffusionsmodelle wie DiffAb, AbDiffuser und AbX optimieren Strukturen bei unabhängigen Rauschpegeln, ohne die sie verbindenden Pfade zu beschränken. Ihre Denoise-Score-Matching (DSM)-Ziele erfassen lokale Gradienten, ignorieren aber globale Übergänge und erzeugen häufig chemisch unplausible Schleifenumlagerungen, instabile Seitenketten-Packungen und energetisch angespannte Konformationen.
  2. Unzureichende Generalisierungsfähigkeit: Diffusionsgeneratoren zeigen schlechte Leistung außerhalb des engen Bereichs aktueller Datensätze, was ihren praktischen Anwendungswert einschränkt. Der Hauptbenchmark SAbDab enthält weniger als 5000 nicht-redundante Komplexe und ist stark auf wenige humane IgG-Gerüste mit Virus-Epitop-Bindung ausgerichtet.

Forschungsmotivation

CDR-Spezifität und Affinität stammen aus subtilen, kontinuierlichen Konformationsänderungen, nicht aus isolierten Struktur-Snapshots. Bestehende Methoden ermangeln eines expliziten Mechanismus zur Durchsetzung zeitlicher Konsistenz und fallen bei außerverteilten (OOD) Aufgaben häufig in vertraute Muster zurück.

Kernbeiträge

  1. Erstmaliger FPE-Regularisierungsrahmen: FP-AbDiff führt den ersten Diffusionsrahmen für CDRs ein, der Score-Fokker-Planck-Konsistenz auf R³×SO(3) durchsetzt, globale Konsistenz des Wahrscheinlichkeitsflusses sichert und nicht-physikalische Schleifenübergänge eliminiert.
  2. Vereinigung von Physik und biologischen Priors: Vereinigt Fokker-Planck-Physik mit evolutionären, geometrischen und energetischen Priors in einem einzigen Ziel, um dynamikkonsistente und verallgemeinerbare Antikörpergenerierung zu erreichen.
  3. SOTA-Leistungsdurchbruch: Erreicht modernste Leistung bei Antikörperdesign- und Optimierungsaufgaben mit 0,99 Å RMSDFv beim CDR-H3-Design (25% Verbesserung gegenüber AbX) und 39,91% Kontakt-Aminosäure-Wiederherstellungsrate.

Methodische Details

Aufgabendefinition

Das Antikörperdesign wird als bedingte CDR-Generierung unter Berücksichtigung des Strukturkontextes C (Antigen und Gerüst) formuliert. CDRs werden durch ihren echten Zustand S₀=(A₀,X₀,R₀) bei t=0 definiert, einschließlich:

  • Aminosäuresequenz A₀
  • Schweratomkoordinaten X₀∈R^(Dx)
  • Residuen-Orientierungen R₀∈SO(3)^(NCDR)

Modellarchitektur

Stochastische Dynamikmodellierung

Translationsdynamik (euklidischer Raum): Gerüstkoordinaten Xt∈R³ entwickeln sich durch Varianz-erhaltende (VP) SDE:

dXt = -½βX(t)Xt dt + √βX(t) dWX,t

Rotationsdynamik (SO(3)-Mannigfaltigkeit): Die Orientierung jedes Residuums Ri,t∈SO(3) entwickelt sich durch Varianz-explodierende (VE) SDE:

dRi,t = √βR(t) Σ(Ri,tEa) ∘ dWᵃt

Fokker-Planck-Gleichungsherleitung

Für eine allgemeine SDE dx_t = f(x_t,t)dt + g(t)dW_t beschreibt die FPE die Entwicklung der Wahrscheinlichkeitsdichte p(x,t):

∂p/∂t = -∇·(fp) + ½g²(t)Δp

Euklidische Raumdynamik: Der Evolutionsoperator GX ist definiert als:

GX[sX,X,t] := ½βX(t)[sX + (∇XsX)X + HX(sX)]

SO(3)-Mannigfaltigkeitsdynamik: Der Evolutionsoperator GR ist definiert als:

GR[sR,R,t] := ½βR(t)[ΔBsR - 2sR + HR(sR)]

FPE-Residuums-Regularisierung

Umwandlung der vom Netzwerk vorhergesagten sauberen CDRs in exakte Translations- und Rotations-Scores durch indirekte Score-Inferenz:

Translations-Score:

sθ,X(Xt,t|Xθ₀) = -(Xt - αX(t)Xθ₀)/σ²X(t)

Rotations-Score:

sθ,R(Rt,t|Rθ₀) = ∇SO(3) log pIGSO(3)((Rθ₀)ᵀRt; σ²R(t))

FPE-Residuum definiert als:

εX(Xt,t) := ∂tsθ,X(Xt,t|Xθ₀) - GX[sθ,X,Xt,t]
εR(Rt,t) := ∂tsθ,R(Rt,t|Rθ₀) - GR[sθ,R,Rt,t]

Trainingsziel

Treueverlust:

Lfid = L^X_DSM + L^R_DSM + 0,4·LCE

Biophysikalische Plausibilitätspriors:

Lpriors = LFAPE + 0,5Ldist + 0,1LpLDDT + 0,03Lviol + 0,25Lbb

Dynamikkonsistenz-Regularisierer:

Lfpe(θ) = Et,St[w(t)(||εX||²/DX + ||εR||²/DR)]

Vollständige Verlustfunktion:

Ltotal = Lfid + It<τLpriors + 0,05·Lfpe

Experimentelle Einrichtung

Datensätze

  • Trainingssatz: Nicht-redundante Menge basierend auf SAbDab-Ableitung (September 2024), CDR-H3-Sequenzidentität ≤40%
  • Testsatz: 60 Antikörper-Antigen-Komplexe des RAbD-Benchmarks

Bewertungsmetriken

  • Sequenzwiederherstellung: AARFv, AARFull, CAAR (Kontakt-Aminosäure-Wiederherstellungsrate)
  • Strukturgenauigkeit: RMSDFv, RMSDFull, TM-Score, lDDT
  • Funktionale Machbarkeit: IMP (Prozentsatz der Proben mit ∆∆G<0), DockQ

Vergleichsmethoden

  • Diffusionsmodelle: DiffAb, AbX
  • Energiegelenkte Pipelines: RosettaAb
  • Äquivariante GNNs: dyMEAN, MEAN
  • Autoregressive Sequenzmodelle: HERN

Experimentelle Ergebnisse

Hauptergebnisse

CDR-H3-Designaufgabe

ModellAAR↑TMscore↑lDDT↑CAAR↑RMSD↓DockQ↑
AbX84,90%0,99060,940739,08%1,320,429
FP-AbDiff83,65%0,99290,936339,91%0,990,444

FP-AbDiff erreicht eine 25%ige Verbesserung bei RMSDFv mit Sub-Ångström-Genauigkeit von 0,99 Å und erzielt die höchste CAAR von 39,91%.

Kooperatives Sechs-CDR-Design

Bei der anspruchsvolleren Designaufgabe für den gesamten Epitop-Bereich erreicht FP-AbDiff die niedrigsten RMSDFull-Werte über alle sechs CDRs, mit durchschnittlich etwa 15% reduziertem geometrischen Fehler im Vergleich zu AbX und der höchsten AARFull (45,67%) auf der funktional kritischen CDR-H3-Schleife.

Ablationsstudien

ModellvarianteIMP(%)↑AAR(%)↑RMSD(Å)↓DockQ↑
+R³, +SO(3)28,4245,232,180,4443
-SO(3)35,3044,152,460,4437
-R³29,7643,142,410,4372

Das vollständige Modell erreicht die höchste Treue; das Entfernen des R³-Terms verschlechtert die Gerüst- und Schnittstellenqualität; das Entfernen des SO(3)-Terms erhöht zwar IMP, verschlechtert aber RMSD und AAR.

Antikörper-Optimierungsexperimente

Bei iterativer Denoise-Optimierung folgt AbX einer "hoher Gewinn, aber fragil"-Trajektorie, während FP-AbDiff ab t=8 konsistent niedrigere RMSD- und höhere DockQ-Werte beibehält, was einen stabileren Optimierungspfad widerspiegelt.

Verwandte Arbeiten

Traditionelle Methoden

Frühe Methoden wie RosettaAntibodyDesign verlassen sich auf statistische Energiefunktionen und Monte-Carlo-Sampling, sind aber durch hohe Rechenkosten und begrenzte Sampling-Effizienz eingeschränkt.

Tiefenlernmethoden

  • Sequenz-zentrierte Modelle: Protein-Sprachmodelle behandeln Proteine als Texteingaben, ignorieren aber räumliche und geometrische Priors
  • Geometrisch äquivariante Modelle: GNN-Modelle wie MEAN, dyMEAN und Vorhersageprogramme wie AlphaFold2
  • Diffusionsmodelle: DiffAb, AbDiffuser usw., aber ohne zeitliche Konsistenz

Vorteile dieses Ansatzes

FP-AbDiff ist der erste Rahmen, der physikalische Selbstkonsistenz in der Antikörpergenerierung durchsetzt und das Problem der Dynamikkonsistenz durch Fokker-Planck-Regularisierung löst.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

FP-AbDiff übertrifft durch die Durchsetzung der Fokker-Planck-Physik konsistent die modernsten Baselines bei allen Bewertungsaufgaben des Antikörperdesigns und erreicht hochgetreue Strukturen, präzise Schnittstellen und stabile Generierungstrajektorien.

Einschränkungen

  1. Numerische Approximation: Die Implementierung der FPE-Residuen beruht auf Approximationsmethoden wie Finite-Differenzen und Hutchinson-Trick
  2. Rechnerischer Aufwand: Obwohl nur 8% zusätzliche Trainingszeit erforderlich ist, sind zusätzliche Vorwärtsdurchläufe erforderlich
  3. Experimentelle Validierung: Fehlende Nassexperimente zur Validierung der Funktionalität designter Antikörper

Zukünftige Richtungen

  1. Verbesserung numerischer Approximationsmethoden zur Steigerung der Genauigkeit
  2. Erweiterung auf andere Proteindesign-Aufgaben
  3. Integration experimenteller Rückmeldungen zur Modelloptimierung
  4. Erforschung komplexerer physikalischer Beschränkungen

Tiefgreifende Bewertung

Stärken

  1. Theoretische Innovation: Erstmalige Einführung der Fokker-Planck-Gleichung in das Antikörperdesign, Lösung des Dynamikkonsistenz-Problems
  2. Technologischer Fortschritt: Geschickte Kombination von Physik und tiefem Lernen, Umsetzung von Konsistenzbeschränkungen auf der hybriden Mannigfaltigkeit R³×SO(3)
  3. Umfassende Experimente: Vollständige Baseline-Vergleiche, Ablationsstudien und Fallanalysen
  4. Herausragende Leistung: SOTA bei mehreren Metriken erreicht, besonders die 25%ige RMSD-Verbesserung ist signifikant

Schwächen

  1. Erhöhte Komplexität: Die Methode ist relativ komplex mit vielen Implementierungsdetails
  2. Unzureichende theoretische Analyse: Fehlende theoretische Garantien für die Konvergenz der FPE-Regularisierung
  3. Begrenzte Anwendbarkeit: Hauptsächlich auf Antikörperdesign ausgerichtet; Generalisierungsfähigkeit auf andere Proteindesign-Aufgaben unbekannt

Auswirkungen

Diese Arbeit bietet ein neues Forschungsparadigma für das interdisziplinäre Feld der Computationalbiologie und des maschinellen Lernens, kombiniert physikalische Gesetze mit tiefen Generierungsmodellen und hat wichtige Bedeutung für Proteindesign, Wirkstoffentdeckung und andere Bereiche.

Anwendungsszenarien

  • Therapeutisches Antikörperdesign
  • Antikörper-Engineering und -Optimierung
  • Andere Aufgaben der Molekülgenerierung, die physikalische Konsistenz erfordern
  • Strukturbiologische Forschung

Literaturverzeichnis

Das Papier zitiert umfangreiche verwandte Arbeiten, einschließlich:

  • Grundlagentheorie von Diffusionsmodellen (Song & Ermon 2019; Ho et al. 2020)
  • Antikörperdesign-Methoden (Adolf-Bryfogle et al. 2018; Luo et al. 2022)
  • Geometrisches tiefes Lernen (Yim et al. 2023; Bortoli et al. 2022)
  • Anwendungen der Fokker-Planck-Gleichung (Lai et al. 2023)

Dieses Papier leistet einen wichtigen Beitrag zum Bereich des computergestützten Antikörperdesigns, verbessert die Leistung und Zuverlässigkeit von Generierungsmodellen durch die Einführung physikalischer Beschränkungen erheblich und bietet wertvolle neue Perspektiven für zukünftige Proteindesign-Forschung.