2025-11-11T08:22:09.471735

FP-AbDiff: Improving Score-based Antibody Design by Capturing Nonequilibrium Dynamics through the Underlying Fokker-Planck Equation

Chen, Xiong, Li et al.

Computational antibody design holds immense promise for therapeutic discovery, yet existing generative models are fundamentally limited by two core challenges: (i) a lack of dynamical consistency, which yields physically implausible structures, and (ii) poor generalization due to data scarcity and structural bias. We introduce FP-AbDiff, the first antibody generator to enforce Fokker-Planck Equation (FPE) physics along the entire generative trajectory. Our method minimizes a novel FPE residual loss over the mixed manifold of CDR geometries (R^3 x SO(3)), compelling locally-learned denoising scores to assemble into a globally coherent probability flow. This physics-informed regularizer is synergistically integrated with deep biological priors within a state-of-the-art SE(3)-equivariant diffusion framework. Rigorous evaluation on the RAbD benchmark confirms that FP-AbDiff establishes a new state-of-the-art. In de novo CDR-H3 design, it achieves a mean Root Mean Square Deviation of 0.99 Ã when superposing on the variable region, a 25% improvement over the previous state-of-the-art model, AbX, and the highest reported Contact Amino Acid Recovery of 39.91%. This superiority is underscored in the more challenging six-CDR co-design task, where our model delivers consistently superior geometric precision, cutting the average full-chain Root Mean Square Deviation by ~15%, and crucially, achieves the highest full-chain Amino Acid Recovery on the functionally dominant CDR-H3 loop (45.67%). By aligning generative dynamics with physical laws, FP-AbDiff enhances robustness and generalizability, establishing a principled approach for physically faithful and functionally viable antibody design.

academic

FP-AbDiff: Verbesserung des Score-basierten Antikörperdesigns durch Erfassung von Nichtgleichgewichtsdynamiken mittels der zugrunde liegenden Fokker-Planck-Gleichung

Grundlegende Informationen

Paper-ID: 2511.03113
Titel: FP-AbDiff: Improving Score-based Antibody Design by Capturing Nonequilibrium Dynamics through the Underlying Fokker-Planck Equation
Autoren: Jiameng Chen, Yida Xiong, Kun Li, Hongzhi Zhang, Xiantao Cai, Wenbin Hu, Jia Wu
Klassifizierung: cs.LG cs.AI q-bio.QM
Veröffentlichungsdatum: 5. November 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2511.03113

Zusammenfassung

Das computergestützte Antikörperdesign birgt enormes Potenzial für die therapeutische Entdeckung, wird aber durch zwei grundlegende Herausforderungen bei bestehenden Generierungsmodellen eingeschränkt: (i) fehlende Dynamikkonsistenz, die zu physikalisch unplausiblen Strukturen führt; (ii) schlechte Generalisierungsfähigkeit aufgrund von Datenmangel und strukturellen Verzerrungen. Dieser Artikel stellt FP-AbDiff vor, den ersten Antikörpergenerator, der die physikalischen Gesetze der Fokker-Planck-Gleichung (FPE) über die gesamte Generierungsbahn durchsetzt. Die Methode minimiert eine neuartige FPE-Residuumsverlustfunktion auf der hybriden Mannigfaltigkeit (R³×SO(3)) der CDR-Geometrie und zwingt lokal gelernte Denoise-Scores dazu, sich zu einem global konsistenten Wahrscheinlichkeitsfluss zusammenzusetzen. Dieser physikalisch informierte Regularisierer wird synergistisch mit tiefgreifenden biologischen Priors innerhalb eines modernen SE(3)-äquivarianten Diffusionsrahmens integriert.

Forschungshintergrund und Motivation

Problemdefinition

Das Antikörperdesign steht vor zwei kritischen Herausforderungen:

Fehlende Dynamikkonsistenz: Bestehende Diffusionsmodelle wie DiffAb, AbDiffuser und AbX optimieren Strukturen bei unabhängigen Rauschpegeln, ohne die sie verbindenden Pfade zu beschränken. Ihre Denoise-Score-Matching (DSM)-Ziele erfassen lokale Gradienten, ignorieren aber globale Übergänge und erzeugen häufig chemisch unplausible Schleifenumlagerungen, instabile Seitenketten-Packungen und energetisch angespannte Konformationen.
Unzureichende Generalisierungsfähigkeit: Diffusionsgeneratoren zeigen schlechte Leistung außerhalb des engen Bereichs aktueller Datensätze, was ihren praktischen Anwendungswert einschränkt. Der Hauptbenchmark SAbDab enthält weniger als 5000 nicht-redundante Komplexe und ist stark auf wenige humane IgG-Gerüste mit Virus-Epitop-Bindung ausgerichtet.

Forschungsmotivation

CDR-Spezifität und Affinität stammen aus subtilen, kontinuierlichen Konformationsänderungen, nicht aus isolierten Struktur-Snapshots. Bestehende Methoden ermangeln eines expliziten Mechanismus zur Durchsetzung zeitlicher Konsistenz und fallen bei außerverteilten (OOD) Aufgaben häufig in vertraute Muster zurück.

Kernbeiträge

Erstmaliger FPE-Regularisierungsrahmen: FP-AbDiff führt den ersten Diffusionsrahmen für CDRs ein, der Score-Fokker-Planck-Konsistenz auf R³×SO(3) durchsetzt, globale Konsistenz des Wahrscheinlichkeitsflusses sichert und nicht-physikalische Schleifenübergänge eliminiert.
Vereinigung von Physik und biologischen Priors: Vereinigt Fokker-Planck-Physik mit evolutionären, geometrischen und energetischen Priors in einem einzigen Ziel, um dynamikkonsistente und verallgemeinerbare Antikörpergenerierung zu erreichen.
SOTA-Leistungsdurchbruch: Erreicht modernste Leistung bei Antikörperdesign- und Optimierungsaufgaben mit 0,99 Å RMSDFv beim CDR-H3-Design (25% Verbesserung gegenüber AbX) und 39,91% Kontakt-Aminosäure-Wiederherstellungsrate.

Methodische Details

Aufgabendefinition

Das Antikörperdesign wird als bedingte CDR-Generierung unter Berücksichtigung des Strukturkontextes C (Antigen und Gerüst) formuliert. CDRs werden durch ihren echten Zustand S₀=(A₀,X₀,R₀) bei t=0 definiert, einschließlich:

Aminosäuresequenz A₀
Schweratomkoordinaten X₀∈R^(Dx)
Residuen-Orientierungen R₀∈SO(3)^(NCDR)

Modellarchitektur

Stochastische Dynamikmodellierung

Translationsdynamik (euklidischer Raum): Gerüstkoordinaten Xt∈R³ entwickeln sich durch Varianz-erhaltende (VP) SDE:

dXt = -½βX(t)Xt dt + √βX(t) dWX,t

Rotationsdynamik (SO(3)-Mannigfaltigkeit): Die Orientierung jedes Residuums Ri,t∈SO(3) entwickelt sich durch Varianz-explodierende (VE) SDE:

dRi,t = √βR(t) Σ(Ri,tEa) ∘ dWᵃt

Fokker-Planck-Gleichungsherleitung

Für eine allgemeine SDE dx_t = f(x_t,t)dt + g(t)dW_t beschreibt die FPE die Entwicklung der Wahrscheinlichkeitsdichte p(x,t):

∂p/∂t = -∇·(fp) + ½g²(t)Δp

Euklidische Raumdynamik: Der Evolutionsoperator GX ist definiert als:

GX[sX,X,t] := ½βX(t)[sX + (∇XsX)X + HX(sX)]

SO(3)-Mannigfaltigkeitsdynamik: Der Evolutionsoperator GR ist definiert als:

GR[sR,R,t] := ½βR(t)[ΔBsR - 2sR + HR(sR)]

FPE-Residuums-Regularisierung

Umwandlung der vom Netzwerk vorhergesagten sauberen CDRs in exakte Translations- und Rotations-Scores durch indirekte Score-Inferenz:

Translations-Score:

sθ,X(Xt,t|Xθ₀) = -(Xt - αX(t)Xθ₀)/σ²X(t)

Rotations-Score:

sθ,R(Rt,t|Rθ₀) = ∇SO(3) log pIGSO(3)((Rθ₀)ᵀRt; σ²R(t))

FPE-Residuum definiert als:

εX(Xt,t) := ∂tsθ,X(Xt,t|Xθ₀) - GX[sθ,X,Xt,t]
εR(Rt,t) := ∂tsθ,R(Rt,t|Rθ₀) - GR[sθ,R,Rt,t]

Trainingsziel

Treueverlust:

Lfid = L^X_DSM + L^R_DSM + 0,4·LCE

Biophysikalische Plausibilitätspriors:

Lpriors = LFAPE + 0,5Ldist + 0,1LpLDDT + 0,03Lviol + 0,25Lbb

Dynamikkonsistenz-Regularisierer:

Lfpe(θ) = Et,St[w(t)(||εX||²/DX + ||εR||²/DR)]

Vollständige Verlustfunktion:

Ltotal = Lfid + It<τLpriors + 0,05·Lfpe

Experimentelle Einrichtung

Datensätze

Trainingssatz: Nicht-redundante Menge basierend auf SAbDab-Ableitung (September 2024), CDR-H3-Sequenzidentität ≤40%
Testsatz: 60 Antikörper-Antigen-Komplexe des RAbD-Benchmarks

Bewertungsmetriken

Sequenzwiederherstellung: AARFv, AARFull, CAAR (Kontakt-Aminosäure-Wiederherstellungsrate)
Strukturgenauigkeit: RMSDFv, RMSDFull, TM-Score, lDDT
Funktionale Machbarkeit: IMP (Prozentsatz der Proben mit ∆∆G<0), DockQ

Vergleichsmethoden

Diffusionsmodelle: DiffAb, AbX
Energiegelenkte Pipelines: RosettaAb
Äquivariante GNNs: dyMEAN, MEAN
Autoregressive Sequenzmodelle: HERN

Experimentelle Ergebnisse

Hauptergebnisse

CDR-H3-Designaufgabe

Modell	AAR↑	TMscore↑	lDDT↑	CAAR↑	RMSD↓	DockQ↑
AbX	84,90%	0,9906	0,9407	39,08%	1,32	0,429
FP-AbDiff	83,65%	0,9929	0,9363	39,91%	0,99	0,444

FP-AbDiff erreicht eine 25%ige Verbesserung bei RMSDFv mit Sub-Ångström-Genauigkeit von 0,99 Å und erzielt die höchste CAAR von 39,91%.

Kooperatives Sechs-CDR-Design

Bei der anspruchsvolleren Designaufgabe für den gesamten Epitop-Bereich erreicht FP-AbDiff die niedrigsten RMSDFull-Werte über alle sechs CDRs, mit durchschnittlich etwa 15% reduziertem geometrischen Fehler im Vergleich zu AbX und der höchsten AARFull (45,67%) auf der funktional kritischen CDR-H3-Schleife.

Ablationsstudien

Modellvariante	IMP(%)↑	AAR(%)↑	RMSD(Å)↓	DockQ↑
+R³, +SO(3)	28,42	45,23	2,18	0,4443
-SO(3)	35,30	44,15	2,46	0,4437
-R³	29,76	43,14	2,41	0,4372

Das vollständige Modell erreicht die höchste Treue; das Entfernen des R³-Terms verschlechtert die Gerüst- und Schnittstellenqualität; das Entfernen des SO(3)-Terms erhöht zwar IMP, verschlechtert aber RMSD und AAR.

Antikörper-Optimierungsexperimente

Bei iterativer Denoise-Optimierung folgt AbX einer "hoher Gewinn, aber fragil"-Trajektorie, während FP-AbDiff ab t=8 konsistent niedrigere RMSD- und höhere DockQ-Werte beibehält, was einen stabileren Optimierungspfad widerspiegelt.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

FP-AbDiff übertrifft durch die Durchsetzung der Fokker-Planck-Physik konsistent die modernsten Baselines bei allen Bewertungsaufgaben des Antikörperdesigns und erreicht hochgetreue Strukturen, präzise Schnittstellen und stabile Generierungstrajektorien.

Einschränkungen

Numerische Approximation: Die Implementierung der FPE-Residuen beruht auf Approximationsmethoden wie Finite-Differenzen und Hutchinson-Trick
Rechnerischer Aufwand: Obwohl nur 8% zusätzliche Trainingszeit erforderlich ist, sind zusätzliche Vorwärtsdurchläufe erforderlich
Experimentelle Validierung: Fehlende Nassexperimente zur Validierung der Funktionalität designter Antikörper

Zukünftige Richtungen

Verbesserung numerischer Approximationsmethoden zur Steigerung der Genauigkeit
Erweiterung auf andere Proteindesign-Aufgaben
Integration experimenteller Rückmeldungen zur Modelloptimierung
Erforschung komplexerer physikalischer Beschränkungen

Tiefgreifende Bewertung

Stärken

Theoretische Innovation: Erstmalige Einführung der Fokker-Planck-Gleichung in das Antikörperdesign, Lösung des Dynamikkonsistenz-Problems
Technologischer Fortschritt: Geschickte Kombination von Physik und tiefem Lernen, Umsetzung von Konsistenzbeschränkungen auf der hybriden Mannigfaltigkeit R³×SO(3)
Umfassende Experimente: Vollständige Baseline-Vergleiche, Ablationsstudien und Fallanalysen
Herausragende Leistung: SOTA bei mehreren Metriken erreicht, besonders die 25%ige RMSD-Verbesserung ist signifikant

Schwächen

Erhöhte Komplexität: Die Methode ist relativ komplex mit vielen Implementierungsdetails
Unzureichende theoretische Analyse: Fehlende theoretische Garantien für die Konvergenz der FPE-Regularisierung
Begrenzte Anwendbarkeit: Hauptsächlich auf Antikörperdesign ausgerichtet; Generalisierungsfähigkeit auf andere Proteindesign-Aufgaben unbekannt

Auswirkungen

Diese Arbeit bietet ein neues Forschungsparadigma für das interdisziplinäre Feld der Computationalbiologie und des maschinellen Lernens, kombiniert physikalische Gesetze mit tiefen Generierungsmodellen und hat wichtige Bedeutung für Proteindesign, Wirkstoffentdeckung und andere Bereiche.

Anwendungsszenarien

Therapeutisches Antikörperdesign
Antikörper-Engineering und -Optimierung
Andere Aufgaben der Molekülgenerierung, die physikalische Konsistenz erfordern
Strukturbiologische Forschung

Literaturverzeichnis

Das Papier zitiert umfangreiche verwandte Arbeiten, einschließlich:

Grundlagentheorie von Diffusionsmodellen (Song & Ermon 2019; Ho et al. 2020)
Antikörperdesign-Methoden (Adolf-Bryfogle et al. 2018; Luo et al. 2022)
Geometrisches tiefes Lernen (Yim et al. 2023; Bortoli et al. 2022)
Anwendungen der Fokker-Planck-Gleichung (Lai et al. 2023)

Dieses Papier leistet einen wichtigen Beitrag zum Bereich des computergestützten Antikörperdesigns, verbessert die Leistung und Zuverlässigkeit von Generierungsmodellen durch die Einführung physikalischer Beschränkungen erheblich und bietet wertvolle neue Perspektiven für zukünftige Proteindesign-Forschung.