2025-11-11T08:22:09.471735

FP-AbDiff: Improving Score-based Antibody Design by Capturing Nonequilibrium Dynamics through the Underlying Fokker-Planck Equation

Chen, Xiong, Li et al.
Computational antibody design holds immense promise for therapeutic discovery, yet existing generative models are fundamentally limited by two core challenges: (i) a lack of dynamical consistency, which yields physically implausible structures, and (ii) poor generalization due to data scarcity and structural bias. We introduce FP-AbDiff, the first antibody generator to enforce Fokker-Planck Equation (FPE) physics along the entire generative trajectory. Our method minimizes a novel FPE residual loss over the mixed manifold of CDR geometries (R^3 x SO(3)), compelling locally-learned denoising scores to assemble into a globally coherent probability flow. This physics-informed regularizer is synergistically integrated with deep biological priors within a state-of-the-art SE(3)-equivariant diffusion framework. Rigorous evaluation on the RAbD benchmark confirms that FP-AbDiff establishes a new state-of-the-art. In de novo CDR-H3 design, it achieves a mean Root Mean Square Deviation of 0.99 Å when superposing on the variable region, a 25% improvement over the previous state-of-the-art model, AbX, and the highest reported Contact Amino Acid Recovery of 39.91%. This superiority is underscored in the more challenging six-CDR co-design task, where our model delivers consistently superior geometric precision, cutting the average full-chain Root Mean Square Deviation by ~15%, and crucially, achieves the highest full-chain Amino Acid Recovery on the functionally dominant CDR-H3 loop (45.67%). By aligning generative dynamics with physical laws, FP-AbDiff enhances robustness and generalizability, establishing a principled approach for physically faithful and functionally viable antibody design.
academic

FP-AbDiff: Mejorando el Diseño de Anticuerpos Basado en Puntuación Capturando Dinámicas Fuera del Equilibrio a través de la Ecuación de Fokker-Planck Subyacente

Información Básica

  • ID del Artículo: 2511.03113
  • Título: FP-AbDiff: Improving Score-based Antibody Design by Capturing Nonequilibrium Dynamics through the Underlying Fokker-Planck Equation
  • Autores: Jiameng Chen, Yida Xiong, Kun Li, Hongzhi Zhang, Xiantao Cai, Wenbin Hu, Jia Wu
  • Clasificación: cs.LG cs.AI q-bio.QM
  • Fecha de Publicación: 5 de noviembre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2511.03113

Resumen

El diseño computacional de anticuerpos posee un enorme potencial en el descubrimiento terapéutico, pero los modelos generativos existentes están fundamentalmente limitados por dos desafíos centrales: (i) falta de consistencia dinámica, que resulta en estructuras físicamente irracionales; (ii) capacidad de generalización deficiente debido a la escasez de datos y sesgos estructurales. Este artículo introduce FP-AbDiff, el primer generador de anticuerpos que impone la ley física de la ecuación de Fokker-Planck (FPE) en toda la trayectoria de generación. El método minimiza una pérdida residual de FPE novedosa en la variedad híbrida (R³×SO(3)) de la geometría de CDR, forzando que las puntuaciones de desruido aprendidas localmente se ensamblen en un flujo de probabilidad globalmente consistente. Este regularizador informado por física se integra sinérgicamente con prioridades biológicas profundas dentro de un marco de difusión equivariante SE(3) de última generación.

Contexto de Investigación y Motivación

Definición del Problema

El diseño de anticuerpos enfrenta dos desafíos clave:

  1. Falta de Consistencia Dinámica: Los modelos de difusión existentes como DiffAb, AbDiffuser y AbX optimizan estructuras en niveles de ruido independientes, sin nunca restringir las trayectorias que las conectan. Sus objetivos de coincidencia de puntuación de desruido (DSM) capturan gradientes locales pero ignoran transformaciones globales, produciendo frecuentemente reorganizaciones de bucles químicamente irracionales, apilamiento de cadenas laterales inestables y conformaciones con tensión energética.
  2. Capacidad de Generalización Insuficiente: Los generadores de difusión funcionan deficientemente fuera del rango estrecho de los conjuntos de datos actuales, limitando su valor de aplicación práctica. El punto de referencia principal SAbDab contiene menos de 5000 complejos no redundantes y está severamente sesgado hacia andamios IgG humanos minoritarios unidos a epítopos virales.

Motivación de la Investigación

La especificidad y afinidad de CDR provienen de movimientos conformacionales sutiles y continuos, no de instantáneas estructurales aisladas. Los métodos existentes carecen de mecanismos explícitos para imponer consistencia temporal y frecuentemente recurren a patrones familiares cuando se enfrentan a tareas fuera de distribución (OOD).

Contribuciones Principales

  1. Marco de Regularización FPE Pionero: FP-AbDiff introduce el primer marco de difusión para CDR que impone consistencia de puntuación-Fokker-Planck en R³×SO(3), asegurando un flujo de probabilidad globalmente consistente y eliminando transiciones de bucles no físicas.
  2. Unificación de Leyes Físicas y Prioridades Biológicas: Integra la física de Fokker-Planck con prioridades evolutivas, geométricas y energéticas en un objetivo único, logrando generación de anticuerpos dinámicamente consistente y generalizable.
  3. Avance en Rendimiento SOTA: Logra rendimiento de última generación en tareas de diseño y optimización de anticuerpos, alcanzando 0.99 Å de RMSDFv en diseño de CDR-H3 (mejora del 25% respecto a AbX) y tasa de recuperación de aminoácidos en contacto del 39.91%.

Detalles del Método

Definición de la Tarea

El diseño de anticuerpos se formula como generación condicional de CDR dado el contexto estructural C (antígeno y marco). El CDR se define por su estado verdadero en t=0 como S₀=(A₀,X₀,R₀), que incluye:

  • Secuencia de aminoácidos A₀
  • Coordenadas de átomos pesados X₀∈R^(Dx)
  • Orientaciones de residuos R₀∈SO(3)^(NCDR)

Arquitectura del Modelo

Modelado de Dinámicas Estocásticas

Dinámicas de Traslación (Espacio Euclidiano): Las coordenadas del esqueleto Xt∈R³ evolucionan mediante SDE de preservación de varianza (VP):

dXt = -½βX(t)Xt dt + √βX(t) dWX,t

Dinámicas de Rotación (Variedad SO(3)): La orientación de cada residuo Ri,t∈SO(3) evoluciona mediante SDE de explosión de varianza (VE):

dRi,t = √βR(t) Σ(Ri,tEa) ∘ dWᵃt

Derivación de la Ecuación de Fokker-Planck

Para una SDE general dx_t = f(x_t,t)dt + g(t)dW_t, la FPE describe la evolución de la densidad de probabilidad p(x,t):

∂p/∂t = -∇·(fp) + ½g²(t)Δp

Dinámicas en Espacio Euclidiano: El operador de evolución GX se define como:

GX[sX,X,t] := ½βX(t)[sX + (∇XsX)X + HX(sX)]

Dinámicas en Variedad SO(3): El operador de evolución GR se define como:

GR[sR,R,t] := ½βR(t)[ΔBsR - 2sR + HR(sR)]

Regularización Residual de FPE

Conversión de CDR limpio predicho por la red en puntuaciones de traslación y rotación precisas mediante inferencia de puntuación indirecta:

Puntuación de traslación:

sθ,X(Xt,t|Xθ₀) = -(Xt - αX(t)Xθ₀)/σ²X(t)

Puntuación de rotación:

sθ,R(Rt,t|Rθ₀) = ∇SO(3) log pIGSO(3)((Rθ₀)ᵀRt; σ²R(t))

Residual de FPE definido como:

εX(Xt,t) := ∂tsθ,X(Xt,t|Xθ₀) - GX[sθ,X,Xt,t]
εR(Rt,t) := ∂tsθ,R(Rt,t|Rθ₀) - GR[sθ,R,Rt,t]

Objetivos de Entrenamiento

Pérdida de Fidelidad:

Lfid = L^X_DSM + L^R_DSM + 0.4·LCE

Prioridades de Racionalidad Biofísica:

Lpriors = LFAPE + 0.5Ldist + 0.1LpLDDT + 0.03Lviol + 0.25Lbb

Regularizador de Consistencia Dinámica:

Lfpe(θ) = Et,St[w(t)(||εX||²/DX + ||εR||²/DR)]

Función de Pérdida Completa:

Ltotal = Lfid + It<τLpriors + 0.05·Lfpe

Configuración Experimental

Conjunto de Datos

  • Conjunto de Entrenamiento: Conjunto no redundante derivado de SAbDab (septiembre de 2024), identidad de secuencia CDR-H3 ≤40%
  • Conjunto de Prueba: 60 complejos anticuerpo-antígeno del punto de referencia RAbD

Métricas de Evaluación

  • Recuperación de Secuencia: AARFv, AARFull, CAAR (tasa de recuperación de aminoácidos en contacto)
  • Precisión Estructural: RMSDFv, RMSDFull, TM-score, lDDT
  • Viabilidad Funcional: IMP (porcentaje de muestras con ∆∆G<0), DockQ

Métodos de Comparación

  • Modelos de difusión: DiffAb, AbX
  • Tuberías guiadas por energía: RosettaAb
  • GNN equivariantes: dyMEAN, MEAN
  • Modelos de secuencia autorregresivos: HERN

Resultados Experimentales

Resultados Principales

Tarea de Diseño CDR-H3

ModeloAAR↑TMscore↑lDDT↑CAAR↑RMSD↓DockQ↑
AbX84.90%0.99060.940739.08%1.320.429
FP-AbDiff83.65%0.99290.936339.91%0.990.444

FP-AbDiff logra una mejora del 25% en RMSDFv, alcanzando precisión subangstrom de 0.99 Å, y obtiene el CAAR más alto de 39.91%.

Diseño Sinérgico de Seis CDR

En la tarea más desafiante de diseño de sitio de unión completo, FP-AbDiff logra el RMSD más bajo en los seis CDR, con error geométrico promedio aproximadamente 15% menor que AbX, alcanzando el AARFull más alto (45.67%) en el bucle CDR-H3 funcionalmente crítico.

Experimentos de Ablación

Variante del ModeloIMP(%)↑AAR(%)↑RMSD(Å)↓DockQ↑
+R³, +SO(3)28.4245.232.180.4443
-SO(3)35.3044.152.460.4437
-R³29.7643.142.410.4372

El modelo completo logra la máxima fidelidad; la eliminación del término R³ reduce la calidad del esqueleto e interfaz, mientras que la eliminación del término SO(3) aumenta IMP pero empeora RMSD y AAR.

Experimentos de Optimización de Anticuerpos

En optimización de desruido iterativo, AbX sigue una trayectoria "ganancia alta pero frágil", mientras que FP-AbDiff mantiene RMSD consistentemente más bajo y DockQ más alto a partir de t=8, reflejando una trayectoria de optimización más estable.

Trabajo Relacionado

Métodos Tradicionales

Los métodos tempranos como RosettaAntibodyDesign dependen de funciones de energía estadística y muestreo de Monte Carlo, pero están limitados por alto costo computacional y eficiencia de muestreo limitada.

Métodos de Aprendizaje Profundo

  • Modelos Centrados en Secuencia: Los modelos de lenguaje de proteínas tratan las proteínas como entrada de texto, pero ignoran prioridades espaciales y geométricas
  • Modelos Geométricamente Equivariantes: Modelos GNN como MEAN, dyMEAN y predictores como AlphaFold2
  • Modelos de Difusión: DiffAb, AbDiffuser, etc., pero carecen de consistencia temporal

Ventajas de Este Trabajo

FP-AbDiff es el primer marco que impone autoconsistencia física en la generación de anticuerpos, resolviendo el problema de consistencia dinámica mediante regularización de Fokker-Planck.

Conclusiones y Discusión

Conclusiones Principales

FP-AbDiff supera consistentemente los puntos de referencia de última generación en todas las tareas de evaluación de diseño de anticuerpos al imponer la ley física de Fokker-Planck, logrando estructuras de alta fidelidad, interfaces precisas y trayectorias de generación estables.

Limitaciones

  1. Aproximaciones Numéricas: La implementación del residual de FPE depende de métodos de aproximación como diferencias finitas y el truco de Hutchinson
  2. Costo Computacional: Aunque solo aumenta el tiempo de entrenamiento en 8%, requiere propagaciones hacia adelante adicionales
  3. Validación Experimental: Carece de validación experimental húmeda de la funcionalidad de anticuerpos diseñados

Direcciones Futuras

  1. Mejorar métodos de aproximación numérica para mayor precisión
  2. Extender a otras tareas de diseño de proteínas
  3. Incorporar retroalimentación experimental para optimización del modelo
  4. Explorar restricciones físicas más complejas

Evaluación Profunda

Fortalezas

  1. Innovación Teórica: Primera introducción de la ecuación de Fokker-Planck en diseño de anticuerpos, resolviendo el problema de consistencia dinámica
  2. Avance Técnico: Combinación ingeniosa de leyes físicas con aprendizaje profundo, logrando restricciones de consistencia en la variedad híbrida R³×SO(3)
  3. Experimentación Completa: Comparación exhaustiva de líneas base, experimentos de ablación y análisis de casos
  4. Rendimiento Destacado: Logra SOTA en múltiples métricas, especialmente la mejora del 25% en RMSD es significativa

Deficiencias

  1. Complejidad Aumentada: El método es relativamente complejo con muchos detalles de implementación
  2. Análisis Teórico Insuficiente: Carece de garantías teóricas sobre convergencia de la regularización de FPE
  3. Rango de Aplicabilidad: Principalmente dirigido al diseño de anticuerpos; la capacidad de generalización a otros diseños de proteínas es desconocida

Impacto

Este trabajo proporciona un nuevo paradigma de investigación en el campo interdisciplinario de biología computacional y aprendizaje automático, combinando leyes físicas con modelos generativos profundos, con importancia significativa para diseño de proteínas, descubrimiento de fármacos y otros campos.

Escenarios de Aplicación

  • Diseño de anticuerpos terapéuticos
  • Ingeniería y optimización de anticuerpos
  • Otras tareas de generación molecular que requieren consistencia física
  • Investigación en biología estructural

Referencias

El artículo cita ampliamente trabajos relacionados, incluyendo:

  • Teoría fundamental de modelos de difusión (Song & Ermon 2019; Ho et al. 2020)
  • Métodos de diseño de anticuerpos (Adolf-Bryfogle et al. 2018; Luo et al. 2022)
  • Aprendizaje geométrico profundo (Yim et al. 2023; Bortoli et al. 2022)
  • Aplicaciones de la ecuación de Fokker-Planck (Lai et al. 2023)

Este artículo realiza contribuciones importantes en el campo del diseño computacional de anticuerpos, mejorando significativamente el rendimiento y confiabilidad de los modelos generativos mediante la introducción de restricciones físicas, proporcionando nuevas perspectivas valiosas para futuras investigaciones en diseño de proteínas.