2025-11-11T08:22:09.471735

FP-AbDiff: Improving Score-based Antibody Design by Capturing Nonequilibrium Dynamics through the Underlying Fokker-Planck Equation

Chen, Xiong, Li et al.
Computational antibody design holds immense promise for therapeutic discovery, yet existing generative models are fundamentally limited by two core challenges: (i) a lack of dynamical consistency, which yields physically implausible structures, and (ii) poor generalization due to data scarcity and structural bias. We introduce FP-AbDiff, the first antibody generator to enforce Fokker-Planck Equation (FPE) physics along the entire generative trajectory. Our method minimizes a novel FPE residual loss over the mixed manifold of CDR geometries (R^3 x SO(3)), compelling locally-learned denoising scores to assemble into a globally coherent probability flow. This physics-informed regularizer is synergistically integrated with deep biological priors within a state-of-the-art SE(3)-equivariant diffusion framework. Rigorous evaluation on the RAbD benchmark confirms that FP-AbDiff establishes a new state-of-the-art. In de novo CDR-H3 design, it achieves a mean Root Mean Square Deviation of 0.99 Å when superposing on the variable region, a 25% improvement over the previous state-of-the-art model, AbX, and the highest reported Contact Amino Acid Recovery of 39.91%. This superiority is underscored in the more challenging six-CDR co-design task, where our model delivers consistently superior geometric precision, cutting the average full-chain Root Mean Square Deviation by ~15%, and crucially, achieves the highest full-chain Amino Acid Recovery on the functionally dominant CDR-H3 loop (45.67%). By aligning generative dynamics with physical laws, FP-AbDiff enhances robustness and generalizability, establishing a principled approach for physically faithful and functionally viable antibody design.
academic

FP-AbDiff: Улучшение дизайна антител на основе оценок путём захвата неравновесной динамики через лежащее в основе уравнение Фоккера-Планка

Основная информация

  • ID статьи: 2511.03113
  • Название: FP-AbDiff: Improving Score-based Antibody Design by Capturing Nonequilibrium Dynamics through the Underlying Fokker-Planck Equation
  • Авторы: Jiameng Chen, Yida Xiong, Kun Li, Hongzhi Zhang, Xiantao Cai, Wenbin Hu, Jia Wu
  • Классификация: cs.LG cs.AI q-bio.QM
  • Дата публикации: 5 ноября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2511.03113

Аннотация

Вычислительный дизайн антител имеет огромный потенциал для терапевтического открытия, однако существующие генеративные модели ограничены двумя основными проблемами: (i) отсутствие динамической согласованности, приводящее к физически нереальным структурам; (ii) плохая обобщаемость из-за нехватки данных и смещения структуры. В этой работе представлен FP-AbDiff — первый генератор антител, который применяет физические законы уравнения Фоккера-Планка (УФП) на всей траектории генерации. Метод минимизирует новую функцию потерь остатка УФП на гибридном многообразии геометрии CDR (R³×SO(3)), принуждая локально обученные оценки шумоподавления собираться в глобально согласованный вероятностный поток. Этот физико-информированный регуляризатор синергетически интегрирован с глубокими биологическими приорами в рамках передовой SE(3)-эквивариантной диффузионной архитектуры.

Исследовательский контекст и мотивация

Определение проблемы

Дизайн антител сталкивается с двумя ключевыми проблемами:

  1. Отсутствие динамической согласованности: Существующие модели диффузии, такие как DiffAb, AbDiffuser и AbX, оптимизируют структуры при независимых уровнях шума, никогда не ограничивая пути, их соединяющие. Их целевые функции сопоставления оценок шумоподавления (DSM) захватывают локальные градиенты, но игнорируют глобальные преобразования, часто производя химически нереальные переупорядочения петель, нестабильные укладки боковых цепей и энергетически напряжённые конформации.
  2. Недостаточная обобщаемость: Генеративные модели диффузии плохо работают за пределами узкого диапазона текущих наборов данных, что ограничивает их практическую ценность. Основной эталон SAbDab содержит менее 5000 неизбыточных комплексов и сильно смещён в сторону небольшого числа человеческих каркасов IgG, связанных с вирусными эпитопами.

Исследовательская мотивация

Специфичность CDR и сродство возникают из тонких, непрерывных конформационных движений, а не из изолированных снимков структуры. Существующие методы не имеют явного механизма для обеспечения временной согласованности и часто возвращаются к знакомым паттернам при столкновении с задачами вне распределения (OOD).

Основные вклады

  1. Первая структура регуляризации УФП: FP-AbDiff вводит первую диффузионную структуру для CDR, которая применяет согласованность оценок-Фоккера-Планка на R³×SO(3), обеспечивая глобально согласованный вероятностный поток и устраняя нефизические переходы петель.
  2. Объединение физических законов и биологических приоров: Объединяет физику Фоккера-Планка с эволюционными, геометрическими и энергетическими приорами в единую целевую функцию, обеспечивая динамически согласованное и обобщаемое создание антител.
  3. Прорыв в производительности SOTA: Достигает передовой производительности в задачах дизайна и оптимизации антител, достигая 0,99 Å RMSDFv при дизайне CDR-H3 (улучшение на 25% по сравнению с AbX) и 39,91% восстановления контактных аминокислот.

Подробное описание метода

Определение задачи

Дизайн антител формулируется как условная генерация CDR при заданном структурном контексте C (антиген и каркас). CDR определяется его истинным состоянием в момент t=0: S₀=(A₀,X₀,R₀), включая:

  • Последовательность аминокислот A₀
  • Координаты тяжёлых атомов X₀∈R^(Dx)
  • Ориентации остатков R₀∈SO(3)^(NCDR)

Архитектура модели

Моделирование стохастической динамики

Динамика трансляции (евклидово пространство): Координаты остова Xt∈R³ эволюционируют через SDE с сохранением дисперсии (VP):

dXt = -½βX(t)Xt dt + √βX(t) dWX,t

Динамика вращения (многообразие SO(3)): Ориентация каждого остатка Ri,t∈SO(3) эволюционирует через SDE с взрывающейся дисперсией (VE):

dRi,t = √βR(t) Σ(Ri,tEa) ∘ dWᵃt

Вывод уравнения Фоккера-Планка

Для общего SDE dx_t = f(x_t,t)dt + g(t)dW_t, УФП описывает эволюцию плотности вероятности p(x,t):

∂p/∂t = -∇·(fp) + ½g²(t)Δp

Динамика в евклидовом пространстве: Оператор эволюции GX определяется как:

GX[sX,X,t] := ½βX(t)[sX + (∇XsX)X + HX(sX)]

Динамика на многообразии SO(3): Оператор эволюции GR определяется как:

GR[sR,R,t] := ½βR(t)[ΔBsR - 2sR + HR(sR)]

Регуляризация остатка УФП

Преобразование предсказанного сетью чистого CDR в точные оценки трансляции и вращения через косвенный вывод оценок:

Оценка трансляции:

sθ,X(Xt,t|Xθ₀) = -(Xt - αX(t)Xθ₀)/σ²X(t)

Оценка вращения:

sθ,R(Rt,t|Rθ₀) = ∇SO(3) log pIGSO(3)((Rθ₀)ᵀRt; σ²R(t))

Остаток УФП определяется как:

εX(Xt,t) := ∂tsθ,X(Xt,t|Xθ₀) - GX[sθ,X,Xt,t]
εR(Rt,t) := ∂tsθ,R(Rt,t|Rθ₀) - GR[sθ,R,Rt,t]

Целевые функции обучения

Функция потерь верности:

Lfid = L^X_DSM + L^R_DSM + 0.4·LCE

Приоры биофизической обоснованности:

Lpriors = LFAPE + 0.5Ldist + 0.1LpLDDT + 0.03Lviol + 0.25Lbb

Регуляризатор динамической согласованности:

Lfpe(θ) = Et,St[w(t)(||εX||²/DX + ||εR||²/DR)]

Полная функция потерь:

Ltotal = Lfid + It<τLpriors + 0.05·Lfpe

Экспериментальная установка

Наборы данных

  • Набор обучения: Неизбыточный набор, полученный из SAbDab (сентябрь 2024 г.), идентичность последовательности CDR-H3 ≤40%
  • Набор тестирования: 60 комплексов антиген-антитело из эталона RAbD

Метрики оценки

  • Восстановление последовательности: AARFv, AARFull, CAAR (коэффициент восстановления контактных аминокислот)
  • Точность структуры: RMSDFv, RMSDFull, TM-score, lDDT
  • Функциональная жизнеспособность: IMP (процент образцов с ∆∆G<0), DockQ

Методы сравнения

  • Модели диффузии: DiffAb, AbX
  • Конвейеры с энергетическим руководством: RosettaAb
  • Эквивариантные GNN: dyMEAN, MEAN
  • Авторегрессивные модели последовательности: HERN

Результаты экспериментов

Основные результаты

Задача дизайна CDR-H3

МодельAAR↑TMscore↑lDDT↑CAAR↑RMSD↓DockQ↑
AbX84.90%0.99060.940739.08%1.320.429
FP-AbDiff83.65%0.99290.936339.91%0.990.444

FP-AbDiff достигает улучшения на 25% в RMSDFv, достигая субангстремной точности 0,99 Å, и получает наивысший CAAR 39,91%.

Совместный дизайн шести CDR

В более сложной задаче дизайна полного сайта связывания FP-AbDiff достигает наименьшей RMSDFull на всех шести CDR, с примерно 15% снижением средней геометрической ошибки по сравнению с AbX, достигая наивысшей AARFull (45,67%) на функционально критичной петле CDR-H3.

Абляционные исследования

Вариант моделиIMP(%)↑AAR(%)↑RMSD(Å)↓DockQ↑
+R³, +SO(3)28.4245.232.180.4443
-SO(3)35.3044.152.460.4437
-R³29.7643.142.410.4372

Полная модель достигает наивысшей верности, удаление члена R³ снижает качество остова и интерфейса, удаление члена SO(3) увеличивает IMP, но ухудшает RMSD и AAR.

Эксперименты по оптимизации антител

При итеративной оптимизации шумоподавления AbX следует траектории "высокий прирост, но хрупкий", в то время как FP-AbDiff поддерживает последовательно более низкий RMSD и более высокий DockQ начиная с t=8, отражая более стабильный путь оптимизации.

Связанные работы

Традиционные методы

Ранние методы, такие как RosettaAntibodyDesign, полагаются на статистические энергетические функции и выборку методом Монте-Карло, но ограничены высокими вычислительными затратами и ограниченной эффективностью выборки.

Методы глубокого обучения

  • Модели, ориентированные на последовательность: Модели языков белков рассматривают белки как текстовые входные данные, но игнорируют пространственные и геометрические приоры
  • Геометрически эквивариантные модели: Модели GNN MEAN, dyMEAN и предсказатели, такие как AlphaFold2
  • Модели диффузии: DiffAb, AbDiffuser и другие, но без временной согласованности

Преимущества данной работы

FP-AbDiff — первая структура, которая применяет физическую самосогласованность при создании антител, решая проблему динамической согласованности через регуляризацию Фоккера-Планка.

Заключение и обсуждение

Основные выводы

FP-AbDiff последовательно превосходит передовые базовые показатели во всех задачах оценки дизайна антител путём применения физических законов Фоккера-Планка, достигая высокой верности структуры, точного интерфейса и стабильных траекторий генерации.

Ограничения

  1. Численные приближения: Реализация остатка УФП полагается на приближения, такие как конечные разности и трюк Хатчинсона
  2. Вычислительные затраты: Хотя время обучения увеличивается только на 8%, требуются дополнительные прямые проходы
  3. Экспериментальная проверка: Отсутствует влажная экспериментальная проверка функциональности разработанных антител

Будущие направления

  1. Улучшение численных методов приближения для повышения точности
  2. Расширение на другие задачи дизайна белков
  3. Интеграция экспериментальной обратной связи для оптимизации модели
  4. Исследование более сложных физических ограничений

Глубокая оценка

Преимущества

  1. Теоретическая инновация: Впервые применяет уравнение Фоккера-Планка к дизайну антител, решая проблему динамической согласованности
  2. Передовая техника: Умело объединяет физические законы с глубоким обучением, реализуя ограничения согласованности на гибридном многообразии R³×SO(3)
  3. Полные эксперименты: Всесторонние сравнения с базовыми показателями, абляционные исследования и анализ случаев
  4. Выдающаяся производительность: Достигает SOTA по нескольким метрикам, особенно значительное улучшение RMSD на 25%

Недостатки

  1. Увеличенная сложность: Метод относительно сложен с множеством деталей реализации
  2. Недостаточный теоретический анализ: Отсутствуют теоретические гарантии сходимости регуляризации УФП
  3. Ограниченная область применения: В основном ориентирован на дизайн антител, способность обобщения на другие задачи дизайна белков неизвестна

Влияние

Эта работа предоставляет новую исследовательскую парадигму для пересечения вычислительной биологии и машинного обучения, объединяя физические законы с глубокими генеративными моделями, имеющими важное значение для дизайна белков, открытия лекарств и других областей.

Сценарии применения

  • Дизайн терапевтических антител
  • Инженерия и оптимизация антител
  • Другие задачи молекулярной генерации, требующие физической согласованности
  • Исследования структурной биологии

Библиография

Статья цитирует обширный спектр связанных работ, включая:

  • Теорию основ моделей диффузии (Song & Ermon 2019; Ho et al. 2020)
  • Методы дизайна антител (Adolf-Bryfogle et al. 2018; Luo et al. 2022)
  • Геометрическое глубокое обучение (Yim et al. 2023; Bortoli et al. 2022)
  • Применение уравнения Фоккера-Планка (Lai et al. 2023)

Эта статья вносит важный вклад в область вычислительного дизайна антител, значительно повышая производительность и надёжность генеративных моделей путём введения физических ограничений, предоставляя ценные новые идеи для будущих исследований в области дизайна белков.