2025-11-11T13:16:09.695232

Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization

Wang, Ji, Tian et al.

Antibodies are essential proteins responsible for immune responses in organisms, capable of specifically recognizing antigen molecules of pathogens. Recent advances in generative models have significantly enhanced rational antibody design. However, existing methods mainly create antibodies from scratch without template constraints, leading to model optimization challenges and unnatural sequences. To address these issues, we propose a retrieval-augmented diffusion framework, termed RADAb, for efficient antibody design. Our method leverages a set of structural homologous motifs that align with query structural constraints to guide the generative model in inversely optimizing antibodies according to desired design criteria. Specifically, we introduce a structure-informed retrieval mechanism that integrates these exemplar motifs with the input backbone through a novel dual-branch denoising module, utilizing both structural and evolutionary information. Additionally, we develop a conditional diffusion model that iteratively refines the optimization process by incorporating both global context and local evolutionary conditions. Our approach is agnostic to the choice of generative models. Empirical experiments demonstrate that our method achieves state-of-the-art performance in multiple antibody inverse folding and optimization tasks, offering a new perspective on biomolecular generative models.

academic

Модель диффузии с увеличением поиска для структурно-информированного дизайна и оптимизации антител

Основная информация

ID статьи: 2410.15040
Название: Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization
Авторы: Zichen Wang, Yaokun Ji, Jianing Tian, Shuangjia Zheng
Категория: cs.AI
Конференция: ICLR 2025
Ссылка на статью: https://arxiv.org/abs/2410.15040

Аннотация

Антитела являются важными белками, ответственными за иммунный ответ организма и способными специфически распознавать антигенные молекулы патогенов. Несмотря на значительные достижения в области генеративных моделей, которые повысили возможности рационального дизайна антител, существующие методы в основном создают антитела с нуля и лишены ограничений на основе шаблонов, что приводит к трудностям оптимизации модели и проблемам с неестественными последовательностями. Для решения этих проблем в данной работе предложена структура с увеличением поиска RADAb для эффективного дизайна антител. Метод использует набор структурно гомологичных мотивов, согласованных с ограничениями запрашиваемой структуры, для направления генеративной модели на обратную оптимизацию антител в соответствии с желаемыми критериями дизайна. В частности, введен механизм поиска структурной информации, который интегрирует эти примеры мотивов с входным каркасом посредством новой двухветвевой модели удаления шума, одновременно используя структурную и эволюционную информацию. Кроме того, разработана условная модель диффузии, которая итеративно оптимизирует процесс путем объединения глобального контекста и локальных эволюционных условий. Метод независим от выбора генеративной модели, и экспериментальные результаты демонстрируют передовую производительность на нескольких задачах обратного складывания и оптимизации антител.

Исследовательский контекст и мотивация

Определение проблемы

Основной вызов при дизайне антител заключается в том, как генерировать функциональные последовательности антител с предопределенными биохимическими свойствами. Традиционная разработка антител зависит от трудоемких экспериментальных методов, таких как иммунизация животных или скрининг крупномасштабных библиотек антител, которые часто не могут эффективно производить антитела против терапевтически релевантных эпитопов.

Ограничения существующих методов

Дефицит данных: в основном полагаются на базу данных SAbDab, содержащую менее десяти тысяч структур антиген-антительных комплексов, что ограничивает способность модели захватывать информацию о высокоуровневых взаимодействиях
Трудности при дизайне с нуля: существующие методы пытаются разработать последовательности антител с нуля, лишены руководства на основе шаблонов и требуют большого количества данных и обширного обучения
Отсутствие структурных ограничений: текущие генеративные модели испытывают трудности при разработке антител, которые соответствуют структурным ограничениям и обладают желаемыми биологическими свойствами

Исследовательская мотивация

Данная работа вдохновлена дизайном антител на основе шаблонов и фрагментов и направлена на:

Повышение возможностей генерации модели путем использования информации о локальной и глобальной геометрии белков, осведомленной о шаблонах
Интеграцию эволюционных сигналов мотивов для предотвращения переобучения
Минимизацию необходимости обучения или тонкой настройки в практических приложениях

Основные вклады

Первая структура генерации с увеличением поиска: предложена первая структура генерации с увеличением поиска для рационального дизайна антител, использующая набор функциональных фрагментов, подобных CDR, которые удовлетворяют желаемой структуре каркаса и свойствам для направления генерации
Новый механизм поиска: введен механизм поиска структурной информации, который интегрирует примеры мотивов с входным каркасом посредством двухветвевой модели удаления шума, используя структурную и эволюционную информацию
Значительное улучшение производительности: улучшены передовые методы на нескольких задачах обратного складывания антител, такие как увеличение AAR на 8,08% в задаче обратного складывания длинного CDRH3, улучшение среднего абсолютного ΔΔG на 7 кал/моль в задачах функциональной оптимизации

Подробное описание метода

Определение задачи

Учитывая комплекс антител $C_{ab}$ , антиген $C_{ag}$ и полученные фрагменты, подобные CDR, $A$ , цель состоит в предсказании распределения последовательности области CDR $R = \{s_j | j \in \{a+1, ..., a+m\}\}$ , где $m$ — длина CDR, $a$ — начальная позиция.

Архитектура модели

1. Модуль поиска структуры

Использование алгоритма MASTER для поиска структуры:

Вход: набор координат атомов каркаса CDR $X = \{x_k | k \in \{1, ..., m\}\}$
Мера сходства: среднеквадратичное отклонение (RMSD) атомов каркаса
Выход: набор структурно подобных фрагментов CDR $A = \{A_i | i \in \{1, ..., k\}\}$

2. Двухветвевая сеть удаления шума

Ветвь глобального геометрического контекста:

Кодировщик контекста: извлечение признаков отдельных остатков $z_i$ и признаков пар остатков $y_{ij}$
Кодировщик эволюции: использование ESM2 для извлечения эволюционных вложений последовательности антител $e^t$
Сеть структурной информации: обработка посредством стека слоев IPA, выход глобального представления вероятности $r_{global}$

Ветвь локального фокуса CDR:

Аксиальное внимание с фокусом на CDR: построение псевдо-матрицы MSA $P$ : $P = \text{concat}((S_{ab} \cup R^t_g), E)$ где $E$ — матрица последовательностей фрагментов CDR
Механизм связанного внимания к строкам: одновременное рассмотрение оценок внимания к нескольким строкам с использованием структурного сходства
Слияние информации: слияние $r_{local}$ и $r_{global}$ посредством пропускающих соединений

3. Условный процесс диффузии

Добавление шума в прямом процессе: $q(s^t_j | s^{t-1}_j) = \text{Multinomial}((1-\beta_t) \cdot \text{onehot}(s^{t-1}_j) + \beta_t \cdot \frac{1}{20} \cdot \mathbf{1})$

Процесс обратного удаления шума: $p(s^{t-1}_j | R^t, C_{ab}, C_{ag}, A) = \text{Multinomial}[F(R^t, C_{ab}, C_{ag}, e^t) + G(F(R^t, C_{ab}, C_{ag}, e^t), A)][j]$

Технические инновации

Поиск структурной информации: использование алгоритма MASTER для поиска фрагментов, подобных CDR, на основе структуры каркаса, избегая утечки информации о последовательности
Двухветвевая архитектура: глобальная ветвь захватывает контекст комплекса антиген-антитело, локальная ветвь изучает информацию о гомологичной эволюции
Связанное внимание к строкам: специально разработанный механизм внимания для полного использования структурного сходства
Независимость от модели: структура может быть интегрирована с любой генеративной моделью диффузии

Экспериментальная установка

Наборы данных

Набор обучения: база данных SAbDab с удалением структур с разрешением ниже 4Å, кластеризация на основе 50% сходства последовательности в области CDRH3
Набор тестирования: 50 файлов PDB, содержащих 63 структуры комплексов антитело-антиген
База данных фрагментов CDR: построена из невырожденного PDB, содержит структурно совместимые линейные функциональные мотивы, подобные CDR

Показатели оценки

Скорость восстановления аминокислот (AAR): доля позиций, где разработанная последовательность совпадает с истинной последовательностью CDR
RMSD самосогласованности (scRMSD): RMSD атомов Cα области CDR после переворачивания структуры антитела
Правдоподобие (Plausibility): псевдологарифмическое правдоподобие, рассчитанное с использованием AntiBERTy

Методы сравнения

Традиционные методы: Grafting (прямая трансплантация фрагмента top-1 поиска)
Методы глубокого обучения: ProteinMPNN, ESM-IF1, Diffab-fix, AbMPNN

Детали реализации

Оптимизатор: Adam, скорость обучения 0,0001
Размер пакета: 8
CDRH3 обучается отдельно в течение 100 000 итераций, другие области CDR обучаются совместно в течение 250 000 итераций
Временные шаги диффузии: 100 шагов

Результаты экспериментов

Основные результаты

Результаты обратного складывания последовательности CDR антител:

Метод	CDRH3 AAR(%)	CDRH3 scRMSD	CDRH3 Правдоподобие
Grafting	19,63	3,20	-0,591
ProteinMPNN	41,77	2,27	-0,605
Diffab-fix	49,17	2,24	-0,541
AbMPNN	52,99	2,80	-0,675
RADAb	57,02	2,23	-0,530

Результаты дизайна длинной последовательности CDRH3 (длина >14):

Метод	AAR(%)	scRMSD	Правдоподобие
Diffab-fix	42,26	3,02	-0,740
RADAb	51,35	2,52	-0,747

Результаты функциональной оптимизации

Результаты оптимизации энергии связывания:

Метод	ΔΔG↓	ΔΔG-seq↓	IMP-seq(%)↑
Grafting	135,17	40,22	32,69
ProteinMPNN	127,14	24,72	35,51
Diffab-fix	116,36	14,05	34,52
RADAb	109,16	7,06	37,30

Абляционные исследования

Компонент	AAR(%)	scRMSD	Правдоподобие
Полная модель	57,02	2,23	-0,530
Без увеличения поиска	52,15	2,39	-0,529
Без эволюционного вложения	51,36	2,23	-0,538
Базовая Diffab	49,17	2,24	-0,541

Анализ примеров

На примере нейтрализующего антитела SARS-CoV-2 (PDB: 7d6i) 68% из 50 сгенерированных последовательностей CDRH3 продемонстрировали более низкие значения ΔG по сравнению с исходным комплексом, что подтверждает эффективность функциональной оптимизации.

Связанные работы

Методы дизайна антител

Традиционные методы: методы, основанные на оптимизации энергетических функций и сходстве последовательностей
Методы машинного обучения:
- Дизайн последовательности антител: языковые модели и модели обратного складывания
- Совместный дизайн последовательности и структуры, специфичный для антигена: методы графовых нейронных сетей

Модели генеративной диффузии

Применение моделей диффузии в дизайне белков, включая прямой процесс добавления шума DDPM и процесс обратной генерации.

Генерация с увеличением поиска

Технология RAG расширена с области НЛП на компьютерное зрение и молекулярную генерацию; данная работа впервые применяет ее к дизайну антител.

Заключение и обсуждение

Основные выводы

RADAb достигает передовой производительности на нескольких задачах дизайна антител
Механизм увеличения поиска значительно повышает качество генерации и функциональность модели
Двухветвевая архитектура эффективно интегрирует глобальный контекст и локальную эволюционную информацию

Ограничения

Недостаточная экспериментальная проверка: еще не полностью проверено в мокрых экспериментах
Вычислительные затраты: поиск структуры и кодирование ESM2 требуют больше вычислительных ресурсов
Риск утечки данных: существует риск утечки данных при применении текущего механизма поиска в совместном дизайне последовательности и структуры

Будущие направления

Мокрая экспериментальная проверка будет одной из основных задач
Расширение модели на дизайн различных белковых мотивов
Исследование поиска PPI для избежания проблем утечки данных

Глубокая оценка

Преимущества

Высокая инновационность: впервые применяет технологию увеличения поиска к дизайну антител, предлагает новую двухветвевую архитектуру
Надежная техника: механизм поиска структурной информации разумно спроектирован, избегает утечки информации о последовательности
Полные эксперименты: комплексная оценка на нескольких задачах и показателях, включая абляционные исследования
Выдающаяся производительность: достигает передовой производительности на всех оценочных задачах

Недостатки

Практическая применимость требует проверки: отсутствует мокая экспериментальная проверка, реальная эффективность приложения неизвестна
Высокая вычислительная сложность: процесс поиска и двухветвевая сеть увеличивают вычислительную нагрузку
Ограниченная область применения: в основном ориентирована на задачи обратного складывания, имеет ограничения в полноатомном дизайне

Влияние

Академический вклад: предоставляет новую перспективу для генеративных моделей биомолекул, продвигает применение технологии увеличения поиска в дизайне белков
Практическая ценность: может ускорить процесс разработки антибактериальных препаратов, снизить экспериментальные затраты
Воспроизводимость: предоставляет подробные детали реализации и открытый исходный код

Применимые сценарии

Оптимизация и дизайн CDR на основе известных шаблонов антител
Улучшение последовательности антител с необходимостью сохранения структурных ограничений
Созревание аффинности антител и функциональная оптимизация

Библиография

Данная работа цитирует важные работы в областях дизайна антител, моделей диффузии и генерации с увеличением поиска, предоставляя прочную теоретическую основу и техническую поддержку для структуры RADAb.

Общая оценка: Это высококачественная исследовательская работа, которая предлагает инновационную структуру диффузии с увеличением поиска в области дизайна антител. Техническое решение разумно спроектировано, экспериментальная оценка полна, результаты убедительны. Хотя в аспекте проверки практического применения еще есть место для улучшения, работа открывает новое направление исследований в области дизайна белков и имеет важное академическое значение и перспективы применения.