Antibodies are essential proteins responsible for immune responses in organisms, capable of specifically recognizing antigen molecules of pathogens. Recent advances in generative models have significantly enhanced rational antibody design. However, existing methods mainly create antibodies from scratch without template constraints, leading to model optimization challenges and unnatural sequences. To address these issues, we propose a retrieval-augmented diffusion framework, termed RADAb, for efficient antibody design. Our method leverages a set of structural homologous motifs that align with query structural constraints to guide the generative model in inversely optimizing antibodies according to desired design criteria. Specifically, we introduce a structure-informed retrieval mechanism that integrates these exemplar motifs with the input backbone through a novel dual-branch denoising module, utilizing both structural and evolutionary information. Additionally, we develop a conditional diffusion model that iteratively refines the optimization process by incorporating both global context and local evolutionary conditions. Our approach is agnostic to the choice of generative models. Empirical experiments demonstrate that our method achieves state-of-the-art performance in multiple antibody inverse folding and optimization tasks, offering a new perspective on biomolecular generative models.
- ID статьи: 2410.15040
- Название: Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization
- Авторы: Zichen Wang, Yaokun Ji, Jianing Tian, Shuangjia Zheng
- Категория: cs.AI
- Конференция: ICLR 2025
- Ссылка на статью: https://arxiv.org/abs/2410.15040
Антитела являются важными белками, ответственными за иммунный ответ организма и способными специфически распознавать антигенные молекулы патогенов. Несмотря на значительные достижения в области генеративных моделей, которые повысили возможности рационального дизайна антител, существующие методы в основном создают антитела с нуля и лишены ограничений на основе шаблонов, что приводит к трудностям оптимизации модели и проблемам с неестественными последовательностями. Для решения этих проблем в данной работе предложена структура с увеличением поиска RADAb для эффективного дизайна антител. Метод использует набор структурно гомологичных мотивов, согласованных с ограничениями запрашиваемой структуры, для направления генеративной модели на обратную оптимизацию антител в соответствии с желаемыми критериями дизайна. В частности, введен механизм поиска структурной информации, который интегрирует эти примеры мотивов с входным каркасом посредством новой двухветвевой модели удаления шума, одновременно используя структурную и эволюционную информацию. Кроме того, разработана условная модель диффузии, которая итеративно оптимизирует процесс путем объединения глобального контекста и локальных эволюционных условий. Метод независим от выбора генеративной модели, и экспериментальные результаты демонстрируют передовую производительность на нескольких задачах обратного складывания и оптимизации антител.
Основной вызов при дизайне антител заключается в том, как генерировать функциональные последовательности антител с предопределенными биохимическими свойствами. Традиционная разработка антител зависит от трудоемких экспериментальных методов, таких как иммунизация животных или скрининг крупномасштабных библиотек антител, которые часто не могут эффективно производить антитела против терапевтически релевантных эпитопов.
- Дефицит данных: в основном полагаются на базу данных SAbDab, содержащую менее десяти тысяч структур антиген-антительных комплексов, что ограничивает способность модели захватывать информацию о высокоуровневых взаимодействиях
- Трудности при дизайне с нуля: существующие методы пытаются разработать последовательности антител с нуля, лишены руководства на основе шаблонов и требуют большого количества данных и обширного обучения
- Отсутствие структурных ограничений: текущие генеративные модели испытывают трудности при разработке антител, которые соответствуют структурным ограничениям и обладают желаемыми биологическими свойствами
Данная работа вдохновлена дизайном антител на основе шаблонов и фрагментов и направлена на:
- Повышение возможностей генерации модели путем использования информации о локальной и глобальной геометрии белков, осведомленной о шаблонах
- Интеграцию эволюционных сигналов мотивов для предотвращения переобучения
- Минимизацию необходимости обучения или тонкой настройки в практических приложениях
- Первая структура генерации с увеличением поиска: предложена первая структура генерации с увеличением поиска для рационального дизайна антител, использующая набор функциональных фрагментов, подобных CDR, которые удовлетворяют желаемой структуре каркаса и свойствам для направления генерации
- Новый механизм поиска: введен механизм поиска структурной информации, который интегрирует примеры мотивов с входным каркасом посредством двухветвевой модели удаления шума, используя структурную и эволюционную информацию
- Значительное улучшение производительности: улучшены передовые методы на нескольких задачах обратного складывания антител, такие как увеличение AAR на 8,08% в задаче обратного складывания длинного CDRH3, улучшение среднего абсолютного ΔΔG на 7 кал/моль в задачах функциональной оптимизации
Учитывая комплекс антител Cab, антиген Cag и полученные фрагменты, подобные CDR, A, цель состоит в предсказании распределения последовательности области CDR R={sj∣j∈{a+1,...,a+m}}, где m — длина CDR, a — начальная позиция.
Использование алгоритма MASTER для поиска структуры:
- Вход: набор координат атомов каркаса CDR X={xk∣k∈{1,...,m}}
- Мера сходства: среднеквадратичное отклонение (RMSD) атомов каркаса
- Выход: набор структурно подобных фрагментов CDR A={Ai∣i∈{1,...,k}}
Ветвь глобального геометрического контекста:
- Кодировщик контекста: извлечение признаков отдельных остатков zi и признаков пар остатков yij
- Кодировщик эволюции: использование ESM2 для извлечения эволюционных вложений последовательности антител et
- Сеть структурной информации: обработка посредством стека слоев IPA, выход глобального представления вероятности rglobal
Ветвь локального фокуса CDR:
- Аксиальное внимание с фокусом на CDR: построение псевдо-матрицы MSA P:
P=concat((Sab∪Rgt),E)
где E — матрица последовательностей фрагментов CDR
- Механизм связанного внимания к строкам: одновременное рассмотрение оценок внимания к нескольким строкам с использованием структурного сходства
- Слияние информации: слияние rlocal и rglobal посредством пропускающих соединений
Добавление шума в прямом процессе:
q(sjt∣sjt−1)=Multinomial((1−βt)⋅onehot(sjt−1)+βt⋅201⋅1)
Процесс обратного удаления шума:
p(sjt−1∣Rt,Cab,Cag,A)=Multinomial[F(Rt,Cab,Cag,et)+G(F(Rt,Cab,Cag,et),A)][j]
- Поиск структурной информации: использование алгоритма MASTER для поиска фрагментов, подобных CDR, на основе структуры каркаса, избегая утечки информации о последовательности
- Двухветвевая архитектура: глобальная ветвь захватывает контекст комплекса антиген-антитело, локальная ветвь изучает информацию о гомологичной эволюции
- Связанное внимание к строкам: специально разработанный механизм внимания для полного использования структурного сходства
- Независимость от модели: структура может быть интегрирована с любой генеративной моделью диффузии
- Набор обучения: база данных SAbDab с удалением структур с разрешением ниже 4Å, кластеризация на основе 50% сходства последовательности в области CDRH3
- Набор тестирования: 50 файлов PDB, содержащих 63 структуры комплексов антитело-антиген
- База данных фрагментов CDR: построена из невырожденного PDB, содержит структурно совместимые линейные функциональные мотивы, подобные CDR
- Скорость восстановления аминокислот (AAR): доля позиций, где разработанная последовательность совпадает с истинной последовательностью CDR
- RMSD самосогласованности (scRMSD): RMSD атомов Cα области CDR после переворачивания структуры антитела
- Правдоподобие (Plausibility): псевдологарифмическое правдоподобие, рассчитанное с использованием AntiBERTy
- Традиционные методы: Grafting (прямая трансплантация фрагмента top-1 поиска)
- Методы глубокого обучения: ProteinMPNN, ESM-IF1, Diffab-fix, AbMPNN
- Оптимизатор: Adam, скорость обучения 0,0001
- Размер пакета: 8
- CDRH3 обучается отдельно в течение 100 000 итераций, другие области CDR обучаются совместно в течение 250 000 итераций
- Временные шаги диффузии: 100 шагов
Результаты обратного складывания последовательности CDR антител:
| Метод | CDRH3 AAR(%) | CDRH3 scRMSD | CDRH3 Правдоподобие |
|---|
| Grafting | 19,63 | 3,20 | -0,591 |
| ProteinMPNN | 41,77 | 2,27 | -0,605 |
| Diffab-fix | 49,17 | 2,24 | -0,541 |
| AbMPNN | 52,99 | 2,80 | -0,675 |
| RADAb | 57,02 | 2,23 | -0,530 |
Результаты дизайна длинной последовательности CDRH3 (длина >14):
| Метод | AAR(%) | scRMSD | Правдоподобие |
|---|
| Diffab-fix | 42,26 | 3,02 | -0,740 |
| RADAb | 51,35 | 2,52 | -0,747 |
Результаты оптимизации энергии связывания:
| Метод | ΔΔG↓ | ΔΔG-seq↓ | IMP-seq(%)↑ |
|---|
| Grafting | 135,17 | 40,22 | 32,69 |
| ProteinMPNN | 127,14 | 24,72 | 35,51 |
| Diffab-fix | 116,36 | 14,05 | 34,52 |
| RADAb | 109,16 | 7,06 | 37,30 |
| Компонент | AAR(%) | scRMSD | Правдоподобие |
|---|
| Полная модель | 57,02 | 2,23 | -0,530 |
| Без увеличения поиска | 52,15 | 2,39 | -0,529 |
| Без эволюционного вложения | 51,36 | 2,23 | -0,538 |
| Базовая Diffab | 49,17 | 2,24 | -0,541 |
На примере нейтрализующего антитела SARS-CoV-2 (PDB: 7d6i) 68% из 50 сгенерированных последовательностей CDRH3 продемонстрировали более низкие значения ΔG по сравнению с исходным комплексом, что подтверждает эффективность функциональной оптимизации.
- Традиционные методы: методы, основанные на оптимизации энергетических функций и сходстве последовательностей
- Методы машинного обучения:
- Дизайн последовательности антител: языковые модели и модели обратного складывания
- Совместный дизайн последовательности и структуры, специфичный для антигена: методы графовых нейронных сетей
Применение моделей диффузии в дизайне белков, включая прямой процесс добавления шума DDPM и процесс обратной генерации.
Технология RAG расширена с области НЛП на компьютерное зрение и молекулярную генерацию; данная работа впервые применяет ее к дизайну антител.
- RADAb достигает передовой производительности на нескольких задачах дизайна антител
- Механизм увеличения поиска значительно повышает качество генерации и функциональность модели
- Двухветвевая архитектура эффективно интегрирует глобальный контекст и локальную эволюционную информацию
- Недостаточная экспериментальная проверка: еще не полностью проверено в мокрых экспериментах
- Вычислительные затраты: поиск структуры и кодирование ESM2 требуют больше вычислительных ресурсов
- Риск утечки данных: существует риск утечки данных при применении текущего механизма поиска в совместном дизайне последовательности и структуры
- Мокрая экспериментальная проверка будет одной из основных задач
- Расширение модели на дизайн различных белковых мотивов
- Исследование поиска PPI для избежания проблем утечки данных
- Высокая инновационность: впервые применяет технологию увеличения поиска к дизайну антител, предлагает новую двухветвевую архитектуру
- Надежная техника: механизм поиска структурной информации разумно спроектирован, избегает утечки информации о последовательности
- Полные эксперименты: комплексная оценка на нескольких задачах и показателях, включая абляционные исследования
- Выдающаяся производительность: достигает передовой производительности на всех оценочных задачах
- Практическая применимость требует проверки: отсутствует мокая экспериментальная проверка, реальная эффективность приложения неизвестна
- Высокая вычислительная сложность: процесс поиска и двухветвевая сеть увеличивают вычислительную нагрузку
- Ограниченная область применения: в основном ориентирована на задачи обратного складывания, имеет ограничения в полноатомном дизайне
- Академический вклад: предоставляет новую перспективу для генеративных моделей биомолекул, продвигает применение технологии увеличения поиска в дизайне белков
- Практическая ценность: может ускорить процесс разработки антибактериальных препаратов, снизить экспериментальные затраты
- Воспроизводимость: предоставляет подробные детали реализации и открытый исходный код
- Оптимизация и дизайн CDR на основе известных шаблонов антител
- Улучшение последовательности антител с необходимостью сохранения структурных ограничений
- Созревание аффинности антител и функциональная оптимизация
Данная работа цитирует важные работы в областях дизайна антител, моделей диффузии и генерации с увеличением поиска, предоставляя прочную теоретическую основу и техническую поддержку для структуры RADAb.
Общая оценка: Это высококачественная исследовательская работа, которая предлагает инновационную структуру диффузии с увеличением поиска в области дизайна антител. Техническое решение разумно спроектировано, экспериментальная оценка полна, результаты убедительны. Хотя в аспекте проверки практического применения еще есть место для улучшения, работа открывает новое направление исследований в области дизайна белков и имеет важное академическое значение и перспективы применения.