2025-11-16T00:34:12.699199

Latent Retrieval Augmented Generation of Cross-Domain Protein Binders

Zhang, Kong, Huang et al.
Designing protein binders targeting specific sites, which requires to generate realistic and functional interaction patterns, is a fundamental challenge in drug discovery. Current structure-based generative models are limited in generating nterfaces with sufficient rationality and interpretability. In this paper, we propose Retrieval-Augmented Diffusion for Aligned interface (RADiAnce), a new framework that leverages known interfaces to guide the design of novel binders. By unifying retrieval and generation in a shared contrastive latent space, our model efficiently identifies relevant interfaces for a given binding site and seamlessly integrates them through a conditional latent diffusion generator, enabling cross-domain interface transfer. Extensive exeriments show that RADiAnce significantly outperforms baseline models across multiple metrics, including binding affinity and recovery of geometries and interactions. Additional experimental results validate cross-domain generalization, demonstrating that retrieving interfaces from diverse domains, such as peptides, antibodies, and protein fragments, enhances the generation performance of binders for other domains. Our work establishes a new paradigm for protein binder design that successfully bridges retrieval-based knowledge and generative AI, opening new possibilities for drug discovery.
academic

Скрытая генерация с увеличением поиска для кросс-доменных белковых лигандов

Основная информация

  • ID статьи: 2510.10480
  • Название: Latent Retrieval Augmented Generation of Cross-Domain Protein Binders
  • Авторы: Zishen Zhang, Xiangzhe Kong, Wenbing Huang, Yang Liu
  • Классификация: cs.LG cs.AI
  • Дата публикации/конференция: Препринт. На рецензии (октябрь 2024)
  • Ссылка на статью: https://arxiv.org/abs/2510.10480

Аннотация

Проектирование белковых лигандов для специфических сайтов связывания является фундаментальной задачей в открытии лекарств, требующей генерации реалистичных и функциональных паттернов взаимодействия. Современные структурные генеративные модели имеют ограничения в генерации интерфейсов с достаточной обоснованностью и интерпретируемостью. В данной работе предложена структура RADiAnce (Retrieval Augmented Diffusion Aligned Interface), которая использует известные интерфейсы для направления проектирования новых лигандов. Путём унификации поиска и генерации в общем контрастивном скрытом пространстве модель эффективно идентифицирует релевантные интерфейсы для заданного сайта связывания и беспрепятственно интегрирует их через условный генератор скрытой диффузии, обеспечивая трансфер интерфейсов между доменами.

Исследовательский контекст и мотивация

Основные проблемы

  1. Вызовы в проектировании белковых лигандов: Проектирование лигандов, способных нацеливаться на специфические сайты белков, требует генерации реалистичных и функциональных паттернов молекулярного взаимодействия
  2. Ограничения существующих методов: Современные модели структурной генерации не обладают достаточной обоснованностью и интерпретируемостью, неэффективно используют известную структурную информацию

Значимость

  • Широкое применение в открытии лекарств, структурной биологии и смежных областях
  • Традиционные методы основаны на выборке оптимизации физического или статистического энергетического ландшафта с низкой эффективностью
  • Хотя глубокие генеративные модели показали прогресс, они всё ещё испытывают трудности с генерацией обоснованных молекулярных интерфейсов

Ограничения существующих подходов

  1. Игнорирование априорных знаний: Большинство методов генерируют только на основе целевого сайта связывания, игнорируя богатые переиспользуемые паттерны взаимодействия в известных белковых комплексах
  2. Отсутствие кросс-доменной генерализации: Неспособность эффективно использовать общие мотивы взаимодействия между различными типами лигандов (пептиды, антитела, белковые фрагменты)
  3. Недостаточная интерпретируемость: Процесс генерации лишён явных биологических принципов руководства

Основные вклады

  1. Предложена структура RADiAnce: Первый метод применения поиска с увеличением к совместному проектированию последовательности и структуры белковых лигандов
  2. Построено контрастивное скрытое пространство: Разработано единое скрытое представление для поиска и генерации, поддерживающее измерение кросс-доменного сходства интерфейсов
  3. Реализован трансфер интерфейсов между доменами: Подтверждено, что поиск интерфейсов из различных типов лигандов улучшает производительность генерации лигандов других доменов
  4. Значительное улучшение производительности: Существенное превосходство над базовыми методами по множеству метрик оценки, включая аффинность связывания, геометрию и восстановление взаимодействий

Подробное описание методов

Определение задачи

  • Входные данные: Сайт связывания целевого белка Y (остатки в пределах 10Å)
  • Выходные данные: Молекулярный лиганд X, способный специфически связываться с этим сайтом
  • Цель: Моделирование условного распределения p_θ(X | Y, T(Y|D)), где T(Y|D) — релевантные интерфейсы, извлечённые из базы данных D

Архитектура модели

1. Контрастивный вариационный автокодировщик (Contrastive VAE)

Кодировщик: Zx = Eφ(X), Zy = Eφ(Y)
Декодировщик: X̂ = Dξ(Zx, Zy, Y)

Ключевые особенности проектирования:

  • Независимое кодирование сайта связывания Y и лиганда X в скрытые облака точек
  • Скрытые переменные содержат скалярное вложение zi и 3D координаты z⃗i
  • Выравнивание положительных пар через контрастивное обучение, отталкивание отрицательных пар

Функция потерь:

L(D) = Σ(Lrec + LKL + Lretrieval)

где:

  • Lrec: потеря реконструкции (кросс-энтропия + MSE)
  • LKL: регуляризация дивергенции Кульбака-Лейблера
  • Lretrieval: двусторонняя контрастивная потеря

2. Поиск с увеличением скрытой диффузии

Прямой процесс:

q(u⃗ti | u⃗t-1i) = N(u⃗ti; √(1-βt)·u⃗t-1i, βtI)

Обратный процесс:

pθ(u⃗t-1i | Ztx, Zy, Tv) = N(u⃗t-1i; μ⃗θ(Ztx, Zy, Tv), βtI)

Механизм интеграции шаблонов:

  • Использование E(3)-эквивариантного Трансформера в качестве ядра удаления шума
  • Интеграция информации извлечённых шаблонов через механизм кросс-внимания
  • Вычисление запрос-ключ-значение: Q = HWQ, K = TWK, V = TWV

Технические инновации

  1. Унифицированное скрытое пространство: Впервые достигнута унификация поиска и генерации в одном скрытом пространстве, обеспечивающая прямое руководство процессом генерации результатами поиска
  2. Измерение кросс-доменного сходства: Скрытые представления, полученные через контрастивное обучение, способны захватывать общие мотивы взаимодействия между различными типами лигандов
  3. Интеграция условной диффузии: Инновационная интеграция извлечённых вложений интерфейсов в процесс диффузии через кросс-внимание и остаточные многослойные персептроны

Экспериментальная установка

Наборы данных

  1. Проектирование пептидов: Набор данных PepBench
    • Обучение: 4 157 комплексов
    • Валидация: 114 комплексов
    • Тестирование: 93 тестовых случая LNR
  2. Проектирование антител: Набор данных SAbDab
    • Обучение: 9 473 записи
    • Валидация: 400 записей
    • Тестирование: 60 тестовых случаев RAbD
  3. Белковые фрагменты: Набор данных ProtFrag
    • 70 498 белковых фрагментов, полученных из мономеров

Метрики оценки

  • AAR (коэффициент восстановления аминокислот): Доля совпадения сгенерированной последовательности с эталонной
  • RMSD: Среднеквадратичное отклонение координат Cα
  • ISM (соответствие сайта взаимодействия): Степень восстановления ключевых физико-химических взаимодействий
  • ∆∆G: Изменение свободной энергии связывания
  • IMP: Доля целей, где сгенерированный лиганд превосходит природный

Методы сравнения

  • Проектирование пептидов: RFDiffusion, PepFlow, PepGLAD, UniMoMo
  • Проектирование антител: MEAN, DyMEAN, DiffAb, GeoAB, UniMoMo

Результаты экспериментов

Основные результаты

Совместное проектирование последовательности и структуры пептидов

МодельAAR (%)RMSD (Å)∆∆G (кДж/моль)IMP (%)ISM (%)
RFDiffusion34.684.6924.785.3828.38
PepFlow35.472.8715.7114.1327.83
PepGLAD38.622.7415.2616.1332.63
UniMoMo38.692.312.40940.8649.13
RADiAnce39.422.291.96341.9452.15

Проектирование CDR антител

RADiAnce значительно превосходит базовые методы во всех CDR регионах (H1, H2, H3, L1, L2, L3):

  • Регион H1: AAR повышается до 90.83%, ∆∆G улучшается до -8.221 кДж/моль
  • Регион H3 (наиболее сложный): AAR достигает 54.66%, значительно превосходя другие методы

Проверка надёжности поиска

Конфигурация моделиITO(%)RC-0.1%RC-0.5%RC-5%
Полный CVAE антител43.9366.6796.67100.0
Полный CVAE пептидов61.4111.5822.5867.74

Абляционные исследования

  1. Эффект кросс-доменного обучения: Включение данных из нескольких доменов значительно улучшает производительность поиска и генерации
  2. Необходимость совместного обучения: Одновременная оптимизация потерь VAE и контрастивной потери критична
  3. Влияние количества поисков: Оптимальный результат достигается при умеренном количестве поисков (10-20 образцов)

Анализ примеров

На примере комплекса GPIIb/IIIa (PDB ID: 3NID):

  • Без руководства поиска: трудность в восстановлении характерных множественных водородных связей
  • С увеличением поиска: успешное наследование ключевых мотивов взаимодействия, восстановление паттернов водородных связей, опосредованных аргинином и тирозином

Связанные работы

Проектирование пептидов

  • Переход от классической выборки энергии к глубокому генеративному моделированию
  • PepFlow/PPFlow применяют многомодальное согласование потоков
  • PepGLAD применяет геометрическую скрытую диффузию

Проектирование антител

  • От традиционной физической выборки к структурам глубокого обучения
  • DiffAb и другие вводят условную генерацию с учётом антигена
  • Методы на основе языковых моделей, такие как PALM-H3, привлекают внимание

Поиск с увеличением генерации

  • Первоначально применялся в задачах обработки естественного языка
  • Методы в молекулярном проектировании, такие как f-RAG, IRDiff
  • Данная работа впервые применяет метод к совместному проектированию белковых лигандов

Заключение и обсуждение

Основные выводы

  1. RADiAnce успешно устанавливает новую парадигму поиска с увеличением в проектировании белковых лигандов
  2. Трансфер интерфейсов между доменами значительно улучшает производительность генерации, подтверждая существование общих мотивов взаимодействия
  3. Достигнуто значительное улучшение производительности на множестве тестовых наборов

Ограничения

  1. Зависимость производительности от качества поиска: Релевантность результатов поиска напрямую влияет на эффективность генерации
  2. Ограниченные структурные дескрипторы: Текущие измерения сходства могут не полностью захватывать сложные структурные отношения
  3. Вычислительная сложность: Требуется поддержание крупномасштабной базы данных интерфейсов и выполнение поиска в реальном времени

Направления будущих исследований

  1. Улучшение структурных дескрипторов и измерений сходства
  2. Исследование более надёжных стратегий интеграции, учитывающих структуру
  3. Расширение на дополнительные типы молекул и паттерны взаимодействия

Глубокая оценка

Преимущества

  1. Высокая инновационность: Впервые применена парадигма RAG к проектированию белковых лигандов, новый технический подход
  2. Полные эксперименты: Комплексная оценка на нескольких наборах данных и метриках, включая детальные абляционные исследования
  3. Кросс-доменная генерализация: Подтверждена возможность передачи знаний между различными типами лигандов
  4. Высокая практическая ценность: Демонстрирует потенциал в практических приложениях, таких как проектирование антител к рецептору CD4 HIV-1

Недостатки

  1. Недостаточный теоретический анализ: Отсутствует теоретическое объяснение эффективности измерения кросс-доменного сходства
  2. Вычислительная эффективность: Недостаточно подробный анализ вычислительных затрат и требований к памяти для крупномасштабного поиска
  3. Отсутствие биологической валидации: Не хватает экспериментальной проверки функциональности сгенерированных лигандов

Влияние

  1. Академический вклад: Предоставляет новую методологическую структуру для вычислительной структурной биологии
  2. Практическая ценность: Может ускорить открытие лекарств и приложения белковой инженерии
  3. Воспроизводимость: Предоставляет подробные детали реализации и код, облегчающие воспроизведение и расширение

Применимые сценарии

  • Проектирование лидирующих соединений в открытии новых лекарств
  • Вычислительное вспомогательное проектирование лекарств на основе антител
  • Исследование белковых взаимодействий
  • Белковая инженерия в синтетической биологии

Библиография

Статья цитирует 54 соответствующих работы, охватывающих множество областей, включая проектирование белков, глубокие генеративные модели и поиск с увеличением генерации, обеспечивая прочную теоретическую основу для исследования.