Latent Retrieval Augmented Generation of Cross-Domain Protein Binders
Zhang, Kong, Huang et al.
Designing protein binders targeting specific sites, which requires to generate realistic and functional interaction patterns, is a fundamental challenge in drug discovery. Current structure-based generative models are limited in generating nterfaces with sufficient rationality and interpretability. In this paper, we propose Retrieval-Augmented Diffusion for Aligned interface (RADiAnce), a new framework that leverages known interfaces to guide the design of novel binders. By unifying retrieval and generation in a shared contrastive latent space, our model efficiently identifies relevant interfaces for a given binding site and seamlessly integrates them through a conditional latent diffusion generator, enabling cross-domain interface transfer. Extensive exeriments show that RADiAnce significantly outperforms baseline models across multiple metrics, including binding affinity and recovery of geometries and interactions. Additional experimental results validate cross-domain generalization, demonstrating that retrieving interfaces from diverse domains, such as peptides, antibodies, and protein fragments, enhances the generation performance of binders for other domains. Our work establishes a new paradigm for protein binder design that successfully bridges retrieval-based knowledge and generative AI, opening new possibilities for drug discovery.
academic
Скрытая генерация с увеличением поиска для кросс-доменных белковых лигандов
Проектирование белковых лигандов для специфических сайтов связывания является фундаментальной задачей в открытии лекарств, требующей генерации реалистичных и функциональных паттернов взаимодействия. Современные структурные генеративные модели имеют ограничения в генерации интерфейсов с достаточной обоснованностью и интерпретируемостью. В данной работе предложена структура RADiAnce (Retrieval Augmented Diffusion Aligned Interface), которая использует известные интерфейсы для направления проектирования новых лигандов. Путём унификации поиска и генерации в общем контрастивном скрытом пространстве модель эффективно идентифицирует релевантные интерфейсы для заданного сайта связывания и беспрепятственно интегрирует их через условный генератор скрытой диффузии, обеспечивая трансфер интерфейсов между доменами.
Вызовы в проектировании белковых лигандов: Проектирование лигандов, способных нацеливаться на специфические сайты белков, требует генерации реалистичных и функциональных паттернов молекулярного взаимодействия
Ограничения существующих методов: Современные модели структурной генерации не обладают достаточной обоснованностью и интерпретируемостью, неэффективно используют известную структурную информацию
Игнорирование априорных знаний: Большинство методов генерируют только на основе целевого сайта связывания, игнорируя богатые переиспользуемые паттерны взаимодействия в известных белковых комплексах
Отсутствие кросс-доменной генерализации: Неспособность эффективно использовать общие мотивы взаимодействия между различными типами лигандов (пептиды, антитела, белковые фрагменты)
Недостаточная интерпретируемость: Процесс генерации лишён явных биологических принципов руководства
Предложена структура RADiAnce: Первый метод применения поиска с увеличением к совместному проектированию последовательности и структуры белковых лигандов
Построено контрастивное скрытое пространство: Разработано единое скрытое представление для поиска и генерации, поддерживающее измерение кросс-доменного сходства интерфейсов
Реализован трансфер интерфейсов между доменами: Подтверждено, что поиск интерфейсов из различных типов лигандов улучшает производительность генерации лигандов других доменов
Значительное улучшение производительности: Существенное превосходство над базовыми методами по множеству метрик оценки, включая аффинность связывания, геометрию и восстановление взаимодействий
Унифицированное скрытое пространство: Впервые достигнута унификация поиска и генерации в одном скрытом пространстве, обеспечивающая прямое руководство процессом генерации результатами поиска
Измерение кросс-доменного сходства: Скрытые представления, полученные через контрастивное обучение, способны захватывать общие мотивы взаимодействия между различными типами лигандов
Интеграция условной диффузии: Инновационная интеграция извлечённых вложений интерфейсов в процесс диффузии через кросс-внимание и остаточные многослойные персептроны
Статья цитирует 54 соответствующих работы, охватывающих множество областей, включая проектирование белков, глубокие генеративные модели и поиск с увеличением генерации, обеспечивая прочную теоретическую основу для исследования.