2025-11-11T13:16:09.695232

Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization

Wang, Ji, Tian et al.

Antibodies are essential proteins responsible for immune responses in organisms, capable of specifically recognizing antigen molecules of pathogens. Recent advances in generative models have significantly enhanced rational antibody design. However, existing methods mainly create antibodies from scratch without template constraints, leading to model optimization challenges and unnatural sequences. To address these issues, we propose a retrieval-augmented diffusion framework, termed RADAb, for efficient antibody design. Our method leverages a set of structural homologous motifs that align with query structural constraints to guide the generative model in inversely optimizing antibodies according to desired design criteria. Specifically, we introduce a structure-informed retrieval mechanism that integrates these exemplar motifs with the input backbone through a novel dual-branch denoising module, utilizing both structural and evolutionary information. Additionally, we develop a conditional diffusion model that iteratively refines the optimization process by incorporating both global context and local evolutionary conditions. Our approach is agnostic to the choice of generative models. Empirical experiments demonstrate that our method achieves state-of-the-art performance in multiple antibody inverse folding and optimization tasks, offering a new perspective on biomolecular generative models.

academic

Modelo de Difusión Aumentado por Recuperación para Diseño y Optimización de Anticuerpos Informados por Estructura

Información Básica

ID del Artículo: 2410.15040
Título: Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization
Autores: Zichen Wang, Yaokun Ji, Jianing Tian, Shuangjia Zheng
Clasificación: cs.AI
Conferencia de Publicación: ICLR 2025
Enlace del Artículo: https://arxiv.org/abs/2410.15040

Resumen

Los anticuerpos son proteínas esenciales responsables de la respuesta inmunológica del organismo, capaces de reconocer específicamente moléculas antigénicas de patógenos. Aunque los avances recientes en modelos generativos han mejorado significativamente la capacidad de diseño racional de anticuerpos, los métodos existentes crean principalmente anticuerpos de novo careciendo de restricciones de plantilla, lo que resulta en dificultades de optimización del modelo y problemas de secuencias no naturales. Para abordar estos problemas, este artículo propone un marco de difusión aumentado por recuperación RADAb para diseño eficiente de anticuerpos. El método utiliza un conjunto de motivos homólogos estructurales alineados con restricciones de estructura de consulta para guiar el modelo generativo en la optimización inversa de anticuerpos según criterios de diseño deseados. Específicamente, se introduce un mecanismo de recuperación de información estructural que integra estos motivos de ejemplo con el esqueleto de entrada a través de un novedoso módulo de desruido de doble rama, mientras se aprovecha la información estructural y evolutiva. Además, se desarrolló un modelo de difusión condicional que optimiza iterativamente el proceso combinando contexto global y condiciones evolutivas locales. El método es agnóstico a la elección del modelo generativo, y los experimentos demuestran un rendimiento de última generación en múltiples tareas de plegamiento inverso y optimización de anticuerpos.

Antecedentes de Investigación y Motivación

Definición del Problema

El desafío central en el diseño de anticuerpos es cómo generar secuencias de anticuerpos funcionales con propiedades bioquímicas predefinidas. El desarrollo tradicional de anticuerpos depende de métodos experimentales intensivos en mano de obra, como inmunización animal o cribado de grandes bibliotecas de anticuerpos, que a menudo no pueden producir efectivamente anticuerpos dirigidos a epítopos relevantes para terapia.

Limitaciones de Métodos Existentes

Escasez de Datos: Depende principalmente de la base de datos SAbDab, que contiene menos de diez mil estructuras de complejos antígeno-anticuerpo, limitando la capacidad del modelo para capturar información de interacciones de orden superior
Dificultad en Diseño de Novo: Los métodos existentes intentan diseñar secuencias de anticuerpos desde cero, careciendo de orientación basada en plantillas, requiriendo grandes cantidades de datos y entrenamiento extenso
Ausencia de Restricciones Estructurales: Los modelos generativos actuales tienen dificultades para diseñar anticuerpos que respeten restricciones estructurales y posean propiedades biológicas deseadas

Motivación de la Investigación

Este artículo se inspira en diseño de anticuerpos basado en plantillas y fragmentos, con el objetivo de:

Mejorar la capacidad generativa del modelo utilizando información de geometría proteica local y global consciente de plantillas
Integrar señales evolutivas de motivos para prevenir sobreajuste
Requerir entrenamiento o ajuste fino mínimo en aplicaciones prácticas

Contribuciones Principales

Marco de Generación Aumentado por Recuperación Pionero: Propone el primer marco de generación aumentado por recuperación para diseño racional de anticuerpos, utilizando un conjunto de fragmentos tipo CDR funcionales que satisfacen la estructura de esqueleto deseada y características para guiar la generación
Mecanismo de Recuperación Novedoso: Introduce un mecanismo de recuperación de información estructural que integra motivos de ejemplo con el esqueleto de entrada a través de un módulo de desruido de doble rama, aprovechando información estructural y evolutiva
Mejora Significativa de Rendimiento: Mejora los métodos de última generación en múltiples tareas de plegamiento inverso de anticuerpos, como una mejora de AAR del 8.08% en la tarea de plegamiento inverso de CDRH3 largo, y una mejora promedio de ΔΔG absoluto de 7 cal/mol en tareas de optimización funcional

Explicación Detallada del Método

Definición de Tarea

Dado un complejo de marco de anticuerpo $C_{ab}$ , antígeno $C_{ag}$ y fragmentos tipo CDR recuperados $A$ , el objetivo es predecir la distribución de secuencias de la región CDR $R = \{s_j | j \in \{a+1, ..., a+m\}\}$ , donde $m$ es la longitud de CDR y $a$ es la posición inicial.

Arquitectura del Modelo

1. Módulo de Recuperación Estructural

Utiliza el algoritmo MASTER para recuperación estructural:

Entrada: Conjunto de coordenadas atómicas del esqueleto CDR $X = \{x_k | k \in \{1, ..., m\}\}$
Medida de Similitud: Desviación cuadrática media (RMSD) de átomos del esqueleto
Salida: Conjunto de fragmentos tipo CDR estructuralmente similares $A = \{A_i | i \in \{1, ..., k\}\}$

2. Red de Desruido de Doble Rama

Rama de Contexto Geométrico Global:

Codificador de Contexto: Extrae características de residuo único $z_i$ y características de pares de residuos $y_{ij}$
Codificador Evolutivo: Utiliza ESM2 para extraer incrustaciones evolutivas de la secuencia de anticuerpo $e^t$
Red de Información Estructural: Procesa mediante apilamiento de capas IPA, generando representación de probabilidad global $r_{global}$

Rama Enfocada en CDR Local:

Atención Axial Enfocada en CDR: Construye matriz pseudo-MSA $P$ : $P = \text{concat}((S_{ab} \cup R^t_g), E)$ donde $E$ es la matriz de secuencias tipo CDR
Mecanismo de Atención de Fila Vinculada: Considera simultáneamente puntuaciones de atención de múltiples filas, aprovechando similitud estructural
Fusión de Información: Fusiona $r_{local}$ y $r_{global}$ a través de conexiones de salto

3. Proceso de Difusión Condicional

Adición de ruido del proceso directo: $q(s^t_j | s^{t-1}_j) = \text{Multinomial}((1-\beta_t) \cdot \text{onehot}(s^{t-1}_j) + \beta_t \cdot \frac{1}{20} \cdot \mathbf{1})$

Proceso de desruido inverso: $p(s^{t-1}_j | R^t, C_{ab}, C_{ag}, A) = \text{Multinomial}[F(R^t, C_{ab}, C_{ag}, e^t) + G(F(R^t, C_{ab}, C_{ag}, e^t), A)][j]$

Puntos de Innovación Técnica

Recuperación de Información Estructural: Utiliza el algoritmo MASTER para recuperar fragmentos tipo CDR basados en estructura de esqueleto, evitando fuga de información de secuencia
Arquitectura de Doble Rama: La rama global captura contexto de complejo antígeno-anticuerpo, la rama local aprende información evolutiva homóloga
Atención de Fila Vinculada: Mecanismo de atención especialmente diseñado que aprovecha plenamente la similitud estructural
Independencia de Modelo: El marco puede integrarse con cualquier modelo generativo de difusión

Configuración Experimental

Conjuntos de Datos

Conjunto de Entrenamiento: Base de datos SAbDab, eliminando estructuras con resolución inferior a 4Å, agrupadas por similitud de secuencia del 50% en la región CDRH3
Conjunto de Prueba: 50 archivos PDB, conteniendo 63 estructuras de complejos anticuerpo-antígeno
Base de Datos de Fragmentos Tipo CDR: Construida a partir de PDB no redundante, conteniendo motivos funcionales lineales tipo CDR estructuralmente compatibles

Métricas de Evaluación

Tasa de Recuperación de Aminoácidos (AAR): Proporción de posiciones donde los aminoácidos de la secuencia diseñada coinciden con la secuencia CDR real
RMSD de Autoconsistencia (scRMSD): RMSD de átomos Cα de la región CDR después de replegar la estructura del anticuerpo
Plausibilidad: Pseudoverosimilitud logarítmica calculada mediante AntiBERTy

Métodos de Comparación

Métodos Tradicionales: Grafting (trasplante directo del fragmento recuperado top-1)
Métodos de Aprendizaje Profundo: ProteinMPNN, ESM-IF1, Diffab-fix, AbMPNN

Detalles de Implementación

Optimizador: Adam, tasa de aprendizaje 0.0001
Tamaño de lote: 8
CDRH3 entrenado por separado durante 100,000 iteraciones, otras regiones CDR entrenadas conjuntamente durante 250,000 iteraciones
Pasos de tiempo de difusión: 100

Resultados Experimentales

Resultados Principales

Resultados de Plegamiento Inverso de Secuencia CDR de Anticuerpo:

Método	CDRH3 AAR(%)	CDRH3 scRMSD	CDRH3 Plausibility
Grafting	19.63	3.20	-0.591
ProteinMPNN	41.77	2.27	-0.605
Diffab-fix	49.17	2.24	-0.541
AbMPNN	52.99	2.80	-0.675
RADAb	57.02	2.23	-0.530

Resultados de Diseño de Secuencia CDRH3 Largo (longitud >14):

Método	AAR(%)	scRMSD	Plausibility
Diffab-fix	42.26	3.02	-0.740
RADAb	51.35	2.52	-0.747

Resultados de Optimización Funcional

Resultados de Optimización de Energía de Unión:

Método	ΔΔG↓	ΔΔG-seq↓	IMP-seq(%)↑
Grafting	135.17	40.22	32.69
ProteinMPNN	127.14	24.72	35.51
Diffab-fix	116.36	14.05	34.52
RADAb	109.16	7.06	37.30

Experimentos de Ablación

Componente	AAR(%)	scRMSD	Plausibility
Modelo Completo	57.02	2.23	-0.530
Sin Recuperación Aumentada	52.15	2.39	-0.529
Sin Incrustación Evolutiva	51.36	2.23	-0.538
Línea Base Diffab	49.17	2.24	-0.541

Análisis de Casos

Tomando como ejemplo un anticuerpo neutralizante del SARS-CoV-2 (PDB: 7d6i), el 68% de las 50 secuencias CDRH3 generadas mostraron valores de ΔG más bajos que el complejo original, demostrando la efectividad de la optimización funcional.

Trabajo Relacionado

Métodos de Diseño de Anticuerpos

Métodos Tradicionales: Métodos basados en optimización de funciones de energía y similitud de secuencia
Métodos de Aprendizaje Automático:
- Diseño de secuencia de anticuerpo: Modelos de lenguaje y modelos de plegamiento inverso
- Diseño sinérgico de secuencia-estructura específica de antígeno: Métodos de redes neuronales gráficas

Modelos Generativos de Difusión

Aplicación de modelos de difusión en diseño de proteínas, incluyendo procesos de ruido directo de DDPM y procesos de generación inversa.

Generación Aumentada por Recuperación

Tecnología RAG extendida desde el campo de PNL a visión por computadora y generación molecular, siendo este artículo el primero en aplicarla al diseño de anticuerpos.

Conclusiones y Discusión

Conclusiones Principales

RADAb logra rendimiento de última generación en múltiples tareas de diseño de anticuerpos
El mecanismo de recuperación aumentada mejora significativamente la calidad generativa y funcionalidad del modelo
La arquitectura de doble rama integra efectivamente contexto global e información evolutiva local

Limitaciones

Verificación Experimental Insuficiente: Aún no se ha verificado completamente en experimentos húmedos
Costo Computacional: La recuperación estructural y codificación ESM2 requieren más recursos computacionales
Riesgo de Fuga de Datos: La aplicación del mecanismo de recuperación actual en diseño sinérgico secuencia-estructura presenta riesgo de fuga de datos

Direcciones Futuras

La verificación experimental húmeda será una de las tareas principales
Extender el modelo a diseño de varios motivos proteicos
Explorar recuperación de PPI para evitar problemas de fuga de datos

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera aplicación de tecnología de recuperación aumentada al diseño de anticuerpos, proponiendo una arquitectura de doble rama novedosa
Técnica Sólida: El mecanismo de recuperación de información estructural está bien diseñado, evitando fuga de información de secuencia
Experimentación Completa: Evaluación integral en múltiples tareas e indicadores, incluyendo experimentos de ablación
Rendimiento Destacado: Logra rendimiento de última generación en todas las tareas de evaluación

Deficiencias

Practicidad por Verificar: Carece de verificación experimental húmeda, efectividad de aplicación real desconocida
Complejidad Computacional Alta: El proceso de recuperación y la red de doble rama aumentan la carga computacional
Rango de Aplicabilidad Limitado: Enfocado principalmente en tareas de plegamiento inverso, con limitaciones en diseño de átomo completo

Impacto

Contribución Académica: Proporciona nueva perspectiva para modelos generativos de biomoléculas, promoviendo aplicación de tecnología de recuperación aumentada en diseño de proteínas
Valor Práctico: Promete acelerar el proceso de diseño de fármacos de anticuerpos, reduciendo costos experimentales
Reproducibilidad: Proporciona detalles de implementación detallados y código de código abierto

Escenarios Aplicables

Diseño de optimización CDR basado en plantillas de anticuerpos conocidas
Mejora de secuencia de anticuerpo que requiere mantenimiento de restricciones estructurales
Maduración de afinidad de anticuerpo y optimización funcional

Referencias

Este artículo cita trabajos importantes en los campos de diseño de anticuerpos, modelos de difusión y generación aumentada por recuperación, proporcionando una base teórica y soporte técnico sólido para el marco RADAb.

Evaluación General: Este es un artículo de investigación de alta calidad que propone un marco de difusión aumentado por recuperación innovador en el campo del diseño de anticuerpos. El plan técnico está bien diseñado, la evaluación experimental es completa y los resultados son convincentes. Aunque la verificación de aplicación práctica aún necesita fortalecerse, abre nuevas direcciones de investigación para el campo de diseño de proteínas, poseyendo importante valor académico y perspectivas de aplicación.