2025-11-11T13:16:09.695232

Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization

Wang, Ji, Tian et al.
Antibodies are essential proteins responsible for immune responses in organisms, capable of specifically recognizing antigen molecules of pathogens. Recent advances in generative models have significantly enhanced rational antibody design. However, existing methods mainly create antibodies from scratch without template constraints, leading to model optimization challenges and unnatural sequences. To address these issues, we propose a retrieval-augmented diffusion framework, termed RADAb, for efficient antibody design. Our method leverages a set of structural homologous motifs that align with query structural constraints to guide the generative model in inversely optimizing antibodies according to desired design criteria. Specifically, we introduce a structure-informed retrieval mechanism that integrates these exemplar motifs with the input backbone through a novel dual-branch denoising module, utilizing both structural and evolutionary information. Additionally, we develop a conditional diffusion model that iteratively refines the optimization process by incorporating both global context and local evolutionary conditions. Our approach is agnostic to the choice of generative models. Empirical experiments demonstrate that our method achieves state-of-the-art performance in multiple antibody inverse folding and optimization tasks, offering a new perspective on biomolecular generative models.
academic

Modelo de Difusión Aumentado por Recuperación para Diseño y Optimización de Anticuerpos Informados por Estructura

Información Básica

  • ID del Artículo: 2410.15040
  • Título: Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization
  • Autores: Zichen Wang, Yaokun Ji, Jianing Tian, Shuangjia Zheng
  • Clasificación: cs.AI
  • Conferencia de Publicación: ICLR 2025
  • Enlace del Artículo: https://arxiv.org/abs/2410.15040

Resumen

Los anticuerpos son proteínas esenciales responsables de la respuesta inmunológica del organismo, capaces de reconocer específicamente moléculas antigénicas de patógenos. Aunque los avances recientes en modelos generativos han mejorado significativamente la capacidad de diseño racional de anticuerpos, los métodos existentes crean principalmente anticuerpos de novo careciendo de restricciones de plantilla, lo que resulta en dificultades de optimización del modelo y problemas de secuencias no naturales. Para abordar estos problemas, este artículo propone un marco de difusión aumentado por recuperación RADAb para diseño eficiente de anticuerpos. El método utiliza un conjunto de motivos homólogos estructurales alineados con restricciones de estructura de consulta para guiar el modelo generativo en la optimización inversa de anticuerpos según criterios de diseño deseados. Específicamente, se introduce un mecanismo de recuperación de información estructural que integra estos motivos de ejemplo con el esqueleto de entrada a través de un novedoso módulo de desruido de doble rama, mientras se aprovecha la información estructural y evolutiva. Además, se desarrolló un modelo de difusión condicional que optimiza iterativamente el proceso combinando contexto global y condiciones evolutivas locales. El método es agnóstico a la elección del modelo generativo, y los experimentos demuestran un rendimiento de última generación en múltiples tareas de plegamiento inverso y optimización de anticuerpos.

Antecedentes de Investigación y Motivación

Definición del Problema

El desafío central en el diseño de anticuerpos es cómo generar secuencias de anticuerpos funcionales con propiedades bioquímicas predefinidas. El desarrollo tradicional de anticuerpos depende de métodos experimentales intensivos en mano de obra, como inmunización animal o cribado de grandes bibliotecas de anticuerpos, que a menudo no pueden producir efectivamente anticuerpos dirigidos a epítopos relevantes para terapia.

Limitaciones de Métodos Existentes

  1. Escasez de Datos: Depende principalmente de la base de datos SAbDab, que contiene menos de diez mil estructuras de complejos antígeno-anticuerpo, limitando la capacidad del modelo para capturar información de interacciones de orden superior
  2. Dificultad en Diseño de Novo: Los métodos existentes intentan diseñar secuencias de anticuerpos desde cero, careciendo de orientación basada en plantillas, requiriendo grandes cantidades de datos y entrenamiento extenso
  3. Ausencia de Restricciones Estructurales: Los modelos generativos actuales tienen dificultades para diseñar anticuerpos que respeten restricciones estructurales y posean propiedades biológicas deseadas

Motivación de la Investigación

Este artículo se inspira en diseño de anticuerpos basado en plantillas y fragmentos, con el objetivo de:

  1. Mejorar la capacidad generativa del modelo utilizando información de geometría proteica local y global consciente de plantillas
  2. Integrar señales evolutivas de motivos para prevenir sobreajuste
  3. Requerir entrenamiento o ajuste fino mínimo en aplicaciones prácticas

Contribuciones Principales

  1. Marco de Generación Aumentado por Recuperación Pionero: Propone el primer marco de generación aumentado por recuperación para diseño racional de anticuerpos, utilizando un conjunto de fragmentos tipo CDR funcionales que satisfacen la estructura de esqueleto deseada y características para guiar la generación
  2. Mecanismo de Recuperación Novedoso: Introduce un mecanismo de recuperación de información estructural que integra motivos de ejemplo con el esqueleto de entrada a través de un módulo de desruido de doble rama, aprovechando información estructural y evolutiva
  3. Mejora Significativa de Rendimiento: Mejora los métodos de última generación en múltiples tareas de plegamiento inverso de anticuerpos, como una mejora de AAR del 8.08% en la tarea de plegamiento inverso de CDRH3 largo, y una mejora promedio de ΔΔG absoluto de 7 cal/mol en tareas de optimización funcional

Explicación Detallada del Método

Definición de Tarea

Dado un complejo de marco de anticuerpo CabC_{ab}, antígeno CagC_{ag} y fragmentos tipo CDR recuperados AA, el objetivo es predecir la distribución de secuencias de la región CDR R={sjj{a+1,...,a+m}}R = \{s_j | j \in \{a+1, ..., a+m\}\}, donde mm es la longitud de CDR y aa es la posición inicial.

Arquitectura del Modelo

1. Módulo de Recuperación Estructural

Utiliza el algoritmo MASTER para recuperación estructural:

  • Entrada: Conjunto de coordenadas atómicas del esqueleto CDR X={xkk{1,...,m}}X = \{x_k | k \in \{1, ..., m\}\}
  • Medida de Similitud: Desviación cuadrática media (RMSD) de átomos del esqueleto
  • Salida: Conjunto de fragmentos tipo CDR estructuralmente similares A={Aii{1,...,k}}A = \{A_i | i \in \{1, ..., k\}\}

2. Red de Desruido de Doble Rama

Rama de Contexto Geométrico Global:

  • Codificador de Contexto: Extrae características de residuo único ziz_i y características de pares de residuos yijy_{ij}
  • Codificador Evolutivo: Utiliza ESM2 para extraer incrustaciones evolutivas de la secuencia de anticuerpo ete^t
  • Red de Información Estructural: Procesa mediante apilamiento de capas IPA, generando representación de probabilidad global rglobalr_{global}

Rama Enfocada en CDR Local:

  • Atención Axial Enfocada en CDR: Construye matriz pseudo-MSA PP: P=concat((SabRgt),E)P = \text{concat}((S_{ab} \cup R^t_g), E) donde EE es la matriz de secuencias tipo CDR
  • Mecanismo de Atención de Fila Vinculada: Considera simultáneamente puntuaciones de atención de múltiples filas, aprovechando similitud estructural
  • Fusión de Información: Fusiona rlocalr_{local} y rglobalr_{global} a través de conexiones de salto

3. Proceso de Difusión Condicional

Adición de ruido del proceso directo: q(sjtsjt1)=Multinomial((1βt)onehot(sjt1)+βt1201)q(s^t_j | s^{t-1}_j) = \text{Multinomial}((1-\beta_t) \cdot \text{onehot}(s^{t-1}_j) + \beta_t \cdot \frac{1}{20} \cdot \mathbf{1})

Proceso de desruido inverso: p(sjt1Rt,Cab,Cag,A)=Multinomial[F(Rt,Cab,Cag,et)+G(F(Rt,Cab,Cag,et),A)][j]p(s^{t-1}_j | R^t, C_{ab}, C_{ag}, A) = \text{Multinomial}[F(R^t, C_{ab}, C_{ag}, e^t) + G(F(R^t, C_{ab}, C_{ag}, e^t), A)][j]

Puntos de Innovación Técnica

  1. Recuperación de Información Estructural: Utiliza el algoritmo MASTER para recuperar fragmentos tipo CDR basados en estructura de esqueleto, evitando fuga de información de secuencia
  2. Arquitectura de Doble Rama: La rama global captura contexto de complejo antígeno-anticuerpo, la rama local aprende información evolutiva homóloga
  3. Atención de Fila Vinculada: Mecanismo de atención especialmente diseñado que aprovecha plenamente la similitud estructural
  4. Independencia de Modelo: El marco puede integrarse con cualquier modelo generativo de difusión

Configuración Experimental

Conjuntos de Datos

  • Conjunto de Entrenamiento: Base de datos SAbDab, eliminando estructuras con resolución inferior a 4Å, agrupadas por similitud de secuencia del 50% en la región CDRH3
  • Conjunto de Prueba: 50 archivos PDB, conteniendo 63 estructuras de complejos anticuerpo-antígeno
  • Base de Datos de Fragmentos Tipo CDR: Construida a partir de PDB no redundante, conteniendo motivos funcionales lineales tipo CDR estructuralmente compatibles

Métricas de Evaluación

  1. Tasa de Recuperación de Aminoácidos (AAR): Proporción de posiciones donde los aminoácidos de la secuencia diseñada coinciden con la secuencia CDR real
  2. RMSD de Autoconsistencia (scRMSD): RMSD de átomos Cα de la región CDR después de replegar la estructura del anticuerpo
  3. Plausibilidad: Pseudoverosimilitud logarítmica calculada mediante AntiBERTy

Métodos de Comparación

  • Métodos Tradicionales: Grafting (trasplante directo del fragmento recuperado top-1)
  • Métodos de Aprendizaje Profundo: ProteinMPNN, ESM-IF1, Diffab-fix, AbMPNN

Detalles de Implementación

  • Optimizador: Adam, tasa de aprendizaje 0.0001
  • Tamaño de lote: 8
  • CDRH3 entrenado por separado durante 100,000 iteraciones, otras regiones CDR entrenadas conjuntamente durante 250,000 iteraciones
  • Pasos de tiempo de difusión: 100

Resultados Experimentales

Resultados Principales

Resultados de Plegamiento Inverso de Secuencia CDR de Anticuerpo:

MétodoCDRH3 AAR(%)CDRH3 scRMSDCDRH3 Plausibility
Grafting19.633.20-0.591
ProteinMPNN41.772.27-0.605
Diffab-fix49.172.24-0.541
AbMPNN52.992.80-0.675
RADAb57.022.23-0.530

Resultados de Diseño de Secuencia CDRH3 Largo (longitud >14):

MétodoAAR(%)scRMSDPlausibility
Diffab-fix42.263.02-0.740
RADAb51.352.52-0.747

Resultados de Optimización Funcional

Resultados de Optimización de Energía de Unión:

MétodoΔΔG↓ΔΔG-seq↓IMP-seq(%)↑
Grafting135.1740.2232.69
ProteinMPNN127.1424.7235.51
Diffab-fix116.3614.0534.52
RADAb109.167.0637.30

Experimentos de Ablación

ComponenteAAR(%)scRMSDPlausibility
Modelo Completo57.022.23-0.530
Sin Recuperación Aumentada52.152.39-0.529
Sin Incrustación Evolutiva51.362.23-0.538
Línea Base Diffab49.172.24-0.541

Análisis de Casos

Tomando como ejemplo un anticuerpo neutralizante del SARS-CoV-2 (PDB: 7d6i), el 68% de las 50 secuencias CDRH3 generadas mostraron valores de ΔG más bajos que el complejo original, demostrando la efectividad de la optimización funcional.

Trabajo Relacionado

Métodos de Diseño de Anticuerpos

  1. Métodos Tradicionales: Métodos basados en optimización de funciones de energía y similitud de secuencia
  2. Métodos de Aprendizaje Automático:
    • Diseño de secuencia de anticuerpo: Modelos de lenguaje y modelos de plegamiento inverso
    • Diseño sinérgico de secuencia-estructura específica de antígeno: Métodos de redes neuronales gráficas

Modelos Generativos de Difusión

Aplicación de modelos de difusión en diseño de proteínas, incluyendo procesos de ruido directo de DDPM y procesos de generación inversa.

Generación Aumentada por Recuperación

Tecnología RAG extendida desde el campo de PNL a visión por computadora y generación molecular, siendo este artículo el primero en aplicarla al diseño de anticuerpos.

Conclusiones y Discusión

Conclusiones Principales

  1. RADAb logra rendimiento de última generación en múltiples tareas de diseño de anticuerpos
  2. El mecanismo de recuperación aumentada mejora significativamente la calidad generativa y funcionalidad del modelo
  3. La arquitectura de doble rama integra efectivamente contexto global e información evolutiva local

Limitaciones

  1. Verificación Experimental Insuficiente: Aún no se ha verificado completamente en experimentos húmedos
  2. Costo Computacional: La recuperación estructural y codificación ESM2 requieren más recursos computacionales
  3. Riesgo de Fuga de Datos: La aplicación del mecanismo de recuperación actual en diseño sinérgico secuencia-estructura presenta riesgo de fuga de datos

Direcciones Futuras

  1. La verificación experimental húmeda será una de las tareas principales
  2. Extender el modelo a diseño de varios motivos proteicos
  3. Explorar recuperación de PPI para evitar problemas de fuga de datos

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera aplicación de tecnología de recuperación aumentada al diseño de anticuerpos, proponiendo una arquitectura de doble rama novedosa
  2. Técnica Sólida: El mecanismo de recuperación de información estructural está bien diseñado, evitando fuga de información de secuencia
  3. Experimentación Completa: Evaluación integral en múltiples tareas e indicadores, incluyendo experimentos de ablación
  4. Rendimiento Destacado: Logra rendimiento de última generación en todas las tareas de evaluación

Deficiencias

  1. Practicidad por Verificar: Carece de verificación experimental húmeda, efectividad de aplicación real desconocida
  2. Complejidad Computacional Alta: El proceso de recuperación y la red de doble rama aumentan la carga computacional
  3. Rango de Aplicabilidad Limitado: Enfocado principalmente en tareas de plegamiento inverso, con limitaciones en diseño de átomo completo

Impacto

  1. Contribución Académica: Proporciona nueva perspectiva para modelos generativos de biomoléculas, promoviendo aplicación de tecnología de recuperación aumentada en diseño de proteínas
  2. Valor Práctico: Promete acelerar el proceso de diseño de fármacos de anticuerpos, reduciendo costos experimentales
  3. Reproducibilidad: Proporciona detalles de implementación detallados y código de código abierto

Escenarios Aplicables

  1. Diseño de optimización CDR basado en plantillas de anticuerpos conocidas
  2. Mejora de secuencia de anticuerpo que requiere mantenimiento de restricciones estructurales
  3. Maduración de afinidad de anticuerpo y optimización funcional

Referencias

Este artículo cita trabajos importantes en los campos de diseño de anticuerpos, modelos de difusión y generación aumentada por recuperación, proporcionando una base teórica y soporte técnico sólido para el marco RADAb.


Evaluación General: Este es un artículo de investigación de alta calidad que propone un marco de difusión aumentado por recuperación innovador en el campo del diseño de anticuerpos. El plan técnico está bien diseñado, la evaluación experimental es completa y los resultados son convincentes. Aunque la verificación de aplicación práctica aún necesita fortalecerse, abre nuevas direcciones de investigación para el campo de diseño de proteínas, poseyendo importante valor académico y perspectivas de aplicación.