Antibodies are essential proteins responsible for immune responses in organisms, capable of specifically recognizing antigen molecules of pathogens. Recent advances in generative models have significantly enhanced rational antibody design. However, existing methods mainly create antibodies from scratch without template constraints, leading to model optimization challenges and unnatural sequences. To address these issues, we propose a retrieval-augmented diffusion framework, termed RADAb, for efficient antibody design. Our method leverages a set of structural homologous motifs that align with query structural constraints to guide the generative model in inversely optimizing antibodies according to desired design criteria. Specifically, we introduce a structure-informed retrieval mechanism that integrates these exemplar motifs with the input backbone through a novel dual-branch denoising module, utilizing both structural and evolutionary information. Additionally, we develop a conditional diffusion model that iteratively refines the optimization process by incorporating both global context and local evolutionary conditions. Our approach is agnostic to the choice of generative models. Empirical experiments demonstrate that our method achieves state-of-the-art performance in multiple antibody inverse folding and optimization tasks, offering a new perspective on biomolecular generative models.
- ID del Artículo: 2410.15040
- Título: Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization
- Autores: Zichen Wang, Yaokun Ji, Jianing Tian, Shuangjia Zheng
- Clasificación: cs.AI
- Conferencia de Publicación: ICLR 2025
- Enlace del Artículo: https://arxiv.org/abs/2410.15040
Los anticuerpos son proteínas esenciales responsables de la respuesta inmunológica del organismo, capaces de reconocer específicamente moléculas antigénicas de patógenos. Aunque los avances recientes en modelos generativos han mejorado significativamente la capacidad de diseño racional de anticuerpos, los métodos existentes crean principalmente anticuerpos de novo careciendo de restricciones de plantilla, lo que resulta en dificultades de optimización del modelo y problemas de secuencias no naturales. Para abordar estos problemas, este artículo propone un marco de difusión aumentado por recuperación RADAb para diseño eficiente de anticuerpos. El método utiliza un conjunto de motivos homólogos estructurales alineados con restricciones de estructura de consulta para guiar el modelo generativo en la optimización inversa de anticuerpos según criterios de diseño deseados. Específicamente, se introduce un mecanismo de recuperación de información estructural que integra estos motivos de ejemplo con el esqueleto de entrada a través de un novedoso módulo de desruido de doble rama, mientras se aprovecha la información estructural y evolutiva. Además, se desarrolló un modelo de difusión condicional que optimiza iterativamente el proceso combinando contexto global y condiciones evolutivas locales. El método es agnóstico a la elección del modelo generativo, y los experimentos demuestran un rendimiento de última generación en múltiples tareas de plegamiento inverso y optimización de anticuerpos.
El desafío central en el diseño de anticuerpos es cómo generar secuencias de anticuerpos funcionales con propiedades bioquímicas predefinidas. El desarrollo tradicional de anticuerpos depende de métodos experimentales intensivos en mano de obra, como inmunización animal o cribado de grandes bibliotecas de anticuerpos, que a menudo no pueden producir efectivamente anticuerpos dirigidos a epítopos relevantes para terapia.
- Escasez de Datos: Depende principalmente de la base de datos SAbDab, que contiene menos de diez mil estructuras de complejos antígeno-anticuerpo, limitando la capacidad del modelo para capturar información de interacciones de orden superior
- Dificultad en Diseño de Novo: Los métodos existentes intentan diseñar secuencias de anticuerpos desde cero, careciendo de orientación basada en plantillas, requiriendo grandes cantidades de datos y entrenamiento extenso
- Ausencia de Restricciones Estructurales: Los modelos generativos actuales tienen dificultades para diseñar anticuerpos que respeten restricciones estructurales y posean propiedades biológicas deseadas
Este artículo se inspira en diseño de anticuerpos basado en plantillas y fragmentos, con el objetivo de:
- Mejorar la capacidad generativa del modelo utilizando información de geometría proteica local y global consciente de plantillas
- Integrar señales evolutivas de motivos para prevenir sobreajuste
- Requerir entrenamiento o ajuste fino mínimo en aplicaciones prácticas
- Marco de Generación Aumentado por Recuperación Pionero: Propone el primer marco de generación aumentado por recuperación para diseño racional de anticuerpos, utilizando un conjunto de fragmentos tipo CDR funcionales que satisfacen la estructura de esqueleto deseada y características para guiar la generación
- Mecanismo de Recuperación Novedoso: Introduce un mecanismo de recuperación de información estructural que integra motivos de ejemplo con el esqueleto de entrada a través de un módulo de desruido de doble rama, aprovechando información estructural y evolutiva
- Mejora Significativa de Rendimiento: Mejora los métodos de última generación en múltiples tareas de plegamiento inverso de anticuerpos, como una mejora de AAR del 8.08% en la tarea de plegamiento inverso de CDRH3 largo, y una mejora promedio de ΔΔG absoluto de 7 cal/mol en tareas de optimización funcional
Dado un complejo de marco de anticuerpo Cab, antígeno Cag y fragmentos tipo CDR recuperados A, el objetivo es predecir la distribución de secuencias de la región CDR R={sj∣j∈{a+1,...,a+m}}, donde m es la longitud de CDR y a es la posición inicial.
Utiliza el algoritmo MASTER para recuperación estructural:
- Entrada: Conjunto de coordenadas atómicas del esqueleto CDR X={xk∣k∈{1,...,m}}
- Medida de Similitud: Desviación cuadrática media (RMSD) de átomos del esqueleto
- Salida: Conjunto de fragmentos tipo CDR estructuralmente similares A={Ai∣i∈{1,...,k}}
Rama de Contexto Geométrico Global:
- Codificador de Contexto: Extrae características de residuo único zi y características de pares de residuos yij
- Codificador Evolutivo: Utiliza ESM2 para extraer incrustaciones evolutivas de la secuencia de anticuerpo et
- Red de Información Estructural: Procesa mediante apilamiento de capas IPA, generando representación de probabilidad global rglobal
Rama Enfocada en CDR Local:
- Atención Axial Enfocada en CDR: Construye matriz pseudo-MSA P:
P=concat((Sab∪Rgt),E)
donde E es la matriz de secuencias tipo CDR
- Mecanismo de Atención de Fila Vinculada: Considera simultáneamente puntuaciones de atención de múltiples filas, aprovechando similitud estructural
- Fusión de Información: Fusiona rlocal y rglobal a través de conexiones de salto
Adición de ruido del proceso directo:
q(sjt∣sjt−1)=Multinomial((1−βt)⋅onehot(sjt−1)+βt⋅201⋅1)
Proceso de desruido inverso:
p(sjt−1∣Rt,Cab,Cag,A)=Multinomial[F(Rt,Cab,Cag,et)+G(F(Rt,Cab,Cag,et),A)][j]
- Recuperación de Información Estructural: Utiliza el algoritmo MASTER para recuperar fragmentos tipo CDR basados en estructura de esqueleto, evitando fuga de información de secuencia
- Arquitectura de Doble Rama: La rama global captura contexto de complejo antígeno-anticuerpo, la rama local aprende información evolutiva homóloga
- Atención de Fila Vinculada: Mecanismo de atención especialmente diseñado que aprovecha plenamente la similitud estructural
- Independencia de Modelo: El marco puede integrarse con cualquier modelo generativo de difusión
- Conjunto de Entrenamiento: Base de datos SAbDab, eliminando estructuras con resolución inferior a 4Å, agrupadas por similitud de secuencia del 50% en la región CDRH3
- Conjunto de Prueba: 50 archivos PDB, conteniendo 63 estructuras de complejos anticuerpo-antígeno
- Base de Datos de Fragmentos Tipo CDR: Construida a partir de PDB no redundante, conteniendo motivos funcionales lineales tipo CDR estructuralmente compatibles
- Tasa de Recuperación de Aminoácidos (AAR): Proporción de posiciones donde los aminoácidos de la secuencia diseñada coinciden con la secuencia CDR real
- RMSD de Autoconsistencia (scRMSD): RMSD de átomos Cα de la región CDR después de replegar la estructura del anticuerpo
- Plausibilidad: Pseudoverosimilitud logarítmica calculada mediante AntiBERTy
- Métodos Tradicionales: Grafting (trasplante directo del fragmento recuperado top-1)
- Métodos de Aprendizaje Profundo: ProteinMPNN, ESM-IF1, Diffab-fix, AbMPNN
- Optimizador: Adam, tasa de aprendizaje 0.0001
- Tamaño de lote: 8
- CDRH3 entrenado por separado durante 100,000 iteraciones, otras regiones CDR entrenadas conjuntamente durante 250,000 iteraciones
- Pasos de tiempo de difusión: 100
Resultados de Plegamiento Inverso de Secuencia CDR de Anticuerpo:
| Método | CDRH3 AAR(%) | CDRH3 scRMSD | CDRH3 Plausibility |
|---|
| Grafting | 19.63 | 3.20 | -0.591 |
| ProteinMPNN | 41.77 | 2.27 | -0.605 |
| Diffab-fix | 49.17 | 2.24 | -0.541 |
| AbMPNN | 52.99 | 2.80 | -0.675 |
| RADAb | 57.02 | 2.23 | -0.530 |
Resultados de Diseño de Secuencia CDRH3 Largo (longitud >14):
| Método | AAR(%) | scRMSD | Plausibility |
|---|
| Diffab-fix | 42.26 | 3.02 | -0.740 |
| RADAb | 51.35 | 2.52 | -0.747 |
Resultados de Optimización de Energía de Unión:
| Método | ΔΔG↓ | ΔΔG-seq↓ | IMP-seq(%)↑ |
|---|
| Grafting | 135.17 | 40.22 | 32.69 |
| ProteinMPNN | 127.14 | 24.72 | 35.51 |
| Diffab-fix | 116.36 | 14.05 | 34.52 |
| RADAb | 109.16 | 7.06 | 37.30 |
| Componente | AAR(%) | scRMSD | Plausibility |
|---|
| Modelo Completo | 57.02 | 2.23 | -0.530 |
| Sin Recuperación Aumentada | 52.15 | 2.39 | -0.529 |
| Sin Incrustación Evolutiva | 51.36 | 2.23 | -0.538 |
| Línea Base Diffab | 49.17 | 2.24 | -0.541 |
Tomando como ejemplo un anticuerpo neutralizante del SARS-CoV-2 (PDB: 7d6i), el 68% de las 50 secuencias CDRH3 generadas mostraron valores de ΔG más bajos que el complejo original, demostrando la efectividad de la optimización funcional.
- Métodos Tradicionales: Métodos basados en optimización de funciones de energía y similitud de secuencia
- Métodos de Aprendizaje Automático:
- Diseño de secuencia de anticuerpo: Modelos de lenguaje y modelos de plegamiento inverso
- Diseño sinérgico de secuencia-estructura específica de antígeno: Métodos de redes neuronales gráficas
Aplicación de modelos de difusión en diseño de proteínas, incluyendo procesos de ruido directo de DDPM y procesos de generación inversa.
Tecnología RAG extendida desde el campo de PNL a visión por computadora y generación molecular, siendo este artículo el primero en aplicarla al diseño de anticuerpos.
- RADAb logra rendimiento de última generación en múltiples tareas de diseño de anticuerpos
- El mecanismo de recuperación aumentada mejora significativamente la calidad generativa y funcionalidad del modelo
- La arquitectura de doble rama integra efectivamente contexto global e información evolutiva local
- Verificación Experimental Insuficiente: Aún no se ha verificado completamente en experimentos húmedos
- Costo Computacional: La recuperación estructural y codificación ESM2 requieren más recursos computacionales
- Riesgo de Fuga de Datos: La aplicación del mecanismo de recuperación actual en diseño sinérgico secuencia-estructura presenta riesgo de fuga de datos
- La verificación experimental húmeda será una de las tareas principales
- Extender el modelo a diseño de varios motivos proteicos
- Explorar recuperación de PPI para evitar problemas de fuga de datos
- Innovación Fuerte: Primera aplicación de tecnología de recuperación aumentada al diseño de anticuerpos, proponiendo una arquitectura de doble rama novedosa
- Técnica Sólida: El mecanismo de recuperación de información estructural está bien diseñado, evitando fuga de información de secuencia
- Experimentación Completa: Evaluación integral en múltiples tareas e indicadores, incluyendo experimentos de ablación
- Rendimiento Destacado: Logra rendimiento de última generación en todas las tareas de evaluación
- Practicidad por Verificar: Carece de verificación experimental húmeda, efectividad de aplicación real desconocida
- Complejidad Computacional Alta: El proceso de recuperación y la red de doble rama aumentan la carga computacional
- Rango de Aplicabilidad Limitado: Enfocado principalmente en tareas de plegamiento inverso, con limitaciones en diseño de átomo completo
- Contribución Académica: Proporciona nueva perspectiva para modelos generativos de biomoléculas, promoviendo aplicación de tecnología de recuperación aumentada en diseño de proteínas
- Valor Práctico: Promete acelerar el proceso de diseño de fármacos de anticuerpos, reduciendo costos experimentales
- Reproducibilidad: Proporciona detalles de implementación detallados y código de código abierto
- Diseño de optimización CDR basado en plantillas de anticuerpos conocidas
- Mejora de secuencia de anticuerpo que requiere mantenimiento de restricciones estructurales
- Maduración de afinidad de anticuerpo y optimización funcional
Este artículo cita trabajos importantes en los campos de diseño de anticuerpos, modelos de difusión y generación aumentada por recuperación, proporcionando una base teórica y soporte técnico sólido para el marco RADAb.
Evaluación General: Este es un artículo de investigación de alta calidad que propone un marco de difusión aumentado por recuperación innovador en el campo del diseño de anticuerpos. El plan técnico está bien diseñado, la evaluación experimental es completa y los resultados son convincentes. Aunque la verificación de aplicación práctica aún necesita fortalecerse, abre nuevas direcciones de investigación para el campo de diseño de proteínas, poseyendo importante valor académico y perspectivas de aplicación.