2025-11-11T13:16:09.695232

Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization

Wang, Ji, Tian et al.

Antibodies are essential proteins responsible for immune responses in organisms, capable of specifically recognizing antigen molecules of pathogens. Recent advances in generative models have significantly enhanced rational antibody design. However, existing methods mainly create antibodies from scratch without template constraints, leading to model optimization challenges and unnatural sequences. To address these issues, we propose a retrieval-augmented diffusion framework, termed RADAb, for efficient antibody design. Our method leverages a set of structural homologous motifs that align with query structural constraints to guide the generative model in inversely optimizing antibodies according to desired design criteria. Specifically, we introduce a structure-informed retrieval mechanism that integrates these exemplar motifs with the input backbone through a novel dual-branch denoising module, utilizing both structural and evolutionary information. Additionally, we develop a conditional diffusion model that iteratively refines the optimization process by incorporating both global context and local evolutionary conditions. Our approach is agnostic to the choice of generative models. Empirical experiments demonstrate that our method achieves state-of-the-art performance in multiple antibody inverse folding and optimization tasks, offering a new perspective on biomolecular generative models.

academic

Modèle de Diffusion Augmenté par Récupération pour la Conception et l'Optimisation d'Anticorps Informées par la Structure

Informations Fondamentales

ID de l'article: 2410.15040
Titre: Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization
Auteurs: Zichen Wang, Yaokun Ji, Jianing Tian, Shuangjia Zheng
Classification: cs.AI
Conférence de publication: ICLR 2025
Lien de l'article: https://arxiv.org/abs/2410.15040

Résumé

Les anticorps sont des protéines essentielles responsables de la réaction immunitaire de l'organisme, capables de reconnaître spécifiquement les molécules antigéniques des pathogènes. Bien que les progrès récents des modèles génératifs aient considérablement amélioré la conception rationnelle d'anticorps, les méthodes existantes créent principalement des anticorps de novo sans contraintes de modèle, ce qui entraîne des difficultés d'optimisation et des problèmes de séquences non naturelles. Pour résoudre ces problèmes, cet article propose un cadre de diffusion augmenté par récupération RADAb pour la conception efficace d'anticorps. Cette méthode utilise un ensemble de motifs structurellement homologues alignés avec les contraintes de structure de requête pour guider le modèle génératif dans l'optimisation inverse des anticorps selon les critères de conception souhaités. Spécifiquement, un mécanisme de récupération d'informations structurelles est introduit, intégrant ces motifs d'exemple avec le squelette d'entrée par le biais d'un module de débruitage à double branche novateur, tout en exploitant les informations structurelles et évolutives. De plus, un modèle de diffusion conditionnel a été développé, optimisant itérativement le processus en combinant le contexte global et les conditions évolutives locales. Cette méthode est indépendante du choix du modèle génératif, et les expériences démontrent des performances de pointe sur plusieurs tâches de repliement inverse et d'optimisation d'anticorps.

Contexte de Recherche et Motivation

Définition du Problème

Le défi fondamental de la conception d'anticorps est de générer des séquences d'anticorps fonctionnelles possédant des propriétés biochimiques prédéfinies. Le développement traditionnel d'anticorps repose sur des méthodes expérimentales laborieuses, telles que l'immunisation animale ou le criblage de grandes bibliothèques d'anticorps, qui ne peuvent souvent pas produire efficacement des anticorps ciblant les épitopes pertinents pour la thérapie.

Limitations des Méthodes Existantes

Rareté des données: Dépendance principalement de la base de données SAbDab, contenant moins de dix mille structures de complexes antigène-anticorps, limitant la capacité du modèle à capturer les informations d'interactions d'ordre supérieur
Difficulté de conception de novo: Les méthodes existantes tentent de concevoir des séquences d'anticorps à partir de zéro, manquant de guidance basée sur des modèles, nécessitant de grandes quantités de données et un entraînement extensif
Absence de contraintes structurelles: Les modèles génératifs actuels ont du mal à concevoir des anticorps respectant les contraintes structurelles tout en possédant les propriétés biologiques souhaitées

Motivation de la Recherche

Cet article s'inspire de la conception d'anticorps basée sur des modèles et des fragments, visant à:

Améliorer la capacité de génération du modèle en exploitant les informations de géométrie protéique locale et globale conscientes du modèle
Intégrer les signaux évolutifs des motifs pour prévenir le surapprentissage
Nécessiter un entraînement ou un ajustement minimal dans les applications pratiques

Contributions Principales

Cadre de génération augmenté par récupération novateur: Propose le premier cadre de génération augmenté par récupération pour la conception rationnelle d'anticorps, utilisant un ensemble de fragments de type CDR fonctionnels satisfaisant la structure de squelette souhaitée et les propriétés pour guider la génération
Mécanisme de récupération novateur: Introduit un mécanisme de récupération d'informations structurelles, intégrant les motifs d'exemple avec le squelette d'entrée par un module de débruitage à double branche, exploitant les informations structurelles et évolutives
Amélioration significative des performances: Améliore les méthodes de pointe sur plusieurs tâches de repliement inverse d'anticorps, notamment une amélioration AAR de 8,08% sur la tâche de repliement inverse de CDRH3 long, et une amélioration moyenne ΔΔG absolu de 7 cal/mol sur les tâches d'optimisation fonctionnelle

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné un complexe de squelette d'anticorps $C_{ab}$ , un antigène $C_{ag}$ et des fragments de type CDR récupérés $A$ , l'objectif est de prédire la distribution de séquence de la région CDR $R = \{s_j | j \in \{a+1, ..., a+m\}\}$ , où $m$ est la longueur du CDR et $a$ est la position de départ.

Architecture du Modèle

1. Module de Récupération Structurelle

Utilise l'algorithme MASTER pour la récupération structurelle:

Entrée: Ensemble de coordonnées atomiques du squelette CDR $X = \{x_k | k \in \{1, ..., m\}\}$
Mesure de similarité: Déviation quadratique moyenne (RMSD) des atomes du squelette
Sortie: Ensemble de fragments de type CDR structurellement similaires $A = \{A_i | i \in \{1, ..., k\}\}$

2. Réseau de Débruitage à Double Branche

Branche de Contexte Géométrique Global:

Encodeur de contexte: Extrait les caractéristiques de résidu unique $z_i$ et les caractéristiques de paire de résidus $y_{ij}$
Encodeur évolutif: Utilise ESM2 pour extraire les plongements évolutifs de la séquence d'anticorps $e^t$
Réseau d'informations structurelles: Traitement par empilement de couches IPA, produisant une représentation de probabilité globale $r_{global}$

Branche Focalisée sur CDR Local:

Attention axiale focalisée sur CDR: Construit une matrice pseudo-MSA $P$ : $P = \text{concat}((S_{ab} \cup R^t_g), E)$ où $E$ est la matrice de séquences de fragments de type CDR
Mécanisme d'attention de ligne liée: Considère simultanément les scores d'attention multi-lignes, exploitant la similarité structurelle
Fusion d'informations: Fusionne $r_{local}$ et $r_{global}$ par des connexions de saut

3. Processus de Diffusion Conditionnel

Ajout de bruit du processus direct: $q(s^t_j | s^{t-1}_j) = \text{Multinomial}((1-\beta_t) \cdot \text{onehot}(s^{t-1}_j) + \beta_t \cdot \frac{1}{20} \cdot \mathbf{1})$

Processus de débruitage inverse: $p(s^{t-1}_j | R^t, C_{ab}, C_{ag}, A) = \text{Multinomial}[F(R^t, C_{ab}, C_{ag}, e^t) + G(F(R^t, C_{ab}, C_{ag}, e^t), A)][j]$

Points d'Innovation Technique

Récupération d'informations structurelles: Utilise l'algorithme MASTER pour récupérer les fragments de type CDR basés sur la structure du squelette, évitant les fuites d'informations de séquence
Architecture à double branche: La branche globale capture le contexte du complexe antigène-anticorps, la branche locale apprend les informations évolutives homologues
Attention de ligne liée: Mécanisme d'attention spécialement conçu exploitant pleinement la similarité structurelle
Indépendance du modèle: Le cadre peut être intégré avec n'importe quel modèle génératif de diffusion

Configuration Expérimentale

Ensembles de Données

Ensemble d'entraînement: Base de données SAbDab, excluant les structures avec une résolution inférieure à 4Å, regroupées selon une similarité de séquence de 50% basée sur la région CDRH3
Ensemble de test: 50 fichiers PDB contenant 63 structures de complexes anticorps-antigènes
Base de données de fragments de type CDR: Construite à partir de PDB non redondant, contenant des motifs linéaires fonctionnels de type CDR structurellement compatibles

Indicateurs d'Évaluation

Taux de Récupération d'Acides Aminés (AAR): Proportion de positions où les acides aminés de la séquence conçue correspondent à la séquence CDR réelle
RMSD d'Auto-Cohérence (scRMSD): RMSD des atomes Cα de la région CDR après repliement de la structure d'anticorps
Plausibilité: Pseudo-vraisemblance logarithmique calculée à l'aide d'AntiBERTy

Méthodes de Comparaison

Méthodes traditionnelles: Grafting (transplantation directe du fragment récupéré top-1)
Méthodes d'apprentissage profond: ProteinMPNN, ESM-IF1, Diffab-fix, AbMPNN

Détails d'Implémentation

Optimiseur: Adam, taux d'apprentissage 0,0001
Taille de lot: 8
CDRH3 entraîné séparément pour 100 000 itérations, autres régions CDR entraînées conjointement pour 250 000 itérations
Étapes de diffusion: 100

Résultats Expérimentaux

Résultats Principaux

Résultats de Repliement Inverse de Séquence CDR d'Anticorps:

Méthode	CDRH3 AAR(%)	CDRH3 scRMSD	CDRH3 Plausibilité
Grafting	19,63	3,20	-0,591
ProteinMPNN	41,77	2,27	-0,605
Diffab-fix	49,17	2,24	-0,541
AbMPNN	52,99	2,80	-0,675
RADAb	57,02	2,23	-0,530

Résultats de Conception de Séquence CDRH3 Long (longueur > 14):

Méthode	AAR(%)	scRMSD	Plausibilité
Diffab-fix	42,26	3,02	-0,740
RADAb	51,35	2,52	-0,747

Résultats d'Optimisation Fonctionnelle

Résultats d'Optimisation de l'Énergie de Liaison:

Méthode	ΔΔG↓	ΔΔG-seq↓	IMP-seq(%)↑
Grafting	135,17	40,22	32,69
ProteinMPNN	127,14	24,72	35,51
Diffab-fix	116,36	14,05	34,52
RADAb	109,16	7,06	37,30

Études d'Ablation

Composant	AAR(%)	scRMSD	Plausibilité
Modèle complet	57,02	2,23	-0,530
Sans augmentation par récupération	52,15	2,39	-0,529
Sans plongement évolutif	51,36	2,23	-0,538
Diffab de base	49,17	2,24	-0,541

Analyse de Cas

Prenant l'anticorps neutralisant du SARS-CoV-2 (PDB: 7d6i) comme exemple, 68% des 50 séquences CDRH3 générées présentent des valeurs ΔG plus basses que le complexe original, démontrant l'efficacité de l'optimisation fonctionnelle.

Travaux Connexes

Méthodes de Conception d'Anticorps

Méthodes traditionnelles: Optimisation basée sur les fonctions d'énergie et les méthodes de similarité de séquence
Méthodes d'apprentissage automatique:
- Conception de séquence d'anticorps: Modèles de langage et modèles de repliement inverse
- Conception conjointe séquence-structure spécifique à l'antigène: Méthodes de réseaux de neurones graphiques

Modèles Génératifs de Diffusion

Applications des modèles de diffusion dans la conception de protéines, incluant le processus de bruit direct DDPM et le processus de génération inverse.

Génération Augmentée par Récupération

Technologie RAG étendue du domaine du traitement du langage naturel à la vision par ordinateur et à la génération moléculaire, cet article l'appliquant pour la première fois à la conception d'anticorps.

Conclusion et Discussion

Conclusions Principales

RADAb atteint des performances de pointe sur plusieurs tâches de conception d'anticorps
Le mécanisme d'augmentation par récupération améliore significativement la qualité de génération et la fonctionnalité du modèle
L'architecture à double branche intègre efficacement le contexte global et les informations évolutives locales

Limitations

Validation expérimentale insuffisante: Pas encore pleinement validée dans les expériences humides
Surcharge computationnelle: La récupération structurelle et l'encodage ESM2 nécessitent plus de ressources informatiques
Risque de fuite de données: L'application du mécanisme de récupération actuel dans la conception conjointe séquence-structure présente des risques de fuite de données

Directions Futures

La validation expérimentale humide sera l'une des tâches principales
Extension du modèle à diverses conceptions de motifs protéiques
Exploration de la récupération PPI pour éviter les problèmes de fuite de données

Évaluation Approfondie

Avantages

Innovation forte: Première application de la technologie d'augmentation par récupération à la conception d'anticorps, proposant une architecture à double branche novateur
Technique solide: Le mécanisme de récupération d'informations structurelles est bien conçu, évitant les fuites d'informations de séquence
Expérimentation complète: Évaluation complète sur plusieurs tâches et indicateurs, incluant les études d'ablation
Performance exceptionnelle: Atteint des performances de pointe sur toutes les tâches d'évaluation

Insuffisances

Applicabilité à vérifier: Manque de validation expérimentale humide, l'efficacité réelle de l'application est inconnue
Complexité computationnelle élevée: Le processus de récupération et le réseau à double branche augmentent la charge computationnelle
Portée d'application limitée: Principalement orientée vers les tâches de repliement inverse, avec des limitations dans la conception tout-atome

Impact

Contribution académique: Fournit une nouvelle perspective pour les modèles génératifs de biomolécules, promouvant l'application de la technologie d'augmentation par récupération dans la conception de protéines
Valeur pratique: Devrait accélérer le processus de conception de médicaments à base d'anticorps, réduisant les coûts expérimentaux
Reproductibilité: Fournit des détails d'implémentation détaillés et du code open-source

Scénarios d'Application

Optimisation et conception de CDR basées sur des modèles d'anticorps connus
Amélioration de séquence d'anticorps nécessitant le maintien de contraintes structurelles
Maturation d'affinité d'anticorps et optimisation fonctionnelle

Références Bibliographiques

Cet article cite des travaux importants dans les domaines de la conception d'anticorps, des modèles de diffusion et de la génération augmentée par récupération, fournissant une base théorique et un soutien technique solides au cadre RADAb.

Évaluation Globale: Ceci est un article de recherche de haute qualité proposant un cadre de diffusion augmenté par récupération innovant dans le domaine de la conception d'anticorps. La solution technique est bien conçue, l'évaluation expérimentale est complète et les résultats sont convaincants. Bien que la validation dans les applications pratiques nécessite encore d'être renforcée, elle ouvre une nouvelle direction de recherche pour le domaine de la conception de protéines, possédant une valeur académique importante et des perspectives d'application prometteuses.