2025-11-11T13:16:09.695232

Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization

Wang, Ji, Tian et al.
Antibodies are essential proteins responsible for immune responses in organisms, capable of specifically recognizing antigen molecules of pathogens. Recent advances in generative models have significantly enhanced rational antibody design. However, existing methods mainly create antibodies from scratch without template constraints, leading to model optimization challenges and unnatural sequences. To address these issues, we propose a retrieval-augmented diffusion framework, termed RADAb, for efficient antibody design. Our method leverages a set of structural homologous motifs that align with query structural constraints to guide the generative model in inversely optimizing antibodies according to desired design criteria. Specifically, we introduce a structure-informed retrieval mechanism that integrates these exemplar motifs with the input backbone through a novel dual-branch denoising module, utilizing both structural and evolutionary information. Additionally, we develop a conditional diffusion model that iteratively refines the optimization process by incorporating both global context and local evolutionary conditions. Our approach is agnostic to the choice of generative models. Empirical experiments demonstrate that our method achieves state-of-the-art performance in multiple antibody inverse folding and optimization tasks, offering a new perspective on biomolecular generative models.
academic

Modèle de Diffusion Augmenté par Récupération pour la Conception et l'Optimisation d'Anticorps Informées par la Structure

Informations Fondamentales

  • ID de l'article: 2410.15040
  • Titre: Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization
  • Auteurs: Zichen Wang, Yaokun Ji, Jianing Tian, Shuangjia Zheng
  • Classification: cs.AI
  • Conférence de publication: ICLR 2025
  • Lien de l'article: https://arxiv.org/abs/2410.15040

Résumé

Les anticorps sont des protéines essentielles responsables de la réaction immunitaire de l'organisme, capables de reconnaître spécifiquement les molécules antigéniques des pathogènes. Bien que les progrès récents des modèles génératifs aient considérablement amélioré la conception rationnelle d'anticorps, les méthodes existantes créent principalement des anticorps de novo sans contraintes de modèle, ce qui entraîne des difficultés d'optimisation et des problèmes de séquences non naturelles. Pour résoudre ces problèmes, cet article propose un cadre de diffusion augmenté par récupération RADAb pour la conception efficace d'anticorps. Cette méthode utilise un ensemble de motifs structurellement homologues alignés avec les contraintes de structure de requête pour guider le modèle génératif dans l'optimisation inverse des anticorps selon les critères de conception souhaités. Spécifiquement, un mécanisme de récupération d'informations structurelles est introduit, intégrant ces motifs d'exemple avec le squelette d'entrée par le biais d'un module de débruitage à double branche novateur, tout en exploitant les informations structurelles et évolutives. De plus, un modèle de diffusion conditionnel a été développé, optimisant itérativement le processus en combinant le contexte global et les conditions évolutives locales. Cette méthode est indépendante du choix du modèle génératif, et les expériences démontrent des performances de pointe sur plusieurs tâches de repliement inverse et d'optimisation d'anticorps.

Contexte de Recherche et Motivation

Définition du Problème

Le défi fondamental de la conception d'anticorps est de générer des séquences d'anticorps fonctionnelles possédant des propriétés biochimiques prédéfinies. Le développement traditionnel d'anticorps repose sur des méthodes expérimentales laborieuses, telles que l'immunisation animale ou le criblage de grandes bibliothèques d'anticorps, qui ne peuvent souvent pas produire efficacement des anticorps ciblant les épitopes pertinents pour la thérapie.

Limitations des Méthodes Existantes

  1. Rareté des données: Dépendance principalement de la base de données SAbDab, contenant moins de dix mille structures de complexes antigène-anticorps, limitant la capacité du modèle à capturer les informations d'interactions d'ordre supérieur
  2. Difficulté de conception de novo: Les méthodes existantes tentent de concevoir des séquences d'anticorps à partir de zéro, manquant de guidance basée sur des modèles, nécessitant de grandes quantités de données et un entraînement extensif
  3. Absence de contraintes structurelles: Les modèles génératifs actuels ont du mal à concevoir des anticorps respectant les contraintes structurelles tout en possédant les propriétés biologiques souhaitées

Motivation de la Recherche

Cet article s'inspire de la conception d'anticorps basée sur des modèles et des fragments, visant à:

  1. Améliorer la capacité de génération du modèle en exploitant les informations de géométrie protéique locale et globale conscientes du modèle
  2. Intégrer les signaux évolutifs des motifs pour prévenir le surapprentissage
  3. Nécessiter un entraînement ou un ajustement minimal dans les applications pratiques

Contributions Principales

  1. Cadre de génération augmenté par récupération novateur: Propose le premier cadre de génération augmenté par récupération pour la conception rationnelle d'anticorps, utilisant un ensemble de fragments de type CDR fonctionnels satisfaisant la structure de squelette souhaitée et les propriétés pour guider la génération
  2. Mécanisme de récupération novateur: Introduit un mécanisme de récupération d'informations structurelles, intégrant les motifs d'exemple avec le squelette d'entrée par un module de débruitage à double branche, exploitant les informations structurelles et évolutives
  3. Amélioration significative des performances: Améliore les méthodes de pointe sur plusieurs tâches de repliement inverse d'anticorps, notamment une amélioration AAR de 8,08% sur la tâche de repliement inverse de CDRH3 long, et une amélioration moyenne ΔΔG absolu de 7 cal/mol sur les tâches d'optimisation fonctionnelle

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné un complexe de squelette d'anticorps CabC_{ab}, un antigène CagC_{ag} et des fragments de type CDR récupérés AA, l'objectif est de prédire la distribution de séquence de la région CDR R={sjj{a+1,...,a+m}}R = \{s_j | j \in \{a+1, ..., a+m\}\}, où mm est la longueur du CDR et aa est la position de départ.

Architecture du Modèle

1. Module de Récupération Structurelle

Utilise l'algorithme MASTER pour la récupération structurelle:

  • Entrée: Ensemble de coordonnées atomiques du squelette CDR X={xkk{1,...,m}}X = \{x_k | k \in \{1, ..., m\}\}
  • Mesure de similarité: Déviation quadratique moyenne (RMSD) des atomes du squelette
  • Sortie: Ensemble de fragments de type CDR structurellement similaires A={Aii{1,...,k}}A = \{A_i | i \in \{1, ..., k\}\}

2. Réseau de Débruitage à Double Branche

Branche de Contexte Géométrique Global:

  • Encodeur de contexte: Extrait les caractéristiques de résidu unique ziz_i et les caractéristiques de paire de résidus yijy_{ij}
  • Encodeur évolutif: Utilise ESM2 pour extraire les plongements évolutifs de la séquence d'anticorps ete^t
  • Réseau d'informations structurelles: Traitement par empilement de couches IPA, produisant une représentation de probabilité globale rglobalr_{global}

Branche Focalisée sur CDR Local:

  • Attention axiale focalisée sur CDR: Construit une matrice pseudo-MSA PP: P=concat((SabRgt),E)P = \text{concat}((S_{ab} \cup R^t_g), E)EE est la matrice de séquences de fragments de type CDR
  • Mécanisme d'attention de ligne liée: Considère simultanément les scores d'attention multi-lignes, exploitant la similarité structurelle
  • Fusion d'informations: Fusionne rlocalr_{local} et rglobalr_{global} par des connexions de saut

3. Processus de Diffusion Conditionnel

Ajout de bruit du processus direct: q(sjtsjt1)=Multinomial((1βt)onehot(sjt1)+βt1201)q(s^t_j | s^{t-1}_j) = \text{Multinomial}((1-\beta_t) \cdot \text{onehot}(s^{t-1}_j) + \beta_t \cdot \frac{1}{20} \cdot \mathbf{1})

Processus de débruitage inverse: p(sjt1Rt,Cab,Cag,A)=Multinomial[F(Rt,Cab,Cag,et)+G(F(Rt,Cab,Cag,et),A)][j]p(s^{t-1}_j | R^t, C_{ab}, C_{ag}, A) = \text{Multinomial}[F(R^t, C_{ab}, C_{ag}, e^t) + G(F(R^t, C_{ab}, C_{ag}, e^t), A)][j]

Points d'Innovation Technique

  1. Récupération d'informations structurelles: Utilise l'algorithme MASTER pour récupérer les fragments de type CDR basés sur la structure du squelette, évitant les fuites d'informations de séquence
  2. Architecture à double branche: La branche globale capture le contexte du complexe antigène-anticorps, la branche locale apprend les informations évolutives homologues
  3. Attention de ligne liée: Mécanisme d'attention spécialement conçu exploitant pleinement la similarité structurelle
  4. Indépendance du modèle: Le cadre peut être intégré avec n'importe quel modèle génératif de diffusion

Configuration Expérimentale

Ensembles de Données

  • Ensemble d'entraînement: Base de données SAbDab, excluant les structures avec une résolution inférieure à 4Å, regroupées selon une similarité de séquence de 50% basée sur la région CDRH3
  • Ensemble de test: 50 fichiers PDB contenant 63 structures de complexes anticorps-antigènes
  • Base de données de fragments de type CDR: Construite à partir de PDB non redondant, contenant des motifs linéaires fonctionnels de type CDR structurellement compatibles

Indicateurs d'Évaluation

  1. Taux de Récupération d'Acides Aminés (AAR): Proportion de positions où les acides aminés de la séquence conçue correspondent à la séquence CDR réelle
  2. RMSD d'Auto-Cohérence (scRMSD): RMSD des atomes Cα de la région CDR après repliement de la structure d'anticorps
  3. Plausibilité: Pseudo-vraisemblance logarithmique calculée à l'aide d'AntiBERTy

Méthodes de Comparaison

  • Méthodes traditionnelles: Grafting (transplantation directe du fragment récupéré top-1)
  • Méthodes d'apprentissage profond: ProteinMPNN, ESM-IF1, Diffab-fix, AbMPNN

Détails d'Implémentation

  • Optimiseur: Adam, taux d'apprentissage 0,0001
  • Taille de lot: 8
  • CDRH3 entraîné séparément pour 100 000 itérations, autres régions CDR entraînées conjointement pour 250 000 itérations
  • Étapes de diffusion: 100

Résultats Expérimentaux

Résultats Principaux

Résultats de Repliement Inverse de Séquence CDR d'Anticorps:

MéthodeCDRH3 AAR(%)CDRH3 scRMSDCDRH3 Plausibilité
Grafting19,633,20-0,591
ProteinMPNN41,772,27-0,605
Diffab-fix49,172,24-0,541
AbMPNN52,992,80-0,675
RADAb57,022,23-0,530

Résultats de Conception de Séquence CDRH3 Long (longueur > 14):

MéthodeAAR(%)scRMSDPlausibilité
Diffab-fix42,263,02-0,740
RADAb51,352,52-0,747

Résultats d'Optimisation Fonctionnelle

Résultats d'Optimisation de l'Énergie de Liaison:

MéthodeΔΔG↓ΔΔG-seq↓IMP-seq(%)↑
Grafting135,1740,2232,69
ProteinMPNN127,1424,7235,51
Diffab-fix116,3614,0534,52
RADAb109,167,0637,30

Études d'Ablation

ComposantAAR(%)scRMSDPlausibilité
Modèle complet57,022,23-0,530
Sans augmentation par récupération52,152,39-0,529
Sans plongement évolutif51,362,23-0,538
Diffab de base49,172,24-0,541

Analyse de Cas

Prenant l'anticorps neutralisant du SARS-CoV-2 (PDB: 7d6i) comme exemple, 68% des 50 séquences CDRH3 générées présentent des valeurs ΔG plus basses que le complexe original, démontrant l'efficacité de l'optimisation fonctionnelle.

Travaux Connexes

Méthodes de Conception d'Anticorps

  1. Méthodes traditionnelles: Optimisation basée sur les fonctions d'énergie et les méthodes de similarité de séquence
  2. Méthodes d'apprentissage automatique:
    • Conception de séquence d'anticorps: Modèles de langage et modèles de repliement inverse
    • Conception conjointe séquence-structure spécifique à l'antigène: Méthodes de réseaux de neurones graphiques

Modèles Génératifs de Diffusion

Applications des modèles de diffusion dans la conception de protéines, incluant le processus de bruit direct DDPM et le processus de génération inverse.

Génération Augmentée par Récupération

Technologie RAG étendue du domaine du traitement du langage naturel à la vision par ordinateur et à la génération moléculaire, cet article l'appliquant pour la première fois à la conception d'anticorps.

Conclusion et Discussion

Conclusions Principales

  1. RADAb atteint des performances de pointe sur plusieurs tâches de conception d'anticorps
  2. Le mécanisme d'augmentation par récupération améliore significativement la qualité de génération et la fonctionnalité du modèle
  3. L'architecture à double branche intègre efficacement le contexte global et les informations évolutives locales

Limitations

  1. Validation expérimentale insuffisante: Pas encore pleinement validée dans les expériences humides
  2. Surcharge computationnelle: La récupération structurelle et l'encodage ESM2 nécessitent plus de ressources informatiques
  3. Risque de fuite de données: L'application du mécanisme de récupération actuel dans la conception conjointe séquence-structure présente des risques de fuite de données

Directions Futures

  1. La validation expérimentale humide sera l'une des tâches principales
  2. Extension du modèle à diverses conceptions de motifs protéiques
  3. Exploration de la récupération PPI pour éviter les problèmes de fuite de données

Évaluation Approfondie

Avantages

  1. Innovation forte: Première application de la technologie d'augmentation par récupération à la conception d'anticorps, proposant une architecture à double branche novateur
  2. Technique solide: Le mécanisme de récupération d'informations structurelles est bien conçu, évitant les fuites d'informations de séquence
  3. Expérimentation complète: Évaluation complète sur plusieurs tâches et indicateurs, incluant les études d'ablation
  4. Performance exceptionnelle: Atteint des performances de pointe sur toutes les tâches d'évaluation

Insuffisances

  1. Applicabilité à vérifier: Manque de validation expérimentale humide, l'efficacité réelle de l'application est inconnue
  2. Complexité computationnelle élevée: Le processus de récupération et le réseau à double branche augmentent la charge computationnelle
  3. Portée d'application limitée: Principalement orientée vers les tâches de repliement inverse, avec des limitations dans la conception tout-atome

Impact

  1. Contribution académique: Fournit une nouvelle perspective pour les modèles génératifs de biomolécules, promouvant l'application de la technologie d'augmentation par récupération dans la conception de protéines
  2. Valeur pratique: Devrait accélérer le processus de conception de médicaments à base d'anticorps, réduisant les coûts expérimentaux
  3. Reproductibilité: Fournit des détails d'implémentation détaillés et du code open-source

Scénarios d'Application

  1. Optimisation et conception de CDR basées sur des modèles d'anticorps connus
  2. Amélioration de séquence d'anticorps nécessitant le maintien de contraintes structurelles
  3. Maturation d'affinité d'anticorps et optimisation fonctionnelle

Références Bibliographiques

Cet article cite des travaux importants dans les domaines de la conception d'anticorps, des modèles de diffusion et de la génération augmentée par récupération, fournissant une base théorique et un soutien technique solides au cadre RADAb.


Évaluation Globale: Ceci est un article de recherche de haute qualité proposant un cadre de diffusion augmenté par récupération innovant dans le domaine de la conception d'anticorps. La solution technique est bien conçue, l'évaluation expérimentale est complète et les résultats sont convaincants. Bien que la validation dans les applications pratiques nécessite encore d'être renforcée, elle ouvre une nouvelle direction de recherche pour le domaine de la conception de protéines, possédant une valeur académique importante et des perspectives d'application prometteuses.