Antibodies are essential proteins responsible for immune responses in organisms, capable of specifically recognizing antigen molecules of pathogens. Recent advances in generative models have significantly enhanced rational antibody design. However, existing methods mainly create antibodies from scratch without template constraints, leading to model optimization challenges and unnatural sequences. To address these issues, we propose a retrieval-augmented diffusion framework, termed RADAb, for efficient antibody design. Our method leverages a set of structural homologous motifs that align with query structural constraints to guide the generative model in inversely optimizing antibodies according to desired design criteria. Specifically, we introduce a structure-informed retrieval mechanism that integrates these exemplar motifs with the input backbone through a novel dual-branch denoising module, utilizing both structural and evolutionary information. Additionally, we develop a conditional diffusion model that iteratively refines the optimization process by incorporating both global context and local evolutionary conditions. Our approach is agnostic to the choice of generative models. Empirical experiments demonstrate that our method achieves state-of-the-art performance in multiple antibody inverse folding and optimization tasks, offering a new perspective on biomolecular generative models.
- ID de l'article: 2410.15040
- Titre: Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization
- Auteurs: Zichen Wang, Yaokun Ji, Jianing Tian, Shuangjia Zheng
- Classification: cs.AI
- Conférence de publication: ICLR 2025
- Lien de l'article: https://arxiv.org/abs/2410.15040
Les anticorps sont des protéines essentielles responsables de la réaction immunitaire de l'organisme, capables de reconnaître spécifiquement les molécules antigéniques des pathogènes. Bien que les progrès récents des modèles génératifs aient considérablement amélioré la conception rationnelle d'anticorps, les méthodes existantes créent principalement des anticorps de novo sans contraintes de modèle, ce qui entraîne des difficultés d'optimisation et des problèmes de séquences non naturelles. Pour résoudre ces problèmes, cet article propose un cadre de diffusion augmenté par récupération RADAb pour la conception efficace d'anticorps. Cette méthode utilise un ensemble de motifs structurellement homologues alignés avec les contraintes de structure de requête pour guider le modèle génératif dans l'optimisation inverse des anticorps selon les critères de conception souhaités. Spécifiquement, un mécanisme de récupération d'informations structurelles est introduit, intégrant ces motifs d'exemple avec le squelette d'entrée par le biais d'un module de débruitage à double branche novateur, tout en exploitant les informations structurelles et évolutives. De plus, un modèle de diffusion conditionnel a été développé, optimisant itérativement le processus en combinant le contexte global et les conditions évolutives locales. Cette méthode est indépendante du choix du modèle génératif, et les expériences démontrent des performances de pointe sur plusieurs tâches de repliement inverse et d'optimisation d'anticorps.
Le défi fondamental de la conception d'anticorps est de générer des séquences d'anticorps fonctionnelles possédant des propriétés biochimiques prédéfinies. Le développement traditionnel d'anticorps repose sur des méthodes expérimentales laborieuses, telles que l'immunisation animale ou le criblage de grandes bibliothèques d'anticorps, qui ne peuvent souvent pas produire efficacement des anticorps ciblant les épitopes pertinents pour la thérapie.
- Rareté des données: Dépendance principalement de la base de données SAbDab, contenant moins de dix mille structures de complexes antigène-anticorps, limitant la capacité du modèle à capturer les informations d'interactions d'ordre supérieur
- Difficulté de conception de novo: Les méthodes existantes tentent de concevoir des séquences d'anticorps à partir de zéro, manquant de guidance basée sur des modèles, nécessitant de grandes quantités de données et un entraînement extensif
- Absence de contraintes structurelles: Les modèles génératifs actuels ont du mal à concevoir des anticorps respectant les contraintes structurelles tout en possédant les propriétés biologiques souhaitées
Cet article s'inspire de la conception d'anticorps basée sur des modèles et des fragments, visant à:
- Améliorer la capacité de génération du modèle en exploitant les informations de géométrie protéique locale et globale conscientes du modèle
- Intégrer les signaux évolutifs des motifs pour prévenir le surapprentissage
- Nécessiter un entraînement ou un ajustement minimal dans les applications pratiques
- Cadre de génération augmenté par récupération novateur: Propose le premier cadre de génération augmenté par récupération pour la conception rationnelle d'anticorps, utilisant un ensemble de fragments de type CDR fonctionnels satisfaisant la structure de squelette souhaitée et les propriétés pour guider la génération
- Mécanisme de récupération novateur: Introduit un mécanisme de récupération d'informations structurelles, intégrant les motifs d'exemple avec le squelette d'entrée par un module de débruitage à double branche, exploitant les informations structurelles et évolutives
- Amélioration significative des performances: Améliore les méthodes de pointe sur plusieurs tâches de repliement inverse d'anticorps, notamment une amélioration AAR de 8,08% sur la tâche de repliement inverse de CDRH3 long, et une amélioration moyenne ΔΔG absolu de 7 cal/mol sur les tâches d'optimisation fonctionnelle
Étant donné un complexe de squelette d'anticorps Cab, un antigène Cag et des fragments de type CDR récupérés A, l'objectif est de prédire la distribution de séquence de la région CDR R={sj∣j∈{a+1,...,a+m}}, où m est la longueur du CDR et a est la position de départ.
Utilise l'algorithme MASTER pour la récupération structurelle:
- Entrée: Ensemble de coordonnées atomiques du squelette CDR X={xk∣k∈{1,...,m}}
- Mesure de similarité: Déviation quadratique moyenne (RMSD) des atomes du squelette
- Sortie: Ensemble de fragments de type CDR structurellement similaires A={Ai∣i∈{1,...,k}}
Branche de Contexte Géométrique Global:
- Encodeur de contexte: Extrait les caractéristiques de résidu unique zi et les caractéristiques de paire de résidus yij
- Encodeur évolutif: Utilise ESM2 pour extraire les plongements évolutifs de la séquence d'anticorps et
- Réseau d'informations structurelles: Traitement par empilement de couches IPA, produisant une représentation de probabilité globale rglobal
Branche Focalisée sur CDR Local:
- Attention axiale focalisée sur CDR: Construit une matrice pseudo-MSA P:
P=concat((Sab∪Rgt),E)
où E est la matrice de séquences de fragments de type CDR
- Mécanisme d'attention de ligne liée: Considère simultanément les scores d'attention multi-lignes, exploitant la similarité structurelle
- Fusion d'informations: Fusionne rlocal et rglobal par des connexions de saut
Ajout de bruit du processus direct:
q(sjt∣sjt−1)=Multinomial((1−βt)⋅onehot(sjt−1)+βt⋅201⋅1)
Processus de débruitage inverse:
p(sjt−1∣Rt,Cab,Cag,A)=Multinomial[F(Rt,Cab,Cag,et)+G(F(Rt,Cab,Cag,et),A)][j]
- Récupération d'informations structurelles: Utilise l'algorithme MASTER pour récupérer les fragments de type CDR basés sur la structure du squelette, évitant les fuites d'informations de séquence
- Architecture à double branche: La branche globale capture le contexte du complexe antigène-anticorps, la branche locale apprend les informations évolutives homologues
- Attention de ligne liée: Mécanisme d'attention spécialement conçu exploitant pleinement la similarité structurelle
- Indépendance du modèle: Le cadre peut être intégré avec n'importe quel modèle génératif de diffusion
- Ensemble d'entraînement: Base de données SAbDab, excluant les structures avec une résolution inférieure à 4Å, regroupées selon une similarité de séquence de 50% basée sur la région CDRH3
- Ensemble de test: 50 fichiers PDB contenant 63 structures de complexes anticorps-antigènes
- Base de données de fragments de type CDR: Construite à partir de PDB non redondant, contenant des motifs linéaires fonctionnels de type CDR structurellement compatibles
- Taux de Récupération d'Acides Aminés (AAR): Proportion de positions où les acides aminés de la séquence conçue correspondent à la séquence CDR réelle
- RMSD d'Auto-Cohérence (scRMSD): RMSD des atomes Cα de la région CDR après repliement de la structure d'anticorps
- Plausibilité: Pseudo-vraisemblance logarithmique calculée à l'aide d'AntiBERTy
- Méthodes traditionnelles: Grafting (transplantation directe du fragment récupéré top-1)
- Méthodes d'apprentissage profond: ProteinMPNN, ESM-IF1, Diffab-fix, AbMPNN
- Optimiseur: Adam, taux d'apprentissage 0,0001
- Taille de lot: 8
- CDRH3 entraîné séparément pour 100 000 itérations, autres régions CDR entraînées conjointement pour 250 000 itérations
- Étapes de diffusion: 100
Résultats de Repliement Inverse de Séquence CDR d'Anticorps:
| Méthode | CDRH3 AAR(%) | CDRH3 scRMSD | CDRH3 Plausibilité |
|---|
| Grafting | 19,63 | 3,20 | -0,591 |
| ProteinMPNN | 41,77 | 2,27 | -0,605 |
| Diffab-fix | 49,17 | 2,24 | -0,541 |
| AbMPNN | 52,99 | 2,80 | -0,675 |
| RADAb | 57,02 | 2,23 | -0,530 |
Résultats de Conception de Séquence CDRH3 Long (longueur > 14):
| Méthode | AAR(%) | scRMSD | Plausibilité |
|---|
| Diffab-fix | 42,26 | 3,02 | -0,740 |
| RADAb | 51,35 | 2,52 | -0,747 |
Résultats d'Optimisation de l'Énergie de Liaison:
| Méthode | ΔΔG↓ | ΔΔG-seq↓ | IMP-seq(%)↑ |
|---|
| Grafting | 135,17 | 40,22 | 32,69 |
| ProteinMPNN | 127,14 | 24,72 | 35,51 |
| Diffab-fix | 116,36 | 14,05 | 34,52 |
| RADAb | 109,16 | 7,06 | 37,30 |
| Composant | AAR(%) | scRMSD | Plausibilité |
|---|
| Modèle complet | 57,02 | 2,23 | -0,530 |
| Sans augmentation par récupération | 52,15 | 2,39 | -0,529 |
| Sans plongement évolutif | 51,36 | 2,23 | -0,538 |
| Diffab de base | 49,17 | 2,24 | -0,541 |
Prenant l'anticorps neutralisant du SARS-CoV-2 (PDB: 7d6i) comme exemple, 68% des 50 séquences CDRH3 générées présentent des valeurs ΔG plus basses que le complexe original, démontrant l'efficacité de l'optimisation fonctionnelle.
- Méthodes traditionnelles: Optimisation basée sur les fonctions d'énergie et les méthodes de similarité de séquence
- Méthodes d'apprentissage automatique:
- Conception de séquence d'anticorps: Modèles de langage et modèles de repliement inverse
- Conception conjointe séquence-structure spécifique à l'antigène: Méthodes de réseaux de neurones graphiques
Applications des modèles de diffusion dans la conception de protéines, incluant le processus de bruit direct DDPM et le processus de génération inverse.
Technologie RAG étendue du domaine du traitement du langage naturel à la vision par ordinateur et à la génération moléculaire, cet article l'appliquant pour la première fois à la conception d'anticorps.
- RADAb atteint des performances de pointe sur plusieurs tâches de conception d'anticorps
- Le mécanisme d'augmentation par récupération améliore significativement la qualité de génération et la fonctionnalité du modèle
- L'architecture à double branche intègre efficacement le contexte global et les informations évolutives locales
- Validation expérimentale insuffisante: Pas encore pleinement validée dans les expériences humides
- Surcharge computationnelle: La récupération structurelle et l'encodage ESM2 nécessitent plus de ressources informatiques
- Risque de fuite de données: L'application du mécanisme de récupération actuel dans la conception conjointe séquence-structure présente des risques de fuite de données
- La validation expérimentale humide sera l'une des tâches principales
- Extension du modèle à diverses conceptions de motifs protéiques
- Exploration de la récupération PPI pour éviter les problèmes de fuite de données
- Innovation forte: Première application de la technologie d'augmentation par récupération à la conception d'anticorps, proposant une architecture à double branche novateur
- Technique solide: Le mécanisme de récupération d'informations structurelles est bien conçu, évitant les fuites d'informations de séquence
- Expérimentation complète: Évaluation complète sur plusieurs tâches et indicateurs, incluant les études d'ablation
- Performance exceptionnelle: Atteint des performances de pointe sur toutes les tâches d'évaluation
- Applicabilité à vérifier: Manque de validation expérimentale humide, l'efficacité réelle de l'application est inconnue
- Complexité computationnelle élevée: Le processus de récupération et le réseau à double branche augmentent la charge computationnelle
- Portée d'application limitée: Principalement orientée vers les tâches de repliement inverse, avec des limitations dans la conception tout-atome
- Contribution académique: Fournit une nouvelle perspective pour les modèles génératifs de biomolécules, promouvant l'application de la technologie d'augmentation par récupération dans la conception de protéines
- Valeur pratique: Devrait accélérer le processus de conception de médicaments à base d'anticorps, réduisant les coûts expérimentaux
- Reproductibilité: Fournit des détails d'implémentation détaillés et du code open-source
- Optimisation et conception de CDR basées sur des modèles d'anticorps connus
- Amélioration de séquence d'anticorps nécessitant le maintien de contraintes structurelles
- Maturation d'affinité d'anticorps et optimisation fonctionnelle
Cet article cite des travaux importants dans les domaines de la conception d'anticorps, des modèles de diffusion et de la génération augmentée par récupération, fournissant une base théorique et un soutien technique solides au cadre RADAb.
Évaluation Globale: Ceci est un article de recherche de haute qualité proposant un cadre de diffusion augmenté par récupération innovant dans le domaine de la conception d'anticorps. La solution technique est bien conçue, l'évaluation expérimentale est complète et les résultats sont convaincants. Bien que la validation dans les applications pratiques nécessite encore d'être renforcée, elle ouvre une nouvelle direction de recherche pour le domaine de la conception de protéines, possédant une valeur académique importante et des perspectives d'application prometteuses.