Latent Retrieval Augmented Generation of Cross-Domain Protein Binders
Zhang, Kong, Huang et al.
Designing protein binders targeting specific sites, which requires to generate realistic and functional interaction patterns, is a fundamental challenge in drug discovery. Current structure-based generative models are limited in generating nterfaces with sufficient rationality and interpretability. In this paper, we propose Retrieval-Augmented Diffusion for Aligned interface (RADiAnce), a new framework that leverages known interfaces to guide the design of novel binders. By unifying retrieval and generation in a shared contrastive latent space, our model efficiently identifies relevant interfaces for a given binding site and seamlessly integrates them through a conditional latent diffusion generator, enabling cross-domain interface transfer. Extensive exeriments show that RADiAnce significantly outperforms baseline models across multiple metrics, including binding affinity and recovery of geometries and interactions. Additional experimental results validate cross-domain generalization, demonstrating that retrieving interfaces from diverse domains, such as peptides, antibodies, and protein fragments, enhances the generation performance of binders for other domains. Our work establishes a new paradigm for protein binder design that successfully bridges retrieval-based knowledge and generative AI, opening new possibilities for drug discovery.
academic
Génération Augmentée par Récupération Latente de Liants Protéiques Interdomaines
La conception de liants protéiques ciblant des sites spécifiques constitue un défi fondamental en découverte de médicaments, nécessitant la génération de motifs d'interaction réalistes et fonctionnels. Les modèles génératifs actuels basés sur la structure présentent des limitations dans la génération d'interfaces possédant une rationalité et une interprétabilité suffisantes. Cet article propose RADiAnce (Retrieval Augmented Diffusion Aligned Interface Framework), qui exploite les interfaces connues pour guider la conception de nouveaux liants. En unifiant la récupération et la génération dans un espace latent contrastif partagé, le modèle identifie efficacement les interfaces pertinentes pour un site de liaison donné et les intègre de manière transparente via un générateur de diffusion latente conditionnée, réalisant ainsi un transfert d'interface interdomaines.
Défis de la conception de liants protéiques : Concevoir des liants capables de cibler des sites protéiques spécifiques exige la génération de motifs d'interaction moléculaire réalistes et fonctionnels
Limitations des méthodes existantes : Les modèles génératifs de structures actuels manquent de rationalité et d'interprétabilité, ne pouvant pas exploiter efficacement les informations structurales connues
Possède une large valeur applicative en découverte de médicaments, biologie structurale et domaines connexes
Les méthodes traditionnelles reposent sur l'optimisation par échantillonnage de paysages énergétiques physiques ou statistiques, avec une efficacité relativement faible
Bien que les modèles génératifs profonds aient progressé, ils demeurent incapables de générer des interfaces moléculaires rationnelles
Négligence des connaissances antérieures : La plupart des méthodes génèrent uniquement à partir du site de liaison cible, ignorant les motifs d'interaction réutilisables abondants dans les complexes protéiques existants
Manque de généralisation interdomaines : Incapacité à exploiter efficacement les motifs d'interaction communs entre différents types de liants (peptides, anticorps, fragments protéiques)
Interprétabilité insuffisante : Le processus génératif manque de principes directeurs biologiques explicites
Proposition du cadre RADiAnce : Première méthode appliquant la génération augmentée par récupération à la conception conjointe séquence-structure de liants protéiques
Construction d'un espace latent contrastif : Conception d'une représentation latente partagée unifiant la récupération et la génération, supportant la mesure de similarité d'interface interdomaines
Réalisation du transfert d'interface interdomaines : Vérification que la récupération d'interfaces à partir de différents types de liants améliore les performances de génération pour d'autres domaines
Amélioration significative des performances : Surpassement notable des méthodes de base sur plusieurs métriques d'évaluation, incluant l'affinité de liaison, la géométrie et la récupération d'interactions
Entrée : Site de liaison Y de la protéine cible (résidus dans un rayon de 10 Å)
Sortie : Liant moléculaire X capable de se lier spécifiquement à ce site
Objectif : Modéliser la distribution conditionnelle p_θ(X | Y, T(Y|D)), où T(Y|D) représente les interfaces pertinentes récupérées de la base de données D
Espace Latent Unifié : Première réalisation de l'unification de la récupération et de la génération dans un même espace latent, garantissant que les résultats de récupération guident directement le processus génératif
Mesure de Similarité Interdomaines : La représentation latente apprise par apprentissage contrastif capture les motifs d'interaction communs entre différents types de liants
Intégration de Diffusion Conditionnée : Intégration innovante des plongements d'interface récupérés via attention croisée et MLP résiduel dans le processus de diffusion
Effet de l'Entraînement Multidomaine : L'inclusion de données multidomaines améliore significativement les performances de récupération et de génération
Nécessité de l'Entraînement Conjoint : L'optimisation simultanée de la perte VAE et contrastive est cruciale
Impact du Nombre de Récupérations : Un nombre modéré de récupérations (10-20 échantillons) produit les meilleurs résultats
Sans guidance de récupération : Difficultés à reconstruire les interactions caractéristiques à liaisons hydrogène multiples
Avec augmentation par récupération : Récupération réussie des motifs d'interaction clés, restauration des motifs de liaisons hydrogène médiés par l'arginine et la tyrosine
L'article cite 54 références connexes, couvrant plusieurs domaines incluant la conception protéique, les modèles génératifs profonds, la génération augmentée par récupération et autres travaux importants, fournissant une base théorique solide pour la recherche.