2025-11-16T00:34:12.699199

Latent Retrieval Augmented Generation of Cross-Domain Protein Binders

Zhang, Kong, Huang et al.
Designing protein binders targeting specific sites, which requires to generate realistic and functional interaction patterns, is a fundamental challenge in drug discovery. Current structure-based generative models are limited in generating nterfaces with sufficient rationality and interpretability. In this paper, we propose Retrieval-Augmented Diffusion for Aligned interface (RADiAnce), a new framework that leverages known interfaces to guide the design of novel binders. By unifying retrieval and generation in a shared contrastive latent space, our model efficiently identifies relevant interfaces for a given binding site and seamlessly integrates them through a conditional latent diffusion generator, enabling cross-domain interface transfer. Extensive exeriments show that RADiAnce significantly outperforms baseline models across multiple metrics, including binding affinity and recovery of geometries and interactions. Additional experimental results validate cross-domain generalization, demonstrating that retrieving interfaces from diverse domains, such as peptides, antibodies, and protein fragments, enhances the generation performance of binders for other domains. Our work establishes a new paradigm for protein binder design that successfully bridges retrieval-based knowledge and generative AI, opening new possibilities for drug discovery.
academic

Génération Augmentée par Récupération Latente de Liants Protéiques Interdomaines

Informations Fondamentales

  • ID de l'article : 2510.10480
  • Titre : Latent Retrieval Augmented Generation of Cross-Domain Protein Binders
  • Auteurs : Zishen Zhang, Xiangzhe Kong, Wenbing Huang, Yang Liu
  • Classification : cs.LG cs.AI
  • Date de publication/Conférence : Prépublication. En révision (octobre 2024)
  • Lien de l'article : https://arxiv.org/abs/2510.10480

Résumé

La conception de liants protéiques ciblant des sites spécifiques constitue un défi fondamental en découverte de médicaments, nécessitant la génération de motifs d'interaction réalistes et fonctionnels. Les modèles génératifs actuels basés sur la structure présentent des limitations dans la génération d'interfaces possédant une rationalité et une interprétabilité suffisantes. Cet article propose RADiAnce (Retrieval Augmented Diffusion Aligned Interface Framework), qui exploite les interfaces connues pour guider la conception de nouveaux liants. En unifiant la récupération et la génération dans un espace latent contrastif partagé, le modèle identifie efficacement les interfaces pertinentes pour un site de liaison donné et les intègre de manière transparente via un générateur de diffusion latente conditionnée, réalisant ainsi un transfert d'interface interdomaines.

Contexte et Motivation de la Recherche

Problèmes Fondamentaux

  1. Défis de la conception de liants protéiques : Concevoir des liants capables de cibler des sites protéiques spécifiques exige la génération de motifs d'interaction moléculaire réalistes et fonctionnels
  2. Limitations des méthodes existantes : Les modèles génératifs de structures actuels manquent de rationalité et d'interprétabilité, ne pouvant pas exploiter efficacement les informations structurales connues

Importance

  • Possède une large valeur applicative en découverte de médicaments, biologie structurale et domaines connexes
  • Les méthodes traditionnelles reposent sur l'optimisation par échantillonnage de paysages énergétiques physiques ou statistiques, avec une efficacité relativement faible
  • Bien que les modèles génératifs profonds aient progressé, ils demeurent incapables de générer des interfaces moléculaires rationnelles

Limitations des Approches Existantes

  1. Négligence des connaissances antérieures : La plupart des méthodes génèrent uniquement à partir du site de liaison cible, ignorant les motifs d'interaction réutilisables abondants dans les complexes protéiques existants
  2. Manque de généralisation interdomaines : Incapacité à exploiter efficacement les motifs d'interaction communs entre différents types de liants (peptides, anticorps, fragments protéiques)
  3. Interprétabilité insuffisante : Le processus génératif manque de principes directeurs biologiques explicites

Contributions Fondamentales

  1. Proposition du cadre RADiAnce : Première méthode appliquant la génération augmentée par récupération à la conception conjointe séquence-structure de liants protéiques
  2. Construction d'un espace latent contrastif : Conception d'une représentation latente partagée unifiant la récupération et la génération, supportant la mesure de similarité d'interface interdomaines
  3. Réalisation du transfert d'interface interdomaines : Vérification que la récupération d'interfaces à partir de différents types de liants améliore les performances de génération pour d'autres domaines
  4. Amélioration significative des performances : Surpassement notable des méthodes de base sur plusieurs métriques d'évaluation, incluant l'affinité de liaison, la géométrie et la récupération d'interactions

Détails Méthodologiques

Définition de la Tâche

  • Entrée : Site de liaison Y de la protéine cible (résidus dans un rayon de 10 Å)
  • Sortie : Liant moléculaire X capable de se lier spécifiquement à ce site
  • Objectif : Modéliser la distribution conditionnelle p_θ(X | Y, T(Y|D)), où T(Y|D) représente les interfaces pertinentes récupérées de la base de données D

Architecture du Modèle

1. Autoencodeur Variationnel Contrastif (Contrastive VAE)

Encodeur : Zx = Eφ(X), Zy = Eφ(Y)
Décodeur : X̂ = Dξ(Zx, Zy, Y)

Conceptions Clés :

  • Encodage indépendant du site de liaison Y et du liant X en nuages de points latents
  • Variables latentes contenant des plongements scalaires zi et des coordonnées 3D z⃗i
  • Alignement des paires d'échantillons positifs par apprentissage contrastif, répulsion des paires négatives

Fonction de Perte :

L(D) = Σ(Lrec + LKL + Lretrieval)

où :

  • Lrec : Perte de reconstruction (entropie croisée + MSE)
  • LKL : Régularisation par divergence KL
  • Lretrieval : Perte contrastive bidirectionnelle

2. Diffusion Latente Augmentée par Récupération

Processus Direct :

q(u⃗ti | u⃗t-1i) = N(u⃗ti; √(1-βt)·u⃗t-1i, βtI)

Processus Inverse :

pθ(u⃗t-1i | Ztx, Zy, Tv) = N(u⃗t-1i; μ⃗θ(Ztx, Zy, Tv), βtI)

Mécanisme d'Intégration de Modèles :

  • Utilisation d'un Transformer équivariant E(3) comme noyau de débruitage
  • Intégration des informations de modèles récupérés via mécanisme d'attention croisée
  • Calcul requête-clé-valeur : Q = HWQ, K = TWK, V = TWV

Points d'Innovation Technique

  1. Espace Latent Unifié : Première réalisation de l'unification de la récupération et de la génération dans un même espace latent, garantissant que les résultats de récupération guident directement le processus génératif
  2. Mesure de Similarité Interdomaines : La représentation latente apprise par apprentissage contrastif capture les motifs d'interaction communs entre différents types de liants
  3. Intégration de Diffusion Conditionnée : Intégration innovante des plongements d'interface récupérés via attention croisée et MLP résiduel dans le processus de diffusion

Configuration Expérimentale

Ensembles de Données

  1. Conception de Peptides : Ensemble de données PepBench
    • Entraînement : 4 157 complexes
    • Validation : 114 complexes
    • Test : 93 cas d'évaluation LNR
  2. Conception d'Anticorps : Ensemble de données SAbDab
    • Entraînement : 9 473 entrées
    • Validation : 400 entrées
    • Test : 60 cas d'évaluation RAbD
  3. Fragments Protéiques : Ensemble de données ProtFrag
    • 70 498 fragments protéiques dérivés de monomères

Métriques d'Évaluation

  • AAR (Taux de Récupération d'Acides Aminés) : Proportion de correspondance entre la séquence générée et la séquence de référence
  • RMSD : Écart quadratique moyen des coordonnées Cα
  • ISM (Correspondance de Sites d'Interaction) : Degré de récupération des interactions physicochimiques critiques
  • ∆∆G : Variation de l'énergie libre de liaison
  • IMP : Proportion d'objectifs où le liant généré surpasse le ligand naturel

Méthodes Comparatives

  • Conception de Peptides : RFDiffusion, PepFlow, PepGLAD, UniMoMo
  • Conception d'Anticorps : MEAN, DyMEAN, DiffAb, GeoAB, UniMoMo

Résultats Expérimentaux

Résultats Principaux

Conception Conjointe Séquence-Structure de Peptides

ModèleAAR (%)RMSD (Å)∆∆G (kJ/mol)IMP (%)ISM (%)
RFDiffusion34,684,6924,785,3828,38
PepFlow35,472,8715,7114,1327,83
PepGLAD38,622,7415,2616,1332,63
UniMoMo38,692,312,40940,8649,13
RADiAnce39,422,291,96341,9452,15

Conception de CDR d'Anticorps

RADiAnce surpasse significativement les méthodes de base dans toutes les régions CDR (H1, H2, H3, L1, L2, L3) :

  • Région H1 : AAR amélioré à 90,83 %, ∆∆G optimisé à -8,221 kJ/mol
  • Région H3 (la plus exigeante) : AAR atteint 54,66 %, surpassant significativement les autres méthodes

Vérification de la Fiabilité de la Récupération

Configuration du ModèleITO(%)RC-0,1%RC-0,5%RC-5%
CVAE d'Anticorps (Complet)43,9366,6796,67100,0
CVAE de Peptides (Complet)61,4111,5822,5867,74

Études d'Ablation

  1. Effet de l'Entraînement Multidomaine : L'inclusion de données multidomaines améliore significativement les performances de récupération et de génération
  2. Nécessité de l'Entraînement Conjoint : L'optimisation simultanée de la perte VAE et contrastive est cruciale
  3. Impact du Nombre de Récupérations : Un nombre modéré de récupérations (10-20 échantillons) produit les meilleurs résultats

Analyse de Cas

Exemple du complexe GPIIb/IIIa (ID PDB : 3NID) :

  • Sans guidance de récupération : Difficultés à reconstruire les interactions caractéristiques à liaisons hydrogène multiples
  • Avec augmentation par récupération : Récupération réussie des motifs d'interaction clés, restauration des motifs de liaisons hydrogène médiés par l'arginine et la tyrosine

Travaux Connexes

Conception de Peptides

  • Transition de l'échantillonnage énergétique classique vers la modélisation générative profonde
  • PepFlow/PPFlow adoptant l'appariement de flux multimodal
  • PepGLAD appliquant la diffusion latente géométrique

Conception d'Anticorps

  • Transition de l'échantillonnage physique traditionnel aux cadres d'apprentissage profond
  • DiffAb et autres introduisant la génération conditionnée par l'antigène
  • Approches par modèles de langage comme PALM-H3 attirant l'attention

Génération Augmentée par Récupération

  • Application initiale aux tâches de traitement du langage naturel
  • Méthodes en conception moléculaire comme f-RAG, IRDiff et autres
  • Cet article applique pour la première fois cette approche à la conception conjointe de liants protéiques

Conclusions et Discussion

Conclusions Principales

  1. RADiAnce établit avec succès un nouveau paradigme pour la conception de liants protéiques augmentée par récupération
  2. Le transfert d'interface interdomaines améliore significativement les performances de génération, validant l'existence de motifs d'interaction communs
  3. Réalisation d'améliorations de performances significatives sur plusieurs évaluations de référence

Limitations

  1. Dépendance à la Qualité de la Récupération : La pertinence des résultats de récupération affecte directement l'efficacité de la génération
  2. Descripteurs Structuraux Limités : Les mesures de similarité actuelles peuvent ne pas capturer complètement les relations structurales complexes
  3. Complexité Computationnelle : Nécessité de maintenir une base de données d'interfaces à grande échelle et d'effectuer une récupération en temps réel

Directions Futures

  1. Amélioration des descripteurs structuraux et des mesures de similarité
  2. Exploration de stratégies d'intégration conditionnée plus robustes et conscientes de la structure
  3. Extension à d'autres types moléculaires et motifs d'interaction

Évaluation Approfondie

Avantages

  1. Forte Innovativité : Première introduction du paradigme RAG à la conception de liants protéiques, approche technique novatrice
  2. Expérimentation Complète : Évaluation exhaustive sur plusieurs ensembles de données et métriques, incluant des études d'ablation détaillées
  3. Généralisation Interdomaines : Validation de la faisabilité du transfert de connaissances entre différents types de liants
  4. Valeur Pratique Élevée : Démonstration du potentiel dans des applications réelles comme la conception d'anticorps anti-CD4 du VIH-1

Insuffisances

  1. Analyse Théorique Limitée : Manque d'explication théorique de l'efficacité des mesures de similarité interdomaines
  2. Efficacité Computationnelle : Analyse insuffisante des surcharges computationnelles et des besoins de stockage pour la récupération à grande échelle
  3. Absence de Validation Biologique : Manque de vérification expérimentale de la fonctionnalité réelle des liants générés

Impact

  1. Contribution Académique : Fournit un nouveau cadre méthodologique à la biologie structurale computationnelle
  2. Valeur Pratique : Promesse d'accélérer la découverte de médicaments et les applications d'ingénierie protéique
  3. Reproductibilité : Fourniture de détails d'implémentation détaillés et de code facilitant la reproduction et l'extension

Scénarios d'Application

  • Conception de composés directeurs en découverte de nouveaux médicaments
  • Conception assistée par calcul de médicaments anticorps
  • Recherche sur les interactions protéiques
  • Ingénierie protéique en biologie synthétique

Références Bibliographiques

L'article cite 54 références connexes, couvrant plusieurs domaines incluant la conception protéique, les modèles génératifs profonds, la génération augmentée par récupération et autres travaux importants, fournissant une base théorique solide pour la recherche.