Large pretrained language models have transformed natural language processing, and their adaptation to protein sequences -- viewed as strings of amino acid characters -- has advanced protein analysis. However, the distinct properties of proteins, such as variable sequence lengths and lack of word-sentence analogs, necessitate a deeper understanding of protein language models (LMs). We investigate the isotropy of protein LM embedding spaces using average pairwise cosine similarity and the IsoScore method, revealing that models like ProtBERT and ProtXLNet are highly anisotropic, utilizing only 2--14 dimensions for global and local representations. In contrast, multi-modal training in ProteinBERT, which integrates sequence and gene ontology data, enhances isotropy, suggesting that diverse biological inputs improve representational efficiency. We also find that embedding distances weakly correlate with alignment-based similarity scores, particularly at low similarity.
- ID de l'article : 2510.10655
- Titre : A Look at the Isotropy of Pretrained Protein Language Models
- Auteurs : Sheikh Azizul Hakim, Kowshic Roy, M Saifur Rahman
- Classification : q-bio.OT (Biologie Quantitative - Autres)
- Conférence de publication : Atelier ICML 2025 sur les Modèles Fondamentaux Multimodaux et les Grands Modèles de Langage pour les Sciences de la Vie
- Lien de l'article : https://arxiv.org/abs/2510.10655
Les grands modèles de langage préentraînés ont transformé le domaine du traitement du langage naturel, et leur adaptation aux séquences protéiques—en considérant les protéines comme des chaînes de caractères d'acides aminés—a favorisé le développement de l'analyse protéique. Cependant, les propriétés uniques des protéines, telles que la longueur variable des séquences et l'absence d'analogie mot-phrase, nécessitent une compréhension plus approfondie des modèles de langage protéiques (LMs). Cette étude examine l'isotropie de l'espace d'intégration des modèles de langage protéiques en utilisant la similarité cosinus moyenne par paires et la méthode IsoScore, révélant que des modèles tels que ProtBERT et ProtXLNet sont hautement anisotropes, avec les représentations globales et locales n'utilisant que 2-14 dimensions. En contraste, l'entraînement multimodal de ProteinBERT, qui intègre les données de séquence et d'ontologie génique, améliore l'isotropie, suggérant que les entrées biologiques diversifiées améliorent l'efficacité de la représentation. L'étude révèle également que la distance d'intégration présente une faible corrélation avec les scores de similarité basés sur l'alignement, particulièrement dans les cas de faible similarité.
Cette étude vise à résoudre le manque de compréhension des propriétés géométriques de l'espace d'intégration des modèles de langage protéiques. Cela comprend spécifiquement :
- Absence d'analyse d'isotropie : Bien que de nombreuses recherches aient porté sur l'isotropie de l'espace d'intégration des modèles de langage en traitement du langage naturel, cette analyse est pratiquement absente dans le domaine des protéines
- Problème d'efficacité de l'espace d'intégration : Nécessité de comprendre si les intégrations protéiques de haute dimension utilisent efficacement toutes les dimensions
- Vérification de la pertinence biologique : La relation entre les mesures de distance dans l'espace d'intégration et les mesures de similarité biologique traditionnelles reste peu claire
- Signification théorique : Compréhension approfondie des mécanismes d'apprentissage de représentation des modèles de langage protéiques, fournissant une base théorique pour l'amélioration des modèles
- Valeur pratique : L'analyse d'isotropie peut guider la réduction dimensionnelle et la compression de modèles, améliorant l'efficacité computationnelle
- Applications de modèles génératifs : Pour les tâches génératives telles que la conception de protéines et la prédiction de variantes, un espace latent diversifié et riche en informations est crucial
- Problème de transfert direct : Les modèles de langage protéiques existants adoptent généralement directement les architectures du traitement du langage naturel, sans tenir suffisamment compte des propriétés uniques des séquences protéiques
- Limitation unimodale : La plupart des modèles sont entraînés uniquement sur des informations de séquence, manquant de connaissances biologiques préalables telles que la fonction et la structure
- Négligence des propriétés géométriques : Absence d'analyse systématique de la structure géométrique de l'espace d'intégration
- Première analyse systématique : Première analyse complète de l'isotropie de l'espace d'intégration des modèles de langage protéiques
- Méthodes d'évaluation multidimensionnelles : Adoption de deux méthodes complémentaires de mesure d'isotropie : la similarité cosinus moyenne par paires et IsoScore
- Vérification des avantages de l'entraînement multimodal : Démonstration de l'efficacité de l'entraînement multimodal (séquence + ontologie génique) dans l'amélioration de l'isotropie de la représentation
- Analyse de la pertinence biologique : Analyse approfondie de la relation entre la distance d'intégration et la similarité d'alignement traditionnelle, révélant les limitations des méthodes existantes
- Analyse de la représentation locale : Extension de l'analyse au niveau des acides aminés des intégrations locales, découvrant des modèles d'anisotropie similaires
La tâche fondamentale de cette recherche est d'analyser les propriétés géométriques de l'espace d'intégration des modèles de langage protéiques, comprenant spécifiquement :
- Entrée : Ensemble de données de séquences protéiques et modèles de langage protéiques préentraînés
- Sortie : Mesures d'isotropie (IsoScore, similarité cosinus moyenne par paires), nombre de dimensions effectives, analyse de corrélation entre distance d'intégration et similarité biologique
- Contraintes : Utilisation d'ensembles de données protéiques standard et de modèles préentraînés publiés pour assurer la reproductibilité des résultats
La similarité cosinus est définie comme le produit scalaire normalisé de deux vecteurs x et y :
similariteˊ cosinus=∣x∣∣y∣x⋅y
L'isotropie est évaluée en calculant la similarité cosinus moyenne de toutes les paires de vecteurs dans l'espace d'intégration.
La méthode IsoScore proposée par Rudman et al. est adoptée, possédant les caractéristiques suivantes :
- Indépendance de la moyenne : Non affectée par la moyenne des données
- Stabilité globale : Stabilité par rapport aux sous-ensembles de données
- Invariance rotationnelle : Non affectée par la rotation du système de coordonnées
IsoScore est calculé basé sur la matrice de covariance des composantes principales, avec la formule de calcul de dimension effective :
dim effective(X)=i(X)×(n−1)+1
où i(X) est IsoScore et n est le nombre de dimensions d'origine.
- ProtBERT/ProtBERT-BFD : Basé sur l'architecture BERT, intégration de 1024 dimensions
- ProtXLNet : Basé sur l'architecture XLNet, intégration de 1024 dimensions
- ProteinBERT : Architecture multimodale spécialement conçue, intégration de 512 dimensions
- Intégration globale : Générée par mise en commun moyenne des intégrations locales (série ProtBERT) ou générée directement (ProteinBERT)
- Intégration locale : Représentation par résidu pour chaque acide aminé
Utilisation de BioPython et de la matrice de notation PAM-250 pour calculer la similarité d'alignement traditionnelle :
- Score d'alignement : Score d'alignement de séquence basé sur la matrice de substitution
- Score de similarité : Proportion de résidus identiques dans l'alignement optimal
- Distance d'intégration : Distance euclidienne au carré et similarité cosinus
- Sous-ensemble SwissProt : Provenant de la base de données UniProt, environ 570 000 séquences protéiques
- Caractéristiques des données : Curatées manuellement, contenant des annotations vérifiées expérimentalement et des informations de structure fonctionnelle de haute qualité
- Stratégie d'échantillonnage : Pour l'analyse de corrélation, échantillonnage aléatoire de 1% des protéines, produisant 6,4×10^6 paires de protéines
- IsoScore : Mesure d'isotropie, plage 0,1, 0 indique une anisotropie élevée, 1 indique une isotropie complète
- Nombre de dimensions effectives : Nombre de dimensions réellement utilisées calculé basé sur IsoScore
- Coefficient de corrélation : Coefficient de corrélation de Pearson, mesurant la relation linéaire entre différentes mesures de distance
- Utilisation des poids préentraînés Hugging Face (série ProtBERT)
- Les poids ProteinBERT proviennent du référentiel GitHub officiel
- Adoption de la stratégie de mise en commun moyenne standard pour générer les représentations globales
| Modèle | Dimension d'Intégration | IsoScore | Dimensions Effectivement Utilisées |
|---|
| ProtBERT | 1024 | 0,001658 | 3 |
| ProtBERT-BFD | 1024 | 0,003968 | 6 |
| ProtXLNet | 1024 | 0,001502 | 3 |
| ProteinBERT | 512 | 0,231228 | 120 |
Découvertes Clés :
- Les modèles d'architecture traditionnelle (ProtBERT, ProtXLNet) sont hautement anisotropes, n'utilisant que 2-6 dimensions effectives
- ProteinBERT est significativement plus isotrope (IsoScore=0,23), utilisant 120 dimensions effectives
- En comparaison, les IsoScores de BERT et GPT en langage naturel sont respectivement 0,11 et 0,18
Matrice de corrélation ProtBERT :
| Indicateur | Similarité Cosinus | Distance Euclidienne au Carré | Score d'Alignement | Score de Similarité |
|---|
| Similarité Cosinus | 1,000 | 0,791 | 0,014 | -0,011 |
| Distance Euclidienne au Carré | - | 1,000 | -0,103 | -0,146 |
| Score d'Alignement | - | - | 1,000 | 0,847 |
| Score de Similarité | - | - | - | 1,000 |
Observations Importantes :
- Corrélation forte entre les mesures d'intégration (0,791)
- Corrélation forte entre les mesures biologiques traditionnelles (0,847)
- Corrélation faible entre les domaines, voire valeurs négatives
Pour les intégrations locales de 1024 dimensions, chaque acide aminé n'utilise en moyenne qu'environ 14 dimensions effectives, montrant un modèle d'anisotropie similaire aux intégrations globales.
Par analyse de nuages de points :
- Région de faible similarité : Grande variance de distance d'intégration, faible capacité prédictive
- Région de haute similarité : Convergence de distance d'intégration, distance euclidienne tendant vers des valeurs basses, similarité cosinus proche de 1,0
- Ce comportement asymétrique indique que les intégrations sont plus fiables à haute similarité biologique mais peu fiables à faible similarité
- Ethayarajh (2019) a d'abord découvert l'anisotropie élevée de modèles tels que BERT
- Rogers et al. ont recommandé d'augmenter l'isotropie pour améliorer les performances de BERT
- Rajaee & Pilehvar (2021) ont découvert que le post-traitement augmentant l'isotropie pourrait endommager les performances
- Rudman et al. ont proposé la méthode IsoScore pour résoudre les défauts des mesures existantes
- Série ProtTrans (Elnaggar et al.) : Application directe des architectures du traitement du langage naturel aux protéines
- ProteinBERT (Brandes et al.) : Architecture multimodale spécialement conçue
- Les recherches existantes se concentrent principalement sur les performances des tâches en aval, manquant d'analyse des propriétés géométriques de l'espace de représentation
- Anisotropie Élevée : Les modèles de langage protéiques unimodaux basés sur la séquence présentent une anisotropie extrêmement élevée, avec une redondance dimensionnelle importante
- Avantages Multimodaux : L'entraînement multimodal intégrant les informations de séquence et d'ontologie génique améliore significativement l'isotropie
- Limitations de la Pertinence Biologique : La distance d'intégration présente une faible corrélation avec les mesures de similarité biologique traditionnelles, particulièrement dans les régions de faible similarité
- Universalité de la Redondance Dimensionnelle : La redondance dimensionnelle grave existe dans les représentations globales et locales
- Limitation de l'ensemble de données : Utilisation uniquement de l'ensemble de données SwissProt, pouvant ne pas représenter complètement la diversité protéique
- Portée des modèles : Nombre limité de modèles évalués, ne couvrant pas les modèles de langage protéiques à grande échelle les plus récents
- Vérification biologique : Absence d'analyse d'association directe avec la structure et la fonction protéiques
- Absence d'analyse dynamique : Pas d'analyse des changements d'isotropie au cours du processus d'entraînement
- Entraînement avec Optimisation Géométrique : Développement de méthodes d'entraînement optimisant explicitement la richesse géométrique et l'isotropie
- Apprentissage Supervisé Biologique : Entraînement contrastif préalable basé sur les connaissances préalables biologiques
- Régularisation d'Isotropie : Incorporation de régularisation favorisant l'isotropie pendant le processus d'entraînement
- Intégrations Contraintes Fonctionnelles : Contraintes d'intégration fonctionnelle basées sur les données d'ontologie ou de structure
- Recherche Pionnière : Première analyse systématique des propriétés géométriques des modèles de langage protéiques, comblant un vide de recherche important
- Rigueur Méthodologique : Adoption de plusieurs méthodes de mesure d'isotropie complémentaires, résultats fiables
- Valeur Pratique Élevée : Fournit une base théorique pour la compression de modèles et la réduction dimensionnelle
- Perspectives Multimodales : Démonstration de l'importance de l'entraînement multimodal dans l'amélioration de la qualité de la représentation
- Analyse Complète : Analyse multidimensionnelle allant du global au local, de l'isotropie à la pertinence biologique
- Absence de Mécanisme d'Explication : Pas d'explication approfondie de la raison pour laquelle l'entraînement multimodal améliore l'isotropie
- Vérification des Tâches en Aval : Absence de vérification de l'impact de l'amélioration d'isotropie sur les performances des tâches biologiques spécifiques
- Couverture de Modèles Limitée : Absence de modèles de langage protéiques plus récents
- Absence de Solutions d'Optimisation : Bien que les problèmes soient identifiés, aucune solution d'amélioration spécifique n'est fournie
- Contribution Théorique : Fournit une base importante pour la compréhension théorique des modèles de langage protéiques
- Valeur Méthodologique : Établit des méthodes standard pour l'analyse de l'espace d'intégration protéique
- Orientation Technique : Fournit des directions claires pour la conception et l'optimisation de modèles
- Signification Interdisciplinaire : Les méthodes peuvent être généralisées à d'autres domaines d'analyse de séquences biologiques
- Conception de Modèles : Orientation de la conception d'architectures de modèles de langage protéiques nouveaux
- Compression de Modèles : Fournit une base théorique pour la compression et l'accélération de modèles protéiques à grande échelle
- Modèles Génératifs : Fournit une base d'apprentissage de représentation améliorée pour la conception et l'ingénierie protéiques
- Fusion Multimodale : Orientation de la conception de modèles protéiques multimodaux
- Ethayarajh, K. (2019). How Contextual are Contextualized Word Representations?
- Rudman, W. et al. (2022). IsoScore: Measuring the uniformity of embedding space utilization
- Elnaggar, A. et al. (2022). ProtTrans: Toward Understanding the Language of Life
- Brandes, N. et al. (2022). ProteinBERT: a universal deep-learning model of protein sequence and function
Ce rapport est basé sur une lecture et une analyse complètes du document PDF de l'article, présentant objectivement les détails techniques, les résultats expérimentaux et les contributions académiques de la recherche, fournissant une référence complète aux chercheurs concernés.