Large pretrained language models have transformed natural language processing, and their adaptation to protein sequences -- viewed as strings of amino acid characters -- has advanced protein analysis. However, the distinct properties of proteins, such as variable sequence lengths and lack of word-sentence analogs, necessitate a deeper understanding of protein language models (LMs). We investigate the isotropy of protein LM embedding spaces using average pairwise cosine similarity and the IsoScore method, revealing that models like ProtBERT and ProtXLNet are highly anisotropic, utilizing only 2--14 dimensions for global and local representations. In contrast, multi-modal training in ProteinBERT, which integrates sequence and gene ontology data, enhances isotropy, suggesting that diverse biological inputs improve representational efficiency. We also find that embedding distances weakly correlate with alignment-based similarity scores, particularly at low similarity.
academicIsotropy and Geometry of Pretrained Protein LMs
- 论文ID: 2510.10655
- 标题: A Look at the Isotropy of Pretrained Protein Language Models
- 作者: Sheikh Azizul Hakim, Kowshic Roy, M Saifur Rahman
- 分类: q-bio.OT (Quantitative Biology - Other)
- 发表会议: ICML 2025 Workshop on Multi-modal Foundation Models and Large Language Models for Life Sciences
- 论文链接: https://arxiv.org/abs/2510.10655
大型预训练语言模型已经改变了自然语言处理领域,它们对蛋白质序列的适应——将蛋白质视为氨基酸字符串——推动了蛋白质分析的发展。然而,蛋白质的独特性质,如可变的序列长度和缺乏词-句类比,需要对蛋白质语言模型(LMs)进行更深入的理解。本研究使用平均成对余弦相似度和IsoScore方法调查蛋白质LM嵌入空间的各向同性,发现ProtBERT和ProtXLNet等模型高度各向异性,全局和局部表示仅利用2-14个维度。相比之下,ProteinBERT的多模态训练整合了序列和基因本体数据,增强了各向同性,表明多样化的生物输入提高了表示效率。研究还发现嵌入距离与基于对齐的相似性评分相关性较弱,特别是在低相似性情况下。
本研究旨在解决蛋白质语言模型嵌入空间几何特性理解不足的问题。具体包括:
- 各向同性分析缺失:虽然自然语言处理中已有大量关于语言模型嵌入空间各向同性的研究,但在蛋白质领域这方面的分析几乎为空白
- 嵌入空间效率问题:需要了解高维蛋白质嵌入是否有效利用了所有维度
- 生物学相关性验证:嵌入空间中的距离度量与传统生物学相似性度量的关系尚不明确
- 理论意义:深入理解蛋白质语言模型的表示学习机制,为模型改进提供理论基础
- 实用价值:各向同性分析可以指导维度约简和模型压缩,提高计算效率
- 生成模型应用:对于蛋白质设计、变体预测等生成任务,多样化和信息丰富的潜在空间至关重要
- 直接移植问题:现有蛋白质语言模型多直接采用NLP架构,未充分考虑蛋白质序列的独特性质
- 单模态限制:大多数模型仅基于序列信息训练,缺乏功能和结构等生物学先验知识
- 几何特性忽视:缺乏对嵌入空间几何结构的系统性分析
- 首次系统性分析:对蛋白质语言模型嵌入空间的各向同性进行了首次全面分析
- 多维度评估方法:采用平均成对余弦相似度和IsoScore两种互补的各向同性度量方法
- 多模态训练优势验证:证明了多模态训练(序列+基因本体)在提高表示各向同性方面的有效性
- 生物学相关性分析:深入分析了嵌入距离与传统对齐相似性的关系,揭示了现有方法的局限性
- 局部表示分析:扩展分析到氨基酸级别的局部嵌入,发现类似的各向异性模式
本研究的核心任务是分析蛋白质语言模型嵌入空间的几何特性,具体包括:
- 输入:蛋白质序列数据集和预训练的蛋白质语言模型
- 输出:各向同性度量(IsoScore、平均成对余弦相似度)、有效维度数、嵌入距离与生物学相似性的相关性分析
- 约束:使用标准的蛋白质数据集和已发布的预训练模型确保结果可复现
余弦相似度定义为两个向量x和y的归一化点积:
cosine similarity=∣x∣∣y∣x⋅y
通过计算嵌入空间中所有向量对的平均余弦相似度来评估各向同性。
采用Rudman等人提出的IsoScore方法,该方法具有以下特性:
- 均值无关性:不受数据均值影响
- 全局稳定性:对数据子集具有稳定性
- 旋转不变性:不受坐标系旋转影响
IsoScore基于主成分的协方差矩阵计算,有效维度计算公式为:
effective dim(X)=i(X)×(n−1)+1
其中i(X)是IsoScore,n是原始维度数。
- ProtBERT/ProtBERT-BFD:基于BERT架构,1024维嵌入
- ProtXLNet:基于XLNet架构,1024维嵌入
- ProteinBERT:专门设计的多模态架构,512维嵌入
- 全局嵌入:通过平均池化局部嵌入生成(ProtBERT系列)或直接生成(ProteinBERT)
- 局部嵌入:每个氨基酸残基对应的per-residue表示
使用BioPython和PAM-250评分矩阵计算传统对齐相似性:
- 对齐评分:基于替换矩阵的序列对齐评分
- 相似性评分:最优对齐中相同残基的比例
- 嵌入距离:平方欧几里得距离和余弦相似度
- SwissProt子集:来自UniProt数据库,约570,000个蛋白质序列
- 数据特点:人工策划,包含实验验证的注释和高质量功能结构信息
- 采样策略:对于相关性分析,随机采样1%的蛋白质,产生6.4×10^6个蛋白质对
- IsoScore:各向同性度量,范围0,1,0表示高度各向异性,1表示完全各向同性
- 有效维度数:基于IsoScore计算的实际利用维度数
- 相关系数:Pearson相关系数,衡量不同距离度量间的线性关系
- 使用Hugging Face预训练权重(ProtBERT系列)
- ProteinBERT权重来自GitHub官方仓库
- 采用标准的平均池化策略生成全局表示
| 模型 | 嵌入维度 | IsoScore | 有效使用维度 |
|---|
| ProtBERT | 1024 | 0.001658 | 3 |
| ProtBERT-BFD | 1024 | 0.003968 | 6 |
| ProtXLNet | 1024 | 0.001502 | 3 |
| ProteinBERT | 512 | 0.231228 | 120 |
关键发现:
- 传统架构模型(ProtBERT、ProtXLNet)高度各向异性,仅使用2-6个有效维度
- ProteinBERT显著更各向同性(IsoScore=0.23),使用120个有效维度
- 相比之下,自然语言BERT和GPT的IsoScore分别为0.11和0.18
ProtBERT相关性矩阵:
| 指标 | 余弦相似度 | 平方欧几里得距离 | 对齐评分 | 相似性评分 |
|---|
| 余弦相似度 | 1.000 | 0.791 | 0.014 | -0.011 |
| 平方欧几里得距离 | - | 1.000 | -0.103 | -0.146 |
| 对齐评分 | - | - | 1.000 | 0.847 |
| 相似性评分 | - | - | - | 1.000 |
重要观察:
- 嵌入度量间相关性强(0.791)
- 传统生物学度量间相关性强(0.847)
- 跨域相关性弱,甚至为负值
对于1024维的局部嵌入,各氨基酸平均仅使用约14个有效维度,显示出与全局嵌入类似的各向异性模式。
通过散点图分析发现:
- 低相似性区域:嵌入距离方差大,预测能力差
- 高相似性区域:嵌入距离收敛,欧几里得距离趋于低值,余弦相似度接近1.0
- 这种不对称行为表明嵌入在高生物学相似性时较可靠,但在低相似性时不可靠
- Ethayarajh (2019)首次发现BERT等模型的高度各向异性
- Rogers等人建议增加各向同性来改善BERT性能
- Rajaee & Pilehvar (2021)发现后处理增加各向同性可能损害性能
- Rudman等人提出IsoScore方法解决现有度量的缺陷
- ProtTrans系列(Elnaggar等):直接将NLP架构应用于蛋白质
- ProteinBERT(Brandes等):专门设计的多模态架构
- 现有研究主要关注下游任务性能,缺乏对表示空间几何特性的分析
- 高度各向异性:序列单模态蛋白质语言模型表现出极高的各向异性,大量维度冗余
- 多模态优势:整合序列和基因本体信息的多模态训练显著提高各向同性
- 生物学相关性局限:嵌入距离与传统生物学相似性度量相关性弱,特别在低相似性区域
- 维度冗余普遍性:无论全局还是局部表示都存在严重的维度冗余
- 数据集限制:仅使用SwissProt数据集,可能不能完全代表蛋白质多样性
- 模型范围:评估的模型数量有限,未涵盖最新的大规模蛋白质语言模型
- 生物学验证:缺乏与蛋白质结构和功能的直接关联分析
- 动态分析缺失:未分析训练过程中各向同性的变化
- 几何优化训练:开发明确优化几何丰富性和各向同性的训练方法
- 生物学监督学习:基于生物学先验的对比预训练
- 各向同性正则化:在训练过程中加入各向同性促进正则化
- 功能约束嵌入:基于本体或结构数据的功能嵌入约束
- 开创性研究:首次系统性分析蛋白质语言模型的几何特性,填补了重要研究空白
- 方法科学性:采用多种互补的各向同性度量方法,结果可靠
- 实用价值高:为模型压缩和维度约简提供了理论依据
- 多模态洞察:证明了多模态训练在改善表示质量方面的重要性
- 分析全面:从全局到局部,从各向同性到生物学相关性的全方位分析
- 解释机制缺失:未深入解释为什么多模态训练能提高各向同性
- 下游任务验证:缺乏各向同性改善对具体生物学任务性能影响的验证
- 模型覆盖有限:未包含更多最新的蛋白质语言模型
- 优化方案缺失:虽然发现了问题但未提供具体的改进方案
- 理论贡献:为蛋白质语言模型的理论理解提供了重要基础
- 方法学价值:建立了蛋白质嵌入空间分析的标准方法
- 工程指导:为模型设计和优化提供了明确方向
- 跨领域意义:方法可推广到其他生物序列分析领域
- 模型设计:指导新的蛋白质语言模型架构设计
- 模型压缩:为大规模蛋白质模型的压缩和加速提供理论依据
- 生成模型:为蛋白质设计和工程提供更好的表示学习基础
- 多模态融合:指导蛋白质多模态模型的设计
- Ethayarajh, K. (2019). How Contextual are Contextualized Word Representations?
- Rudman, W. et al. (2022). IsoScore: Measuring the uniformity of embedding space utilization
- Elnaggar, A. et al. (2022). ProtTrans: Toward Understanding the Language of Life
- Brandes, N. et al. (2022). ProteinBERT: a universal deep-learning model of protein sequence and function
本报告基于对论文PDF文档的完整阅读和分析,客观呈现了研究的技术细节、实验结果和学术贡献,为相关研究人员提供了全面的参考。