2025-11-21T19:43:16.429165

Isotropy and Geometry of Pretrained Protein LMs

Hakim, Roy, Rahman
Large pretrained language models have transformed natural language processing, and their adaptation to protein sequences -- viewed as strings of amino acid characters -- has advanced protein analysis. However, the distinct properties of proteins, such as variable sequence lengths and lack of word-sentence analogs, necessitate a deeper understanding of protein language models (LMs). We investigate the isotropy of protein LM embedding spaces using average pairwise cosine similarity and the IsoScore method, revealing that models like ProtBERT and ProtXLNet are highly anisotropic, utilizing only 2--14 dimensions for global and local representations. In contrast, multi-modal training in ProteinBERT, which integrates sequence and gene ontology data, enhances isotropy, suggesting that diverse biological inputs improve representational efficiency. We also find that embedding distances weakly correlate with alignment-based similarity scores, particularly at low similarity.
academic

事前学習済みタンパク質言語モデルの等方性と幾何学

基本情報

  • 論文ID: 2510.10655
  • タイトル: A Look at the Isotropy of Pretrained Protein Language Models
  • 著者: Sheikh Azizul Hakim, Kowshic Roy, M Saifur Rahman
  • 分類: q-bio.OT(定量生物学 - その他)
  • 発表会議: ICML 2025 Workshop on Multi-modal Foundation Models and Large Language Models for Life Sciences
  • 論文リンク: https://arxiv.org/abs/2510.10655

要約

大規模事前学習言語モデルは自然言語処理分野に革命をもたらし、タンパク質配列への適応——タンパク質をアミノ酸文字列として扱う——はタンパク質分析の発展を推進してきた。しかし、可変配列長と単語-文類似性の欠如といったタンパク質の独特な性質により、タンパク質言語モデル(LMs)のより深い理解が必要である。本研究は平均ペアワイズコサイン類似度とIsoScoreメソッドを用いてタンパク質LM埋め込み空間の等方性を調査し、ProtBERTおよびProtXLNetなどのモデルが高度に異方性であり、グローバルおよびローカル表現がわずか2~14次元のみを利用していることを発見した。対照的に、ProteinBERTのマルチモーダル学習は配列と遺伝子本体データを統合し、等方性を向上させ、多様な生物学的入力が表現効率を向上させることを示唆している。本研究はまた、埋め込み距離とアラインメントベースの類似性スコアの相関が弱いこと、特に低類似性の場合に顕著であることを発見した。

研究背景と動機

問題定義

本研究は、タンパク質言語モデル埋め込み空間の幾何学的特性の理解不足に対処することを目的としている。具体的には以下を含む:

  1. 等方性分析の欠落:自然言語処理では言語モデル埋め込み空間の等方性に関する豊富な研究があるが、タンパク質領域ではこの分析がほぼ空白である
  2. 埋め込み空間効率の問題:高次元タンパク質埋め込みがすべての次元を効果的に利用しているかどうかを理解する必要がある
  3. 生物学的関連性の検証:埋め込み空間の距離メトリクスと従来の生物学的類似性メトリクスの関係が不明確である

重要性

  1. 理論的意義:タンパク質言語モデルの表現学習メカニズムの深い理解を提供し、モデル改善の理論的基礎を提供する
  2. 実用的価値:等方性分析は次元削減とモデル圧縮を指導し、計算効率を向上させることができる
  3. 生成モデルアプリケーション:タンパク質設計や変異予測などの生成タスクでは、多様で情報豊富な潜在空間が重要である

既存方法の限界

  1. 直接移植の問題:既存のタンパク質言語モデルはNLPアーキテクチャを直接採用することが多く、タンパク質配列の独特な性質を十分に考慮していない
  2. 単一モーダルの制限:ほとんどのモデルは配列情報のみで学習され、機能や構造などの生物学的先験知識が不足している
  3. 幾何学的特性の無視:埋め込み空間の幾何学的構造の体系的分析が不足している

核心的貢献

  1. 初の体系的分析:タンパク質言語モデル埋め込み空間の等方性に関する初の包括的分析を実施
  2. 多次元評価方法:平均ペアワイズコサイン類似度とIsoScoreという2つの相補的な等方性メトリクスを採用
  3. マルチモーダル学習の利点の検証:マルチモーダル学習(配列+遺伝子本体)が表現等方性の向上に有効であることを実証
  4. 生物学的関連性分析:埋め込み距離と従来のアラインメント類似性の関係を深く分析し、既存方法の限界を明らかにする
  5. ローカル表現分析:アミノ酸レベルのローカル埋め込みへの分析を拡張し、同様の異方性パターンを発見

方法の詳細

タスク定義

本研究の核心的なタスクはタンパク質言語モデル埋め込み空間の幾何学的特性を分析することであり、具体的には以下を含む:

  • 入力:タンパク質配列データセットと事前学習済みタンパク質言語モデル
  • 出力:等方性メトリクス(IsoScore、平均ペアワイズコサイン類似度)、有効次元数、埋め込み距離と生物学的類似性の相関分析
  • 制約:標準的なタンパク質データセットと公開された事前学習モデルを使用して結果の再現性を確保

等方性メトリクス方法

1. 平均ペアワイズコサイン類似度

コサイン類似度は2つのベクトルxとyの正規化内積として定義される:

cosine similarity=xyxy\text{cosine similarity} = \frac{x \cdot y}{|x||y|}

埋め込み空間内のすべてのベクトルペアの平均コサイン類似度を計算することで等方性を評価する。

2. IsoScoreメソッド

Rudmanらが提案したIsoScoreメソッドを採用し、以下の特性を有する:

  • 平均独立性:データの平均の影響を受けない
  • グローバル安定性:データサブセットに対して安定している
  • 回転不変性:座標系の回転の影響を受けない

IsoscoreはPCAの共分散行列に基づいて計算され、有効次元の計算式は以下の通り:

effective dim(X)=i(X)×(n1)+1\text{effective dim}(X) = i(X) \times (n-1) + 1

ここでi(X)はIsoScore、nは元の次元数である。

モデルアーキテクチャ分析

評価されたモデル

  1. ProtBERT/ProtBERT-BFD:BERTアーキテクチャに基づく、1024次元埋め込み
  2. ProtXLNet:XLNetアーキテクチャに基づく、1024次元埋め込み
  3. ProteinBERT:専門的に設計されたマルチモーダルアーキテクチャ、512次元埋め込み

埋め込み生成戦略

  • グローバル埋め込み:ローカル埋め込みの平均プーリングを通じて生成(ProtBERTシリーズ)またはダイレクト生成(ProteinBERT)
  • ローカル埋め込み:各アミノ酸残基に対応するper-residue表現

生物学的類似性分析

BioPythonとPAM-250スコアリング行列を使用して従来のアラインメント類似性を計算:

  • アラインメントスコア:置換行列に基づく配列アラインメントスコア
  • 類似性スコア:最適アラインメント内の同一残基の割合
  • 埋め込み距離:二乗ユークリッド距離とコサイン類似度

実験設定

データセット

  • SwissProtサブセット:UniProtデータベースから、約570,000個のタンパク質配列
  • データの特徴:手作業で策定され、実験的に検証された注釈と高品質の機能構造情報を含む
  • サンプリング戦略:相関性分析のため、タンパク質の1%をランダムにサンプリングし、6.4×10^6個のタンパク質ペアを生成

評価メトリクス

  1. IsoScore:等方性メトリクス、範囲0,1、0は高度な異方性を示し、1は完全な等方性を示す
  2. 有効次元数:IsoScoreに基づいて計算された実際に利用された次元数
  3. 相関係数:ピアソン相関係数、異なる距離メトリクス間の線形関係を測定

実装の詳細

  • Hugging Faceの事前学習済み重み(ProtBERTシリーズ)を使用
  • ProteinBERT重みはGitHub公式リポジトリから取得
  • グローバル表現を生成するために標準的な平均プーリング戦略を採用

実験結果

主要な結果

グローバル埋め込み等方性分析

モデル埋め込み次元IsoScore有効利用次元
ProtBERT10240.0016583
ProtBERT-BFD10240.0039686
ProtXLNet10240.0015023
ProteinBERT5120.231228120

主要な発見

  • 従来のアーキテクチャモデル(ProtBERT、ProtXLNet)は高度に異方性であり、わずか2~6個の有効次元のみを使用している
  • ProteinBERTは著しくより等方性である(IsoScore=0.23)、120個の有効次元を使用している
  • 比較として、自然言語BERTとGPTのIsoScoreはそれぞれ0.11と0.18である

埋め込み距離と生物学的類似性の相関

ProtBERT相関行列:

メトリクスコサイン類似度二乗ユークリッド距離アラインメントスコア類似性スコア
コサイン類似度1.0000.7910.014-0.011
二乗ユークリッド距離-1.000-0.103-0.146
アラインメントスコア--1.0000.847
類似性スコア---1.000

重要な観察

  • 埋め込みメトリクス間の相関が強い(0.791)
  • 従来の生物学的メトリクス間の相関が強い(0.847)
  • ドメイン間の相関が弱く、負の値さえもある

ローカル埋め込み等方性

1024次元のローカル埋め込みの場合、各アミノ酸は平均わずか約14個の有効次元のみを使用しており、グローバル埋め込みと同様の異方性パターンを示している。

非線形関係の発見

散布図分析を通じて以下を発見:

  • 低類似性領域:埋め込み距離の分散が大きく、予測能力が低い
  • 高類似性領域:埋め込み距離が収束し、ユークリッド距離が低値に、コサイン類似度が1.0に近づく
  • この非対称な動作は、埋め込みが高い生物学的類似性の場合に信頼性が高いが、低類似性の場合には信頼性が低いことを示唆している

関連研究

自然言語処理における等方性研究

  • Ethayarajh(2019)がBERTなどのモデルの高度な異方性を初めて発見
  • Rogersらは等方性の増加がBERT性能を改善することを提案
  • Rajaee & Pilehvar(2021)は後処理による等方性の増加がパフォーマンスを損なう可能性があることを発見
  • Rudmanらは既存のメトリクスの欠陥に対処するためにIsoScoreメソッドを提案

タンパク質言語モデルの発展

  • ProtTransシリーズ(Elnaggarら):NLPアーキテクチャをタンパク質に直接適用
  • ProteinBERT(Brandesら):専門的に設計されたマルチモーダルアーキテクチャ
  • 既存の研究は主に下流タスクのパフォーマンスに焦点を当てており、表現空間の幾何学的特性の分析が不足している

結論と考察

主要な結論

  1. 高度な異方性:配列単一モーダルタンパク質言語モデルは極度の異方性を示し、多くの次元が冗長である
  2. マルチモーダルの利点:配列と遺伝子本体情報を統合するマルチモーダル学習は等方性を著しく向上させる
  3. 生物学的関連性の限界:埋め込み距離と従来の生物学的類似性メトリクスの相関が弱く、特に低類似性領域で顕著である
  4. 次元冗長性の普遍性:グローバルおよびローカル表現の両方に深刻な次元冗長性が存在する

限界

  1. データセット制限:SwissProtデータセットのみを使用しており、タンパク質の多様性を完全に代表していない可能性がある
  2. モデル範囲:評価されたモデルの数が限定的であり、最新の大規模タンパク質言語モデルをカバーしていない
  3. 生物学的検証:タンパク質構造と機能との直接的な関連分析が不足している
  4. 動的分析の欠落:学習過程における等方性の変化が分析されていない

今後の方向性

  1. 幾何学的最適化学習:幾何学的豊かさと等方性を明示的に最適化する学習方法の開発
  2. 生物学的監督学習:生物学的先験知識に基づく対比学習
  3. 等方性正則化:学習過程における等方性促進正則化の導入
  4. 機能制約埋め込み:本体または構造データに基づく機能埋め込み制約

深い評価

利点

  1. 開拓的研究:タンパク質言語モデルの幾何学的特性を初めて体系的に分析し、重要な研究ギャップを埋める
  2. 方法の科学性:複数の相補的な等方性メトリクスを採用し、結果の信頼性が高い
  3. 実用的価値が高い:モデル圧縮と次元削減の理論的根拠を提供する
  4. マルチモーダルの洞察:マルチモーダル学習が表現品質の改善に重要であることを実証
  5. 分析が包括的:グローバルからローカルへ、等方性から生物学的関連性まで、全方位的な分析

不足

  1. 説明メカニズムの欠落:マルチモーダル学習がなぜ等方性を向上させるのかについての深い説明がない
  2. 下流タスク検証の不足:等方性の改善が具体的な生物学的タスクのパフォーマンスに与える影響の検証が不足している
  3. モデルカバレッジの限定:より多くの最新のタンパク質言語モデルが含まれていない
  4. 最適化案の欠落:問題を発見しているが、具体的な改善案を提供していない

影響力

  1. 理論的貢献:タンパク質言語モデルの理論的理解に重要な基礎を提供
  2. 方法論的価値:タンパク質埋め込み空間分析の標準的方法を確立
  3. 工学的指導:モデル設計と最適化に明確な方向を提供
  4. 学際的意義:方法は他の生物配列分析領域に推広可能

適用シーン

  1. モデル設計:新しいタンパク質言語モデルアーキテクチャ設計を指導
  2. モデル圧縮:大規模タンパク質モデルの圧縮と加速の理論的根拠を提供
  3. 生成モデル:タンパク質設計とエンジニアリングのためのより良い表現学習基礎を提供
  4. マルチモーダル融合:タンパク質マルチモーダルモデル設計を指導

参考文献

  1. Ethayarajh, K. (2019). How Contextual are Contextualized Word Representations?
  2. Rudman, W. et al. (2022). IsoScore: Measuring the uniformity of embedding space utilization
  3. Elnaggar, A. et al. (2022). ProtTrans: Toward Understanding the Language of Life
  4. Brandes, N. et al. (2022). ProteinBERT: a universal deep-learning model of protein sequence and function

本レポートはPDF論文の完全な読解と分析に基づいており、研究の技術的詳細、実験結果、学術的貢献を客観的に提示し、関連研究者に包括的な参考資料を提供している。