Transformers with causal attention can solve tasks that require positional information without using positional encodings. In this work, we propose and investigate a new hypothesis about how positional information can be stored without using explicit positional encoding. We observe that nearby embeddings are more similar to each other than faraway embeddings, allowing the transformer to potentially reconstruct the positions of tokens. We show that this pattern can occur in both the trained and the randomly initialized Transformer models with causal attention and no positional encodings over a common range of hyperparameters.
論文ID : 2501.00073タイトル : Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings著者 : Chunsheng Zuo (Johns Hopkins University)、Pavel Guerzhoy (University of Hawai'i at Mānoa)、Michael Guerzhoy (University of Toronto)分類 : cs.CL (計算言語学)、cs.LG (機械学習)発表日 : 2024年12月30日論文リンク : https://arxiv.org/abs/2501.00073 本研究は、因果注意機構を備えたTransformerが位置エンコーディングを使用せずに位置情報を必要とするタスクをどのように解決するかを探究している。著者は、位置情報が隣接する埋め込みベクトル間の類似性を通じて保存されるという新しい仮説を提案し検証した。研究により、隣接する埋め込みベクトルはより遠い埋め込みベクトルよりも高い類似性を示し、これによってTransformerはトークンの位置情報を再構築できることが明らかになった。このパターンは、訓練後および無作為初期化された因果Transformerモデルの両方で観察される。
従来の見方では、Transformerはシーケンス内のトークンの位置情報を処理するために明示的な位置エンコーディングが必要とされていた。しかし、最近の研究(Haviv et al. 2022; Kazemnejad et al. 2024; Chi et al. 2023)は、因果注意のみを使用するデコーダのみのTransformerが位置エンコーディングなしで位置情報を学習できることを示唆している。
理論的ギャップ : 因果Transformerが位置情報をどのように保存するかについての深い理解が不足しているメカニズムの探究 : Chi et al. (2023)は位置情報が埋め込み分散に保存されていると提案しているが、この説明は十分ではない可能性がある新しい視点の必要性 : 位置情報の表現メカニズムを理解するための新しい視点が必要である非因果注意機構は入力トークンの順列に対して置換不変性を持ち、位置情報を処理できない Chiらの分散理論は一部の実験で性能が低く、観察された現象を完全に説明できない 隣接パターン仮説の提案 : 隣接位置の埋め込みベクトルがより高いコサイン類似度を持ち、「隣接パターン」を形成することを発見理論分析 : 因果注意の第1層で隣接パターンが出現する理由を数学的に説明広範な実験検証 : 複数のタスク、モデル構成、初期化スキーム下で隣接パターンの存在を検証定量評価方法 : 隣接確率スコア(adjacency probability score)を提案して位置情報の強度を定量化対比分析 : プローブ実験を通じて、コサイン類似度が埋め込み分散よりも位置情報をより効果的にエンコードすることを証明明示的な位置エンコーディングなしで、因果Transformerが位置情報をどのように表現し利用するかを研究し、埋め込みベクト間の類似性パターンに焦点を当てる。
長さn、次元dのトークン埋め込みシーケンスX ∈ R^(n×d)に対して、自己コサイン類似度行列Cは以下のように定義される:
C_ij = cos θ(X_i, X_j) = (X_i · X_j) / (||X_i|| ||X_j||)
隣接パターンとは、自己コサイン類似度行列が対角線付近で高い値を示し、対角線から遠い場所で低い値を示す特性を指し、隣接位置の埋め込みベクトルがより類似していることを示す。
隣接パターンの強度を定量化するため、著者は隣接確率スコアを提案した:
第k行に対して、行レベルの隣接確率スコアは以下のように定義される:
P_Adjacency = P(C_ki < C_kj if i < j) = 1/C(k,2) * Σ I(C_ki < C_kj)
行列全体の隣接確率スコアはすべての行の平均値である。
第1層では、位置kの埋め込みは前k-1個の埋め込みの線形結合を通じて計算される:
位置k+tの埋め込み: Σ(i=1 to k+t) α_i * e_i 位置k+t+1の埋め込み: Σ(i=1 to k+t+1) β_i * e_i 隣接位置はより多くの入力埋め込みを共有するため、それらの内積の差は正である:
(Σ α_i * v_i) · (Σ β_i * v_i) - (Σ α_i * v_i) · (Σ β'_i * v_i) > 0
これは隣接パターンの出現を数学的に説明している。
著者は位置情報を必要とする4つの合成タスクを設計した:
加算タスク(Addition) : 「123+456=」の答えを生成、入力長最大9反転タスク(Reversal) : 「rev(1234)=」に対して「4321」を生成、入力長最大22インデックスタスク(Indexing) : 「wherex(134504392,4)=」に対して最初の出現位置「2」を出力、入力長最大20ソートタスク(Ordering) : 元のシーケンスと並べ替えられたシーケンスが与えられた場合、新しいインデックス順序を出力、入力長最大18基本モデル : 6層NanoGPT、1060万パラメータバリアント構成 : 6/12/24層、192/384/768隠れ次元初期化 : デフォルトN(0, 0.02)、異なる平均と分散をテスト訓練設定 : 各タスク20000訓練サンプルと20000テストサンプル、5つのランダムシード隣接確率スコア : 隣接パターンの強度を定量化タスク精度 : 各タスクでのモデルの性能プローブ実験 : 4層MLPを使用して位置情報をプローブ、NRMSEとPearson-Rを評価トークン埋め込み層では、隣接確率スコアは約0.5(ランダムレベル) 第1層の因果注意後、スコアは0.8-1.0に跳躍 このパターンは訓練前後、異なるタスク、モデル構成下で安定している 層 初期化モデル 訓練後モデル 埋め込み層 0.48 0.54 第1層 0.98 0.89 第2層 0.99 0.97 第3層 0.99 0.98 第6層 0.99 0.82
層数の影響 : 6-24層モデルはすべて隣接パターンを示す次元の影響 : 192-768次元構成はすべてパターンを維持初期化の影響 : 標準初期化スキーム(σ ≤ 0.02)下でパターンは安定異なる平均(μ ∈ {0,4,8})と標準偏差(σ ∈ {0.002,0.02,0.2})をテスト:
小分散(σ ≤ 0.02): 隣接パターンは安定 大分散(σ = 0.2): パターンは消失 大平均はパターンに大きな影響を与えない コサイン類似度と埋め込み分散を位置特性として比較するプローブ実験:
特性タイプ Pearson-R NRMSE 埋め込みベクトル 0.71 0.20 埋め込み分散 0.49 0.23 コサイン類似度 0.93 0.11
図1は反転タスクにおける自己コサイン類似度行列の可視化を示している:
初期化モデル: 第1層から明確な対角線パターンが出現 訓練後モデル: 前数層は強い隣接パターンを維持し、後層は徐々に減弱 従来の手法 : 絶対位置エンコーディング、相対位置エンコーディング最新の発見 : Haviv et al. (2022)が因果Transformerが位置エンコーディングなしで訓練可能であることを初めて証明置換不変性 : Tsai et al. (2019)が非因果注意が置換不変性を持つことを証明位置情報保存 : Chi et al. (2023)が分散減少仮説を提案Chi et al.の分散理論と比較して、本論文の隣接パターン仮説は:
より直感的な幾何学的解釈を提供 プローブ実験でより優れた性能を発揮 より広いモデル構成に適用可能 隣接パターンの普遍的存在 : 因果Transformerは第1層の注意後に自然に隣接パターンを形成する位置情報エンコーディング : 隣接埋め込みの高い類似性は位置再構築の可能性を提供メカニズム説明 : 平均化効果はパターン出現の理由を数学的に説明実用的価値 : コサイン類似度は埋め込み分散より位置特性として適しているデータセット制限 : 主に合成タスクで検証され、実データセットへの汎化性はさらなる研究が必要アーキテクチャ依存 : 結論は特定のTransformerアーキテクチャに基づき、他のバリアントの適用性は不明完全性の問題 : 隣接パターンと分散の両方ともタスク性能の100%を完全に説明できない大規模検証 : 実言語モデリングタスクで隣接パターンを検証メカニズム融合 : 隣接パターンと他の位置エンコーディング機構の結合を探究理論の完善 : より完全な位置情報表現理論フレームワークを構築革新的視点 : 幾何学的類似性の角度から位置情報を理解し、新しい理論的洞察を提供厳密な検証 : 複数のタスク、構成、分析方法を通じて仮説を包括的に検証数学的基礎 : 隣接パターン出現の理論的説明を提供実用的ツール : 隣接確率スコアは位置情報の定量化に有効な方法を提供タスク限定 : 合成タスクは実際のアプリケーションシナリオの複雑性を完全に反映できない可能性メカニズム不完全 : 既存理論がモデル性能を完全に説明できないことを認めている計算コスト : 自己コサイン類似度行列の計算は長いシーケンスでコストが高い可能性理論的貢献 : Transformerの位置表現を理解するための新しい視点を提供実践的指導 : 位置エンコーディングなしのモデル設計に理論的支援を提供研究への示唆 : Transformerの内部メカニズムを幾何学的角度から分析する新しい方向を開く軽量モデル : 位置エンコーディングパラメータを削減するモデル設計長シーケンス処理 : 位置エンコーディング制限を回避するシーケンスモデリングモデル分析 : Transformerの内部表現を理解およびデバッグ本論文は主に以下の重要な研究を参考にしている:
Haviv et al. (2022): 位置エンコーディングなし訓練の実現可能性を初めて証明 Chi et al. (2023): 分散減少の位置情報仮説を提案 Tsai et al. (2019): 注意機構の置換特性を分析 Vaswani et al. (2017): Transformer原論文 本研究は、Transformerが位置情報をどのように処理するかを理解するための重要な新しい視点を提供している。完全性においてなお不足があるが、その理論的洞察と実験的発見は、この分野のさらなる発展のための堅固な基礎を築いている。