2025-11-14T08:19:11.556995

Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings

Zuo, Guerzhoy, Guerzhoy

Transformers with causal attention can solve tasks that require positional information without using positional encodings. In this work, we propose and investigate a new hypothesis about how positional information can be stored without using explicit positional encoding. We observe that nearby embeddings are more similar to each other than faraway embeddings, allowing the transformer to potentially reconstruct the positions of tokens. We show that this pattern can occur in both the trained and the randomly initialized Transformer models with causal attention and no positional encodings over a common range of hyperparameters.

academic

因果Transformerにおける位置情報は位置エンコーディングなしで隣接埋め込みの類似性を通じて出現する

基本情報

論文ID: 2501.00073
タイトル: Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings
著者: Chunsheng Zuo (Johns Hopkins University)、Pavel Guerzhoy (University of Hawai'i at Mānoa)、Michael Guerzhoy (University of Toronto)
分類: cs.CL (計算言語学)、cs.LG (機械学習)
発表日: 2024年12月30日
論文リンク: https://arxiv.org/abs/2501.00073

要約

本研究は、因果注意機構を備えたTransformerが位置エンコーディングを使用せずに位置情報を必要とするタスクをどのように解決するかを探究している。著者は、位置情報が隣接する埋め込みベクトル間の類似性を通じて保存されるという新しい仮説を提案し検証した。研究により、隣接する埋め込みベクトルはより遠い埋め込みベクトルよりも高い類似性を示し、これによってTransformerはトークンの位置情報を再構築できることが明らかになった。このパターンは、訓練後および無作為初期化された因果Transformerモデルの両方で観察される。

研究背景と動機

問題定義

従来の見方では、Transformerはシーケンス内のトークンの位置情報を処理するために明示的な位置エンコーディングが必要とされていた。しかし、最近の研究(Haviv et al. 2022; Kazemnejad et al. 2024; Chi et al. 2023)は、因果注意のみを使用するデコーダのみのTransformerが位置エンコーディングなしで位置情報を学習できることを示唆している。

研究動機

理論的ギャップ: 因果Transformerが位置情報をどのように保存するかについての深い理解が不足している
メカニズムの探究: Chi et al. (2023)は位置情報が埋め込み分散に保存されていると提案しているが、この説明は十分ではない可能性がある
新しい視点の必要性: 位置情報の表現メカニズムを理解するための新しい視点が必要である

既存手法の限界

非因果注意機構は入力トークンの順列に対して置換不変性を持ち、位置情報を処理できない
Chiらの分散理論は一部の実験で性能が低く、観察された現象を完全に説明できない

核心的貢献

隣接パターン仮説の提案: 隣接位置の埋め込みベクトルがより高いコサイン類似度を持ち、「隣接パターン」を形成することを発見
理論分析: 因果注意の第1層で隣接パターンが出現する理由を数学的に説明
広範な実験検証: 複数のタスク、モデル構成、初期化スキーム下で隣接パターンの存在を検証
定量評価方法: 隣接確率スコア(adjacency probability score)を提案して位置情報の強度を定量化
対比分析: プローブ実験を通じて、コサイン類似度が埋め込み分散よりも位置情報をより効果的にエンコードすることを証明

方法の詳細

タスク定義

明示的な位置エンコーディングなしで、因果Transformerが位置情報をどのように表現し利用するかを研究し、埋め込みベクト間の類似性パターンに焦点を当てる。

核心概念

自己コサイン類似度行列

長さn、次元dのトークン埋め込みシーケンスX ∈ R^(n×d)に対して、自己コサイン類似度行列Cは以下のように定義される:

C_ij = cos θ(X_i, X_j) = (X_i · X_j) / (||X_i|| ||X_j||)

隣接パターン(Adjacency Pattern)

隣接パターンとは、自己コサイン類似度行列が対角線付近で高い値を示し、対角線から遠い場所で低い値を示す特性を指し、隣接位置の埋め込みベクトルがより類似していることを示す。

隣接確率スコア

隣接パターンの強度を定量化するため、著者は隣接確率スコアを提案した:

第k行に対して、行レベルの隣接確率スコアは以下のように定義される:

P_Adjacency = P(C_ki < C_kj if i < j) = 1/C(k,2) * Σ I(C_ki < C_kj)

行列全体の隣接確率スコアはすべての行の平均値である。

理論分析

平均化効果

第1層では、位置kの埋め込みは前k-1個の埋め込みの線形結合を通じて計算される:

位置k+tの埋め込み: Σ(i=1 to k+t) α_i * e_i
位置k+t+1の埋め込み: Σ(i=1 to k+t+1) β_i * e_i

隣接位置はより多くの入力埋め込みを共有するため、それらの内積の差は正である:

(Σ α_i * v_i) · (Σ β_i * v_i) - (Σ α_i * v_i) · (Σ β'_i * v_i) > 0

これは隣接パターンの出現を数学的に説明している。

実験設定

データセットとタスク

著者は位置情報を必要とする4つの合成タスクを設計した:

加算タスク(Addition): 「123+456=」の答えを生成、入力長最大9
反転タスク(Reversal): 「rev(1234)=」に対して「4321」を生成、入力長最大22
インデックスタスク(Indexing): 「wherex(134504392,4)=」に対して最初の出現位置「2」を出力、入力長最大20
ソートタスク(Ordering): 元のシーケンスと並べ替えられたシーケンスが与えられた場合、新しいインデックス順序を出力、入力長最大18

モデル構成

基本モデル: 6層NanoGPT、1060万パラメータ
バリアント構成: 6/12/24層、192/384/768隠れ次元
初期化: デフォルトN(0, 0.02)、異なる平均と分散をテスト
訓練設定: 各タスク20000訓練サンプルと20000テストサンプル、5つのランダムシード

評価指標

隣接確率スコア: 隣接パターンの強度を定量化
タスク精度: 各タスクでのモデルの性能
プローブ実験: 4層MLPを使用して位置情報をプローブ、NRMSEとPearson-Rを評価

実験結果

主要な発見

1. 隣接パターンの普遍的存在

トークン埋め込み層では、隣接確率スコアは約0.5(ランダムレベル)
第1層の因果注意後、スコアは0.8-1.0に跳躍
このパターンは訓練前後、異なるタスク、モデル構成下で安定している

2. 層別分析結果

層	初期化モデル	訓練後モデル
埋め込み層	0.48	0.54
第1層	0.98	0.89
第2層	0.99	0.97
第3層	0.99	0.98
第6層	0.99	0.82

3. ハイパーパラメータ感度

層数の影響: 6-24層モデルはすべて隣接パターンを示す
次元の影響: 192-768次元構成はすべてパターンを維持
初期化の影響: 標準初期化スキーム(σ ≤ 0.02)下でパターンは安定

アブレーション実験

初期化スキームのテスト

異なる平均(μ ∈ {0,4,8})と標準偏差(σ ∈ {0.002,0.02,0.2})をテスト:

小分散(σ ≤ 0.02): 隣接パターンは安定
大分散(σ = 0.2): パターンは消失
大平均はパターンに大きな影響を与えない

分散理論との対比

コサイン類似度と埋め込み分散を位置特性として比較するプローブ実験:

特性タイプ	Pearson-R	NRMSE
埋め込みベクトル	0.71	0.20
埋め込み分散	0.49	0.23
コサイン類似度	0.93	0.11

ケース分析

図1は反転タスクにおける自己コサイン類似度行列の可視化を示している:

初期化モデル: 第1層から明確な対角線パターンが出現
訓練後モデル: 前数層は強い隣接パターンを維持し、後層は徐々に減弱

結論と考察

主要な結論

隣接パターンの普遍的存在: 因果Transformerは第1層の注意後に自然に隣接パターンを形成する
位置情報エンコーディング: 隣接埋め込みの高い類似性は位置再構築の可能性を提供
メカニズム説明: 平均化効果はパターン出現の理由を数学的に説明
実用的価値: コサイン類似度は埋め込み分散より位置特性として適している

限界

データセット制限: 主に合成タスクで検証され、実データセットへの汎化性はさらなる研究が必要
アーキテクチャ依存: 結論は特定のTransformerアーキテクチャに基づき、他のバリアントの適用性は不明
完全性の問題: 隣接パターンと分散の両方ともタスク性能の100%を完全に説明できない

今後の方向

大規模検証: 実言語モデリングタスクで隣接パターンを検証
メカニズム融合: 隣接パターンと他の位置エンコーディング機構の結合を探究
理論の完善: より完全な位置情報表現理論フレームワークを構築

深い評価

利点

革新的視点: 幾何学的類似性の角度から位置情報を理解し、新しい理論的洞察を提供
厳密な検証: 複数のタスク、構成、分析方法を通じて仮説を包括的に検証
数学的基礎: 隣接パターン出現の理論的説明を提供
実用的ツール: 隣接確率スコアは位置情報の定量化に有効な方法を提供

不足点

タスク限定: 合成タスクは実際のアプリケーションシナリオの複雑性を完全に反映できない可能性
メカニズム不完全: 既存理論がモデル性能を完全に説明できないことを認めている
計算コスト: 自己コサイン類似度行列の計算は長いシーケンスでコストが高い可能性

影響力

理論的貢献: Transformerの位置表現を理解するための新しい視点を提供
実践的指導: 位置エンコーディングなしのモデル設計に理論的支援を提供
研究への示唆: Transformerの内部メカニズムを幾何学的角度から分析する新しい方向を開く

適用シーン

軽量モデル: 位置エンコーディングパラメータを削減するモデル設計
長シーケンス処理: 位置エンコーディング制限を回避するシーケンスモデリング
モデル分析: Transformerの内部表現を理解およびデバッグ

参考文献

本論文は主に以下の重要な研究を参考にしている:

Haviv et al. (2022): 位置エンコーディングなし訓練の実現可能性を初めて証明
Chi et al. (2023): 分散減少の位置情報仮説を提案
Tsai et al. (2019): 注意機構の置換特性を分析
Vaswani et al. (2017): Transformer原論文

本研究は、Transformerが位置情報をどのように処理するかを理解するための重要な新しい視点を提供している。完全性においてなお不足があるが、その理論的洞察と実験的発見は、この分野のさらなる発展のための堅固な基礎を築いている。