2025-11-15T03:19:11.812499

QLENS: Towards A Quantum Perspective of Language Transformers

Gupta, Kaur, Gupta

In natural language processing, current methods for understanding Transformers are successful at identifying intermediate predictions during a model's inference. However, these approaches function as limited diagnostic checkpoints, lacking a mathematical framework for mechanistically modeling how each layer facilitates transitions between these evolving states. This interpretability gap and past successes of interdisciplinary outlooks inspire us to turn to physics in search of a descriptive mathematical framework for Transformers. We observe that language models are intrinsically probabilistic, an attribute that is echoed in the core postulates of quantum mechanics. This parallel inspires us to translate insights from this discipline to that of natural language processing. Towards this objective, we propose QLENS a novel attempt to develop a physics-based perspective on the Transformer generation process. Under QLENS, a Transformer is studied by converting its latent activations into a state vector in a Hilbert space derived from the model's output units. This state subsequently evolves through hidden layers - reformulated as unitary operators and analogously defined Hamiltonians - during inference. The model's final probability distribution is obtained by applying the Born rule to the end state using a specific measurement operator. To demonstrate QLENS's potential, we conduct a proof-of-concept by probing a toy Transformer to investigate the influence of individual layers in a model's prediction trajectory. We present our work as a foundation for cross-domain insights to be leveraged towards a broader understanding of Transformers.

academic

QLENS: 言語Transformerの量子的視点に向けて

基本情報

論文ID: 2510.11963
タイトル: QLENS: Towards A Quantum Perspective of Language Transformers
著者: Aditya Gupta (Issaquah High School)、Kirandeep Kaur、Vinayak Gupta (University of Washington)
分類: cs.LG (機械学習)
発表日: 2025年10月13日 (プレプリント)
論文リンク: https://arxiv.org/abs/2510.11963

要約

本論文は、量子力学の原理に基づいてTransformerモデルを理解するための新規フレームワークであるQLENSを提案している。従来のTransformer解釈可能性手法は推論過程における中間予測を識別できるが、各層がいかに状態遷移を促進するかを機械的にモデル化するための数学的フレームワークが欠けている。著者らは言語モデルが本質的に確率的であることに着目し、これが量子力学の核心的仮定と相呼応することを観察した。QLENSはTransformerの潜在活性化をヒルベルト空間の状態ベクトルに変換し、再定義されたユニタリ演算子とハミルトニアンを通じて隠れ層の進化過程を記述し、最終的にBorn規則と測定演算子により確率分布を得る。

研究背景と動機

問題定義

現在のTransformer解釈可能性手法（Logit LensやTuned Lensなど）は主に診断チェックポイントとして機能し、推論過程における中間予測状態を識別できるが、各層がいかに状態間の遷移を促進するかを記述する数学的フレームワークが欠けている。この解釈可能性のギャップは、Transformerの内部メカニズムに対する深い理解を制限している。

研究の重要性

Transformerの内部メカニズムを理解することは以下の点で重要である：

性能指標を超えたモデルの信頼性確保
モデルの予測軌跡と意思決定プロセスの分析
モデル改善のための理論的指導
AI システムの解釈可能性と透明性の向上

既存手法の限界

Logit Lens: バイアス問題が存在し、異なるモデルファミリー間での効果が不安定
Tuned Lens: バイアス問題は改善されたが、層間遷移を記述する数学モデルが依然不足
その他の手法: 特定の行動分析に限定されることが多く、包括的な理論フレームワークを提供できない

研究動機

著者らは学際的な成功事例に着想を得て、言語モデルの確率的本質が量子力学の核心的仮定と高度に類似していることを観察し、量子力学の数学的フレームワークをTransformer分析に適用することを提案した。

核心的貢献

理論的革新: 量子力学とTransformerの間に概念的類比を確立し、量子力学の仮定がNLP領域における対応関係を発見
フレームワーク提案: QLENSフレームワークを提案し、Transformer推論過程の端から端までの量子力学的類比を提供
実証的検証: 単純な感情分類Transformerの概念実証を通じて、QLENSが層級解釈における可能性を実証
理論的分析: QLENSの利点と限界を批判的に分析し、当該分野のさらなる探索の基礎を構築

方法の詳細

タスク定義

QLENSはTransformerの推論過程に対して量子力学に着想を得た数学的フレームワークを提供することを目的とし、具体的には以下を含む：

入力: 事前学習されたTransformerモデルと入力シーケンス
出力: 各層の状態ベクトル、ユニタリ演算子、ハミルトニアン、および対応する解釈可能性の洞察
制約: 元のTransformerの入出力との互換性を維持

QLENSフレームワークの6つの仮定

仮定1: ヒルベルト基底

Transformerの出力空間を正規直交ヒルベルト基底 $\mathcal{C} = \{|c_1\rangle, |c_2\rangle, ..., |c_N\rangle\}$ に変換する。ここで各基底ベクトルは出力ユニットに対応する。

仮定2: 基底ベクトルの直交性

異なる出力状態の区別可能性を確保する： $\langle c_i|c_j\rangle = \begin{cases} 0, & \text{for } i \neq j \\ 1, & \text{for } i = j \end{cases}$

仮定3: 状態ベクトル

モデル状態ベクトル $|\Psi^\ell\rangle$ を定義し、以下を満たす： $P(c_i) = |\langle c_i|\Psi^\ell\rangle|^2$ ここで $P(c_i)$ は出力ユニット $c_i$ の確率である。

仮定4: 層級進化とシュレーディンガー動力学

Transformerの層をユニタリ演算子としてモデル化する： $|\Psi^\ell\rangle = U^\ell |\Psi^{\ell-1}\rangle$

仮定5: ハミルトニアンレンズ

ハミルトニアン $H^\ell$ によってユニタリ演算子を生成する： $U^\ell = \exp(-i\alpha H^\ell)$ そして定理1を導出する：状態ベクトルの変化はハミルトニアンの固有値と固有ベクトルによって完全に決定される。

仮定6: 測定演算子

最終確率分布を抽出するための測定演算子 $M$ を定義し、その行列要素は以下の通り： $m_{kj} = j\delta_{kj}$

技術的革新点

確率分布の量子化表現: Transformerの確率出力を量子状態ベクトルにマッピング
層間遷移のユニタリ演算子モデル化: ユニタリ演算子を用いて層間の状態進化を記述し、確率保存を維持
ハミルトニアンの二重視点: 残差接続に対応する加法的視点を提供
Tuned Lensとの統合: Tuned Lensを利用して中間確率分布を状態ベクトルの基礎として抽出

実験設定

データセット

データソース: Sentihoodデータセット。ロンドンのコミュニティレビュー文5,212件を含む
前処理:
- 複数位置および複数側面インスタンスを削除
- 1,864インスタンスを保持（1,329ポジティブ、535ネガティブ）
- 1:1比率にバランス調整。最終的に1,070インスタンス
- 80:20で訓練テストセットに分割