Large Language Models (LLMs) have demonstrated impressive reasoning capabilities but continue to struggle with arithmetic tasks. Prior works largely focus on outputs or prompting strategies, leaving the open question of the internal structure through which models do arithmetic computation. In this work, we investigate whether LLMs encode operator precedence in their internal representations via the open-source instruction-tuned LLaMA 3.2-3B model. We constructed a dataset of arithmetic expressions with three operands and two operators, varying the order and placement of parentheses. Using this dataset, we trace whether intermediate results appear in the residual stream of the instruction-tuned LLaMA 3.2-3B model. We apply interpretability techniques such as logit lens, linear classification probes, and UMAP geometric visualization. Our results show that intermediate computations are present in the residual stream, particularly after MLP blocks. We also find that the model linearly encodes precedence in each operator's embeddings post attention layer. We introduce partial embedding swap, a technique that modifies operator precedence by exchanging high-impact embedding dimensions between operators.
- 論文ID: 2510.13908
- タイトル: Interpreting the Latent Structure of Operator Precedence in Language Models
- 著者: Dharunish Yugeswardeenoo, Harshil Nukala, Cole Blondin, Sean O'Brien, Vasu Sharma, Kevin Zhu
- 分類: cs.CL(計算言語学)
- 発表時期/会議: COLM 2025
- 論文リンク: https://arxiv.org/abs/2510.13908
大規模言語モデル(LLM)は推論能力において優れた性能を示していますが、算術タスクではいまだに困難を抱えています。先行研究は主に出力またはプロンプト戦略に焦点を当てており、モデルが算術計算を実行する内部構造を見落としていました。本研究は、オープンソースの指示調整LLaMA 3.2-3Bモデルを通じて、LLMがその内部表現に演算子優先度をエンコードしているかどうかを探究しています。研究は、3つのオペランドと2つの演算子を含む算術式データセットを構築し、演算順序と括弧の位置を変化させました。このデータセットを使用して、中間結果がモデルの残差流に現れるかどうかを追跡し、logit lens、線形分類プローブ、およびUMAP幾何学的可視化などの解釈可能性技術を適用しました。結果は、中間計算が残差流に存在し、特にMLPブロックの後に存在することを示しています。研究はまた、モデルが注意層後の演算子埋め込みに優先度情報を線形にエンコードしていることを発見しました。論文は部分埋め込み交換技術を導入し、演算子間の高影響力埋め込み次元を交換することで演算子優先度を修正します。
本研究が解決しようとしている中核的な問題は、大規模言語モデルが算術式を処理する際に、その内部表現に演算子優先度規則をどのようにエンコードしているかということです。具体的には、モデルが「1 + 1 × 2」のような式に直面したとき、数学的優先度規則に従って最初に乗算を計算するのか、それとも単に左から右の順序で処理するのかということです。
- 理論的意義:LLMの内部算術推論メカニズムを理解することは、機械学習の解釈可能性研究に重要な価値を持ちます
- 実用的価値:数学推論タスク、特に小規模モデルのパフォーマンスを改善します
- 方法論的貢献:ニューラルネットワークの内部表現を分析するための新しい技術手段を提供します
- ほとんどの研究は自然言語プロンプトと最終出力結果に焦点を当てています
- 演算子優先度処理と中間計算ステップの深い分析が不足しています
- モデル内部の算術計算構造の理解が不十分です
メカニズム的解釈可能性方法を通じて、LLMが内部で算術式をどのように処理するかを深く探究し、特に演算順序の処理メカニズムに焦点を当てます。
- 体系的な算術式データセットの構築:3つのオペランド、2つの演算子を含む式を構築し、構文的および意味的優先度を体系的にテストしました
- 中間計算の存在証拠の発見:logit lens技術を通じて、モデルが深層ネットワークで中間計算を実行していることを発見しました
- 演算子優先度の線形エンコーディングの解明:モデルが注意層後に演算子優先度情報を線形にエンコードしていることを証明しました
- 部分埋め込み交換技術の提案:高影響力埋め込み次元を交換することで演算子優先度を修正する新しい方法を提案しました
- 幾何学的可視化分析の提供:UMAPを通じて演算子表現の組織構造を示しました
入力:「a o1 b o2 c」のような3つのオペランドと2つの演算子を含む算術式
出力:式に対するモデルの計算結果
制約条件:
- オペランド a, b, c ∈ {1, 2, ..., 9}
- 演算子ペア(o1, o2)は混合優先度セットから:{(+, *), (-, *), (+, /), (-, /)}
- すべての計算結果は正の整数
各オペランドと演算子の組み合わせについて、6つの構造バリエーションを生成:
- 左括弧:(a o1 b) o2 c
- 右括弧:a o1 (b o2 c)
- 反転左括弧:(a o2 b) o1 c
- 反転右括弧:a o2 (b o1 c)
- 括弧なし(自然順序):a o1 b o2 c
- 括弧なし(反転):a o2 b o1 c
合計8,547個のプロンプトを生成し、そのうちモデルが正しく回答したのは4,401個です。
- 目的:中間計算が残差流に現れるかどうかを追跡する
- 方法:各層の残差流をunembedding行列を通じて語彙表上に投影してlogitsを取得
- 分析:top-10トークンに期待される中間結果が含まれているかどうかを確認
- 中間計算プローブ:モデルの活性化から中間値を直接予測するための線形プローブを訓練
- 優先度プローブ:ロジスティック回帰分類器を使用して演算子の計算順序(最初または2番目に計算)を予測
アルゴリズムフロー:
- 影響力次元の識別:「+」と「*」演算子の隠れ表現の各次元を個別に交換
- 摂動効果の測定:交換により、モデルの予測が正解(例:23)から誤解(例:35)に変わる場合、その次元は優先度情報をエンコードしています
- ソートと選択:次元を影響力でソートし、予測を変更するために必要な最小次元部分集合を決定
- 演算子トークンの活性化ベクトルを低次元空間に投影
- ラベル形式:[位置][演算子]優先度、例えば「1m2」は乗算記号が式内の位置1にあるが計算優先度が2であることを示します
28層のtransformer構造を持つオープンソースの指示調整LLaMA 3.2-3Bモデルを使用しました。
- 総プロンプト数:8,547個
- モデルが正しく回答:4,401個(51.5%)
- モデルが正しく予測できたサンプルのみを分析に使用
- 中間計算検出率:中間結果がtop logitsに現れる比率
- 線形プローブ精度:R²スコアと分類精度
- 優先度交換成功率:モデルの予測を成功裏に変更したケースの比率
- 検出率:4,401個のプロンプト中、2,799回(63.6%)中間計算がtop logitに現れることを検出
- 出現層:主に第16~27層、ピークは第18~19層
- 主要コンポーネント:MLPブロックが中間logitを導入する主要コンポーネントであり、注意ブロックではありません
- 線形プローブは第0層後から高精度で中間計算を予測可能(高いR²スコア)
- 優先度分類プローブはテストセットで100%の精度を達成
- 注意メカニズムは演算子優先度の線形デコード可能性を著しく強化
- 複数のインスタンスで特定の次元を交換することにより、モデルの最高logit予測を成功裏に変更
- 演算子優先度情報が特定の埋め込み次元に疎らに局所化されていることを証明
UMAP可視化は以下を示しています:
- 注意前後の演算子埋め込みに明らかな分離が発生
- 同じ位置と優先度の演算子が一緒に集まる
- 注意メカニズムが演算子優先度情報をエンコード
| 指標 | 数値 |
|---|
| 中間計算検出率 | 63.6% (2,799/4,401) |
| 優先度プローブ精度 | 100% |
| 主要検出層範囲 | 16~27層 |
| 検出ピーク層 | 18~19層 |
- Mirzadeh et al. (2024)およびBubeck et al. (2023)はLLMの算術タスクにおける継続的な困難を指摘
- Lewkowycz et al. (2022)は思考の連鎖推論などのプロンプト戦略を探究
- Boye & Moell (2025)は複数モデルの算術計算を評価し、頻繁な矛盾を発見
- Zhang et al. (2024)はLLMの算術タスクにおける内部構造を研究
- Stolfo et al. (2023)は因果中介フレームワークを採用して算術予測の内部コンポーネント寄与を追跡
- Nainani et al. (2024)は特定のタスクのモデル動作を説明するための「回路」概念を提案
- nostalgebraist (2020) logit lens技術を提案
- Alain & Bengio (2018)線形プローブ方法を開発
- McInnes et al. (2020) UMAP次元削減技術を開発
- 中間計算は確かに存在:LLaMA 3.2-3Bモデルは内部で中間計算を実行し、これらの情報は深層ネットワークで線形デコード可能になります
- 優先度の線形エンコーディング:演算子優先度情報は注意層後に特定の埋め込み次元に線形にエンコードされます
- MLPの重要な役割:MLPブロックが注意ブロックではなく、中間計算結果を生成する責任があります
- 幾何学的組織構造:モデルは演算子の位置と計算優先度に基づいて演算子表現を組織します
- モデル規模の制限:3Bパラメータのみを持つLLaMAモデルでのみ実験を実施し、結果はより大規模なモデルに適用できない可能性があります
- タスク複雑度:3つのオペランド、2つの演算子の単純な式のみを考慮
- 演算子タイプ:基本的な四則演算のみを含み、より複雑な数学演算は含まれていません
- 成功率の制限:モデルは約51.5%の算術問題のみを正しく回答できます
- より大規模な言語モデルへの拡張
- より複雑な数学式と演算タイプの研究
- 他の数学概念(関数、方程式など)の内部表現の探究
- これらの発見に基づくモデル改善方法の開発
- 方法の革新性:部分埋め込み交換は新規で効果的な干渉技術です
- 実験の包括性:複数の解釈可能性技術(logit lens、線形プローブ、UMAP、干渉実験)を組み合わせています
- 発見の重要性:LLMの内部演算子優先度エンコーディングメカニズムを初めて体系的に証明しました
- 技術的厳密性:実験設計が合理的で、モデルが正しく回答できたサンプルのみを分析に使用しています
- 規模の制限:実験は3Bパラメータモデルのみに限定され、汎化性は検証が必要です
- タスク簡略化:算術式は比較的単純で、実際の応用における複雑性は十分に考慮されていません
- 理論的深さ:これらのメカニズムが出現する理由についての理論的説明が不足しています
- 実用性:重要な洞察を提供していますが、これらの発見を利用してモデルパフォーマンスを改善する方法はまだ明確ではありません
- 学術的価値:LLMの算術推論メカニズムの理解に重要な貢献を提供
- 方法論的意義:部分埋め込み交換技術は他のタスクの分析に適用可能
- 実用的可能性:小規模モデルの算術能力を改善するための方向を提供
- 再現可能性:オープンソースモデルを使用し、実験は比較的容易に再現可能
- モデル分析:他の言語モデルの内部メカニズム分析に適用可能
- 教育応用:AIが数学概念をどのように処理するかを理解するのに役立ちます
- モデル改善:より優れた算術推論モデルの開発に指導を提供
- 解釈可能性研究:他の認知タスクのメカニズム的分析に方法論的参考を提供
本論文はメカニズム的解釈可能性、算術推論、ニューラルネットワーク分析分野の重要な文献を引用しており、以下を含みます:
- nostalgebraist (2020) - Logit lens技術
- Alain & Bengio (2018) - 線形プローブ方法
- Zhang et al. (2024) - LLMの算術推論の内部構造
- Stolfo et al. (2023) - 因果中介分析フレームワーク
- McInnes et al. (2020) - UMAP次元削減技術
本研究は、大規模言語モデルの内部算術推論メカニズム、特に演算子優先度処理に関する重要な洞察を提供しています。いくつかの限界がありますが、その方法の革新性と発見の重要性により、メカニズム的解釈可能性分野への価値ある貢献となっています。