The extraordinary success of recent Large Language Models (LLMs) on a diverse array of tasks has led to an explosion of scientific and philosophical theorizing aimed at explaining how they do what they do. Unfortunately, disagreement over fundamental theoretical issues has led to stalemate, with entrenched camps of LLM optimists and pessimists often committed to very different views of how these systems work. Overcoming stalemate requires agreement on fundamental questions, and the goal of this paper is to address one such question, namely: is LLM behavior driven partly by representation-based information processing of the sort implicated in biological cognition, or is it driven entirely by processes of memorization and stochastic table look-up? This is a question about what kind of algorithm LLMs implement, and the answer carries serious implications for higher level questions about whether these systems have beliefs, intentions, concepts, knowledge, and understanding. I argue that LLM behavior is partially driven by representation-based information processing, and then I describe and defend a series of practical techniques for investigating these representations and developing explanations on their basis. The resulting account provides a groundwork for future theorizing about language models and their successors.
academic- 論文ID: 2501.00885
- タイトル: Representation in large language models
- 著者: Cameron C. Yetman(トロント大学)
- 分類: cs.CL cs.AI cs.LG
- 発表日: 2025年1月1日(ドラフト版)
- 論文リンク: https://arxiv.org/abs/2501.00885
大規模言語モデル(LLMs)が様々なタスクで優れた成功を収めていることから、その動作原理を説明することを目的とした多くの科学的および哲学的理論化が生まれています。しかし、基本的な理論的問題についての見解の相違は膠着状態をもたらし、LLM楽観主義者と悲観主義者の対立する陣営は、これらのシステムの動作方法について大きく異なる見方を持つことが多いです。膠着状態を打開するには、基本的な問題について合意に達する必要があります。本論文の目的は、その根本的な問題の一つに対処することです。すなわち、LLMの行動は生物認知における表現ベースの情報処理に類似したメカニズムによって部分的に駆動されているのか、それとも完全にメモ化とランダムテーブルルックアッププロセスによって駆動されているのかということです。これはLLMsがどのようなアルゴリズムを実装しているかについての問題であり、その答えは、これらのシステムが信念、意図、概念、知識、および理解を持つかどうかなど、より高次の問題に重要な影響を与えます。著者はLLMの行動が部分的に表現ベースの情報処理によって駆動されていると主張し、これらの表現を研究し、その上に解釈を発展させるための一連の実用的な技術を説明および擁護しています。
本研究が解決しようとする中心的な問題は以下の通りです:大規模言語モデルの行動は表現ベースの情報処理によって駆動されているのか、それとも完全にメモ化とランダムテーブルルックアップに依存しているのか?
- 理論的相違の調和:現在のLLM研究分野には深刻な理論的相違が存在し、楽観派はLLMsが認知的能力を持つと考え、悲観派はそれらが単なる複雑なパターンマッチングシステムに過ぎないと考えています
- 認知科学的基礎:この問題はLLMsが認知モデルとして使用できるかどうか、およびそれ自体が認知システムであるかどうかに直接関連しています
- 高次能力の基礎:答えはLLMsが信念、意図、概念、知識、および理解などの高次認知能力を持つかどうかについての判断に影響を与えます
- 用語の乱用:機械学習の実践では「表現」という用語が過度に広く使用されており、理論的価値を失っています
- 行動指向の限界:行動表現のみから表現の存在を判断することには根本的な不確実性があります
- 体系的方法の欠如:LLMsにおける表現を特定および検証するための体系的な方法が不足しています
著者は、この基本的な問題を解決することが現在の理論的膠着状態を打開し、将来のLLM理論化のための堅固な基礎を提供するために重要であると考えています。
- 表現の四条件特性化の提案:「表現」概念に実質的で操作可能な定義を提供し、情報(INFORMATION)、利用可能性(EXPLOITABILITY)、行動(BEHAVIOR)、および役割(ROLE)の四つの条件を含みます
- ルックアップテーブル解釈の反駁:Othello-GPTと色空間モデルなどのケーススタディを通じて、LLMsが有限状態オートマトンまたはルックアップテーブルのみでは説明できないことを証明しています
- 機械的解釈可能性フレームワークの確立:プロービング(probing)と介入(intervention)技術を使用して表現の存在を検証する方法を体系的に説明しています
- 実用的な研究方法の提供:LLM表現の研究のための具体的な技術ツールと方法論的ガイダンスを提供しています
著者は表現の操作的定義を提案しており、システムSが特徴zに対して表現Rを持つ場合、以下の四つの条件を満たす場合に限ります:
REPRESENTATION
- INFORMATION: Rはzに関する情報を保持しています
- EXPLOITABILITY: Rが保持するzに関する情報はSにとって利用可能です
- BEHAVIOR: SはRが保持するzに関する情報を利用して、堅牢なz関連行動を生成することができます
- ROLE: RはSの堅牢なz関連行動を駆動するメカニズムにおいて因果的役割を果たしています
- 情報条件(INFORMATION)
- 相互情報量を使用した定義:I(X,Y)=H(X)−H(X∣Y)
- I(R,z)>0の場合に条件を満たします
- 情報関係は因果的生成による相関または構造的対応を通じて確立できます
- 利用可能性条件(EXPLOITABILITY)
- SはRの活性化に基づいて内容関連的な方法でz関連行動を調整できる必要があります
- Rのテストと介入を通じて検証されます
- 行動条件(BEHAVIOR)
- 「堅牢」とは周囲の条件への軽微な摂動に対して不敏感であることを意味します
- 表現は堅牢な行動を可能にしますが、適切なアルゴリズムに組み込まれる必要があります
- 役割条件(ROLE)
- Rは行動を駆動するメカニズムにおいて因果的役割を果たす必要があります
- 汎表現主義の問題を回避します
著者はLLMsをルックアップテーブルと見なす見方を分析しています:
- 有限状態オートマトン観点:LLMsは大規模ルックアップテーブルをエンコードする有限状態オートマトンと見なされます
- 非生産的特性:ルックアップテーブルシステムは特性的に非生産的です—「既に入力された内容のみを返すことができます」
- 反論証拠:
- Othello-GPT:ゲームツリーの25%が欠落しているデータで訓練されても、完全なデータセット上で99.98%の合法的な移動率を達成しています
- 色空間モデル:回転した色エンコーディングペアでの性能は元のデータと同等です(36% vs 34% Top-3精度)
実験設計:
- 数百万のオセロゲーム記録でGPTモデルを訓練
- 記録には移動シーケンスのみが含まれ、ゲームルールまたはボード属性情報は含まれていません
- 対照群:完全なデータセットで訓練
- 実験群:ゲームツリーの25%が欠落している傾斜データセットで訓練
結果:
- 対照群:99.99%の合法的な移動成功率
- 実験群:99.98%の合法的な移動成功率
- 主要な発見:モデルは見たことのないボード構成でも成功し、単純なルックアップテーブルではないことを示しています
実験設計:
- 事前訓練されたGPTを使用して色と空間領域の構造属性推論をテスト
- 文脈内学習パラダイム:60個の訓練サンプル
- 対照群:RGBコードと色名のペアリングの限定的なスペクトル部分
- 実験群:構造関係を保持する「回転」条件の体系的配列
結果:
- 対照群:34% Top-3精度
- 回転群:36% Top-3精度
- 主要な発見:構造関係は保持されているが具体的なペアリングが完全に新しい場合でも同等の性能を示しています
- 小型線形MLPをプローブとして使用
- ターゲットネットワークの隠れ層活性化から特定の情報をデコード
- INFORMATION条件とEXPLOITABILITY条件を検証
- 活性化修正:特定の活性化値を修正して行動の変化を観察
- 特徴ガイダンス:特定の特徴を異常に高い/低い値に固定
- BEHAVIOR条件とROLE条件を検証
Othello-GPT検証結果:
- 線形プロービングはボード状態を成功裏に分類します(「私の」/「あなたの」/「空」)
- 活性化介入(コマの状態を反転)により、モデルの予測は修正されたボード状態と一致します
Claude 3 Sonnet検証結果:
- スパース自動エンコーダを使用して解釈可能な特徴を特定します(ゴールデンゲートブリッジ、脳科学など)
- 特徴ガイダンス実験:ゴールデンゲートブリッジ特徴を10倍活性化すると、モデルはその橋について言及します
- 認知科学の伝統:Fodor (1975)、Sterelny (1991)、Shea (2018)などによって確立された表現理論の基礎
- 計算階層:Marr (1982)のアルゴリズム階層分析フレームワークに基づいています
- 表現学習:Bengio et al. (2014)の表現学習フレームワーク
- 用語一般化の問題:Ramsey (2017)が指摘した「表現」概念の一般化問題
- 回路分析:Elhage et al. (2021)、Dunefsky et al. (2024)の計算パス分析
- 因果抽象化:Geiger et al. (2021)の因果モデル整列方法
- 機械的解釈可能性:Olah et al. (2018, 2020)によって確立されたMI研究の伝統
- LLMsは実質的な表現を持つ:特定の状況下では、LLMの行動は四条件定義を満たす表現によって駆動されます
- ルックアップテーブル解釈は不十分:純粋なメモ化とルックアップテーブルではLLMsの汎化能力を説明できません
- 機械的解釈可能性方法は有効:プロービングと介入技術はLLM表現を研究するための実行可能な手段を提供します
- 条件適用の文脈依存性:表現の堅牢性評価は特定のタスクと環境に依存しています
- 内容決定問題は未解決:表現の内容がどのように決定されるかについての問題は体系的に解決されていません
- 高次認知能力は未定:LLMsが信念、知識、理解などを持つかどうかについては直接的に解決されていません
- 体系的表現マップの構築:LLMsがいつ表現に依存することが予想されるのか対その他のメカニズムについての体系的な説明を確立する
- 内容決定理論:LLM表現の内容決定のための理論的フレームワークを開発する
- 認知能力評価:表現分析に基づくLLMsの高次認知能力の評価
- 理論的貢献が顕著:厳密な表現定義を提供し、重要な理論的空白を埋めています
- 方法論的革新:認知科学の表現理論と機械学習の解釈可能性技術を有機的に統合しています
- 実証的証拠が充分:複数のケーススタディと技術検証を通じて中心的な主張を支持しています
- 執筆が明確で厳密:論証ロジックが明確で、技術的詳細の説明が正確です
- ケースの限定性:主に少数のケースに基づいており、より広範な検証が必要です
- 堅牢性基準の曖昧性:「堅牢な行動」の定義は依然として相対的に主観的です
- 実用性の課題:提案された方法の大規模LLMsへの適用は依然として技術的課題に直面しています
- 理論的影響:LLM認知能力研究に重要な理論的基礎を提供します
- 方法的影響:LLM研究における機械的解釈可能性の適用を推進します
- 実践的価値:AI安全性と解釈可能性研究に新しいツールを提供します
- LLM能力評価:特定のLLMが真の認知能力を持つかどうかを評価する
- モデル改善:表現分析に基づいてモデルアーキテクチャと訓練方法を改善する
- AI安全研究:LLMの内部メカニズムを理解してシステム安全性を向上させる
論文は豊富な学際的文献を引用しており、主に以下を含みます:
- 認知科学基礎文献:Fodor (1975)、Marr (1982)、Shea (2018)
- 機械学習解釈可能性:Olah et al. (2018)、Elhage et al. (2021)
- LLM批判的研究:Bender & Koller (2020)、Marcus & Davis (2020)
- 技術方法文献:Li et al. (2023)、Templeton et al. (2024)
要約:本論文はLLM表現研究分野において重要な理論的および方法論的貢献を行っています。厳密な概念分析、実証研究、および技術的革新を通じて、LLMの内部メカニズムを理解するための新しい視点を提供しています。いくつかの限界は依然として存在しますが、将来のLLM認知能力研究のための堅固な基礎を確立しています。