State Space Models (SSMs) have become the leading alternative to Transformers for sequence modeling. Their primary advantage is efficiency in long-context and long-form generation, enabled by fixed-size memory and linear scaling of computational complexity. We begin this work by showing a simple theoretical result stating that SSMs cannot accurately solve any ``truly long-form'' generation problem (in a sense we formally define), undermining their main competitive advantage. However, we show that this limitation can be mitigated by allowing SSMs interactive access to external tools. In fact, we show that given the right choice of tool access and problem-dependent training data, SSMs can learn to solve any tractable problem and generalize to arbitrary problem length/complexity (i.e., achieve length generalization). Following our theoretical finding, we demonstrate that tool-augmented SSMs achieve remarkable length generalization on a variety of arithmetic, reasoning, and coding tasks. These findings highlight SSMs as a potential efficient alternative to Transformers in interactive tool-based and agentic settings.
academic- 論文ID: 2510.14826
- タイトル: To Infinity and Beyond: Tool-Use Unlocks Length Generalization in State Space Models
- 著者: Eran Malach, Omid Saremi, Sinead Williamson, Arwen Bradley, Aryo Lotfi, Emmanuel Abbe, Josh Susskind, Etai Littwin
- 機関: Apple
- 分類: cs.LG
- 発表日: 2025年10月17日
- 論文リンク: https://arxiv.org/abs/2510.14826
状態空間モデル(SSM)は、シーケンスモデリングにおけるTransformerの主要な代替案として台頭しており、固定サイズのメモリと線形計算複雑度を通じて長コンテキストと長シーケンス生成の効率性を実現することが主な利点である。本論文は、SSMが正式に定義された意味での「真の長シーケンス」生成問題を正確に解決できないことを証明する単純な理論的結果を最初に提示し、その主要な競争上の利点を弱める。しかし、この制限はSSMに対話的な外部ツールアクセスを提供することで緩和できることが示されている。実際、ツールアクセスと問題関連の訓練データの適切な選択の下では、SSMは任意の問題の長さ/複雑度に汎化して任意の処理可能な問題を解決することを学習できる。理論的発見に基づいて、著者らは、ツール強化されたSSMが様々な算術、推論、およびプログラミングタスクにおいて顕著な長さ汎化能力を実現することを実証している。
- Transformerの計算ボトルネック: Transformerは注意機構のため、計算複雑度はシーケンス長に対して二次的に増加し、メモリは長さに対して線形に増加する。これは長コンテキストと長シーケンス生成タスクにおいて主要な制限となる。
- SSMの台頭: この問題を解決するため、研究者らは線形Transformerや状態空間モデル(SSM)を含む様々な代替アーキテクチャを提案した。Mamba、DeltaNetなどがこれに該当し、これらのアーキテクチャは固定メモリと線形計算複雑度を実現している。
- SSMの制限: SSMは効率性において利点を持つにもかかわらず、長シーケンスメモリとコンテキスト学習を必要とするタスクにおいて顕著な制限が存在することが指摘されている。
著者らは、特に出力長が問題複雑度とともに増加するタスクにおいて、長シーケンス生成タスクにおけるSSMの能力と制限を理解することを目指している。これらはSSMがTransformerと比較して明らかな推論効率の利点を示すタスクの種類である。
- 理論的負の結果: SSMが「真の長シーケンス生成問題」を解決できないことを証明した。これは任意の長さの思考の連鎖(CoT)生成を許可する場合でも成立する。
- ツール使用の理論的枠組み: ReActエージェントを研究するための新しい理論的枠組みを導入し、対話的なツール使用がSSMの能力を大幅に強化できることを証明した。
- 長さ汎化の充分性定理: 適切なツールアクセスと特定の訓練データを備えたSSMが、任意の処理可能な長シーケンス生成タスクにおいて長さ汎化を実現できることを証明した。
- 実験的検証: 算術、論理推論、およびプログラミングタスクにおいて、ツール強化SSMの優れた長さ汎化能力を実証した。
長シーケンス生成タスクの正式な定義:
- Σを語彙表とし、X₁,X₂,...およびY₁,Y₂,...をそれぞれ入力と出力空間シーケンスとする
- D₁,D₂,...を分布シーケンスとし、DₙはXₙ上の分布である
- f: Σ* → Σ*を真の関数とし、f(Xₙ) ⊆ Yₙを満たす
定義2.2: (f, {Dₙ})をカバレッジαの長シーケンス生成タスクと呼ぶ。当且つつのみ、suppₐ(f(Dₙ))がnに対して単調増加し、limₙ→∞ suppₐ(f(Dₙ)) = ∞である場合。
定義: GSSMは以下の要素で定義される:
- 状態空間S(有限集合)
- 初期状態s₀ ∈ S
- 更新規則u: S × Σ → S
- 出力規則r: S → Δ(Σ)
ツール使用設定:
- CoTのみ: 思考と出力トークンのみを許可
- 単一ラウンドツール使用: 単一のツール呼び出しを許可
- 対話的ツール使用: 任意回数のツール呼び出しと自由な交差を許可
定理2.1(負の結果): カバレッジαの任意の長シーケンス生成タスクfに対して、問題複雑度n₀が存在し、すべてのn ≥ n₀に対して、CoTのみまたは単一ラウンドツール使用のいかなるGSSM hも以下の誤り率を持つ:
errₙ(h) ≥ 1-α
定理2.2(正の結果): メモリツールオラクルOと単純なGSSM学習アルゴリズムAが存在し、任意の計算可能な長シーケンス生成タスクfに対して、訓練分布シーケンス{Pₙ}が存在し、Aが対話的設定で長さ汎化を実現する。
- メモリツール設計: 外部メモリへの読み取り/書き込みアクセスを提供するポインタベースのツール。チューリングマシン操作をシミュレートできる。
- 対話的訓練パラダイム: ツール使用軌跡を含む訓練データを構築することにより、SSMが外部メモリを活用して内部メモリの制限を突破することを学習させる。
- アルゴリズム軌跡生成: 様々なタスク(加算、乗算、論理推論など)に対して、必要なアルゴリズムを正確にシミュレートする合成ツール使用軌跡を設計する。
- 算術タスク: 多桁加算と乗算。訓練長は最大5-10桁、テストは最大1000桁
- ハノイの塔: 訓練は最大8枚のディスク、テストは最大12枚のディスク
- 論理グラフ推論: 訓練は最大10ノード、テストは最大1000ノード
- コード修復: 訓練は最大16個の関数を持つコードベース、テストはより大規模
- SSM: Mamba-130M/1.4B、LSTM、GRU
- Transformer: Pythia-160M/1.4B、Mistral(スライディングウィンドウ注意)
- すべてのモデルは同等の規模(~130Mパラメータ)
- ポインタベースメモリ: 初期化、移動、読み取り操作をサポート
- 検索ツール: コンテキスト内のパターン検索をサポート
- Bashコマンド: コード修復タスクのファイル操作に使用
算術タスクの性能:
- Mambaは5桁訓練後、1000桁加算を完璧に実行(100%精度)
- 乗算タスク: 10桁×1桁訓練 → 1000桁×1桁テスト(100%精度)
- Transformerモデルはほぼ訓練長を超えて汎化できない
推論タスクの性能:
- 論理グラフ推論: 10ノード訓練 → 1000ノードテスト(98%精度)
- ハノイの塔: 8枚訓練 → 12枚テスト(49%精度、指数関数的出力長増加)
コード修復タスク:
- 対話的エージェント訓練の下で、Mambaは大規模コードベースでより良い性能を維持
- Transformerは小規模コードベースでより良い性能を示すが、より大規模へ汎化できない
主要な発見:
- CoTまたはツール使用を削除すると、長さ汎化能力がほぼ完全に失われる
- 単一ラウンドツール使用の効果は限定的であり、対話的使用が重要
- タスク混合訓練は限定的な予算下で汎化を改善できる
- アーキテクチャの利点: SSM/RNNはツール強化設定下でTransformerを大幅に上回る
- 対話性の重要性: 対話的ツール使用は長さ汎化を実現するための鍵
- 訓練データの品質: 慎重に構築されたアルゴリズム軌跡は成功に不可欠
- スケーラビリティ: 方法は様々なアルゴリズムタスクに拡張可能
- 思考の連鎖とドラフト: CoTはLLMの推論能力を大幅に向上させ、理論的には表現能力と学習可能性を改善する
- ニューラルチューリングマシン: ニューラルネットワークでチューリングマシンをシミュレートする初期の試み。ただし広く採用されていない
- 長さ汎化: Transformerの長さ汎化を研究する大量の研究。様々な改善技術が提案されている
- SSMの長さ汎化の理論的制限を初めて体系的に研究
- ツール使用を制限を突破するための有効なソリューションとして提案
- 独立したモデルではなくエージェントシステムの背景下でアーキテクチャ性能を分析
- SSMを独立して使用する場合、根本的な長さ汎化の制限が存在する
- 対話的ツール使用はこれらの制限を完全に克服できる
- エージェント設定では、SSMはTransformerより優れている可能性がある
- 理論分析の学習アルゴリズムは比較的単純(文字列マッチング)
- ハノイの塔などの指数関数的出力長タスクの汎化は限定的
- 慎重に設計された訓練軌跡が必要
- コード修復タスクの汎化程度は限定的
- より多くのSSMベースのツール使用エージェントの開発
- より自然な学習アルゴリズム(勾配降下法など)の理論的保証の研究
- より複雑な推論とエージェントタスクへの拡張
- ハイブリッドアーキテクチャの可能性の探索
- 理論的厳密性: SSMの制限に関する厳密な数学的証明を提供
- 実用的価値: ツール使用の実際の有効性を実証
- 実験の包括性: 複数のタスク種とモデルアーキテクチャをカバー
- 深い洞察: アーキテクチャの性能が独立使用と異なる可能性があることを明らかにする
- 理論と実践のギャップ: 理論分析の単純な学習アルゴリズムと実際のニューラルネットワーク訓練の間に乖離がある
- タスクの制限: 主にアルゴリズムタスクに焦点。開放型生成タスクへの適用可能性は不明
- エンジニアリングの複雑性: 各タスクに対して特定のツールと訓練軌跡の設計が必要
- スケーラビリティの問題: より複雑な現実的タスクでの性能はまだ検証が必要
- 理論的貢献: 異なるアーキテクチャの根本的な能力差を理解するための新しい視点を提供
- 実践的指導: エージェントシステムにおけるSSMの応用に理論的支援を提供
- 研究方向: ツール強化言語モデルに関するより多くの研究を推進する可能性
- アルゴリズム実行: 既知のアルゴリズムを正確に実行する必要があるタスク
- 長シーケンス処理: 計算リソースが限定的だが長シーケンスを処理する必要があるシナリオ
- エージェントシステム: 外部ツールと相互作用する必要がある知的エージェントアプリケーション
- 教育応用: アルゴリズム実行プロセスを示す教育システム
本論文は該当分野の重要な研究を引用している。以下を含む:
- Transformer原論文(Vaswani et al., 2017)
- MambaなどのSSMアーキテクチャ(Gu & Dao, 2023)
- 思考の連鎖関連研究(Wei et al., 2022)
- ReActフレームワーク(Yao et al., 2023)
- 長さ汎化関連研究(Zhou et al., 2024など)
要約: これは理論と実験の両面に重点を置いた高品質な論文であり、SSMの能力境界とツール使用の価値を理解するための重要な洞察を提供している。実際のアプリケーションのスケーラビリティの面ではまだ検証が必要であるが、その理論的貢献と実験的発見は該当分野の発展を推進する上で重要な意義を持つ。