2025-11-16T06:22:12.451775

To Infinity and Beyond: Tool-Use Unlocks Length Generalization in State Space Models

Malach, Saremi, Williamson et al.
State Space Models (SSMs) have become the leading alternative to Transformers for sequence modeling. Their primary advantage is efficiency in long-context and long-form generation, enabled by fixed-size memory and linear scaling of computational complexity. We begin this work by showing a simple theoretical result stating that SSMs cannot accurately solve any ``truly long-form'' generation problem (in a sense we formally define), undermining their main competitive advantage. However, we show that this limitation can be mitigated by allowing SSMs interactive access to external tools. In fact, we show that given the right choice of tool access and problem-dependent training data, SSMs can learn to solve any tractable problem and generalize to arbitrary problem length/complexity (i.e., achieve length generalization). Following our theoretical finding, we demonstrate that tool-augmented SSMs achieve remarkable length generalization on a variety of arithmetic, reasoning, and coding tasks. These findings highlight SSMs as a potential efficient alternative to Transformers in interactive tool-based and agentic settings.
academic

To Infinity and Beyond: Tool-Use Unlocks Length Generalization in State Space Models

基本信息

  • 论文ID: 2510.14826
  • 标题: To Infinity and Beyond: Tool-Use Unlocks Length Generalization in State Space Models
  • 作者: Eran Malach, Omid Saremi, Sinead Williamson, Arwen Bradley, Aryo Lotfi, Emmanuel Abbe, Josh Susskind, Etai Littwin
  • 机构: Apple
  • 分类: cs.LG
  • 发表时间: 2025年10月17日
  • 论文链接: https://arxiv.org/abs/2510.14826

摘要

状态空间模型(SSMs)已成为序列建模中Transformer的主要替代方案,其主要优势在于通过固定大小内存和线性计算复杂度实现长上下文和长序列生成的高效性。本文首先提出一个简单的理论结果,证明SSMs无法准确解决任何"真正的长序列"生成问题(在正式定义的意义下),这削弱了其主要竞争优势。然而,研究表明这一限制可以通过为SSMs提供交互式外部工具访问来缓解。实际上,在正确选择工具访问和问题相关训练数据的条件下,SSMs可以学习解决任何可处理的问题并泛化到任意问题长度/复杂度。基于理论发现,作者证明了工具增强的SSMs在各种算术、推理和编程任务上实现了显著的长度泛化能力。

研究背景与动机

问题背景

  1. Transformer的计算瓶颈: Transformer由于注意力机制,计算复杂度随序列长度二次增长,内存随长度线性增长,这在长上下文和长序列生成任务中成为主要限制。
  2. SSMs的兴起: 为解决这一问题,研究者提出了各种替代架构,如线性Transformer和状态空间模型(SSMs),包括Mamba、DeltaNet等,这些架构实现了固定内存和线性计算复杂度。
  3. SSMs的局限性: 尽管SSMs在效率上有优势,但一些研究指出它们在需要长序列记忆和上下文学习的任务中存在显著局限性。

研究动机

作者旨在理解SSMs在长序列生成任务中的能力和局限性,特别是那些输出长度随问题复杂度增长的任务。这些正是SSMs相比Transformer显示出明显推理效率优势的任务类型。

核心贡献

  1. 理论负面结果: 证明了SSMs无法准确解决"真正的长序列生成问题",即使允许任意长度的思维链(CoT)生成。
  2. 工具使用的理论框架: 引入了研究ReAct代理的新理论框架,证明了交互式工具使用可以显著增强SSMs的能力。
  3. 长度泛化的充分性定理: 证明了配备适当工具访问和特定训练数据的SSMs可以在任何可处理的长序列生成任务上实现长度泛化。
  4. 实验验证: 在算术、逻辑推理和编程任务上展示了工具增强SSMs的卓越长度泛化能力。

方法详解

任务定义

长序列生成任务的正式定义:

  • 设Σ为词汇表,X₁,X₂,...和Y₁,Y₂,...分别为输入和输出空间序列
  • D₁,D₂,...为分布序列,其中Dₙ是Xₙ上的分布
  • f: Σ* → Σ*为真实函数,满足f(Xₙ) ⊆ Yₙ

定义2.2: 称(f, {Dₙ})为覆盖率α的长序列生成任务,当且仅当suppₐ(f(Dₙ))随n单调递增且limₙ→∞ suppₐ(f(Dₙ)) = ∞。

广义状态空间模型(GSSM)

定义: GSSM由以下组件定义:

  • 状态空间S (有限集合)
  • 初始状态s₀ ∈ S
  • 更新规则u: S × Σ → S
  • 输出规则r: S → Δ(Σ)

工具使用设置:

  1. 仅CoT: 只允许思考和输出标记
  2. 单轮工具使用: 允许单次工具调用
  3. 交互式工具使用: 允许任意次数的工具调用和自由交错

核心理论结果

定理2.1(负面结果): 对于任何覆盖率α的长序列生成任务f,存在问题复杂度n₀,使得对于所有n ≥ n₀,任何仅CoT或单轮工具使用的GSSM h都有错误率:errₙ(h) ≥ 1-α。

定理2.2(正面结果): 存在内存工具oracle O和简单GSSM学习算法A,使得对于任何可计算的长序列生成任务f,都存在训练分布序列{Pₙ},使得A在交互式设置下实现长度泛化。

技术创新点

  1. 内存工具设计: 提供读/写外部内存访问的指针式工具,可以模拟图灵机操作。
  2. 交互式训练范式: 通过构造包含工具使用轨迹的训练数据,使SSMs学会利用外部内存突破内部内存限制。
  3. 算法轨迹生成: 为各种任务(加法、乘法、逻辑推理等)设计合成的工具使用轨迹,精确模拟所需算法。

实验设置

数据集

  1. 算术任务: 多位数加法和乘法,训练长度最多5-10位,测试最多1000位
  2. 汉诺塔: 训练最多8个盘子,测试最多12个盘子
  3. 逻辑图推理: 训练最多10个节点,测试最多1000个节点
  4. 代码修复: 训练最多16个函数的代码库,测试更大规模

模型配置

  • SSMs: Mamba-130M/1.4B, LSTM, GRU
  • Transformers: Pythia-160M/1.4B, Mistral (滑动窗口注意力)
  • 所有模型规模相当(~130M参数)

工具类型

  1. 指针式内存: 支持初始化、移动、读取操作
  2. 搜索工具: 支持在上下文中搜索模式
  3. Bash命令: 用于代码修复任务的文件操作

实验结果

主要结果

算术任务表现:

  • Mamba在5位数训练后可完美执行1000位数加法(100%准确率)
  • 乘法任务:10位×1位训练 → 1000位×1位测试(100%准确率)
  • Transformer模型几乎无法泛化超出训练长度

推理任务表现:

  • 逻辑图推理:10节点训练 → 1000节点测试(98%准确率)
  • 汉诺塔:8盘训练 → 12盘测试(49%准确率,指数级输出长度增长)

代码修复任务:

  • 在交互式代理训练下,Mamba在大型代码库上保持更好性能
  • Transformer在小型代码库上表现更好,但无法泛化到更大规模

消融实验

关键发现:

  1. 移除CoT或工具使用导致长度泛化能力几乎完全丧失
  2. 单轮工具使用效果有限,交互式使用至关重要
  3. 任务混合训练在有限预算下可改善泛化

实验发现

  1. 架构优势: SSMs/RNNs在工具增强设置下显著优于Transformer
  2. 交互重要性: 交互式工具使用是实现长度泛化的关键
  3. 训练数据质量: 精心构造的算法轨迹对成功至关重要
  4. 可扩展性: 方法可扩展到各种算法任务

相关工作

主要研究方向

  1. 思维链和草稿本: CoT显著提升LLMs推理能力,理论上改善表达能力和可学习性
  2. 神经图灵机: 早期尝试用神经网络模拟图灵机,但未广泛采用
  3. 长度泛化: 大量工作研究Transformer的长度泛化,提出各种改进技术

本文贡献

  • 首次系统研究SSMs的长度泛化理论限制
  • 提出工具使用作为突破限制的有效方案
  • 在代理系统而非独立模型的背景下分析架构性能

结论与讨论

主要结论

  1. SSMs在独立使用时存在根本性的长度泛化限制
  2. 交互式工具使用可以完全克服这些限制
  3. 在代理设置中,SSMs可能优于Transformer

局限性

  1. 理论分析的学习算法相对简单(字符串匹配)
  2. 汉诺塔等指数输出长度任务的泛化有限
  3. 需要精心设计的训练轨迹
  4. 代码修复任务的泛化程度有限

未来方向

  1. 开发更多SSM基础的工具使用代理
  2. 研究更自然的学习算法(如梯度下降)的理论保证
  3. 扩展到更复杂的推理和代理任务
  4. 探索混合架构的潜力

深度评价

优点

  1. 理论严谨性: 提供了SSMs局限性的严格数学证明
  2. 实用价值: 展示了工具使用的实际有效性
  3. 实验全面性: 涵盖多种任务类型和模型架构
  4. 洞察深刻: 揭示了架构在系统中的表现可能与独立使用不同

不足

  1. 理论与实践差距: 理论分析的简单学习算法与实际神经网络训练存在差距
  2. 任务局限性: 主要关注算法类任务,对开放式生成任务的适用性不明
  3. 工程复杂性: 需要为每个任务设计特定的工具和训练轨迹
  4. 可扩展性问题: 在更复杂的现实任务中的表现尚待验证

影响力

  1. 理论贡献: 为理解不同架构的根本能力差异提供新视角
  2. 实践指导: 为SSM在代理系统中的应用提供理论支撑
  3. 研究方向: 可能推动更多关于工具增强语言模型的研究

适用场景

  1. 算法执行: 需要精确执行已知算法的任务
  2. 长序列处理: 计算资源有限但需要处理长序列的场景
  3. 代理系统: 需要与外部工具交互的智能代理应用
  4. 教育应用: 展示算法执行过程的教学系统

参考文献

本文引用了该领域的重要工作,包括:

  • Transformer原始论文 (Vaswani et al., 2017)
  • Mamba等SSM架构 (Gu & Dao, 2023)
  • 思维链相关研究 (Wei et al., 2022)
  • ReAct框架 (Yao et al., 2023)
  • 长度泛化相关工作 (Zhou et al., 2024等)

总结: 这是一篇理论与实验并重的高质量论文,为理解SSMs的能力边界和工具使用的价值提供了重要洞察。虽然在实际应用的可扩展性方面还有待验证,但其理论贡献和实验发现对推动该领域发展具有重要意义。