2025-11-16T06:22:12.451775

To Infinity and Beyond: Tool-Use Unlocks Length Generalization in State Space Models

Malach, Saremi, Williamson et al.
State Space Models (SSMs) have become the leading alternative to Transformers for sequence modeling. Their primary advantage is efficiency in long-context and long-form generation, enabled by fixed-size memory and linear scaling of computational complexity. We begin this work by showing a simple theoretical result stating that SSMs cannot accurately solve any ``truly long-form'' generation problem (in a sense we formally define), undermining their main competitive advantage. However, we show that this limitation can be mitigated by allowing SSMs interactive access to external tools. In fact, we show that given the right choice of tool access and problem-dependent training data, SSMs can learn to solve any tractable problem and generalize to arbitrary problem length/complexity (i.e., achieve length generalization). Following our theoretical finding, we demonstrate that tool-augmented SSMs achieve remarkable length generalization on a variety of arithmetic, reasoning, and coding tasks. These findings highlight SSMs as a potential efficient alternative to Transformers in interactive tool-based and agentic settings.
academic

Hacia el Infinito y Más Allá: El Uso de Herramientas Desbloquea la Generalización de Longitud en Modelos de Espacio de Estados

Información Básica

  • ID del Artículo: 2510.14826
  • Título: To Infinity and Beyond: Tool-Use Unlocks Length Generalization in State Space Models
  • Autores: Eran Malach, Omid Saremi, Sinead Williamson, Arwen Bradley, Aryo Lotfi, Emmanuel Abbe, Josh Susskind, Etai Littwin
  • Institución: Apple
  • Clasificación: cs.LG
  • Fecha de Publicación: 17 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.14826

Resumen

Los modelos de espacio de estados (SSMs) se han convertido en la principal alternativa a los Transformers en el modelado de secuencias, con la ventaja principal de lograr eficiencia en contextos largos y generación de secuencias largas mediante memoria de tamaño fijo y complejidad computacional lineal. Este artículo presenta primero un resultado teórico simple que demuestra que los SSMs no pueden resolver con precisión ningún problema de "generación de secuencias verdaderamente largas" (en el sentido formalmente definido), lo que debilita su principal ventaja competitiva. Sin embargo, la investigación muestra que esta limitación puede mitigarse proporcionando a los SSMs acceso interactivo a herramientas externas. De hecho, bajo la selección correcta del acceso a herramientas y datos de entrenamiento relevantes para el problema, los SSMs pueden aprender a resolver cualquier problema tratable y generalizar a longitudes/complejidades de problema arbitrarias. Basándose en los hallazgos teóricos, los autores demuestran que los SSMs mejorados con herramientas logran una capacidad de generalización de longitud significativa en diversas tareas aritméticas, de razonamiento y programación.

Antecedentes de Investigación y Motivación

Contexto del Problema

  1. Cuello de botella computacional de Transformers: Los Transformers sufren una complejidad computacional que crece cuadráticamente con la longitud de la secuencia debido al mecanismo de atención, y la memoria crece linealmente con la longitud, lo que se convierte en la principal limitación en tareas de contexto largo y generación de secuencias largas.
  2. Auge de los SSMs: Para resolver este problema, los investigadores han propuesto diversas arquitecturas alternativas, como Transformers lineales y modelos de espacio de estados (SSMs), incluyendo Mamba, DeltaNet y otros, que logran memoria fija y complejidad computacional lineal.
  3. Limitaciones de los SSMs: A pesar de sus ventajas en eficiencia, algunas investigaciones señalan que los SSMs tienen limitaciones significativas en tareas que requieren memoria de secuencias largas y aprendizaje en contexto.

Motivación de la Investigación

Los autores buscan comprender las capacidades y limitaciones de los SSMs en tareas de generación de secuencias largas, particularmente aquellas donde la longitud de salida crece con la complejidad del problema. Estas son precisamente las tareas donde los SSMs muestran ventajas claras de eficiencia de razonamiento en comparación con los Transformers.

Contribuciones Principales

  1. Resultado teórico negativo: Demuestra que los SSMs no pueden resolver con precisión problemas de "generación de secuencias verdaderamente largas", incluso permitiendo generación de cadenas de pensamiento (CoT) de longitud arbitraria.
  2. Marco teórico para el uso de herramientas: Introduce un nuevo marco teórico para estudiar agentes ReAct, demostrando que el uso interactivo de herramientas puede mejorar significativamente las capacidades de los SSMs.
  3. Teorema de suficiencia para generalización de longitud: Demuestra que los SSMs equipados con acceso apropiado a herramientas y datos de entrenamiento específicos pueden lograr generalización de longitud en cualquier tarea de generación de secuencias largas tratable.
  4. Verificación experimental: Demuestra la capacidad superior de generalización de longitud de los SSMs mejorados con herramientas en tareas aritméticas, de razonamiento lógico y programación.

Detalles del Método

Definición de Tareas

Definición formal de tareas de generación de secuencias largas:

  • Sea Σ el vocabulario, X₁,X₂,... e Y₁,Y₂,... sean secuencias de espacios de entrada y salida respectivamente
  • D₁,D₂,... sean secuencias de distribuciones, donde Dₙ es la distribución sobre Xₙ
  • f: Σ* → Σ* sea la función verdadera que satisface f(Xₙ) ⊆ Yₙ

Definición 2.2: Se dice que (f, {Dₙ}) es una tarea de generación de secuencias largas con cobertura α, si y solo si suppₐ(f(Dₙ)) es monótonamente creciente en n y limₙ→∞ suppₐ(f(Dₙ)) = ∞.

Modelo de Espacio de Estados Generalizado (GSSM)

Definición: Un GSSM se define por los siguientes componentes:

  • Espacio de estados S (conjunto finito)
  • Estado inicial s₀ ∈ S
  • Regla de actualización u: S × Σ → S
  • Regla de salida r: S → Δ(Σ)

Configuración de uso de herramientas:

  1. Solo CoT: Solo se permiten tokens de pensamiento y salida
  2. Uso de herramientas de una sola ronda: Se permite una única invocación de herramienta
  3. Uso interactivo de herramientas: Se permite cualquier número de invocaciones de herramientas e intercalado libre

Resultados Teóricos Principales

Teorema 2.1 (Resultado negativo): Para cualquier tarea de generación de secuencias largas f con cobertura α, existe una complejidad de problema n₀, tal que para todo n ≥ n₀, cualquier GSSM h con solo CoT o uso de herramientas de una sola ronda tiene tasa de error: errₙ(h) ≥ 1-α.

Teorema 2.2 (Resultado positivo): Existe un oráculo de herramienta de memoria O y un algoritmo de aprendizaje GSSM simple A, tal que para cualquier tarea de generación de secuencias largas computable f, existe una secuencia de distribuciones de entrenamiento {Pₙ} tal que A logra generalización de longitud en la configuración interactiva.

Puntos de Innovación Técnica

  1. Diseño de herramientas de memoria: Proporciona acceso a memoria externa de lectura/escritura mediante herramientas de tipo puntero, que pueden simular operaciones de máquina de Turing.
  2. Paradigma de entrenamiento interactivo: Mediante la construcción de datos de entrenamiento que contienen trayectorias de uso de herramientas, permite que los SSMs aprendan a utilizar memoria externa para superar las limitaciones de memoria interna.
  3. Generación de trayectorias algorítmicas: Diseña trayectorias sintéticas de uso de herramientas para diversas tareas (suma, multiplicación, razonamiento lógico, etc.), simulando con precisión los algoritmos requeridos.

Configuración Experimental

Conjuntos de Datos

  1. Tareas aritméticas: Suma y multiplicación de múltiples dígitos, longitud de entrenamiento hasta 5-10 dígitos, prueba hasta 1000 dígitos
  2. Torres de Hanoi: Entrenamiento hasta 8 discos, prueba hasta 12 discos
  3. Razonamiento de gráficos lógicos: Entrenamiento hasta 10 nodos, prueba hasta 1000 nodos
  4. Reparación de código: Entrenamiento hasta 16 funciones en base de código, prueba en escala más grande

Configuración de Modelos

  • SSMs: Mamba-130M/1.4B, LSTM, GRU
  • Transformers: Pythia-160M/1.4B, Mistral (atención de ventana deslizante)
  • Todos los modelos de escala comparable (~130M parámetros)

Tipos de Herramientas

  1. Memoria de puntero: Soporta operaciones de inicialización, movimiento y lectura
  2. Herramienta de búsqueda: Soporta búsqueda de patrones en contexto
  3. Comandos Bash: Operaciones de archivo para tareas de reparación de código

Resultados Experimentales

Resultados Principales

Desempeño en tareas aritméticas:

  • Mamba puede ejecutar perfectamente suma de 1000 dígitos después de entrenamiento con 5 dígitos (precisión del 100%)
  • Tarea de multiplicación: entrenamiento 10×1 dígitos → prueba 1000×1 dígitos (precisión del 100%)
  • Los modelos Transformer casi no pueden generalizar más allá de la longitud de entrenamiento

Desempeño en tareas de razonamiento:

  • Razonamiento de gráficos lógicos: entrenamiento con 10 nodos → prueba con 1000 nodos (precisión del 98%)
  • Torres de Hanoi: entrenamiento con 8 discos → prueba con 12 discos (precisión del 49%, crecimiento de longitud de salida exponencial)

Tarea de reparación de código:

  • Bajo entrenamiento de agente interactivo, Mamba mantiene mejor desempeño en bases de código grandes
  • Transformer tiene mejor desempeño en bases de código pequeñas, pero no puede generalizar a escala más grande

Experimentos de Ablación

Hallazgos clave:

  1. Eliminar CoT o uso de herramientas resulta en pérdida casi completa de capacidad de generalización de longitud
  2. El uso de herramientas de una sola ronda tiene efecto limitado; el uso interactivo es crucial
  3. El entrenamiento mixto de tareas puede mejorar la generalización bajo presupuesto limitado

Hallazgos Experimentales

  1. Ventaja arquitectónica: Los SSMs/RNNs superan significativamente a los Transformers en la configuración mejorada con herramientas
  2. Importancia de la interactividad: El uso interactivo de herramientas es clave para lograr generalización de longitud
  3. Calidad de datos de entrenamiento: Las trayectorias algorítmicas cuidadosamente construidas son críticas para el éxito
  4. Escalabilidad: El método es escalable a diversas tareas algorítmicas

Trabajo Relacionado

Principales Direcciones de Investigación

  1. Cadenas de pensamiento y borradores: CoT mejora significativamente la capacidad de razonamiento de LLMs, mejorando teóricamente la capacidad expresiva y la capacidad de aprendizaje
  2. Máquinas de Turing Neurales: Intentos tempranos de simular máquinas de Turing con redes neuronales, pero no fueron ampliamente adoptados
  3. Generalización de longitud: Abundante trabajo investigando la generalización de longitud de Transformers, proponiendo diversas técnicas de mejora

Contribución de este Artículo

  • Primer estudio sistemático de las limitaciones teóricas de generalización de longitud de SSMs
  • Propone el uso de herramientas como solución efectiva para superar limitaciones
  • Analiza el desempeño arquitectónico en el contexto de sistemas de agentes en lugar de modelos independientes

Conclusiones y Discusión

Conclusiones Principales

  1. Los SSMs tienen limitaciones fundamentales de generalización de longitud cuando se usan de forma independiente
  2. El uso interactivo de herramientas puede superar completamente estas limitaciones
  3. En configuraciones de agentes, los SSMs pueden ser superiores a los Transformers

Limitaciones

  1. El algoritmo de aprendizaje en el análisis teórico es relativamente simple (coincidencia de cadenas)
  2. La generalización en tareas con longitud de salida exponencial como Torres de Hanoi es limitada
  3. Requiere trayectorias de entrenamiento cuidadosamente diseñadas
  4. El grado de generalización en tareas de reparación de código es limitado

Direcciones Futuras

  1. Desarrollar más agentes de uso de herramientas basados en SSM
  2. Investigar garantías teóricas para algoritmos de aprendizaje más naturales (como descenso de gradiente)
  3. Extender a tareas de razonamiento y agentes más complejas
  4. Explorar el potencial de arquitecturas híbridas

Evaluación Profunda

Fortalezas

  1. Rigor teórico: Proporciona pruebas matemáticas rigurosas de las limitaciones de los SSMs
  2. Valor práctico: Demuestra la efectividad práctica del uso de herramientas
  3. Exhaustividad experimental: Cubre múltiples tipos de tareas y arquitecturas de modelos
  4. Perspectivas profundas: Revela que el desempeño arquitectónico en sistemas puede diferir del uso independiente

Insuficiencias

  1. Brecha entre teoría y práctica: El análisis teórico utiliza algoritmos de aprendizaje simples que difieren del entrenamiento de redes neuronales reales
  2. Limitaciones de tareas: Se enfoca principalmente en tareas algorítmicas; la aplicabilidad a tareas de generación abierta no está clara
  3. Complejidad de ingeniería: Requiere diseño de herramientas y trayectorias de entrenamiento específicas para cada tarea
  4. Problemas de escalabilidad: El desempeño en tareas reales más complejas aún requiere verificación

Impacto

  1. Contribución teórica: Proporciona una nueva perspectiva para comprender las diferencias fundamentales de capacidad entre arquitecturas
  2. Orientación práctica: Proporciona apoyo teórico para la aplicación de SSMs en sistemas de agentes
  3. Dirección de investigación: Puede impulsar más investigación sobre modelos de lenguaje mejorados con herramientas

Escenarios Aplicables

  1. Ejecución algorítmica: Tareas que requieren ejecución precisa de algoritmos conocidos
  2. Procesamiento de secuencias largas: Escenarios con recursos computacionales limitados pero que requieren procesar secuencias largas
  3. Sistemas de agentes: Aplicaciones de agentes inteligentes que necesitan interactuar con herramientas externas
  4. Aplicaciones educativas: Sistemas de enseñanza que demuestran procesos de ejecución de algoritmos

Referencias

Este artículo cita trabajos importantes en el campo, incluyendo:

  • Artículo original de Transformer (Vaswani et al., 2017)
  • Arquitecturas SSM como Mamba (Gu & Dao, 2023)
  • Investigación relacionada con cadenas de pensamiento (Wei et al., 2022)
  • Marco ReAct (Yao et al., 2023)
  • Trabajos relacionados con generalización de longitud (Zhou et al., 2024, etc.)

Resumen: Este es un artículo de alta calidad que equilibra teoría y experimentos, proporcionando perspectivas importantes para comprender los límites de capacidad de los SSMs y el valor del uso de herramientas. Aunque la escalabilidad en aplicaciones prácticas aún requiere verificación, sus contribuciones teóricas y hallazgos experimentales tienen un significado importante para impulsar el desarrollo de este campo.