State Space Models (SSMs) have become the leading alternative to Transformers for sequence modeling. Their primary advantage is efficiency in long-context and long-form generation, enabled by fixed-size memory and linear scaling of computational complexity. We begin this work by showing a simple theoretical result stating that SSMs cannot accurately solve any ``truly long-form'' generation problem (in a sense we formally define), undermining their main competitive advantage. However, we show that this limitation can be mitigated by allowing SSMs interactive access to external tools. In fact, we show that given the right choice of tool access and problem-dependent training data, SSMs can learn to solve any tractable problem and generalize to arbitrary problem length/complexity (i.e., achieve length generalization). Following our theoretical finding, we demonstrate that tool-augmented SSMs achieve remarkable length generalization on a variety of arithmetic, reasoning, and coding tasks. These findings highlight SSMs as a potential efficient alternative to Transformers in interactive tool-based and agentic settings.
- Paper-ID: 2510.14826
- Titel: To Infinity and Beyond: Tool-Use Unlocks Length Generalization in State Space Models
- Autoren: Eran Malach, Omid Saremi, Sinead Williamson, Arwen Bradley, Aryo Lotfi, Emmanuel Abbe, Josh Susskind, Etai Littwin
- Institution: Apple
- Klassifizierung: cs.LG
- Veröffentlichungsdatum: 17. Oktober 2025
- Paper-Link: https://arxiv.org/abs/2510.14826
State Space Models (SSMs) haben sich als Hauptalternative zu Transformern bei der Sequenzmodellierung etabliert, mit dem Hauptvorteil der Effizienz bei langen Kontexten und langer Sequenzgenerierung durch feste Speichergröße und lineare Rechenkomplexität. Dieses Paper präsentiert zunächst ein einfaches theoretisches Ergebnis, das beweist, dass SSMs keine „echten Langsequenz"-Generierungsprobleme (im formal definierten Sinne) genau lösen können, was ihren Hauptwettbewerbsvorteil schwächt. Die Forschung zeigt jedoch, dass diese Einschränkung durch die Bereitstellung von interaktivem externem Werkzeugzugriff für SSMs gemildert werden kann. Tatsächlich können SSMs unter korrekter Wahl des Werkzeugzugriffs und problemrelevanter Trainingsdaten lernen, jedes berechenbare Problem zu lösen und auf beliebige Problem-Längen/Komplexität zu generalisieren. Basierend auf den theoretischen Erkenntnissen demonstrieren die Autoren, dass werkzeugverstärkte SSMs bemerkenswerte Längengeneralisierungsfähigkeiten bei verschiedenen arithmetischen, Reasoning- und Programmieraufgaben erreichen.
- Rechnerischer Engpass von Transformern: Transformer leiden unter quadratischer Rechenkomplexität bezüglich der Sequenzlänge aufgrund des Aufmerksamkeitsmechanismus, mit linearem Speicherwachstum, was bei langen Kontexten und Langsequenz-Generierungsaufgaben zur Haupteinschränkung wird.
- Aufstieg der SSMs: Um dieses Problem zu adressieren, haben Forscher verschiedene alternative Architekturen vorgeschlagen, wie lineare Transformer und State Space Models (SSMs), einschließlich Mamba, DeltaNet und ähnlicher, die feste Speicher und lineare Rechenkomplexität erreichen.
- Einschränkungen von SSMs: Trotz ihrer Effizienzvorteile weisen einige Studien darauf hin, dass SSMs erhebliche Einschränkungen bei Aufgaben aufweisen, die lange Sequenzspeicherung und Kontextlernen erfordern.
Die Autoren zielen darauf ab, die Fähigkeiten und Einschränkungen von SSMs bei Langsequenz-Generierungsaufgaben zu verstehen, besonders solche, bei denen die Ausgabelänge mit der Problemkomplexität wächst. Dies sind genau die Aufgabentypen, bei denen SSMs deutliche Reasoning-Effizienzvorteile gegenüber Transformern zeigen.
- Theoretisches negatives Ergebnis: Beweis, dass SSMs „echte Langsequenz"-Generierungsprobleme nicht genau lösen können, selbst wenn beliebig lange Chain-of-Thought (CoT)-Generierung erlaubt ist.
- Theoretischer Rahmen für Werkzeugnutzung: Einführung eines neuen theoretischen Rahmens zur Untersuchung von ReAct-Agenten, mit Beweis, dass interaktive Werkzeugnutzung die Fähigkeiten von SSMs erheblich verbessern kann.
- Suffizienztheorem für Längengeneralisierung: Beweis, dass SSMs mit angemessenem Werkzeugzugriff und spezifischen Trainingsdaten Längengeneralisierung bei jeder berechenbaren Langsequenz-Generierungsaufgabe erreichen können.
- Experimentelle Validierung: Demonstration überlegener Längengeneralisierungsfähigkeiten werkzeugverstärkter SSMs bei arithmetischen, logischen Reasoning- und Programmieraufgaben.
Formale Definition von Langsequenz-Generierungsaufgaben:
- Sei Σ das Vokabular, X₁,X₂,... und Y₁,Y₂,... jeweils Eingabe- und Ausgaberaum-Sequenzen
- D₁,D₂,... seien Verteilungssequenzen, wobei Dₙ eine Verteilung über Xₙ ist
- f: Σ* → Σ* sei die echte Funktion, die f(Xₙ) ⊆ Yₙ erfüllt
Definition 2.2: (f, {Dₙ}) wird als Langsequenz-Generierungsaufgabe mit Abdeckung α bezeichnet, wenn und nur wenn suppₐ(f(Dₙ)) monoton mit n wächst und limₙ→∞ suppₐ(f(Dₙ)) = ∞.
Definition: Ein GSSM wird durch folgende Komponenten definiert:
- Zustandsraum S (endliche Menge)
- Anfangszustand s₀ ∈ S
- Aktualisierungsregel u: S × Σ → S
- Ausgaberegel r: S → Δ(Σ)
Werkzeugnutzungs-Einstellung:
- Nur CoT: Nur Denk- und Ausgabe-Token erlaubt
- Einmalige Werkzeugnutzung: Einzelner Werkzeugaufruf erlaubt
- Interaktive Werkzeugnutzung: Beliebig viele Werkzeugaufrufe und freies Verschachteln erlaubt
Theorem 2.1 (Negatives Ergebnis): Für jede Langsequenz-Generierungsaufgabe f mit Abdeckung α existiert eine Problemkomplexität n₀, sodass für alle n ≥ n₀ jedes GSSM h mit nur CoT oder einmaliger Werkzeugnutzung eine Fehlerrate aufweist:
errₙ(h) ≥ 1-α.
Theorem 2.2 (Positives Ergebnis): Es existiert ein Speicher-Werkzeug-Orakel O und ein einfacher GSSM-Lernalgorithmus A, sodass für jede berechenbare Langsequenz-Generierungsaufgabe f eine Trainingsverteilungssequenz {Pₙ} existiert, die A im interaktiven Setting Längengeneralisierung erreichen lässt.
- Speicher-Werkzeug-Design: Bereitstellung von Zeiger-basierten Werkzeugen mit Lese-/Schreibzugriff auf externen Speicher, die Turing-Maschinen-Operationen simulieren können.
- Interaktives Trainingsparadigma: Durch Konstruktion von Trainingsdaten mit Werkzeugnutzungs-Trajektorien lernen SSMs, externe Speicher zu nutzen, um interne Speichergrenzen zu überwinden.
- Algorithmus-Trajektoriengenerierung: Design synthetischer Werkzeugnutzungs-Trajektorien für verschiedene Aufgaben (Addition, Multiplikation, logisches Reasoning usw.), die erforderliche Algorithmen präzise simulieren.
- Arithmetische Aufgaben: Mehrstellige Addition und Multiplikation, Trainieren bis zu 5-10 Stellen, Testen bis zu 1000 Stellen
- Türme von Hanoi: Trainieren bis zu 8 Scheiben, Testen bis zu 12 Scheiben
- Logisches Graph-Reasoning: Trainieren bis zu 10 Knoten, Testen bis zu 1000 Knoten
- Code-Reparatur: Trainieren mit bis zu 16 Funktionen, Testen mit größeren Codebäsen
- SSMs: Mamba-130M/1.4B, LSTM, GRU
- Transformer: Pythia-160M/1.4B, Mistral (Sliding-Window-Aufmerksamkeit)
- Alle Modelle vergleichbarer Größe (~130M Parameter)
- Zeiger-basierter Speicher: Unterstützt Initialisierung, Bewegung, Lesevorgänge
- Such-Werkzeuge: Unterstützen Mustererkennung im Kontext
- Bash-Befehle: Für Dateivorgänge bei Code-Reparatur-Aufgaben
Arithmetische Aufgaben-Leistung:
- Mamba führt nach Training mit 5-stelligen Zahlen perfekt 1000-stellige Addition durch (100% Genauigkeit)
- Multiplikations-Aufgaben: 10-stellig × 1-stellig Training → 1000-stellig × 1-stellig Test (100% Genauigkeit)
- Transformer-Modelle können kaum über Trainings-Länge hinaus generalisieren
Reasoning-Aufgaben-Leistung:
- Logisches Graph-Reasoning: 10-Knoten-Training → 1000-Knoten-Test (98% Genauigkeit)
- Türme von Hanoi: 8-Scheiben-Training → 12-Scheiben-Test (49% Genauigkeit bei exponentiellem Ausgabelängenwachstum)
Code-Reparatur-Aufgaben:
- Unter interaktivem Agenten-Training behält Mamba bessere Leistung bei größeren Codebäsen
- Transformer zeigt bessere Leistung bei kleinen Codebäsen, kann aber nicht auf größere Skalen generalisieren
Wichtigste Erkenntnisse:
- Entfernung von CoT oder Werkzeugnutzung führt zu fast vollständigem Verlust der Längengeneralisierungsfähigkeit
- Einmalige Werkzeugnutzung hat begrenzte Wirkung, interaktive Nutzung ist entscheidend
- Gemischtes Task-Training kann unter begrenztem Budget die Generalisierung verbessern
- Architektur-Vorteile: SSMs/RNNs zeigen signifikante Überlegenheit gegenüber Transformern in werkzeugverstärkten Settings
- Bedeutung der Interaktion: Interaktive Werkzeugnutzung ist Schlüssel zur Längengeneralisierung
- Trainings-Datenqualität: Sorgfältig konstruierte Algorithmus-Trajektorien sind für Erfolg entscheidend
- Skalierbarkeit: Methode ist auf verschiedene algorithmische Aufgaben skalierbar
- Chain-of-Thought und Entwürfe: CoT verbessert erheblich Reasoning-Fähigkeiten von LLMs, verbessert theoretisch Ausdruckskraft und Lernbarkeit
- Neurale Turing-Maschinen: Frühe Versuche, neurale Netze zur Simulation von Turing-Maschinen zu nutzen, aber nicht weit verbreitet
- Längengeneralisierung: Umfangreiche Arbeiten zur Längengeneralisierung von Transformern mit verschiedenen Verbesserungstechniken
- Erste systematische Untersuchung theoretischer Längengeneralisierungs-Einschränkungen von SSMs
- Werkzeugnutzung als effektive Lösung zur Überwindung von Einschränkungen vorgeschlagen
- Analyse von Architektur-Leistung im Kontext von Agenten-Systemen statt isolierter Modelle
- SSMs haben fundamentale Längengeneralisierungs-Einschränkungen bei isolierter Nutzung
- Interaktive Werkzeugnutzung kann diese Einschränkungen vollständig überwinden
- In Agent-Settings können SSMs Transformern überlegen sein
- Theoretische Analyse mit relativ einfachem Lernalgorithmus (String-Matching)
- Begrenzte Generalisierung bei Aufgaben mit exponentiellem Ausgabelängenwachstum wie Türme von Hanoi
- Erfordert sorgfältig gestaltete Trainings-Trajektorien
- Begrenzte Generalisierung bei Code-Reparatur-Aufgaben
- Entwicklung weiterer SSM-basierter Werkzeugnutzungs-Agenten
- Untersuchung theoretischer Garantien für natürlichere Lernalgorithmen (z.B. Gradientenabstieg)
- Erweiterung auf komplexere Reasoning- und Agent-Aufgaben
- Erkundung des Potenzials hybrider Architekturen
- Theoretische Strenge: Bietet mathematisch rigorose Beweise für SSM-Einschränkungen
- Praktischer Wert: Demonstriert praktische Effektivität der Werkzeugnutzung
- Experimentelle Vollständigkeit: Umfasst mehrere Aufgabentypen und Modellarchitekturen
- Tiefe Einsichten: Offenbart, dass Architektur-Leistung in Systemen von isolierter Nutzung abweichen kann
- Theorie-Praxis-Lücke: Theoretische Analyse mit einfachem Lernalgorithmus versus praktisches neuronales Netzwerk-Training
- Aufgaben-Einschränkungen: Konzentriert sich hauptsächlich auf algorithmische Aufgaben, Anwendbarkeit auf offene Generierungsaufgaben unklar
- Engineering-Komplexität: Erfordert aufgabenspezifische Werkzeug- und Trainings-Trajektorienkonstruktion
- Skalierungsprobleme: Leistung bei komplexeren realen Aufgaben noch zu verifizieren
- Theoretischer Beitrag: Bietet neue Perspektive zum Verständnis fundamentaler Fähigkeitsunterschiede verschiedener Architekturen
- Praktische Anleitung: Bietet theoretische Unterstützung für SSM-Anwendung in Agent-Systemen
- Forschungsrichtung: Könnte mehr Forschung zu werkzeugverstärkten Sprachmodellen anstoßen
- Algorithmus-Ausführung: Aufgaben, die präzise Ausführung bekannter Algorithmen erfordern
- Langsequenz-Verarbeitung: Szenarien mit begrenzten Rechenressourcen aber Langsequenz-Anforderungen
- Agent-Systeme: Intelligente Agent-Anwendungen mit externem Werkzeugzugriff
- Bildungsanwendungen: Lehrsysteme zur Demonstration von Algorithmus-Ausführungsprozessen
Dieses Paper zitiert wichtige Arbeiten des Feldes, einschließlich:
- Transformer-Originalarbeiten (Vaswani et al., 2017)
- Mamba und andere SSM-Architekturen (Gu & Dao, 2023)
- Chain-of-Thought-bezogene Forschung (Wei et al., 2022)
- ReAct-Framework (Yao et al., 2023)
- Längengeneralisierungs-bezogene Arbeiten (Zhou et al., 2024 u.a.)
Zusammenfassung: Dies ist ein hochqualitatives Paper mit theoretischen und experimentellen Schwerpunkten, das wichtige Einsichten zum Verständnis der Fähigkeitsgrenzen von SSMs und des Wertes der Werkzeugnutzung bietet. Obwohl die praktische Skalierbarkeit noch verifiziert werden muss, haben seine theoretischen Beiträge und experimentellen Erkenntnisse bedeutende Auswirkungen auf die Weiterentwicklung des Feldes.