2025-11-16T06:22:12.451775

To Infinity and Beyond: Tool-Use Unlocks Length Generalization in State Space Models

Malach, Saremi, Williamson et al.

State Space Models (SSMs) have become the leading alternative to Transformers for sequence modeling. Their primary advantage is efficiency in long-context and long-form generation, enabled by fixed-size memory and linear scaling of computational complexity. We begin this work by showing a simple theoretical result stating that SSMs cannot accurately solve any ``truly long-form'' generation problem (in a sense we formally define), undermining their main competitive advantage. However, we show that this limitation can be mitigated by allowing SSMs interactive access to external tools. In fact, we show that given the right choice of tool access and problem-dependent training data, SSMs can learn to solve any tractable problem and generalize to arbitrary problem length/complexity (i.e., achieve length generalization). Following our theoretical finding, we demonstrate that tool-augmented SSMs achieve remarkable length generalization on a variety of arithmetic, reasoning, and coding tasks. These findings highlight SSMs as a potential efficient alternative to Transformers in interactive tool-based and agentic settings.

academic

Ins Unendliche und Darüber Hinaus: Werkzeugnutzung Erschließt Längengeneralisierung in State Space Models

Grundinformationen

Paper-ID: 2510.14826
Titel: To Infinity and Beyond: Tool-Use Unlocks Length Generalization in State Space Models
Autoren: Eran Malach, Omid Saremi, Sinead Williamson, Arwen Bradley, Aryo Lotfi, Emmanuel Abbe, Josh Susskind, Etai Littwin
Institution: Apple
Klassifizierung: cs.LG
Veröffentlichungsdatum: 17. Oktober 2025
Paper-Link: https://arxiv.org/abs/2510.14826

Zusammenfassung

State Space Models (SSMs) haben sich als Hauptalternative zu Transformern bei der Sequenzmodellierung etabliert, mit dem Hauptvorteil der Effizienz bei langen Kontexten und langer Sequenzgenerierung durch feste Speichergröße und lineare Rechenkomplexität. Dieses Paper präsentiert zunächst ein einfaches theoretisches Ergebnis, das beweist, dass SSMs keine „echten Langsequenz"-Generierungsprobleme (im formal definierten Sinne) genau lösen können, was ihren Hauptwettbewerbsvorteil schwächt. Die Forschung zeigt jedoch, dass diese Einschränkung durch die Bereitstellung von interaktivem externem Werkzeugzugriff für SSMs gemildert werden kann. Tatsächlich können SSMs unter korrekter Wahl des Werkzeugzugriffs und problemrelevanter Trainingsdaten lernen, jedes berechenbare Problem zu lösen und auf beliebige Problem-Längen/Komplexität zu generalisieren. Basierend auf den theoretischen Erkenntnissen demonstrieren die Autoren, dass werkzeugverstärkte SSMs bemerkenswerte Längengeneralisierungsfähigkeiten bei verschiedenen arithmetischen, Reasoning- und Programmieraufgaben erreichen.

Forschungshintergrund und Motivation

Problemhintergrund

Rechnerischer Engpass von Transformern: Transformer leiden unter quadratischer Rechenkomplexität bezüglich der Sequenzlänge aufgrund des Aufmerksamkeitsmechanismus, mit linearem Speicherwachstum, was bei langen Kontexten und Langsequenz-Generierungsaufgaben zur Haupteinschränkung wird.
Aufstieg der SSMs: Um dieses Problem zu adressieren, haben Forscher verschiedene alternative Architekturen vorgeschlagen, wie lineare Transformer und State Space Models (SSMs), einschließlich Mamba, DeltaNet und ähnlicher, die feste Speicher und lineare Rechenkomplexität erreichen.
Einschränkungen von SSMs: Trotz ihrer Effizienzvorteile weisen einige Studien darauf hin, dass SSMs erhebliche Einschränkungen bei Aufgaben aufweisen, die lange Sequenzspeicherung und Kontextlernen erfordern.

Forschungsmotivation

Die Autoren zielen darauf ab, die Fähigkeiten und Einschränkungen von SSMs bei Langsequenz-Generierungsaufgaben zu verstehen, besonders solche, bei denen die Ausgabelänge mit der Problemkomplexität wächst. Dies sind genau die Aufgabentypen, bei denen SSMs deutliche Reasoning-Effizienzvorteile gegenüber Transformern zeigen.

Kernbeiträge

Theoretisches negatives Ergebnis: Beweis, dass SSMs „echte Langsequenz"-Generierungsprobleme nicht genau lösen können, selbst wenn beliebig lange Chain-of-Thought (CoT)-Generierung erlaubt ist.
Theoretischer Rahmen für Werkzeugnutzung: Einführung eines neuen theoretischen Rahmens zur Untersuchung von ReAct-Agenten, mit Beweis, dass interaktive Werkzeugnutzung die Fähigkeiten von SSMs erheblich verbessern kann.
Suffizienztheorem für Längengeneralisierung: Beweis, dass SSMs mit angemessenem Werkzeugzugriff und spezifischen Trainingsdaten Längengeneralisierung bei jeder berechenbaren Langsequenz-Generierungsaufgabe erreichen können.
Experimentelle Validierung: Demonstration überlegener Längengeneralisierungsfähigkeiten werkzeugverstärkter SSMs bei arithmetischen, logischen Reasoning- und Programmieraufgaben.

Methodische Details

Aufgabendefinition

Formale Definition von Langsequenz-Generierungsaufgaben:

Sei Σ das Vokabular, X₁,X₂,... und Y₁,Y₂,... jeweils Eingabe- und Ausgaberaum-Sequenzen
D₁,D₂,... seien Verteilungssequenzen, wobei Dₙ eine Verteilung über Xₙ ist
f: Σ* → Σ* sei die echte Funktion, die f(Xₙ) ⊆ Yₙ erfüllt

Definition 2.2: (f, {Dₙ}) wird als Langsequenz-Generierungsaufgabe mit Abdeckung α bezeichnet, wenn und nur wenn suppₐ(f(Dₙ)) monoton mit n wächst und limₙ→∞ suppₐ(f(Dₙ)) = ∞.

Verallgemeinertes State Space Model (GSSM)

Definition: Ein GSSM wird durch folgende Komponenten definiert:

Zustandsraum S (endliche Menge)
Anfangszustand s₀ ∈ S
Aktualisierungsregel u: S × Σ → S
Ausgaberegel r: S → Δ(Σ)

Werkzeugnutzungs-Einstellung:

Nur CoT: Nur Denk- und Ausgabe-Token erlaubt
Einmalige Werkzeugnutzung: Einzelner Werkzeugaufruf erlaubt
Interaktive Werkzeugnutzung: Beliebig viele Werkzeugaufrufe und freies Verschachteln erlaubt

Zentrale theoretische Ergebnisse

Theorem 2.1 (Negatives Ergebnis): Für jede Langsequenz-Generierungsaufgabe f mit Abdeckung α existiert eine Problemkomplexität n₀, sodass für alle n ≥ n₀ jedes GSSM h mit nur CoT oder einmaliger Werkzeugnutzung eine Fehlerrate aufweist: errₙ(h) ≥ 1-α.

Theorem 2.2 (Positives Ergebnis): Es existiert ein Speicher-Werkzeug-Orakel O und ein einfacher GSSM-Lernalgorithmus A, sodass für jede berechenbare Langsequenz-Generierungsaufgabe f eine Trainingsverteilungssequenz {Pₙ} existiert, die A im interaktiven Setting Längengeneralisierung erreichen lässt.

Technische Innovationen

Speicher-Werkzeug-Design: Bereitstellung von Zeiger-basierten Werkzeugen mit Lese-/Schreibzugriff auf externen Speicher, die Turing-Maschinen-Operationen simulieren können.
Interaktives Trainingsparadigma: Durch Konstruktion von Trainingsdaten mit Werkzeugnutzungs-Trajektorien lernen SSMs, externe Speicher zu nutzen, um interne Speichergrenzen zu überwinden.
Algorithmus-Trajektoriengenerierung: Design synthetischer Werkzeugnutzungs-Trajektorien für verschiedene Aufgaben (Addition, Multiplikation, logisches Reasoning usw.), die erforderliche Algorithmen präzise simulieren.

Experimentelle Einrichtung

Datensätze

Arithmetische Aufgaben: Mehrstellige Addition und Multiplikation, Trainieren bis zu 5-10 Stellen, Testen bis zu 1000 Stellen
Türme von Hanoi: Trainieren bis zu 8 Scheiben, Testen bis zu 12 Scheiben
Logisches Graph-Reasoning: Trainieren bis zu 10 Knoten, Testen bis zu 1000 Knoten
Code-Reparatur: Trainieren mit bis zu 16 Funktionen, Testen mit größeren Codebäsen

Modellkonfiguration

SSMs: Mamba-130M/1.4B, LSTM, GRU
Transformer: Pythia-160M/1.4B, Mistral (Sliding-Window-Aufmerksamkeit)
Alle Modelle vergleichbarer Größe (~130M Parameter)

Werkzeugtypen

Zeiger-basierter Speicher: Unterstützt Initialisierung, Bewegung, Lesevorgänge
Such-Werkzeuge: Unterstützen Mustererkennung im Kontext
Bash-Befehle: Für Dateivorgänge bei Code-Reparatur-Aufgaben

Experimentelle Ergebnisse

Hauptergebnisse

Arithmetische Aufgaben-Leistung:

Mamba führt nach Training mit 5-stelligen Zahlen perfekt 1000-stellige Addition durch (100% Genauigkeit)
Multiplikations-Aufgaben: 10-stellig × 1-stellig Training → 1000-stellig × 1-stellig Test (100% Genauigkeit)
Transformer-Modelle können kaum über Trainings-Länge hinaus generalisieren

Reasoning-Aufgaben-Leistung:

Logisches Graph-Reasoning: 10-Knoten-Training → 1000-Knoten-Test (98% Genauigkeit)
Türme von Hanoi: 8-Scheiben-Training → 12-Scheiben-Test (49% Genauigkeit bei exponentiellem Ausgabelängenwachstum)

Code-Reparatur-Aufgaben:

Unter interaktivem Agenten-Training behält Mamba bessere Leistung bei größeren Codebäsen
Transformer zeigt bessere Leistung bei kleinen Codebäsen, kann aber nicht auf größere Skalen generalisieren

Ablationsstudien

Wichtigste Erkenntnisse:

Entfernung von CoT oder Werkzeugnutzung führt zu fast vollständigem Verlust der Längengeneralisierungsfähigkeit
Einmalige Werkzeugnutzung hat begrenzte Wirkung, interaktive Nutzung ist entscheidend
Gemischtes Task-Training kann unter begrenztem Budget die Generalisierung verbessern

Experimentelle Befunde

Architektur-Vorteile: SSMs/RNNs zeigen signifikante Überlegenheit gegenüber Transformern in werkzeugverstärkten Settings
Bedeutung der Interaktion: Interaktive Werkzeugnutzung ist Schlüssel zur Längengeneralisierung
Trainings-Datenqualität: Sorgfältig konstruierte Algorithmus-Trajektorien sind für Erfolg entscheidend
Skalierbarkeit: Methode ist auf verschiedene algorithmische Aufgaben skalierbar

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

SSMs haben fundamentale Längengeneralisierungs-Einschränkungen bei isolierter Nutzung
Interaktive Werkzeugnutzung kann diese Einschränkungen vollständig überwinden
In Agent-Settings können SSMs Transformern überlegen sein

Einschränkungen

Theoretische Analyse mit relativ einfachem Lernalgorithmus (String-Matching)
Begrenzte Generalisierung bei Aufgaben mit exponentiellem Ausgabelängenwachstum wie Türme von Hanoi
Erfordert sorgfältig gestaltete Trainings-Trajektorien
Begrenzte Generalisierung bei Code-Reparatur-Aufgaben

Zukünftige Richtungen

Entwicklung weiterer SSM-basierter Werkzeugnutzungs-Agenten
Untersuchung theoretischer Garantien für natürlichere Lernalgorithmen (z.B. Gradientenabstieg)
Erweiterung auf komplexere Reasoning- und Agent-Aufgaben
Erkundung des Potenzials hybrider Architekturen

Tiefgreifende Bewertung

Stärken

Theoretische Strenge: Bietet mathematisch rigorose Beweise für SSM-Einschränkungen
Praktischer Wert: Demonstriert praktische Effektivität der Werkzeugnutzung
Experimentelle Vollständigkeit: Umfasst mehrere Aufgabentypen und Modellarchitekturen
Tiefe Einsichten: Offenbart, dass Architektur-Leistung in Systemen von isolierter Nutzung abweichen kann

Mängel

Theorie-Praxis-Lücke: Theoretische Analyse mit einfachem Lernalgorithmus versus praktisches neuronales Netzwerk-Training
Aufgaben-Einschränkungen: Konzentriert sich hauptsächlich auf algorithmische Aufgaben, Anwendbarkeit auf offene Generierungsaufgaben unklar
Engineering-Komplexität: Erfordert aufgabenspezifische Werkzeug- und Trainings-Trajektorienkonstruktion
Skalierungsprobleme: Leistung bei komplexeren realen Aufgaben noch zu verifizieren

Auswirkungen

Theoretischer Beitrag: Bietet neue Perspektive zum Verständnis fundamentaler Fähigkeitsunterschiede verschiedener Architekturen
Praktische Anleitung: Bietet theoretische Unterstützung für SSM-Anwendung in Agent-Systemen
Forschungsrichtung: Könnte mehr Forschung zu werkzeugverstärkten Sprachmodellen anstoßen

Anwendungsszenarien

Algorithmus-Ausführung: Aufgaben, die präzise Ausführung bekannter Algorithmen erfordern
Langsequenz-Verarbeitung: Szenarien mit begrenzten Rechenressourcen aber Langsequenz-Anforderungen
Agent-Systeme: Intelligente Agent-Anwendungen mit externem Werkzeugzugriff
Bildungsanwendungen: Lehrsysteme zur Demonstration von Algorithmus-Ausführungsprozessen

Literaturverzeichnis

Dieses Paper zitiert wichtige Arbeiten des Feldes, einschließlich:

Transformer-Originalarbeiten (Vaswani et al., 2017)
Mamba und andere SSM-Architekturen (Gu & Dao, 2023)
Chain-of-Thought-bezogene Forschung (Wei et al., 2022)
ReAct-Framework (Yao et al., 2023)
Längengeneralisierungs-bezogene Arbeiten (Zhou et al., 2024 u.a.)

Zusammenfassung: Dies ist ein hochqualitatives Paper mit theoretischen und experimentellen Schwerpunkten, das wichtige Einsichten zum Verständnis der Fähigkeitsgrenzen von SSMs und des Wertes der Werkzeugnutzung bietet. Obwohl die praktische Skalierbarkeit noch verifiziert werden muss, haben seine theoretischen Beiträge und experimentellen Erkenntnisse bedeutende Auswirkungen auf die Weiterentwicklung des Feldes.