2025-11-15T11:28:11.649653

Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models

Geiping, Yang, Su
Language models with recurrent depth, also referred to as universal or looped when considering transformers, are defined by the capacity to increase their computation through the repetition of layers. Recent efforts in pretraining have demonstrated that these architectures can scale to modern language modeling tasks while exhibiting advantages in reasoning tasks. In this work, we examine the relationship between recurrent-depth models and diffusion language models. Building on their similarities, we develop a new diffusion forcing sampler for these models to accelerate generation. The sampler advances by decoding new tokens at every forward pass of the model, while the latent states of these tokens can be further refined in parallel through recurrence. Theoretically, generation with our sampler is strictly more expressive than the baseline autoregressive generation using the same time budget on modern hardware. Moreover, this sampler, based on principles from diffusion literature, can be directly applied to existing 3.5B recurrent-depth transformers without any tuning, leading to up to a 5x speedup. Consequently, our findings not only provide an efficient mechanism for parallelizing the extra computation in recurrent-depth models at inference, but also suggest that such models can be naturally viewed as strong continuous, though causal, diffusion language models.
academic

Effiziente parallele Sampler für Modelle mit rekursiver Tiefe und ihre Verbindung zu Diffusions-Sprachmodellen

Grundlegende Informationen

  • Paper-ID: 2510.14961
  • Titel: Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
  • Autoren: Jonas Geiping, Xinyu Yang, Guinan Su
  • Klassifizierung: cs.LG cs.CL
  • Veröffentlichungsdatum: 16. Oktober 2025 (arXiv Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.14961

Zusammenfassung

Diese Arbeit untersucht die Verbindung zwischen Sprachmodellen mit rekursiver Tiefe (auch als universelle Transformer oder rekurrente Transformer bekannt) und Diffusions-Sprachmodellen. Modelle mit rekursiver Tiefe erhöhen die Rechenleistung durch wiederholte Schichten und zeigen Vorteile bei Inferenzaufgaben. Basierend auf den Ähnlichkeiten zwischen den beiden Modellklassen entwickeln die Autoren einen neuen Diffusions-Erzwingungssampler zur Beschleunigung des Generierungsprozesses. Der Sampler dekodiert bei jeder Vorwärtsdurchführung neue Token, während er gleichzeitig die latenten Zustände dieser Token durch rekursive Parallelisierung optimiert. Theoretisch ist dieser Sampler bei gleichem Zeitbudget ausdrucksstärker als die autoregressive Baseline-Generierung. Wichtiger noch: Der Sampler kann direkt auf bestehende Transformer mit rekursiver Tiefe mit 3,5B Parametern angewendet werden und erreicht ohne jegliche Feinabstimmung eine Beschleunigung von bis zu 5x.

Forschungshintergrund und Motivation

Problemdefinition

Traditionelle große Sprachmodelle verwenden Architekturen mit fester Tiefe, wobei die Anzahl der Schichten typischerweise gering ist (nur zweistellig). Obwohl dieses Design bei der Trainingseffizienz und bei den meisten Aufgaben gut funktioniert, hat es Einschränkungen bei komplexen Aufgaben, die mehrstufiges logisches Denken erfordern, wie Mathematik und Programmierung. Aus Sicht der Komplexitätstheorie gehören Transformer mit fester Tiefe zur TC0-Komplexitätsklasse und haben begrenzte Ausdruckskraft.

Forschungsmotivation

  1. Einschränkungen der Rechenleistung: Modelle mit fester Tiefe können mehrstufige logische Ketten, die konzeptionelle Sprünge erfordern, nur schwer verarbeiten
  2. Inferenzeffizienzprobleme: Obwohl Modelle mit rekursiver Tiefe stärkere Ausdruckskraft haben, ist die Generierungsgeschwindigkeit langsam, da jede Rekursion sequenziell ausgeführt werden muss
  3. Parallelisierungsbedarf: Moderne GPU-Architekturen bieten Möglichkeiten für parallele Berechnungen, aber traditionelle autoregressive Generierung kann diese nicht vollständig nutzen

Einschränkungen bestehender Methoden

  • Chain-of-Thought-Methoden: Erfordern die Externalisierung interner Überlegungsprozesse in kleine Schritte, was die Sequenzlänge erhöht
  • Modelle mit rekursiver Tiefe: Obwohl sie starke Ausdruckskraft haben, muss jeder Rekursionsschritt während der Inferenz seriell ausgeführt werden, was zu langsamer Generierung führt
  • Traditionelle Parallelisierungsmethoden: Methoden wie spekulative Dekodierung sind hauptsächlich für Modelle mit fester Tiefe konzipiert

Kernbeiträge

  1. Theoretischer Beitrag: Verdeutlicht die Verbindung zwischen Modellen mit rekursiver Tiefe und Diffusionsmodellen und etabliert eine theoretische Brücke zwischen beiden durch Diffusions-Erzwingung und blockweise oder wellenbasierte Inferenzstrategien
  2. Methodische Innovation: Schlägt einen Diffusions-Erzwingungssampler vor, der auf Modelle mit rekursiver Tiefe anwendbar ist und die Parallelisierung des Inferenzprozesses ermöglicht
  3. Experimentelle Validierung: Validiert die Effektivität der Methode am Huginn-0125-Modell mit 3,5B Parametern und erreicht etwa 5x Geschwindigkeitssteigerung bei Benchmarks wie GSM8K, MATH500, HumanEval und MBPP bei Beibehaltung ähnlicher Genauigkeit
  4. Praktischer Wert: Der Sampler kann direkt auf bestehende Modelle mit rekursiver Tiefe angewendet werden, ohne Umschulung oder Feinabstimmung

Methodische Details

Aufgabendefinition

Gegeben ein Modell mit rekursiver Tiefe und ein Eingabe-Prompt x besteht das Ziel darin, den Textgenerierungsprozess zu beschleunigen und gleichzeitig die Generierungsqualität zu bewahren. Konkret müssen bei gleichem Zeitbudget mehr Token generiert oder bei gleicher Token-Anzahl die Generierungszeit reduziert werden.

Modellarchitektur

Struktur des Modells mit rekursiver Tiefe

Das in dieser Arbeit verwendete Modell mit rekursiver Tiefe (Huginn-0125) besteht aus drei Hauptkomponenten:

  1. Präludium-Block (Prelude Block) P: Projiziert eingebettete Eingabe-Token in den latenten Raum
  2. Rekursions-Block (Recurrent Block) R: Iteriert r-mal im latenten Raum und optimiert den Zustandsvektor s durch Inferenz
  3. Coda-Block (Coda Block) C: Verarbeitet den latenten Zustand und erzeugt die Wahrscheinlichkeitsverteilung für den nächsten Token

Mathematische Darstellung:

e = P(x)
s₀ ~ N(0, σ²I)
sᵢ = R(e, sᵢ₋₁) für i ∈ {1, ..., r}
p = C(sᵣ)

Design des Diffusions-Erzwingungssamplers

Die Kernidee besteht darin, das Diffusions-Erzwingungsprinzip auf Modelle mit rekursiver Tiefe anzuwenden und eine "diagonale" Parallelisierung zu erreichen:

  1. Parallele Token-Generierung: Verarbeitet bei jeder Vorwärtsdurchführung mehrere Token-Positionen gleichzeitig
  2. Iterative Optimierung: Optimiert die latenten Zustände aller aktiven Token schrittweise durch Rekursionsschritte
  3. Dynamisches Einfrieren: Adaptiver Ausstiegsmechanismus basierend auf latenter Raumdistanz

Technische Innovationspunkte

1. Eingabe-Injektionsmechanismus

Der Rekursionsprozess wird durch die eingebettete Eingabe e konditioniert, was dem Sampler ermöglicht, "Pfadkorrektionen" durchzuführen, wenn sich die Bedingungen ändern, ohne teilweise berechnete Zustände zu verwerfen.

2. KV-Cache-Sharing

Verschiedene Rekursionstiefen können KV-Caches gemeinsam nutzen, was die Speichernutzung erheblich reduziert. Experimente zeigen, dass das Modell KV-Cache-Sharing nativ unterstützt und nur die KV-Zustände der neuesten Rekursion für jede Token-Position speichern muss.

3. Adaptive Ausstiegsstrategie

Verwendet die normalisierte Distanz im latenten Raum als Ausstiegskriterium:

δᵢ = ||zᵢ - z_prev,ᵢ||₂ / ||zᵢ||₂

Wenn δᵢ < ε, wird das entsprechende Token eingefroren und zum KV-Cache hinzugefügt.

4. Stabilisierungskomponenten

  • Momentum-Mechanismus: Fügt Momentum zur Eingabebedingung e hinzu: e = η·e_prev + (1-η)·P(y_current)
  • Rausch-Injektion: Fügt bei jedem Sampling-Schritt Rauschen hinzu: z' = (1-βₜ)z + βₜ·z_noise

Experimentelle Einrichtung

Datensätze

  • GSM8K: Mathematische Reasoning-Aufgabe mit CoT-Version und 8-Shot-Einstellung
  • MATH500: Hochschwierige mathematische Probleme
  • HumanEval: Code-Generierungsaufgabe
  • MBPP: Python-Programmierprobleme

Bewertungsmetriken

  • Genauigkeit (Accuracy): Aufgabenspezifische Genauigkeitsindikatoren
  • Generierungsgeschwindigkeit (Tokens/Second): Anzahl der pro Sekunde generierten Token, gemessen mit CUDA-Events

Vergleichsmethoden

  1. Statische Autoregression (Static AR): Baseline-Methode mit verschiedenen Rekursionstiefen (r=4,8,32,64)
  2. Adaptive Berechnungsautoregression: Adaptiver Berechnungssampler aus der Originalarbeit
  3. Spekulative Dekodierung: Fein abgestimmte spekulative Dekodierungs-Baseline

Implementierungsdetails

  • Batch-Größe: 1 (Single-Sequence-Inferenz)
  • Temperatur: 0,2, top-p: 0,95
  • Standardparameter: r'=4, ε=0,03, βₜ=0, η=0,1
  • Maximale Wellenfrontgröße: 128
  • Hardware: A100-40GB GPU

Experimentelle Ergebnisse

Hauptergebnisse

Der Diffusions-Erzwingungssampler erreicht auf allen Benchmarks signifikante Geschwindigkeitssteigerungen:

SamplerGSM8KMATH500HumanEvalMBPP
Gen./t/sGen./t/sGen./t/sGen./t/s
Static AR (r=32)41,77%/36,117,60%/6,422,56%/13,531,60%/15,3
Diff. Sampler42,08%/157,318,00%/30,320,12%/64,931,00%/70,2
Relative Verbesserung+0,31/4,36×+0,40/4,73×-2,44/4,81×-0,60/4,59×

Ablationsstudien

Hyperparameter-Sensitivitätsanalyse

  1. Interne Rekursionsschritte r': Erhöhung von r' verbessert die Genauigkeit, reduziert aber den Durchsatz; r'=4 ist der optimale Kompromiss
  2. Ausstiegsschwelle ε: Kleinere ε-Werte verbessern die Genauigkeit, reduzieren aber die Geschwindigkeit; ε=0,03 ist die empfohlene Einstellung
  3. Rausch-Koeffizient βₜ: Bei kleinerem r' hilft angemessenes Rauschen (βₜ=0,2-0,3) bei der Stabilität
  4. Wellenfrontgröße: 64-128 ist die optimale Einstellung für A100 GPU

Validierung von Modellvarianten

Validiert die Robustheit der Methode auf verschiedenen Modell-Checkpoints:

  • SWA-Modell: Gewichtete Durchschnittsversion
  • Mathematisch feinabgestimmtes Modell: Version, die auf dem MetaMath-Datensatz feinabgestimmt wurde

Alle Varianten zeigen konsistente 4-5x Geschwindigkeitssteigerung mit Genauigkeitsabweichungen im Bereich von 0,5-1%.

Validierung der theoretischen Analyse

Tiefe vs. Breite Skalierung

Experimente validieren die Vorhersagen der theoretischen Analyse:

  • Prefill-Phase: Tiefenskalierung übertrifft Breitenskalierung
  • Dekodierungsphase: Diffusions-Erzwingungssampling erreicht bessere Breitenskalierung
  • Ausdruckskraft: Bei gleichem Zeitbudget ist der Diffusions-Sampler streng überlegen gegenüber autoregressiver Generierung

Verwandte Arbeiten

Forschung zu rekursiven Modellen

  • Historische Entwicklung: Evolution von frühen RNNs zu universellen Transformern
  • Theoretische Grundlagen: Rechenleistung der universellen Turing-Maschine und Komplexitätsklassen
  • Praktische Anwendungen: Vorteile beim algorithmischen Lernen und bei Inferenzaufgaben

Diffusions-Sprachmodelle

  • Kontinuierliche Diffusion: Erfolgreiche Anwendung in der Bildgenerierung
  • Diskrete Diffusion: Herausforderungen und Lösungen bei der Textgenerierung
  • Inferenzstrategien: Blockdiffusion und Diffusions-Erzwingungsmethoden

Inferenzbeschleunigungstechniken

  • Spekulative Dekodierung: Nutzt kleine Modelle zum Entwurf und große Modelle zur Validierung
  • Parallelisierungsstrategien: Kompromisse zwischen speichergebunden und rechengebunden

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Theoretischer Beitrag: Etabliert theoretische Verbindung zwischen Modellen mit rekursiver Tiefe und Diffusionsmodellen
  2. Praktischer Wert: Erreicht 5x Inferenzbeschleunigung bei Beibehaltung der Generierungsqualität
  3. Universalität: Methode kann direkt auf bestehende Modelle angewendet werden, ohne Umschulung
  4. Neue Perspektive: Modelle mit rekursiver Tiefe können als kontinuierliche kausale Diffusions-Sprachmodelle betrachtet werden

Einschränkungen

  1. Batch-Processing-Einschränkung: Aktuelle Implementierung unterstützt nur Single-Sequence-Inferenz; Batch-Szenarien erfordern komplexe Inferenz-Engines
  2. FLOP-Effizienz: Obwohl die Parallelität erhöht wird, nimmt die FLOP-Nutzung tatsächlich zu
  3. Hardware-Abhängigkeit: Optimale Parametereinstellungen hängen von spezifischen Hardware-Konfigurationen ab
  4. Modellvorgaben: Erfordert, dass das Modell spezifische Architekturanforderungen erfüllt (Eingabe-Injektion, robuste Rekursion usw.)

Zukünftige Richtungen

  1. Batch-Processing-Inferenz-Engine: Entwicklung von Systemen, die großflächiges Batch-Processing unterstützen
  2. Architektur-Optimierung: Entwurf von Architekturen mit rekursiver Tiefe, die besser für Diffusions-Erzwingungssampling geeignet sind
  3. Trainingsziele: Erforschung von Unfolding-Zielen in der Diffusions-Sprachmodellierung
  4. Theoretische Vertiefung: Weitere Untersuchung der theoretischen Grundlagen von Modellen mit rekursiver Tiefe als Diffusionsmodelle

Tiefgreifende Bewertung

Stärken

  1. Starke Innovation: Erste Etablierung der Verbindung zwischen Modellen mit rekursiver Tiefe und Diffusionsmodellen mit neuer theoretischer Perspektive
  2. Hoher praktischer Wert: Erreicht signifikante Inferenzbeschleunigung und kann direkt auf bestehende Modelle angewendet werden
  3. Theoretische Strenge: Bietet theoretische Analyse von Tiefe vs. Breite Skalierung und Konvergenzbeweis
  4. Umfassende Experimente: Validiert die Effektivität und Robustheit der Methode auf mehreren Benchmarks und Modellvarianten

Schwächen

  1. Begrenzte Anwendbarkeit: Methode erfordert, dass Modelle spezifische Architekturanforderungen erfüllen, was die Universalität einschränkt
  2. Unzureichende Batch-Processing-Unterstützung: Single-Sequence-Inferenz limitiert die Anwendung in Produktionsumgebungen
  3. Speicheraufwand: Obwohl KV-Cache-Sharing vorhanden ist, ist zusätzlicher latenter Zustandsspeicher erforderlich
  4. Hyperparameter-Sensitivität: Mehrere Hyperparameter müssen für verschiedene Aufgaben und Hardware abgestimmt werden

Einfluss

  1. Akademischer Beitrag: Bietet neue Schnittstelle für Forschung zu Modellen mit rekursiver Tiefe und Diffusionsmodellen
  2. Ingenieurwert: Bietet neuen technischen Weg zur Optimierung der Inferenz großer Modelle
  3. Inspirationswert: Kann weitere Forschung zur Kombination von Modellarchitektur und Sampling-Strategien inspirieren

Anwendungsszenarien

  1. Single-User-Inferenz: Textgenerierung in persönlichen oder kleinflächigen Anwendungen
  2. Inferenz-intensive Aufgaben: Aufgaben wie Mathematik und Programmierung, die mehrstufiges Denken erfordern
  3. Ressourcenbeschränkte Umgebungen: Szenarien, in denen die Inferenzeffizienz bei begrenzten Rechenressourcen erhöht werden muss
  4. Forschungsprototypen: Weitere Forschung zu Modellen mit rekursiver Tiefe und Diffusions-Sampling

Referenzen

Das Paper zitiert umfangreiche verwandte Arbeiten, einschließlich:

  • Dehghani et al. (2019): Originalarbeit zu Universal Transformers
  • Chen et al. (2024a): Diffusions-Erzwingungsmethode
  • Geiping et al. (2025): Huginn-0125 Modell mit rekursiver Tiefe
  • Rombach et al. (2022): Diffusionsmodelle im latenten Raum
  • Leviathan et al. (2023): Spekulative Dekodierungsmethode

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier mit wichtigen Beiträgen sowohl in theoretischer Innovation als auch in praktischem Wert. Das Paper etabliert erfolgreich eine Verbindung zwischen zwei wichtigen Modellklassen und schlägt eine praktische Beschleunigungsmethode vor. Obwohl es einige Einschränkungen gibt, bietet es wertvolle Richtungen und Grundlagen für zukünftige Forschung.