2025-11-15T11:28:11.649653

Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models

Geiping, Yang, Su

Language models with recurrent depth, also referred to as universal or looped when considering transformers, are defined by the capacity to increase their computation through the repetition of layers. Recent efforts in pretraining have demonstrated that these architectures can scale to modern language modeling tasks while exhibiting advantages in reasoning tasks. In this work, we examine the relationship between recurrent-depth models and diffusion language models. Building on their similarities, we develop a new diffusion forcing sampler for these models to accelerate generation. The sampler advances by decoding new tokens at every forward pass of the model, while the latent states of these tokens can be further refined in parallel through recurrence. Theoretically, generation with our sampler is strictly more expressive than the baseline autoregressive generation using the same time budget on modern hardware. Moreover, this sampler, based on principles from diffusion literature, can be directly applied to existing 3.5B recurrent-depth transformers without any tuning, leading to up to a 5x speedup. Consequently, our findings not only provide an efficient mechanism for parallelizing the extra computation in recurrent-depth models at inference, but also suggest that such models can be naturally viewed as strong continuous, though causal, diffusion language models.

academic

Effiziente parallele Sampler für Modelle mit rekursiver Tiefe und ihre Verbindung zu Diffusions-Sprachmodellen

Grundlegende Informationen

Paper-ID: 2510.14961
Titel: Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
Autoren: Jonas Geiping, Xinyu Yang, Guinan Su
Klassifizierung: cs.LG cs.CL
Veröffentlichungsdatum: 16. Oktober 2025 (arXiv Preprint)
Paper-Link: https://arxiv.org/abs/2510.14961

Zusammenfassung

Diese Arbeit untersucht die Verbindung zwischen Sprachmodellen mit rekursiver Tiefe (auch als universelle Transformer oder rekurrente Transformer bekannt) und Diffusions-Sprachmodellen. Modelle mit rekursiver Tiefe erhöhen die Rechenleistung durch wiederholte Schichten und zeigen Vorteile bei Inferenzaufgaben. Basierend auf den Ähnlichkeiten zwischen den beiden Modellklassen entwickeln die Autoren einen neuen Diffusions-Erzwingungssampler zur Beschleunigung des Generierungsprozesses. Der Sampler dekodiert bei jeder Vorwärtsdurchführung neue Token, während er gleichzeitig die latenten Zustände dieser Token durch rekursive Parallelisierung optimiert. Theoretisch ist dieser Sampler bei gleichem Zeitbudget ausdrucksstärker als die autoregressive Baseline-Generierung. Wichtiger noch: Der Sampler kann direkt auf bestehende Transformer mit rekursiver Tiefe mit 3,5B Parametern angewendet werden und erreicht ohne jegliche Feinabstimmung eine Beschleunigung von bis zu 5x.

Forschungshintergrund und Motivation

Problemdefinition

Traditionelle große Sprachmodelle verwenden Architekturen mit fester Tiefe, wobei die Anzahl der Schichten typischerweise gering ist (nur zweistellig). Obwohl dieses Design bei der Trainingseffizienz und bei den meisten Aufgaben gut funktioniert, hat es Einschränkungen bei komplexen Aufgaben, die mehrstufiges logisches Denken erfordern, wie Mathematik und Programmierung. Aus Sicht der Komplexitätstheorie gehören Transformer mit fester Tiefe zur TC0-Komplexitätsklasse und haben begrenzte Ausdruckskraft.

Forschungsmotivation

Einschränkungen der Rechenleistung: Modelle mit fester Tiefe können mehrstufige logische Ketten, die konzeptionelle Sprünge erfordern, nur schwer verarbeiten
Inferenzeffizienzprobleme: Obwohl Modelle mit rekursiver Tiefe stärkere Ausdruckskraft haben, ist die Generierungsgeschwindigkeit langsam, da jede Rekursion sequenziell ausgeführt werden muss
Parallelisierungsbedarf: Moderne GPU-Architekturen bieten Möglichkeiten für parallele Berechnungen, aber traditionelle autoregressive Generierung kann diese nicht vollständig nutzen

Einschränkungen bestehender Methoden

Chain-of-Thought-Methoden: Erfordern die Externalisierung interner Überlegungsprozesse in kleine Schritte, was die Sequenzlänge erhöht
Modelle mit rekursiver Tiefe: Obwohl sie starke Ausdruckskraft haben, muss jeder Rekursionsschritt während der Inferenz seriell ausgeführt werden, was zu langsamer Generierung führt
Traditionelle Parallelisierungsmethoden: Methoden wie spekulative Dekodierung sind hauptsächlich für Modelle mit fester Tiefe konzipiert

Kernbeiträge

Theoretischer Beitrag: Verdeutlicht die Verbindung zwischen Modellen mit rekursiver Tiefe und Diffusionsmodellen und etabliert eine theoretische Brücke zwischen beiden durch Diffusions-Erzwingung und blockweise oder wellenbasierte Inferenzstrategien
Methodische Innovation: Schlägt einen Diffusions-Erzwingungssampler vor, der auf Modelle mit rekursiver Tiefe anwendbar ist und die Parallelisierung des Inferenzprozesses ermöglicht
Experimentelle Validierung: Validiert die Effektivität der Methode am Huginn-0125-Modell mit 3,5B Parametern und erreicht etwa 5x Geschwindigkeitssteigerung bei Benchmarks wie GSM8K, MATH500, HumanEval und MBPP bei Beibehaltung ähnlicher Genauigkeit
Praktischer Wert: Der Sampler kann direkt auf bestehende Modelle mit rekursiver Tiefe angewendet werden, ohne Umschulung oder Feinabstimmung

Methodische Details

Aufgabendefinition

Gegeben ein Modell mit rekursiver Tiefe und ein Eingabe-Prompt x besteht das Ziel darin, den Textgenerierungsprozess zu beschleunigen und gleichzeitig die Generierungsqualität zu bewahren. Konkret müssen bei gleichem Zeitbudget mehr Token generiert oder bei gleicher Token-Anzahl die Generierungszeit reduziert werden.

Modellarchitektur

Struktur des Modells mit rekursiver Tiefe

Das in dieser Arbeit verwendete Modell mit rekursiver Tiefe (Huginn-0125) besteht aus drei Hauptkomponenten:

Präludium-Block (Prelude Block) P: Projiziert eingebettete Eingabe-Token in den latenten Raum
Rekursions-Block (Recurrent Block) R: Iteriert r-mal im latenten Raum und optimiert den Zustandsvektor s durch Inferenz
Coda-Block (Coda Block) C: Verarbeitet den latenten Zustand und erzeugt die Wahrscheinlichkeitsverteilung für den nächsten Token

Mathematische Darstellung:

e = P(x)
s₀ ~ N(0, σ²I)
sᵢ = R(e, sᵢ₋₁) für i ∈ {1, ..., r}
p = C(sᵣ)

Design des Diffusions-Erzwingungssamplers

Die Kernidee besteht darin, das Diffusions-Erzwingungsprinzip auf Modelle mit rekursiver Tiefe anzuwenden und eine "diagonale" Parallelisierung zu erreichen:

Parallele Token-Generierung: Verarbeitet bei jeder Vorwärtsdurchführung mehrere Token-Positionen gleichzeitig
Iterative Optimierung: Optimiert die latenten Zustände aller aktiven Token schrittweise durch Rekursionsschritte
Dynamisches Einfrieren: Adaptiver Ausstiegsmechanismus basierend auf latenter Raumdistanz

Technische Innovationspunkte

1. Eingabe-Injektionsmechanismus

Der Rekursionsprozess wird durch die eingebettete Eingabe e konditioniert, was dem Sampler ermöglicht, "Pfadkorrektionen" durchzuführen, wenn sich die Bedingungen ändern, ohne teilweise berechnete Zustände zu verwerfen.

Verschiedene Rekursionstiefen können KV-Caches gemeinsam nutzen, was die Speichernutzung erheblich reduziert. Experimente zeigen, dass das Modell KV-Cache-Sharing nativ unterstützt und nur die KV-Zustände der neuesten Rekursion für jede Token-Position speichern muss.

3. Adaptive Ausstiegsstrategie

Verwendet die normalisierte Distanz im latenten Raum als Ausstiegskriterium:

δᵢ = ||zᵢ - z_prev,ᵢ||₂ / ||zᵢ||₂

Wenn δᵢ < ε, wird das entsprechende Token eingefroren und zum KV-Cache hinzugefügt.

4. Stabilisierungskomponenten

Momentum-Mechanismus: Fügt Momentum zur Eingabebedingung e hinzu: e = η·e_prev + (1-η)·P(y_current)
Rausch-Injektion: Fügt bei jedem Sampling-Schritt Rauschen hinzu: z' = (1-βₜ)z + βₜ·z_noise

Experimentelle Einrichtung

Datensätze

GSM8K: Mathematische Reasoning-Aufgabe mit CoT-Version und 8-Shot-Einstellung
MATH500: Hochschwierige mathematische Probleme
HumanEval: Code-Generierungsaufgabe
MBPP: Python-Programmierprobleme

Bewertungsmetriken

Genauigkeit (Accuracy): Aufgabenspezifische Genauigkeitsindikatoren
Generierungsgeschwindigkeit (Tokens/Second): Anzahl der pro Sekunde generierten Token, gemessen mit CUDA-Events

Vergleichsmethoden

Statische Autoregression (Static AR): Baseline-Methode mit verschiedenen Rekursionstiefen (r=4,8,32,64)
Adaptive Berechnungsautoregression: Adaptiver Berechnungssampler aus der Originalarbeit
Spekulative Dekodierung: Fein abgestimmte spekulative Dekodierungs-Baseline

Implementierungsdetails

Batch-Größe: 1 (Single-Sequence-Inferenz)
Temperatur: 0,2, top-p: 0,95
Standardparameter: r'=4, ε=0,03, βₜ=0, η=0,1
Maximale Wellenfrontgröße: 128
Hardware: A100-40GB GPU

Experimentelle Ergebnisse

Hauptergebnisse

Der Diffusions-Erzwingungssampler erreicht auf allen Benchmarks signifikante Geschwindigkeitssteigerungen:

Sampler	GSM8K	MATH500	HumanEval	MBPP
	Gen./t/s	Gen./t/s	Gen./t/s	Gen./t/s
Static AR (r=32)	41,77%/36,1	17,60%/6,4	22,56%/13,5	31,60%/15,3
Diff. Sampler	42,08%/157,3	18,00%/30,3	20,12%/64,9	31,00%/70,2
Relative Verbesserung	+0,31/4,36×	+0,40/4,73×	-2,44/4,81×	-0,60/4,59×

Ablationsstudien

Hyperparameter-Sensitivitätsanalyse

Interne Rekursionsschritte r': Erhöhung von r' verbessert die Genauigkeit, reduziert aber den Durchsatz; r'=4 ist der optimale Kompromiss
Ausstiegsschwelle ε: Kleinere ε-Werte verbessern die Genauigkeit, reduzieren aber die Geschwindigkeit; ε=0,03 ist die empfohlene Einstellung
Rausch-Koeffizient βₜ: Bei kleinerem r' hilft angemessenes Rauschen (βₜ=0,2-0,3) bei der Stabilität
Wellenfrontgröße: 64-128 ist die optimale Einstellung für A100 GPU

Validierung von Modellvarianten

Validiert die Robustheit der Methode auf verschiedenen Modell-Checkpoints:

SWA-Modell: Gewichtete Durchschnittsversion
Mathematisch feinabgestimmtes Modell: Version, die auf dem MetaMath-Datensatz feinabgestimmt wurde

Alle Varianten zeigen konsistente 4-5x Geschwindigkeitssteigerung mit Genauigkeitsabweichungen im Bereich von 0,5-1%.

Validierung der theoretischen Analyse

Tiefe vs. Breite Skalierung

Experimente validieren die Vorhersagen der theoretischen Analyse:

Prefill-Phase: Tiefenskalierung übertrifft Breitenskalierung
Dekodierungsphase: Diffusions-Erzwingungssampling erreicht bessere Breitenskalierung
Ausdruckskraft: Bei gleichem Zeitbudget ist der Diffusions-Sampler streng überlegen gegenüber autoregressiver Generierung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Theoretischer Beitrag: Etabliert theoretische Verbindung zwischen Modellen mit rekursiver Tiefe und Diffusionsmodellen
Praktischer Wert: Erreicht 5x Inferenzbeschleunigung bei Beibehaltung der Generierungsqualität
Universalität: Methode kann direkt auf bestehende Modelle angewendet werden, ohne Umschulung
Neue Perspektive: Modelle mit rekursiver Tiefe können als kontinuierliche kausale Diffusions-Sprachmodelle betrachtet werden

Einschränkungen

Batch-Processing-Einschränkung: Aktuelle Implementierung unterstützt nur Single-Sequence-Inferenz; Batch-Szenarien erfordern komplexe Inferenz-Engines
FLOP-Effizienz: Obwohl die Parallelität erhöht wird, nimmt die FLOP-Nutzung tatsächlich zu
Hardware-Abhängigkeit: Optimale Parametereinstellungen hängen von spezifischen Hardware-Konfigurationen ab
Modellvorgaben: Erfordert, dass das Modell spezifische Architekturanforderungen erfüllt (Eingabe-Injektion, robuste Rekursion usw.)

Zukünftige Richtungen

Batch-Processing-Inferenz-Engine: Entwicklung von Systemen, die großflächiges Batch-Processing unterstützen
Architektur-Optimierung: Entwurf von Architekturen mit rekursiver Tiefe, die besser für Diffusions-Erzwingungssampling geeignet sind
Trainingsziele: Erforschung von Unfolding-Zielen in der Diffusions-Sprachmodellierung
Theoretische Vertiefung: Weitere Untersuchung der theoretischen Grundlagen von Modellen mit rekursiver Tiefe als Diffusionsmodelle

Tiefgreifende Bewertung

Stärken

Starke Innovation: Erste Etablierung der Verbindung zwischen Modellen mit rekursiver Tiefe und Diffusionsmodellen mit neuer theoretischer Perspektive
Hoher praktischer Wert: Erreicht signifikante Inferenzbeschleunigung und kann direkt auf bestehende Modelle angewendet werden
Theoretische Strenge: Bietet theoretische Analyse von Tiefe vs. Breite Skalierung und Konvergenzbeweis
Umfassende Experimente: Validiert die Effektivität und Robustheit der Methode auf mehreren Benchmarks und Modellvarianten

Schwächen

Begrenzte Anwendbarkeit: Methode erfordert, dass Modelle spezifische Architekturanforderungen erfüllen, was die Universalität einschränkt
Unzureichende Batch-Processing-Unterstützung: Single-Sequence-Inferenz limitiert die Anwendung in Produktionsumgebungen
Speicheraufwand: Obwohl KV-Cache-Sharing vorhanden ist, ist zusätzlicher latenter Zustandsspeicher erforderlich
Hyperparameter-Sensitivität: Mehrere Hyperparameter müssen für verschiedene Aufgaben und Hardware abgestimmt werden

Einfluss

Akademischer Beitrag: Bietet neue Schnittstelle für Forschung zu Modellen mit rekursiver Tiefe und Diffusionsmodellen
Ingenieurwert: Bietet neuen technischen Weg zur Optimierung der Inferenz großer Modelle
Inspirationswert: Kann weitere Forschung zur Kombination von Modellarchitektur und Sampling-Strategien inspirieren

Anwendungsszenarien

Single-User-Inferenz: Textgenerierung in persönlichen oder kleinflächigen Anwendungen
Inferenz-intensive Aufgaben: Aufgaben wie Mathematik und Programmierung, die mehrstufiges Denken erfordern
Ressourcenbeschränkte Umgebungen: Szenarien, in denen die Inferenzeffizienz bei begrenzten Rechenressourcen erhöht werden muss
Forschungsprototypen: Weitere Forschung zu Modellen mit rekursiver Tiefe und Diffusions-Sampling

Referenzen

Das Paper zitiert umfangreiche verwandte Arbeiten, einschließlich:

Dehghani et al. (2019): Originalarbeit zu Universal Transformers
Chen et al. (2024a): Diffusions-Erzwingungsmethode
Geiping et al. (2025): Huginn-0125 Modell mit rekursiver Tiefe
Rombach et al. (2022): Diffusionsmodelle im latenten Raum
Leviathan et al. (2023): Spekulative Dekodierungsmethode

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier mit wichtigen Beiträgen sowohl in theoretischer Innovation als auch in praktischem Wert. Das Paper etabliert erfolgreich eine Verbindung zwischen zwei wichtigen Modellklassen und schlägt eine praktische Beschleunigungsmethode vor. Obwohl es einige Einschränkungen gibt, bietet es wertvolle Richtungen und Grundlagen für zukünftige Forschung.