Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
Geiping, Yang, Su
Language models with recurrent depth, also referred to as universal or looped when considering transformers, are defined by the capacity to increase their computation through the repetition of layers. Recent efforts in pretraining have demonstrated that these architectures can scale to modern language modeling tasks while exhibiting advantages in reasoning tasks. In this work, we examine the relationship between recurrent-depth models and diffusion language models. Building on their similarities, we develop a new diffusion forcing sampler for these models to accelerate generation. The sampler advances by decoding new tokens at every forward pass of the model, while the latent states of these tokens can be further refined in parallel through recurrence. Theoretically, generation with our sampler is strictly more expressive than the baseline autoregressive generation using the same time budget on modern hardware. Moreover, this sampler, based on principles from diffusion literature, can be directly applied to existing 3.5B recurrent-depth transformers without any tuning, leading to up to a 5x speedup. Consequently, our findings not only provide an efficient mechanism for parallelizing the extra computation in recurrent-depth models at inference, but also suggest that such models can be naturally viewed as strong continuous, though causal, diffusion language models.
academic
Effiziente parallele Sampler für Modelle mit rekursiver Tiefe und ihre Verbindung zu Diffusions-Sprachmodellen
Diese Arbeit untersucht die Verbindung zwischen Sprachmodellen mit rekursiver Tiefe (auch als universelle Transformer oder rekurrente Transformer bekannt) und Diffusions-Sprachmodellen. Modelle mit rekursiver Tiefe erhöhen die Rechenleistung durch wiederholte Schichten und zeigen Vorteile bei Inferenzaufgaben. Basierend auf den Ähnlichkeiten zwischen den beiden Modellklassen entwickeln die Autoren einen neuen Diffusions-Erzwingungssampler zur Beschleunigung des Generierungsprozesses. Der Sampler dekodiert bei jeder Vorwärtsdurchführung neue Token, während er gleichzeitig die latenten Zustände dieser Token durch rekursive Parallelisierung optimiert. Theoretisch ist dieser Sampler bei gleichem Zeitbudget ausdrucksstärker als die autoregressive Baseline-Generierung. Wichtiger noch: Der Sampler kann direkt auf bestehende Transformer mit rekursiver Tiefe mit 3,5B Parametern angewendet werden und erreicht ohne jegliche Feinabstimmung eine Beschleunigung von bis zu 5x.
Traditionelle große Sprachmodelle verwenden Architekturen mit fester Tiefe, wobei die Anzahl der Schichten typischerweise gering ist (nur zweistellig). Obwohl dieses Design bei der Trainingseffizienz und bei den meisten Aufgaben gut funktioniert, hat es Einschränkungen bei komplexen Aufgaben, die mehrstufiges logisches Denken erfordern, wie Mathematik und Programmierung. Aus Sicht der Komplexitätstheorie gehören Transformer mit fester Tiefe zur TC0-Komplexitätsklasse und haben begrenzte Ausdruckskraft.
Einschränkungen der Rechenleistung: Modelle mit fester Tiefe können mehrstufige logische Ketten, die konzeptionelle Sprünge erfordern, nur schwer verarbeiten
Inferenzeffizienzprobleme: Obwohl Modelle mit rekursiver Tiefe stärkere Ausdruckskraft haben, ist die Generierungsgeschwindigkeit langsam, da jede Rekursion sequenziell ausgeführt werden muss
Parallelisierungsbedarf: Moderne GPU-Architekturen bieten Möglichkeiten für parallele Berechnungen, aber traditionelle autoregressive Generierung kann diese nicht vollständig nutzen
Chain-of-Thought-Methoden: Erfordern die Externalisierung interner Überlegungsprozesse in kleine Schritte, was die Sequenzlänge erhöht
Modelle mit rekursiver Tiefe: Obwohl sie starke Ausdruckskraft haben, muss jeder Rekursionsschritt während der Inferenz seriell ausgeführt werden, was zu langsamer Generierung führt
Traditionelle Parallelisierungsmethoden: Methoden wie spekulative Dekodierung sind hauptsächlich für Modelle mit fester Tiefe konzipiert
Theoretischer Beitrag: Verdeutlicht die Verbindung zwischen Modellen mit rekursiver Tiefe und Diffusionsmodellen und etabliert eine theoretische Brücke zwischen beiden durch Diffusions-Erzwingung und blockweise oder wellenbasierte Inferenzstrategien
Methodische Innovation: Schlägt einen Diffusions-Erzwingungssampler vor, der auf Modelle mit rekursiver Tiefe anwendbar ist und die Parallelisierung des Inferenzprozesses ermöglicht
Experimentelle Validierung: Validiert die Effektivität der Methode am Huginn-0125-Modell mit 3,5B Parametern und erreicht etwa 5x Geschwindigkeitssteigerung bei Benchmarks wie GSM8K, MATH500, HumanEval und MBPP bei Beibehaltung ähnlicher Genauigkeit
Praktischer Wert: Der Sampler kann direkt auf bestehende Modelle mit rekursiver Tiefe angewendet werden, ohne Umschulung oder Feinabstimmung
Gegeben ein Modell mit rekursiver Tiefe und ein Eingabe-Prompt x besteht das Ziel darin, den Textgenerierungsprozess zu beschleunigen und gleichzeitig die Generierungsqualität zu bewahren. Konkret müssen bei gleichem Zeitbudget mehr Token generiert oder bei gleicher Token-Anzahl die Generierungszeit reduziert werden.
Die Kernidee besteht darin, das Diffusions-Erzwingungsprinzip auf Modelle mit rekursiver Tiefe anzuwenden und eine "diagonale" Parallelisierung zu erreichen:
Parallele Token-Generierung: Verarbeitet bei jeder Vorwärtsdurchführung mehrere Token-Positionen gleichzeitig
Iterative Optimierung: Optimiert die latenten Zustände aller aktiven Token schrittweise durch Rekursionsschritte
Dynamisches Einfrieren: Adaptiver Ausstiegsmechanismus basierend auf latenter Raumdistanz
Der Rekursionsprozess wird durch die eingebettete Eingabe e konditioniert, was dem Sampler ermöglicht, "Pfadkorrektionen" durchzuführen, wenn sich die Bedingungen ändern, ohne teilweise berechnete Zustände zu verwerfen.
Verschiedene Rekursionstiefen können KV-Caches gemeinsam nutzen, was die Speichernutzung erheblich reduziert. Experimente zeigen, dass das Modell KV-Cache-Sharing nativ unterstützt und nur die KV-Zustände der neuesten Rekursion für jede Token-Position speichern muss.
Das Paper zitiert umfangreiche verwandte Arbeiten, einschließlich:
Dehghani et al. (2019): Originalarbeit zu Universal Transformers
Chen et al. (2024a): Diffusions-Erzwingungsmethode
Geiping et al. (2025): Huginn-0125 Modell mit rekursiver Tiefe
Rombach et al. (2022): Diffusionsmodelle im latenten Raum
Leviathan et al. (2023): Spekulative Dekodierungsmethode
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier mit wichtigen Beiträgen sowohl in theoretischer Innovation als auch in praktischem Wert. Das Paper etabliert erfolgreich eine Verbindung zwischen zwei wichtigen Modellklassen und schlägt eine praktische Beschleunigungsmethode vor. Obwohl es einige Einschränkungen gibt, bietet es wertvolle Richtungen und Grundlagen für zukünftige Forschung.