Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
Geiping, Yang, Su
Language models with recurrent depth, also referred to as universal or looped when considering transformers, are defined by the capacity to increase their computation through the repetition of layers. Recent efforts in pretraining have demonstrated that these architectures can scale to modern language modeling tasks while exhibiting advantages in reasoning tasks. In this work, we examine the relationship between recurrent-depth models and diffusion language models. Building on their similarities, we develop a new diffusion forcing sampler for these models to accelerate generation. The sampler advances by decoding new tokens at every forward pass of the model, while the latent states of these tokens can be further refined in parallel through recurrence. Theoretically, generation with our sampler is strictly more expressive than the baseline autoregressive generation using the same time budget on modern hardware. Moreover, this sampler, based on principles from diffusion literature, can be directly applied to existing 3.5B recurrent-depth transformers without any tuning, leading to up to a 5x speedup. Consequently, our findings not only provide an efficient mechanism for parallelizing the extra computation in recurrent-depth models at inference, but also suggest that such models can be naturally viewed as strong continuous, though causal, diffusion language models.
academic
Campionatori Paralleli Efficienti per Modelli a Profondità Ricorrente e la Loro Connessione ai Modelli di Linguaggio a Diffusione
Questo articolo esamina i collegamenti tra modelli di linguaggio con profondità ricorrente (noti anche come trasformatori universali o trasformatori ricorrenti) e modelli di linguaggio a diffusione. I modelli a profondità ricorrente aumentano la capacità computazionale attraverso la ripetizione dei livelli, mostrando vantaggi nei compiti di ragionamento. Sulla base delle similitudini tra le due classi di modelli, gli autori sviluppano un nuovo campionatore a diffusione forzata per accelerare il processo di generazione. Il campionatore decodifica nuovi token in ogni propagazione in avanti, mentre ottimizza parallelamente gli stati latenti di questi token attraverso ricorsione. Teoricamente, con lo stesso budget di tempo, il campionatore è più espressivo della generazione autoregressiva di base. Ancora più importante, il campionatore può essere applicato direttamente ai trasformatori a profondità ricorrente con 3,5B parametri senza alcun fine-tuning, ottenendo un'accelerazione fino a 5 volte.
I modelli di linguaggio di grandi dimensioni tradizionali adottano architetture di reti neurali a profondità fissa, con un numero di livelli tipicamente ridotto (solo due cifre). Sebbene questo design funzioni bene in termini di efficienza di addestramento e nella maggior parte dei compiti, presenta limitazioni nei compiti complessi che richiedono ragionamento logico multistep, come la matematica e la programmazione. Dal punto di vista della teoria della complessità, i trasformatori a profondità fissa appartengono alla classe di complessità TC0, con capacità espressiva limitata.
Limitazioni della Capacità Computazionale: I modelli a profondità fissa hanno difficoltà a gestire catene logiche multistep che richiedono salti concettuali
Problemi di Efficienza dell'Inferenza: Sebbene i modelli a profondità ricorrente abbiano maggiore capacità espressiva, la velocità di generazione è lenta, poiché ogni ricorsione deve essere eseguita sequenzialmente
Necessità di Parallelizzazione: L'architettura moderna delle GPU offre opportunità per il calcolo parallelo, ma la generazione autoregressiva tradizionale non può sfruttarle pienamente
Metodi Chain-of-Thought: Richiedono l'esternalizzazione del processo di ragionamento interno in piccoli step, aumentando la lunghezza della sequenza
Modelli a Profondità Ricorrente: Sebbene abbiano maggiore capacità espressiva, ogni step ricorsivo durante l'inferenza deve essere eseguito in serie, causando una generazione lenta
Metodi di Parallelizzazione Tradizionali: Metodi come la decodifica speculativa sono principalmente progettati per modelli a profondità fissa
Contributo Teorico: Chiarisce i collegamenti tra modelli a profondità ricorrente e modelli a diffusione, stabilendo un ponte teorico tra i due attraverso strategie di diffusione forzata e ragionamento basato su blocchi o onde
Innovazione Metodologica: Propone un campionatore a diffusione forzata applicabile ai modelli a profondità ricorrente, realizzando la parallelizzazione del processo di inferenza
Verifica Sperimentale: Verifica l'efficacia del metodo sul modello Huginn-0125 con 3,5B parametri, ottenendo un'accelerazione di circa 5 volte nei benchmark GSM8K, MATH500, HumanEval e MBPP, mantenendo accuratezza comparabile
Valore Pratico: Il campionatore può essere applicato direttamente ai modelli a profondità ricorrente esistenti senza riaddestramento o fine-tuning
Dato un modello a profondità ricorrente e un prompt di input x, l'obiettivo è accelerare il processo di generazione del testo mantenendo la qualità della generazione. Specificamente, è necessario generare più token con lo stesso budget di tempo, o ridurre il tempo di generazione con lo stesso numero di token.
Il modello a profondità ricorrente utilizzato (Huginn-0125) contiene tre componenti principali:
Blocco di Preludio (Prelude Block) P: Proietta i token di input incorporati nello spazio latente
Blocco Ricorrente (Recurrent Block) R: Itera r volte nello spazio latente, conducendo il ragionamento attraverso l'ottimizzazione del vettore di stato s
Blocco di Coda (Coda Block) C: Elabora lo stato latente e produce la distribuzione di probabilità del token successivo
La rappresentazione matematica è la seguente:
e = P(x)
s₀ ~ N(0, σ²I)
sᵢ = R(e, sᵢ₋₁) per i ∈ {1, ..., r}
p = C(sᵣ)
Il processo ricorsivo è condizionato dall'input incorporato e, consentendo al campionatore di eseguire "correzioni di percorso" quando le condizioni cambiano, senza necessità di scartare stati parzialmente calcolati.
Diverse profondità ricorrenti possono condividere la cache KV, riducendo significativamente l'uso della memoria. Gli esperimenti mostrano che il modello supporta naturalmente la condivisione della cache KV, richiedendo solo l'archiviazione dello stato KV della ricorsione più recente per ogni posizione di token.
Limitazioni del Batch Processing: L'implementazione attuale supporta solo l'inferenza su singola sequenza, gli scenari di batch processing richiedono motori di inferenza complessi
Efficienza FLOP: Sebbene aumenti il parallelismo, l'utilizzo effettivo di FLOP aumenta
Dipendenza dall'Hardware: Le impostazioni di parametri ottimali dipendono dalla configurazione hardware specifica
Requisiti del Modello: Richiede che il modello soddisfi requisiti architetturali specifici (iniezione di input, ricorsione robusta, ecc.)
L'articolo cita numerosi lavori correlati, inclusi:
Dehghani et al. (2019): Lavoro originale su Universal Transformers
Chen et al. (2024a): Metodo Diffusion Forcing
Geiping et al. (2025): Modello a profondità ricorrente Huginn-0125
Rombach et al. (2022): Modelli di diffusione nello spazio latente
Leviathan et al. (2023): Metodo di decodifica speculativa
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità con importanti contributi sia in termini di innovazione teorica che di valore pratico. L'articolo stabilisce con successo i collegamenti tra due importanti classi di modelli e propone un metodo di accelerazione pratico. Sebbene presenti alcune limitazioni, fornisce direzioni e fondamenti preziosi per la ricerca futura.