2025-11-15T11:28:11.649653

Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models

Geiping, Yang, Su

Language models with recurrent depth, also referred to as universal or looped when considering transformers, are defined by the capacity to increase their computation through the repetition of layers. Recent efforts in pretraining have demonstrated that these architectures can scale to modern language modeling tasks while exhibiting advantages in reasoning tasks. In this work, we examine the relationship between recurrent-depth models and diffusion language models. Building on their similarities, we develop a new diffusion forcing sampler for these models to accelerate generation. The sampler advances by decoding new tokens at every forward pass of the model, while the latent states of these tokens can be further refined in parallel through recurrence. Theoretically, generation with our sampler is strictly more expressive than the baseline autoregressive generation using the same time budget on modern hardware. Moreover, this sampler, based on principles from diffusion literature, can be directly applied to existing 3.5B recurrent-depth transformers without any tuning, leading to up to a 5x speedup. Consequently, our findings not only provide an efficient mechanism for parallelizing the extra computation in recurrent-depth models at inference, but also suggest that such models can be naturally viewed as strong continuous, though causal, diffusion language models.

academic

Campionatori Paralleli Efficienti per Modelli a Profondità Ricorrente e la Loro Connessione ai Modelli di Linguaggio a Diffusione

Informazioni Fondamentali

ID Articolo: 2510.14961
Titolo: Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
Autori: Jonas Geiping, Xinyu Yang, Guinan Su
Classificazione: cs.LG cs.CL
Data di Pubblicazione: 16 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.14961

Riassunto

Questo articolo esamina i collegamenti tra modelli di linguaggio con profondità ricorrente (noti anche come trasformatori universali o trasformatori ricorrenti) e modelli di linguaggio a diffusione. I modelli a profondità ricorrente aumentano la capacità computazionale attraverso la ripetizione dei livelli, mostrando vantaggi nei compiti di ragionamento. Sulla base delle similitudini tra le due classi di modelli, gli autori sviluppano un nuovo campionatore a diffusione forzata per accelerare il processo di generazione. Il campionatore decodifica nuovi token in ogni propagazione in avanti, mentre ottimizza parallelamente gli stati latenti di questi token attraverso ricorsione. Teoricamente, con lo stesso budget di tempo, il campionatore è più espressivo della generazione autoregressiva di base. Ancora più importante, il campionatore può essere applicato direttamente ai trasformatori a profondità ricorrente con 3,5B parametri senza alcun fine-tuning, ottenendo un'accelerazione fino a 5 volte.

Contesto di Ricerca e Motivazione

Definizione del Problema

I modelli di linguaggio di grandi dimensioni tradizionali adottano architetture di reti neurali a profondità fissa, con un numero di livelli tipicamente ridotto (solo due cifre). Sebbene questo design funzioni bene in termini di efficienza di addestramento e nella maggior parte dei compiti, presenta limitazioni nei compiti complessi che richiedono ragionamento logico multistep, come la matematica e la programmazione. Dal punto di vista della teoria della complessità, i trasformatori a profondità fissa appartengono alla classe di complessità TC0, con capacità espressiva limitata.

Motivazione della Ricerca

Limitazioni della Capacità Computazionale: I modelli a profondità fissa hanno difficoltà a gestire catene logiche multistep che richiedono salti concettuali
Problemi di Efficienza dell'Inferenza: Sebbene i modelli a profondità ricorrente abbiano maggiore capacità espressiva, la velocità di generazione è lenta, poiché ogni ricorsione deve essere eseguita sequenzialmente
Necessità di Parallelizzazione: L'architettura moderna delle GPU offre opportunità per il calcolo parallelo, ma la generazione autoregressiva tradizionale non può sfruttarle pienamente

Limitazioni dei Metodi Esistenti

Metodi Chain-of-Thought: Richiedono l'esternalizzazione del processo di ragionamento interno in piccoli step, aumentando la lunghezza della sequenza
Modelli a Profondità Ricorrente: Sebbene abbiano maggiore capacità espressiva, ogni step ricorsivo durante l'inferenza deve essere eseguito in serie, causando una generazione lenta
Metodi di Parallelizzazione Tradizionali: Metodi come la decodifica speculativa sono principalmente progettati per modelli a profondità fissa

Contributi Principali

Contributo Teorico: Chiarisce i collegamenti tra modelli a profondità ricorrente e modelli a diffusione, stabilendo un ponte teorico tra i due attraverso strategie di diffusione forzata e ragionamento basato su blocchi o onde
Innovazione Metodologica: Propone un campionatore a diffusione forzata applicabile ai modelli a profondità ricorrente, realizzando la parallelizzazione del processo di inferenza
Verifica Sperimentale: Verifica l'efficacia del metodo sul modello Huginn-0125 con 3,5B parametri, ottenendo un'accelerazione di circa 5 volte nei benchmark GSM8K, MATH500, HumanEval e MBPP, mantenendo accuratezza comparabile
Valore Pratico: Il campionatore può essere applicato direttamente ai modelli a profondità ricorrente esistenti senza riaddestramento o fine-tuning

Dettagli del Metodo

Definizione del Compito

Dato un modello a profondità ricorrente e un prompt di input x, l'obiettivo è accelerare il processo di generazione del testo mantenendo la qualità della generazione. Specificamente, è necessario generare più token con lo stesso budget di tempo, o ridurre il tempo di generazione con lo stesso numero di token.

Architettura del Modello

Struttura del Modello a Profondità Ricorrente

Il modello a profondità ricorrente utilizzato (Huginn-0125) contiene tre componenti principali:

Blocco di Preludio (Prelude Block) P: Proietta i token di input incorporati nello spazio latente
Blocco Ricorrente (Recurrent Block) R: Itera r volte nello spazio latente, conducendo il ragionamento attraverso l'ottimizzazione del vettore di stato s
Blocco di Coda (Coda Block) C: Elabora lo stato latente e produce la distribuzione di probabilità del token successivo

La rappresentazione matematica è la seguente:

e = P(x)
s₀ ~ N(0, σ²I)
sᵢ = R(e, sᵢ₋₁) per i ∈ {1, ..., r}
p = C(sᵣ)

Progettazione del Campionatore a Diffusione Forzata

L'idea centrale è applicare il principio della diffusione forzata ai modelli a profondità ricorrente, realizzando la parallelizzazione "diagonale":

Generazione Parallela di Token: Ogni propagazione in avanti elabora simultaneamente più posizioni di token
Ottimizzazione Iterativa: Ottimizza gradualmente gli stati latenti di tutti i token attivi attraverso step ricorsivi
Congelamento Dinamico: Meccanismo di uscita adattivo basato sulla distanza nello spazio latente

Punti di Innovazione Tecnica

1. Meccanismo di Iniezione dell'Input

Il processo ricorsivo è condizionato dall'input incorporato e, consentendo al campionatore di eseguire "correzioni di percorso" quando le condizioni cambiano, senza necessità di scartare stati parzialmente calcolati.

2. Condivisione della Cache KV

Diverse profondità ricorrenti possono condividere la cache KV, riducendo significativamente l'uso della memoria. Gli esperimenti mostrano che il modello supporta naturalmente la condivisione della cache KV, richiedendo solo l'archiviazione dello stato KV della ricorsione più recente per ogni posizione di token.

3. Strategia di Uscita Adattiva

Utilizza la distanza normalizzata nello spazio latente come criterio di uscita:

δᵢ = ||zᵢ - z_prev,ᵢ||₂ / ||zᵢ||₂

Quando δᵢ < ε, il token nella posizione corrispondente viene congelato e aggiunto alla cache KV.

4. Componenti di Stabilizzazione

Meccanismo di Momentum: Aggiunge momentum alla condizione di input e: e = η·e_prev + (1-η)·P(y_current)
Iniezione di Rumore: Aggiunge rumore ad ogni step di campionamento: z' = (1-βₜ)z + βₜ·z_noise

Configurazione Sperimentale

Dataset

GSM8K: Compito di ragionamento matematico, utilizzando versione CoT e impostazione 8-shot
MATH500: Problemi matematici ad alta difficoltà
HumanEval: Compito di generazione di codice
MBPP: Problemi di programmazione Python

Metriche di Valutazione

Accuratezza (Accuracy): Metriche di accuratezza specifiche del compito
Velocità di Generazione (Tokens/Second): Numero di token generati al secondo, misurato utilizzando eventi CUDA

Metodi di Confronto

Autoregressivo Statico (Static AR): Metodo di base con diversi step ricorsivi (r=4,8,32,64)
Autoregressivo con Calcolo Adattivo: Campionatore di calcolo adattivo dal lavoro originale
Decodifica Speculativa: Baseline di decodifica speculativa finemente sintonizzata

Dettagli di Implementazione

Dimensione del batch: 1 (inferenza su singola sequenza)
Temperatura: 0,2, top-p: 0,95
Parametri predefiniti: r'=4, ε=0,03, βₜ=0, η=0,1
Dimensione massima del fronte d'onda: 128
Hardware: GPU A100-40GB

Risultati Sperimentali

Risultati Principali

In tutti i benchmark, il campionatore a diffusione forzata ha ottenuto un'accelerazione significativa:

Campionatore	GSM8K	MATH500	HumanEval	MBPP
	Acc/t/s	Acc/t/s	Acc/t/s	Acc/t/s
Static AR (r=32)	41,77%/36,1	17,60%/6,4	22,56%/13,5	31,60%/15,3
Diff. Sampler	42,08%/157,3	18,00%/30,3	20,12%/64,9	31,00%/70,2
Miglioramento Relativo	+0,31/4,36×	+0,40/4,73×	-2,44/4,81×	-0,60/4,59×

Esperimenti di Ablazione

Analisi di Sensibilità degli Iperparametri

Step Ricorsivi Interni r': Aumentare r' migliora l'accuratezza ma riduce il throughput, r'=4 è il punto di equilibrio ottimale
Soglia di Uscita ε: Valori di ε più piccoli migliorano l'accuratezza ma riducono la velocità, ε=0,03 è l'impostazione consigliata
Coefficiente di Rumore βₜ: Quando r' è piccolo, una quantità appropriata di rumore (βₜ=0,2-0,3) aiuta la stabilità
Dimensione del Fronte d'Onda: 64-128 è l'impostazione ottimale per la GPU A100

Verifica di Varianti di Modello

Verifica della robustezza del metodo su diversi checkpoint di modello:

Modello SWA: Versione con media ponderata
Modello con Fine-tuning Matematico: Versione con fine-tuning sul dataset MetaMath

Tutte le varianti mostrano un'accelerazione coerente di 4-5 volte, con deviazione di accuratezza nell'intervallo 0,5-1%.

Verifica dell'Analisi Teorica

Scalabilità Profondità vs Larghezza

Gli esperimenti verificano le previsioni dell'analisi teorica:

Fase di Prefill: La scalabilità della profondità supera quella della larghezza
Fase di Decodifica: Il campionamento a diffusione forzata realizza una migliore scalabilità della larghezza
Espressività: Con lo stesso budget di tempo, il campionatore a diffusione è strettamente superiore alla generazione autoregressiva

Lavori Correlati

Ricerca su Modelli Ricorrenti

Sviluppo Storico: Evoluzione da RNN iniziali ai trasformatori universali
Fondamenti Teorici: Capacità computazionale della macchina di Turing universale e classi di complessità
Applicazioni Pratiche: Vantaggi nell'apprendimento di algoritmi e compiti di ragionamento

Modelli di Linguaggio a Diffusione

Diffusione nel Dominio Continuo: Applicazioni di successo nella generazione di immagini
Diffusione nel Dominio Discreto: Sfide e soluzioni nella generazione di testo
Strategie di Inferenza: Metodi come diffusione a blocchi e diffusione forzata

Tecniche di Accelerazione dell'Inferenza

Decodifica Speculativa: Utilizzo di piccoli modelli per bozze, grandi modelli per verifica
Strategie di Parallelizzazione: Compromessi tra memory-bound e compute-bound

Conclusioni e Discussione

Conclusioni Principali

Contributo Teorico: Stabilisce i collegamenti teorici tra modelli a profondità ricorrente e modelli a diffusione
Valore Pratico: Realizza un'accelerazione dell'inferenza di 5 volte mantenendo la qualità della generazione
Universalità: Il metodo può essere applicato direttamente ai modelli esistenti senza riaddestramento
Nuova Prospettiva: I modelli a profondità ricorrente possono essere considerati come modelli di linguaggio a diffusione causale continua

Limitazioni

Limitazioni del Batch Processing: L'implementazione attuale supporta solo l'inferenza su singola sequenza, gli scenari di batch processing richiedono motori di inferenza complessi
Efficienza FLOP: Sebbene aumenti il parallelismo, l'utilizzo effettivo di FLOP aumenta
Dipendenza dall'Hardware: Le impostazioni di parametri ottimali dipendono dalla configurazione hardware specifica
Requisiti del Modello: Richiede che il modello soddisfi requisiti architetturali specifici (iniezione di input, ricorsione robusta, ecc.)

Direzioni Future

Motore di Inferenza con Batch Processing: Sviluppare sistemi che supportino l'inferenza con batch di grandi dimensioni
Ottimizzazione dell'Architettura: Progettare architetture a profondità ricorrente più adatte al campionamento a diffusione forzata
Obiettivi di Addestramento: Esplorare l'applicazione di obiettivi di dispiegamento nella modellazione del linguaggio a diffusione
Approfondimento Teorico: Ricerca ulteriore sui fondamenti teorici dei modelli a profondità ricorrente come modelli a diffusione

Valutazione Approfondita

Punti di Forza

Forte Innovazione: Primo a stabilire i collegamenti tra modelli a profondità ricorrente e modelli a diffusione, fornendo una nuova prospettiva teorica
Alto Valore Pratico: Realizza un'accelerazione significativa dell'inferenza, applicabile direttamente ai modelli esistenti
Rigore Teorico: Fornisce analisi teorica della scalabilità profondità vs larghezza e prove di convergenza
Esperimenti Completi: Verifica l'efficacia e la robustezza del metodo su più benchmark e varianti di modello

Insufficienze

Limitazioni dell'Ambito di Applicabilità: Il metodo richiede che il modello soddisfi requisiti architetturali specifici, limitando l'universalità
Supporto Insufficiente per il Batch Processing: L'inferenza su singola sequenza limita l'applicazione in ambienti di produzione
Overhead di Memoria: Sebbene vi sia condivisione della cache KV, è ancora necessaria l'archiviazione aggiuntiva dello stato latente
Sensibilità ai Parametri: Molteplici iperparametri richiedono fine-tuning per diversi compiti e hardware

Impatto

Contributo Accademico: Fornisce un nuovo punto di intersezione per la ricerca su modelli a profondità ricorrente e modelli a diffusione
Valore Ingegneristico: Fornisce un nuovo percorso tecnico per l'ottimizzazione dell'inferenza di modelli di grandi dimensioni
Significato Ispiratore: Può ispirare ulteriori ricerche sulla combinazione di architetture di modelli e strategie di campionamento

Scenari Applicabili

Inferenza Monutente: Generazione di testo in applicazioni personali o su piccola scala
Compiti Intensivi di Ragionamento: Compiti come matematica e programmazione che richiedono ragionamento multistep
Ambienti con Risorse Limitate: Scenari che richiedono l'aumento dell'efficienza dell'inferenza con risorse computazionali limitate
Prototipi di Ricerca: Ricerca ulteriore su modelli a profondità ricorrente e campionamento a diffusione

Riferimenti Bibliografici

L'articolo cita numerosi lavori correlati, inclusi:

Dehghani et al. (2019): Lavoro originale su Universal Transformers
Chen et al. (2024a): Metodo Diffusion Forcing
Geiping et al. (2025): Modello a profondità ricorrente Huginn-0125
Rombach et al. (2022): Modelli di diffusione nello spazio latente
Leviathan et al. (2023): Metodo di decodifica speculativa

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità con importanti contributi sia in termini di innovazione teorica che di valore pratico. L'articolo stabilisce con successo i collegamenti tra due importanti classi di modelli e propone un metodo di accelerazione pratico. Sebbene presenti alcune limitazioni, fornisce direzioni e fondamenti preziosi per la ricerca futura.