2025-11-15T11:28:11.649653

Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models

Geiping, Yang, Su
Language models with recurrent depth, also referred to as universal or looped when considering transformers, are defined by the capacity to increase their computation through the repetition of layers. Recent efforts in pretraining have demonstrated that these architectures can scale to modern language modeling tasks while exhibiting advantages in reasoning tasks. In this work, we examine the relationship between recurrent-depth models and diffusion language models. Building on their similarities, we develop a new diffusion forcing sampler for these models to accelerate generation. The sampler advances by decoding new tokens at every forward pass of the model, while the latent states of these tokens can be further refined in parallel through recurrence. Theoretically, generation with our sampler is strictly more expressive than the baseline autoregressive generation using the same time budget on modern hardware. Moreover, this sampler, based on principles from diffusion literature, can be directly applied to existing 3.5B recurrent-depth transformers without any tuning, leading to up to a 5x speedup. Consequently, our findings not only provide an efficient mechanism for parallelizing the extra computation in recurrent-depth models at inference, but also suggest that such models can be naturally viewed as strong continuous, though causal, diffusion language models.
academic

Campionatori Paralleli Efficienti per Modelli a Profondità Ricorrente e la Loro Connessione ai Modelli di Linguaggio a Diffusione

Informazioni Fondamentali

  • ID Articolo: 2510.14961
  • Titolo: Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
  • Autori: Jonas Geiping, Xinyu Yang, Guinan Su
  • Classificazione: cs.LG cs.CL
  • Data di Pubblicazione: 16 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.14961

Riassunto

Questo articolo esamina i collegamenti tra modelli di linguaggio con profondità ricorrente (noti anche come trasformatori universali o trasformatori ricorrenti) e modelli di linguaggio a diffusione. I modelli a profondità ricorrente aumentano la capacità computazionale attraverso la ripetizione dei livelli, mostrando vantaggi nei compiti di ragionamento. Sulla base delle similitudini tra le due classi di modelli, gli autori sviluppano un nuovo campionatore a diffusione forzata per accelerare il processo di generazione. Il campionatore decodifica nuovi token in ogni propagazione in avanti, mentre ottimizza parallelamente gli stati latenti di questi token attraverso ricorsione. Teoricamente, con lo stesso budget di tempo, il campionatore è più espressivo della generazione autoregressiva di base. Ancora più importante, il campionatore può essere applicato direttamente ai trasformatori a profondità ricorrente con 3,5B parametri senza alcun fine-tuning, ottenendo un'accelerazione fino a 5 volte.

Contesto di Ricerca e Motivazione

Definizione del Problema

I modelli di linguaggio di grandi dimensioni tradizionali adottano architetture di reti neurali a profondità fissa, con un numero di livelli tipicamente ridotto (solo due cifre). Sebbene questo design funzioni bene in termini di efficienza di addestramento e nella maggior parte dei compiti, presenta limitazioni nei compiti complessi che richiedono ragionamento logico multistep, come la matematica e la programmazione. Dal punto di vista della teoria della complessità, i trasformatori a profondità fissa appartengono alla classe di complessità TC0, con capacità espressiva limitata.

Motivazione della Ricerca

  1. Limitazioni della Capacità Computazionale: I modelli a profondità fissa hanno difficoltà a gestire catene logiche multistep che richiedono salti concettuali
  2. Problemi di Efficienza dell'Inferenza: Sebbene i modelli a profondità ricorrente abbiano maggiore capacità espressiva, la velocità di generazione è lenta, poiché ogni ricorsione deve essere eseguita sequenzialmente
  3. Necessità di Parallelizzazione: L'architettura moderna delle GPU offre opportunità per il calcolo parallelo, ma la generazione autoregressiva tradizionale non può sfruttarle pienamente

Limitazioni dei Metodi Esistenti

  • Metodi Chain-of-Thought: Richiedono l'esternalizzazione del processo di ragionamento interno in piccoli step, aumentando la lunghezza della sequenza
  • Modelli a Profondità Ricorrente: Sebbene abbiano maggiore capacità espressiva, ogni step ricorsivo durante l'inferenza deve essere eseguito in serie, causando una generazione lenta
  • Metodi di Parallelizzazione Tradizionali: Metodi come la decodifica speculativa sono principalmente progettati per modelli a profondità fissa

Contributi Principali

  1. Contributo Teorico: Chiarisce i collegamenti tra modelli a profondità ricorrente e modelli a diffusione, stabilendo un ponte teorico tra i due attraverso strategie di diffusione forzata e ragionamento basato su blocchi o onde
  2. Innovazione Metodologica: Propone un campionatore a diffusione forzata applicabile ai modelli a profondità ricorrente, realizzando la parallelizzazione del processo di inferenza
  3. Verifica Sperimentale: Verifica l'efficacia del metodo sul modello Huginn-0125 con 3,5B parametri, ottenendo un'accelerazione di circa 5 volte nei benchmark GSM8K, MATH500, HumanEval e MBPP, mantenendo accuratezza comparabile
  4. Valore Pratico: Il campionatore può essere applicato direttamente ai modelli a profondità ricorrente esistenti senza riaddestramento o fine-tuning

Dettagli del Metodo

Definizione del Compito

Dato un modello a profondità ricorrente e un prompt di input x, l'obiettivo è accelerare il processo di generazione del testo mantenendo la qualità della generazione. Specificamente, è necessario generare più token con lo stesso budget di tempo, o ridurre il tempo di generazione con lo stesso numero di token.

Architettura del Modello

Struttura del Modello a Profondità Ricorrente

Il modello a profondità ricorrente utilizzato (Huginn-0125) contiene tre componenti principali:

  1. Blocco di Preludio (Prelude Block) P: Proietta i token di input incorporati nello spazio latente
  2. Blocco Ricorrente (Recurrent Block) R: Itera r volte nello spazio latente, conducendo il ragionamento attraverso l'ottimizzazione del vettore di stato s
  3. Blocco di Coda (Coda Block) C: Elabora lo stato latente e produce la distribuzione di probabilità del token successivo

La rappresentazione matematica è la seguente:

e = P(x)
s₀ ~ N(0, σ²I)
sᵢ = R(e, sᵢ₋₁) per i ∈ {1, ..., r}
p = C(sᵣ)

Progettazione del Campionatore a Diffusione Forzata

L'idea centrale è applicare il principio della diffusione forzata ai modelli a profondità ricorrente, realizzando la parallelizzazione "diagonale":

  1. Generazione Parallela di Token: Ogni propagazione in avanti elabora simultaneamente più posizioni di token
  2. Ottimizzazione Iterativa: Ottimizza gradualmente gli stati latenti di tutti i token attivi attraverso step ricorsivi
  3. Congelamento Dinamico: Meccanismo di uscita adattivo basato sulla distanza nello spazio latente

Punti di Innovazione Tecnica

1. Meccanismo di Iniezione dell'Input

Il processo ricorsivo è condizionato dall'input incorporato e, consentendo al campionatore di eseguire "correzioni di percorso" quando le condizioni cambiano, senza necessità di scartare stati parzialmente calcolati.

2. Condivisione della Cache KV

Diverse profondità ricorrenti possono condividere la cache KV, riducendo significativamente l'uso della memoria. Gli esperimenti mostrano che il modello supporta naturalmente la condivisione della cache KV, richiedendo solo l'archiviazione dello stato KV della ricorsione più recente per ogni posizione di token.

3. Strategia di Uscita Adattiva

Utilizza la distanza normalizzata nello spazio latente come criterio di uscita:

δᵢ = ||zᵢ - z_prev,ᵢ||₂ / ||zᵢ||₂

Quando δᵢ < ε, il token nella posizione corrispondente viene congelato e aggiunto alla cache KV.

4. Componenti di Stabilizzazione

  • Meccanismo di Momentum: Aggiunge momentum alla condizione di input e: e = η·e_prev + (1-η)·P(y_current)
  • Iniezione di Rumore: Aggiunge rumore ad ogni step di campionamento: z' = (1-βₜ)z + βₜ·z_noise

Configurazione Sperimentale

Dataset

  • GSM8K: Compito di ragionamento matematico, utilizzando versione CoT e impostazione 8-shot
  • MATH500: Problemi matematici ad alta difficoltà
  • HumanEval: Compito di generazione di codice
  • MBPP: Problemi di programmazione Python

Metriche di Valutazione

  • Accuratezza (Accuracy): Metriche di accuratezza specifiche del compito
  • Velocità di Generazione (Tokens/Second): Numero di token generati al secondo, misurato utilizzando eventi CUDA

Metodi di Confronto

  1. Autoregressivo Statico (Static AR): Metodo di base con diversi step ricorsivi (r=4,8,32,64)
  2. Autoregressivo con Calcolo Adattivo: Campionatore di calcolo adattivo dal lavoro originale
  3. Decodifica Speculativa: Baseline di decodifica speculativa finemente sintonizzata

Dettagli di Implementazione

  • Dimensione del batch: 1 (inferenza su singola sequenza)
  • Temperatura: 0,2, top-p: 0,95
  • Parametri predefiniti: r'=4, ε=0,03, βₜ=0, η=0,1
  • Dimensione massima del fronte d'onda: 128
  • Hardware: GPU A100-40GB

Risultati Sperimentali

Risultati Principali

In tutti i benchmark, il campionatore a diffusione forzata ha ottenuto un'accelerazione significativa:

CampionatoreGSM8KMATH500HumanEvalMBPP
Acc/t/sAcc/t/sAcc/t/sAcc/t/s
Static AR (r=32)41,77%/36,117,60%/6,422,56%/13,531,60%/15,3
Diff. Sampler42,08%/157,318,00%/30,320,12%/64,931,00%/70,2
Miglioramento Relativo+0,31/4,36×+0,40/4,73×-2,44/4,81×-0,60/4,59×

Esperimenti di Ablazione

Analisi di Sensibilità degli Iperparametri

  1. Step Ricorsivi Interni r': Aumentare r' migliora l'accuratezza ma riduce il throughput, r'=4 è il punto di equilibrio ottimale
  2. Soglia di Uscita ε: Valori di ε più piccoli migliorano l'accuratezza ma riducono la velocità, ε=0,03 è l'impostazione consigliata
  3. Coefficiente di Rumore βₜ: Quando r' è piccolo, una quantità appropriata di rumore (βₜ=0,2-0,3) aiuta la stabilità
  4. Dimensione del Fronte d'Onda: 64-128 è l'impostazione ottimale per la GPU A100

Verifica di Varianti di Modello

Verifica della robustezza del metodo su diversi checkpoint di modello:

  • Modello SWA: Versione con media ponderata
  • Modello con Fine-tuning Matematico: Versione con fine-tuning sul dataset MetaMath

Tutte le varianti mostrano un'accelerazione coerente di 4-5 volte, con deviazione di accuratezza nell'intervallo 0,5-1%.

Verifica dell'Analisi Teorica

Scalabilità Profondità vs Larghezza

Gli esperimenti verificano le previsioni dell'analisi teorica:

  • Fase di Prefill: La scalabilità della profondità supera quella della larghezza
  • Fase di Decodifica: Il campionamento a diffusione forzata realizza una migliore scalabilità della larghezza
  • Espressività: Con lo stesso budget di tempo, il campionatore a diffusione è strettamente superiore alla generazione autoregressiva

Lavori Correlati

Ricerca su Modelli Ricorrenti

  • Sviluppo Storico: Evoluzione da RNN iniziali ai trasformatori universali
  • Fondamenti Teorici: Capacità computazionale della macchina di Turing universale e classi di complessità
  • Applicazioni Pratiche: Vantaggi nell'apprendimento di algoritmi e compiti di ragionamento

Modelli di Linguaggio a Diffusione

  • Diffusione nel Dominio Continuo: Applicazioni di successo nella generazione di immagini
  • Diffusione nel Dominio Discreto: Sfide e soluzioni nella generazione di testo
  • Strategie di Inferenza: Metodi come diffusione a blocchi e diffusione forzata

Tecniche di Accelerazione dell'Inferenza

  • Decodifica Speculativa: Utilizzo di piccoli modelli per bozze, grandi modelli per verifica
  • Strategie di Parallelizzazione: Compromessi tra memory-bound e compute-bound

Conclusioni e Discussione

Conclusioni Principali

  1. Contributo Teorico: Stabilisce i collegamenti teorici tra modelli a profondità ricorrente e modelli a diffusione
  2. Valore Pratico: Realizza un'accelerazione dell'inferenza di 5 volte mantenendo la qualità della generazione
  3. Universalità: Il metodo può essere applicato direttamente ai modelli esistenti senza riaddestramento
  4. Nuova Prospettiva: I modelli a profondità ricorrente possono essere considerati come modelli di linguaggio a diffusione causale continua

Limitazioni

  1. Limitazioni del Batch Processing: L'implementazione attuale supporta solo l'inferenza su singola sequenza, gli scenari di batch processing richiedono motori di inferenza complessi
  2. Efficienza FLOP: Sebbene aumenti il parallelismo, l'utilizzo effettivo di FLOP aumenta
  3. Dipendenza dall'Hardware: Le impostazioni di parametri ottimali dipendono dalla configurazione hardware specifica
  4. Requisiti del Modello: Richiede che il modello soddisfi requisiti architetturali specifici (iniezione di input, ricorsione robusta, ecc.)

Direzioni Future

  1. Motore di Inferenza con Batch Processing: Sviluppare sistemi che supportino l'inferenza con batch di grandi dimensioni
  2. Ottimizzazione dell'Architettura: Progettare architetture a profondità ricorrente più adatte al campionamento a diffusione forzata
  3. Obiettivi di Addestramento: Esplorare l'applicazione di obiettivi di dispiegamento nella modellazione del linguaggio a diffusione
  4. Approfondimento Teorico: Ricerca ulteriore sui fondamenti teorici dei modelli a profondità ricorrente come modelli a diffusione

Valutazione Approfondita

Punti di Forza

  1. Forte Innovazione: Primo a stabilire i collegamenti tra modelli a profondità ricorrente e modelli a diffusione, fornendo una nuova prospettiva teorica
  2. Alto Valore Pratico: Realizza un'accelerazione significativa dell'inferenza, applicabile direttamente ai modelli esistenti
  3. Rigore Teorico: Fornisce analisi teorica della scalabilità profondità vs larghezza e prove di convergenza
  4. Esperimenti Completi: Verifica l'efficacia e la robustezza del metodo su più benchmark e varianti di modello

Insufficienze

  1. Limitazioni dell'Ambito di Applicabilità: Il metodo richiede che il modello soddisfi requisiti architetturali specifici, limitando l'universalità
  2. Supporto Insufficiente per il Batch Processing: L'inferenza su singola sequenza limita l'applicazione in ambienti di produzione
  3. Overhead di Memoria: Sebbene vi sia condivisione della cache KV, è ancora necessaria l'archiviazione aggiuntiva dello stato latente
  4. Sensibilità ai Parametri: Molteplici iperparametri richiedono fine-tuning per diversi compiti e hardware

Impatto

  1. Contributo Accademico: Fornisce un nuovo punto di intersezione per la ricerca su modelli a profondità ricorrente e modelli a diffusione
  2. Valore Ingegneristico: Fornisce un nuovo percorso tecnico per l'ottimizzazione dell'inferenza di modelli di grandi dimensioni
  3. Significato Ispiratore: Può ispirare ulteriori ricerche sulla combinazione di architetture di modelli e strategie di campionamento

Scenari Applicabili

  1. Inferenza Monutente: Generazione di testo in applicazioni personali o su piccola scala
  2. Compiti Intensivi di Ragionamento: Compiti come matematica e programmazione che richiedono ragionamento multistep
  3. Ambienti con Risorse Limitate: Scenari che richiedono l'aumento dell'efficienza dell'inferenza con risorse computazionali limitate
  4. Prototipi di Ricerca: Ricerca ulteriore su modelli a profondità ricorrente e campionamento a diffusione

Riferimenti Bibliografici

L'articolo cita numerosi lavori correlati, inclusi:

  • Dehghani et al. (2019): Lavoro originale su Universal Transformers
  • Chen et al. (2024a): Metodo Diffusion Forcing
  • Geiping et al. (2025): Modello a profondità ricorrente Huginn-0125
  • Rombach et al. (2022): Modelli di diffusione nello spazio latente
  • Leviathan et al. (2023): Metodo di decodifica speculativa

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità con importanti contributi sia in termini di innovazione teorica che di valore pratico. L'articolo stabilisce con successo i collegamenti tra due importanti classi di modelli e propone un metodo di accelerazione pratico. Sebbene presenti alcune limitazioni, fornisce direzioni e fondamenti preziosi per la ricerca futura.