2025-11-14T10:58:11.492990

Next Semantic Scale Prediction via Hierarchical Diffusion Language Models

Zhou, Wang, Zhang et al.
In this paper we introduce Hierarchical Diffusion Language Models (HDLM) -- a novel family of discrete diffusion models for language modeling. HDLM builds on a hierarchical vocabulary where low-level tokens with detailed semantics are surjectively mapped to high-level tokens with coarse-grained meanings. In the forward process, each token is independently perturbed to its higher-level ancestor with more abstract semantics according to the scheduler, while in the reverse process the model progressively predicts the next, more detailed semantics. Taken together, HDLM provides a general time-varying next semantic scale prediction process for language modeling. We derive closed-form expressions for the diffusion Evidence Lower Bound (ELBO), and show that HDLM can be implemented in a flexible manner while including the existing MDLM as a special case. We also propose practical training techniques based on the insights. Extensive text generation experiments validate the effectiveness of HDLM, which demonstrates consistently lower validation and generative perplexity than baselines.
academic

Previsione della Prossima Scala Semantica tramite Modelli di Linguaggio a Diffusione Gerarchica

Informazioni Fondamentali

  • ID Articolo: 2510.08632
  • Titolo: Next Semantic Scale Prediction via Hierarchical Diffusion Language Models
  • Autori: Cai Zhou, Chenyu Wang, Dinghuai Zhang, Shangyuan Tong, Yifei Wang, Stephen Bates, Tommi Jaakkola
  • Classificazione: cs.CL cs.LG
  • Conferenza di Pubblicazione: NeurIPS 2025 (39ª Conferenza sui Sistemi di Elaborazione dell'Informazione Neurale)
  • Link Articolo: https://arxiv.org/abs/2510.08632

Riassunto

Questo articolo introduce i Modelli di Linguaggio a Diffusione Gerarchica (HDLM) — un nuovo modello di diffusione discreta per la modellazione del linguaggio. HDLM si basa su un vocabolario gerarchico, dove i token di basso livello con semantica dettagliata sono mappati suriettivamente a token di alto livello con significato a grana grossa. Nel processo forward, ogni token viene perturbato indipendentemente secondo uno scheduler a antenati di alto livello con semantica più astratta, mentre nel processo inverso il modello predice progressivamente la prossima semantica più dettagliata. HDLM fornisce un processo generale di previsione della prossima scala semantica variabile nel tempo per la modellazione del linguaggio. Gli autori derivano un'espressione in forma chiusa per il limite inferiore di evidenza della diffusione (ELBO) e dimostrano che HDLM può essere implementato in modo flessibile, includendo i modelli MDLM esistenti come caso particolare.

Contesto di Ricerca e Motivazione

1. Problemi da Risolvere

I modelli di diffusione discreta per il linguaggio esistenti presentano diverse limitazioni fondamentali:

  • Diffusione con Mascheramento: Tutti i token mascherati hanno lo stesso embedding di maschera, mancando di semantica ricca; incapacità di autocorreggersi sui token già generati
  • Diffusione Uniforme: Lo stesso token agisce come rumore nella fase di rumore ma diventa significativo durante la decodifica, causando incoerenza semantica e confusione

2. Importanza del Problema

Sebbene i modelli di linguaggio autoregressivi siano attualmente lo stato dell'arte, il loro schema di previsione del prossimo token limita fondamentalmente la capacità di revisionare i token generati precedentemente. I modelli di diffusione hanno attirato attenzione per le loro capacità di denoising progressivo e raffinamento, ma i metodi di diffusione discreta esistenti presentano ancora limitazioni significative nella modellazione del linguaggio.

3. Limitazioni dei Metodi Esistenti

  • MDLM e MD4: I token mascherati mancano di semantica ricca, incapaci di autocorreggersi
  • Diffusione Discreta Uniforme: Prestazioni inferiori, incoerenza semantica
  • GIDD: Sebbene unifichi il mascheramento e il rumore uniforme, i token rumorosi mancano ancora di semantica ricca, con capacità di autocorrezione limitata

4. Motivazione della Ricerca

Gli autori propongono di massimizzare i vantaggi dei modelli di diffusione introducendo strutture semantiche gerarchiche, realizzando generazione in ordine arbitrario e auto-raffinamento progressivo, simile alla previsione della prossima scala nei modelli autoregressivi visivi (VAR).

Contributi Principali

  1. Proposta del Framework HDLM: Un framework generale e flessibile per la modellazione del linguaggio a diffusione discreta, implementato tramite previsione della prossima scala semantica variabile nel tempo
  2. Fondamenti Teorici Rigorosi: Basati sul framework della Catena di Markov a Tempo Continuo (CTMC), derivazione dell'ELBO in forma chiusa per la diffusione discreta gerarchica
  3. Dimostrazione di Compatibilità: Prova teorica che MDLM è un caso particolare di HDLM, dimostrando l'universalità del framework
  4. Tecniche Pratiche Proposte: Tecniche di addestramento e campionamento migliorate basate su intuizioni teoriche
  5. Miglioramento delle Prestazioni: Dimostrazione coerente di perplexity di validazione e generazione inferiore rispetto ai baseline negli esperimenti di generazione di testo

Spiegazione Dettagliata del Metodo

Definizione del Compito

Il compito di HDLM è predire progressivamente token più dettagliati attraverso una struttura semantica gerarchica dato un input rumoroso, fino al recupero del vocabolario originale. L'input consiste di token rumorosi a diversi livelli, l'output è una distribuzione di previsione a livello di parola.

Architettura del Modello

1. Progettazione del Vocabolario Gerarchico

  • Livelli del Vocabolario: Struttura gerarchica dai token di parola pulita x ai token di cluster c ai token mascherati m: x → c → m
  • Relazioni di Mappatura: Mappatura di token di basso livello a token di alto livello tramite funzione suriettiva c = Γx, dove Γ ∈ R^{|C|×|V|}

2. Processo Forward

La distribuzione marginale del processo forward è:

q_t(z_t|x) = Cat(z_t; α_t x + β_{t,c} c(x) + β_{t,m} m)

dove β_{t,c} + β_{t,m} = β_t := 1 - α_t

3. Framework CTMC

La matrice generatrice non omogenea nel tempo è:

Q_t = [α'_t/α_t I_{|V|}    -α'_t/α_t Γ^T    0]
      [0    (α'_t+β'_{t,c})/β_{t,c} I_{|C|}    -(α'_t+β'_{t,c})/β_{t,c} Ξ^T]
      [0    0    0]

4. Processo Inverso

Adotta il processo inverso standard:

p_θ(z_s|z_t) = q_{t|s}(z_t|z_s) q_s(z_s|x_θ)/q_t(z_t|x_θ)

Punti di Innovazione Tecnica

1. Struttura Semantica Gerarchica

  • Semantica Progressiva: I livelli intermedi possono essere visualizzati come token parzialmente decodificati, fornendo semantica più ricca rispetto a un singolo token mascherato
  • Decodifica Flessibile: L'incertezza nella semantica a grana grossa consente maggiore flessibilità di decodifica

2. Derivazione dell'ELBO in Forma Chiusa

La perdita di addestramento derivata è una combinazione ponderata di due perdite di entropia incrociata:

L(x,x_θ,t) = E_{t,z_t}[δ_{z_t,c} w_{t,c} CE(x, (x_θ ⊙ (Γ^T Γx))/(x_θ^T Γ^T Γx)) + δ_{z_t,m} w_{t,m} CE(Γx, Γx_θ)]

3. Meccanismo di Perturbazione Stocastica

Introduce probabilità di perturbazione ξ < 1, consentendo ai token di parola di transizionare a cluster errati con probabilità 1-ξ, migliorando la capacità di autocorrezione del modello.

Configurazione Sperimentale

Dataset

  • Dataset Principale: OpenWebText (OWT), contenente 131B token di addestramento
  • Dataset Aggiuntivo: LM1B (33B token) per validazione supplementare
  • Lunghezza del Contesto: 512 token, senza impacchettamento di frasi

Metriche di Valutazione

  • Perplexity di Validazione (Valid. PPL): Perplexity sul set di validazione OWT
  • Perplexity di Generazione (Gen. PPL): Valutazione dei campioni generati utilizzando GPT2-large come modello di riferimento
  • Compiti a Valle: ARC, BoolQ, PIQA, OpenBookQA, WinoGrande, ecc.

Metodi di Confronto

  • Modelli Autoregressivi: GPT-2, Llama-110M
  • Modelli di Diffusione Discreta: SEDD, MDLM, GIDD+

Dettagli di Implementazione

  • Architettura del Modello: Architettura DiT, Small (170M parametri) e Base (425M parametri)
  • Ottimizzatore: Adam (β=(0.9,0.99)), tasso di apprendimento 5×10^{-4}
  • Passi di Addestramento: 500k passi, dimensione batch 512
  • Ritaglio dei Pesi: Ritaglio dei pesi di perdita w_{t,m}, w_{t,c} a 2.0 o 10.0 per stabilizzare l'ottimizzazione

Risultati Sperimentali

Risultati Principali

ModelloToken di AddestramentoValid. PPL (↓)Gen. PPL (↓)
MDLM-small131B≤27.39163.7
GIDD+-small131B≤25.82170.2
HDLM-small-64131B≤23.36144.2
HDLM-small-128131B≤23.25148.0
HDLM-base-128131B≤19.22139.9

Scoperte Chiave:

  • HDLM-small supera altri metodi di diffusione discreta sia in perplexity di validazione che di generazione
  • HDLM-base raggiunge una perplexity di 19.22, superando o equiparando le prestazioni dei modelli autoregressivi

Esperimenti di Ablazione

1. Impatto del Numero di Cluster

  • Il numero ottimale di cluster è circa 64-128 (approssimativamente la radice quadrata della dimensione del vocabolario)
  • Quando n=1 si recupera la prestazione MDLM, validando l'analisi teorica

2. Effetto della Perturbazione Stocastica

  • Con ξ=0.9 la perplexity di generazione diminuisce del 51% (da 144.2 a 69.76)
  • Con ξ=0.8 la perplexity di generazione diminuisce del 62% (a 54.15)
  • Dimostra il significativo miglioramento della capacità di autocorrezione

3. Scheduling del Processo Forward

  • Valori di γ più grandi rendono il compito di denoising a singolo passo più difficile, ma le prestazioni di inferenza effettive sono migliori
  • Con γ=3 si ottiene la migliore perplexity di generazione di 135.9

Prestazioni su Compiti a Valle

Su molteplici compiti di comprensione, HDLM-small raggiunge un'accuratezza media del 39.62%, superando il 38.53% di GIDD, dimostrando forte capacità di generalizzazione.

Lavori Correlati

1. Sviluppo dei Modelli di Diffusione Discreta

  • D3PM: Pone le fondamenta teoriche della diffusione discreta
  • SEDD: Apprende punteggi concreti come rapporti di distribuzione marginale
  • MDLM/MD4: Semplifica gli obiettivi di addestramento del processo forward con mascheramento

2. Scalabilità dei Modelli di Linguaggio a Diffusione

  • LLaDA e Dream: Dimostrano il potenziale di scalabilità dei modelli di linguaggio a diffusione
  • Block Diffusion: Esplora il nuovo paradigma di generazione autoregressive di blocchi di testo e diffusione all'interno dei blocchi

3. Vantaggi di questo Lavoro rispetto ai Lavori Correlati

  • Fornisce una nuova procedura di rumore, concettualmente semplice e praticamente efficace
  • Mantiene la capacità di autocorrezione evitando i difetti del rumore uniforme
  • Stabilisce un framework teorico rigoroso e ELBO in forma chiusa

Conclusioni e Discussione

Conclusioni Principali

  1. HDLM migliora efficacemente la modellazione del linguaggio a diffusione discreta attraverso lo schema di "previsione della prossima scala semantica"
  2. La struttura semantica gerarchica fornisce rappresentazioni intermedie più ricche rispetto al mascheramento tradizionale
  3. Il meccanismo di perturbazione stocastica migliora significativamente la capacità di autocorrezione del modello
  4. Il framework teorico possiede buona universalità e scalabilità

Limitazioni

  1. Dipendenza dalla Qualità del Clustering: Attualmente utilizza clustering K-means predefinito, la qualità del clustering ha grande impatto sulle prestazioni
  2. Complessità Computazionale: La struttura multi-livello potrebbe aumentare l'overhead computazionale dell'addestramento e dell'inferenza
  3. Sensibilità agli Iperparametri: Richiede un attento tuning di iperparametri come il ritaglio dei pesi per stabilizzare l'addestramento

Direzioni Future

  1. Esplorare metodi di apprendimento della struttura gerarchica più complessi (come DeepSets)
  2. Ricercare l'implementazione e l'ottimizzazione di molteplici livelli intermedi
  3. Estendere il framework a modelli di linguaggio su scala più grande
  4. Esplorare applicazioni in compiti multimodali

Valutazione Approfondita

Punti di Forza

  1. Contributi Teorici Solidi: Fornisce un framework teorico CTMC completo e derivazioni matematiche rigorose
  2. Forte Innovazione del Metodo: Primo a introdurre strutture semantiche gerarchiche nei modelli di linguaggio a diffusione discreta
  3. Progettazione Sperimentale Completa: Include ricerca di ablazione completa e esperimenti di confronto
  4. Alto Valore Pratico: Le tecniche proposte possono essere direttamente applicate ai framework di diffusione esistenti

Insufficienze

  1. Limitazioni di Scala: Gli esperimenti sono principalmente condotti su modelli di scala piccola e media, con validazione su scala grande insufficiente
  2. Metodo di Clustering Semplice: Il metodo di clustering semantico attuale è relativamente basilare, potrebbe limitare il limite superiore delle prestazioni
  3. Valutazione della Qualità di Generazione: Si basa principalmente su metriche di perplexity, mancano valutazioni umane e analisi di diversità

Impatto

  1. Contributo Accademico: Fornisce una nuova direzione di ricerca per la modellazione del linguaggio a diffusione discreta
  2. Valore Pratico: Il metodo è semplice da implementare, promettente per la diffusione nelle applicazioni pratiche
  3. Riproducibilità: Gli autori forniscono implementazione completa del codice e configurazione sperimentale dettagliata

Scenari Applicabili

  1. Compiti di Generazione di Testo: Particolarmente adatto a scenari di generazione che richiedono raffinamento progressivo
  2. Generazione di Testo Controllata: La struttura gerarchica facilita l'implementazione di controllo a diversi livelli di granularità
  3. Modifica e Revisione di Testo: La capacità di autocorrezione la rende adatta a compiti di modifica di testo

Bibliografia

L'articolo cita lavori importanti nei campi dei modelli di diffusione, modellazione del linguaggio e modellazione dello spazio degli stati discreti, inclusi lavori fondamentali chiave come D3PM, MDLM, GIDD, nonché modelli di linguaggio classici come la serie GPT e BERT.