Next Semantic Scale Prediction via Hierarchical Diffusion Language Models
Zhou, Wang, Zhang et al.
In this paper we introduce Hierarchical Diffusion Language Models (HDLM) -- a novel family of discrete diffusion models for language modeling. HDLM builds on a hierarchical vocabulary where low-level tokens with detailed semantics are surjectively mapped to high-level tokens with coarse-grained meanings. In the forward process, each token is independently perturbed to its higher-level ancestor with more abstract semantics according to the scheduler, while in the reverse process the model progressively predicts the next, more detailed semantics. Taken together, HDLM provides a general time-varying next semantic scale prediction process for language modeling. We derive closed-form expressions for the diffusion Evidence Lower Bound (ELBO), and show that HDLM can be implemented in a flexible manner while including the existing MDLM as a special case. We also propose practical training techniques based on the insights. Extensive text generation experiments validate the effectiveness of HDLM, which demonstrates consistently lower validation and generative perplexity than baselines.
academic
Previsione della Prossima Scala Semantica tramite Modelli di Linguaggio a Diffusione Gerarchica
Questo articolo introduce i Modelli di Linguaggio a Diffusione Gerarchica (HDLM) — un nuovo modello di diffusione discreta per la modellazione del linguaggio. HDLM si basa su un vocabolario gerarchico, dove i token di basso livello con semantica dettagliata sono mappati suriettivamente a token di alto livello con significato a grana grossa. Nel processo forward, ogni token viene perturbato indipendentemente secondo uno scheduler a antenati di alto livello con semantica più astratta, mentre nel processo inverso il modello predice progressivamente la prossima semantica più dettagliata. HDLM fornisce un processo generale di previsione della prossima scala semantica variabile nel tempo per la modellazione del linguaggio. Gli autori derivano un'espressione in forma chiusa per il limite inferiore di evidenza della diffusione (ELBO) e dimostrano che HDLM può essere implementato in modo flessibile, includendo i modelli MDLM esistenti come caso particolare.
I modelli di diffusione discreta per il linguaggio esistenti presentano diverse limitazioni fondamentali:
Diffusione con Mascheramento: Tutti i token mascherati hanno lo stesso embedding di maschera, mancando di semantica ricca; incapacità di autocorreggersi sui token già generati
Diffusione Uniforme: Lo stesso token agisce come rumore nella fase di rumore ma diventa significativo durante la decodifica, causando incoerenza semantica e confusione
Sebbene i modelli di linguaggio autoregressivi siano attualmente lo stato dell'arte, il loro schema di previsione del prossimo token limita fondamentalmente la capacità di revisionare i token generati precedentemente. I modelli di diffusione hanno attirato attenzione per le loro capacità di denoising progressivo e raffinamento, ma i metodi di diffusione discreta esistenti presentano ancora limitazioni significative nella modellazione del linguaggio.
GIDD: Sebbene unifichi il mascheramento e il rumore uniforme, i token rumorosi mancano ancora di semantica ricca, con capacità di autocorrezione limitata
Gli autori propongono di massimizzare i vantaggi dei modelli di diffusione introducendo strutture semantiche gerarchiche, realizzando generazione in ordine arbitrario e auto-raffinamento progressivo, simile alla previsione della prossima scala nei modelli autoregressivi visivi (VAR).
Proposta del Framework HDLM: Un framework generale e flessibile per la modellazione del linguaggio a diffusione discreta, implementato tramite previsione della prossima scala semantica variabile nel tempo
Fondamenti Teorici Rigorosi: Basati sul framework della Catena di Markov a Tempo Continuo (CTMC), derivazione dell'ELBO in forma chiusa per la diffusione discreta gerarchica
Dimostrazione di Compatibilità: Prova teorica che MDLM è un caso particolare di HDLM, dimostrando l'universalità del framework
Tecniche Pratiche Proposte: Tecniche di addestramento e campionamento migliorate basate su intuizioni teoriche
Miglioramento delle Prestazioni: Dimostrazione coerente di perplexity di validazione e generazione inferiore rispetto ai baseline negli esperimenti di generazione di testo
Il compito di HDLM è predire progressivamente token più dettagliati attraverso una struttura semantica gerarchica dato un input rumoroso, fino al recupero del vocabolario originale. L'input consiste di token rumorosi a diversi livelli, l'output è una distribuzione di previsione a livello di parola.
Semantica Progressiva: I livelli intermedi possono essere visualizzati come token parzialmente decodificati, fornendo semantica più ricca rispetto a un singolo token mascherato
Decodifica Flessibile: L'incertezza nella semantica a grana grossa consente maggiore flessibilità di decodifica
Introduce probabilità di perturbazione ξ < 1, consentendo ai token di parola di transizionare a cluster errati con probabilità 1-ξ, migliorando la capacità di autocorrezione del modello.
Su molteplici compiti di comprensione, HDLM-small raggiunge un'accuratezza media del 39.62%, superando il 38.53% di GIDD, dimostrando forte capacità di generalizzazione.
Dipendenza dalla Qualità del Clustering: Attualmente utilizza clustering K-means predefinito, la qualità del clustering ha grande impatto sulle prestazioni
Complessità Computazionale: La struttura multi-livello potrebbe aumentare l'overhead computazionale dell'addestramento e dell'inferenza
Sensibilità agli Iperparametri: Richiede un attento tuning di iperparametri come il ritaglio dei pesi per stabilizzare l'addestramento
Limitazioni di Scala: Gli esperimenti sono principalmente condotti su modelli di scala piccola e media, con validazione su scala grande insufficiente
Metodo di Clustering Semplice: Il metodo di clustering semantico attuale è relativamente basilare, potrebbe limitare il limite superiore delle prestazioni
Valutazione della Qualità di Generazione: Si basa principalmente su metriche di perplexity, mancano valutazioni umane e analisi di diversità
L'articolo cita lavori importanti nei campi dei modelli di diffusione, modellazione del linguaggio e modellazione dello spazio degli stati discreti, inclusi lavori fondamentali chiave come D3PM, MDLM, GIDD, nonché modelli di linguaggio classici come la serie GPT e BERT.