2025-11-14T10:58:11.492990

Next Semantic Scale Prediction via Hierarchical Diffusion Language Models

Zhou, Wang, Zhang et al.

In this paper we introduce Hierarchical Diffusion Language Models (HDLM) -- a novel family of discrete diffusion models for language modeling. HDLM builds on a hierarchical vocabulary where low-level tokens with detailed semantics are surjectively mapped to high-level tokens with coarse-grained meanings. In the forward process, each token is independently perturbed to its higher-level ancestor with more abstract semantics according to the scheduler, while in the reverse process the model progressively predicts the next, more detailed semantics. Taken together, HDLM provides a general time-varying next semantic scale prediction process for language modeling. We derive closed-form expressions for the diffusion Evidence Lower Bound (ELBO), and show that HDLM can be implemented in a flexible manner while including the existing MDLM as a special case. We also propose practical training techniques based on the insights. Extensive text generation experiments validate the effectiveness of HDLM, which demonstrates consistently lower validation and generative perplexity than baselines.

academic

Vorhersage der nächsten semantischen Skala mittels hierarchischer Diffusionssprachmodelle

Grundinformationen

Paper-ID: 2510.08632
Titel: Next Semantic Scale Prediction via Hierarchical Diffusion Language Models
Autoren: Cai Zhou, Chenyu Wang, Dinghuai Zhang, Shangyuan Tong, Yifei Wang, Stephen Bates, Tommi Jaakkola
Klassifizierung: cs.CL cs.LG
Veröffentlichungskonferenz: NeurIPS 2025 (39. Konferenz über neuronale Informationsverarbeitungssysteme)
Paper-Link: https://arxiv.org/abs/2510.08632

Zusammenfassung

Dieser Artikel stellt hierarchische Diffusionssprachmodelle (HDLM) vor – ein neuartiges diskretes Diffusionsmodell für die Sprachmodellierung. HDLM basiert auf einem hierarchischen Vokabular, in dem Token mit detaillierter Semantik auf niedriger Ebene surjektiv auf Token mit grobkörniger Bedeutung auf hoher Ebene abgebildet werden. Im Vorwärtsprozess wird jedes Token gemäß eines Schedulers unabhängig zu einem höherstufigen Vorfahr mit abstrakterer Semantik gestört, während das Modell im Rückwärtsprozess schrittweise die nächste detailliertere Semantik vorhersagt. HDLM bietet einen universellen zeitvarianten Vorhersageprozess für die nächste semantische Skala für die Sprachmodellierung. Die Autoren leiten einen geschlossenen Ausdruck für die Diffusionsevidenzuntergrenze (ELBO) her und zeigen, dass HDLM flexibel implementiert werden kann, während bestehende MDLM als Spezialfall enthalten sind.

Forschungshintergrund und Motivation

1. Zu lösende Probleme

Bestehende diskrete Diffusionssprachmodelle weisen mehrere grundlegende Einschränkungen auf:

Maskendiffusion: Alle maskierten Token haben die gleiche Maskierungseinbettung und entbehren einer reichhaltigen Semantik; können bereits generierte Token nicht selbst korrigieren
Gleichmäßige Diffusion: Dasselbe Token fungiert in Rauschphasen als Rauschen, wird aber beim Dekodieren bedeutungsvoll, was zu semantischer Inkonsistenz und Verwirrung führt

2. Bedeutung des Problems

Obwohl autoregressive Sprachmodelle derzeit die beste Methode darstellen, beschränkt ihr Schema der Vorhersage des nächsten Tokens grundlegend die Fähigkeit, zuvor generierte Token zu überarbeiten. Diffusionsmodelle werden wegen ihrer progressiven Entrauschungs- und Verfeinerungsfähigkeiten beachtet, aber bestehende diskrete Diffusionsmethoden weisen in der Sprachmodellierung noch erhebliche Einschränkungen auf.

3. Einschränkungen bestehender Methoden

MDLM und MD4: Maskierte Token entbehren einer reichhaltigen Semantik und können sich nicht selbst korrigieren
Gleichmäßige diskrete Diffusion: Schlechtere Leistung, semantische Inkonsistenz
GIDD: Obwohl Masken- und gleichmäßiges Rauschen vereinheitlicht werden, entbehren Rausch-Token immer noch einer reichhaltigen Semantik und die Selbstkorrektur ist begrenzt

4. Forschungsmotivation

Die Autoren schlagen vor, die Vorteile von Diffusionsmodellen durch die Einführung einer semantischen Hierarchie zu maximieren, um Generierung in beliebiger Reihenfolge und progressive Selbstverfeinerung zu ermöglichen, ähnlich wie die Vorhersage der nächsten Skala in visuellen autoregressiven Modellen (VAR).

Kernbeiträge

Vorschlag des HDLM-Rahmens: Ein universeller und flexibler Rahmen für diskrete Diffusionssprachmodellierung, implementiert durch zeitvariante Vorhersage der nächsten semantischen Skala
Etablierung einer strengen theoretischen Grundlage: Basierend auf dem Rahmen zeitlich inhomogener Markov-Ketten (CTMC), Herleitung einer geschlossenen ELBO für hierarchische diskrete Diffusion
Nachweis der Kompatibilität: Theoretischer Nachweis, dass MDLM ein Spezialfall von HDLM ist, was die Universalität des Rahmens demonstriert
Vorschlag praktischer Techniken: Verbesserte Trainings- und Samplingtechniken basierend auf theoretischen Erkenntnissen
Leistungsverbesserung: Konsistent niedrigere Validierungs- und Generierungsperplexität im Vergleich zu Baselines in Textgenerierungsexperimenten

Methodische Details

Aufgabendefinition

Die Aufgabe von HDLM besteht darin, bei gegebener verrauschter Eingabe durch eine hierarchische semantische Struktur schrittweise detailliertere Token vorherzusagen, bis das ursprüngliche Vokabular wiederhergestellt ist. Die Eingabe sind verrauschte Token auf verschiedenen Ebenen, die Ausgabe ist eine Vorhersageverteilung auf Wortebene.

Modellarchitektur

1. Design des hierarchischen Vokabulars

Vokabularebenen: Hierarchische Struktur von sauberen Wort-Token x zu Cluster-Token c zu Masken-Token m: x → c → m
Abbildungsbeziehung: Abbildung von Token auf niedriger Ebene zu Token auf hoher Ebene durch surjektive Funktion c = Γx, wobei Γ ∈ R^{|C|×|V|}

2. Vorwärtsprozess

Die Grenzverteilung des Vorwärtsprozesses ist:

q_t(z_t|x) = Cat(z_t; α_t x + β_{t,c} c(x) + β_{t,m} m)

wobei β_{t,c} + β_{t,m} = β_t := 1 - α_t

3. CTMC-Rahmen

Die zeitlich inhomogene Generatormatrix ist:

Q_t = [α'_t/α_t I_{|V|}    -α'_t/α_t Γ^T    0]
      [0    (α'_t+β'_{t,c})/β_{t,c} I_{|C|}    -(α'_t+β'_{t,c})/β_{t,c} Ξ^T]
      [0    0    0]

4. Rückwärtsprozess

Verwendung eines standardisierten Rückwärtsprozesses:

p_θ(z_s|z_t) = q_{t|s}(z_t|z_s) q_s(z_s|x_θ)/q_t(z_t|x_θ)

Technische Innovationen

1. Semantische Hierarchiestruktur

Progressive Semantik: Zwischenebenen können als teilweise dekodierte Token betrachtet werden und bieten reichhaltigere Semantik als einzelne maskierte Token
Flexibles Dekodieren: Unsicherheit in grobkörniger Semantik ermöglicht größere Dekodierungsflexibilität

2. Geschlossene ELBO-Herleitung

Die hergeleitete Trainierungsverlustfunktion ist eine gewichtete Kombination zweier Kreuzentropie-Verluste:

L(x,x_θ,t) = E_{t,z_t}[δ_{z_t,c} w_{t,c} CE(x, (x_θ ⊙ (Γ^T Γx))/(x_θ^T Γ^T Γx)) + δ_{z_t,m} w_{t,m} CE(Γx, Γx_θ)]

3. Zufälliger Störungsmechanismus

Einführung einer Störungswahrscheinlichkeit ξ < 1, die Wort-Token mit Wahrscheinlichkeit 1-ξ zu falschen Clustern überführt, um die Selbstkorrektur des Modells zu verbessern.

Experimentelle Einrichtung

Datensätze

Hauptdatensatz: OpenWebText (OWT), enthält 131B Trainings-Token
Zusätzliche Datensätze: LM1B (33B Token) für ergänzende Validierung
Kontextlänge: 512 Token, keine Satzpackung verwendet

Bewertungsmetriken

Validierungsperplexität (Valid. PPL): Perplexität auf dem OWT-Validierungssatz
Generierungsperplexität (Gen. PPL): Bewertung generierter Stichproben mit GPT2-large als Referenzmodell
Downstream-Aufgaben: ARC, BoolQ, PIQA, OpenBookQA, WinoGrande usw.

Vergleichsmethoden

Autoregressive Modelle: GPT-2, Llama-110M
Diskrete Diffusionsmodelle: SEDD, MDLM, GIDD+

Implementierungsdetails

Modellarchitektur: DiT-Architektur, Small (170M Parameter) und Base (425M Parameter)
Optimierer: Adam (β=(0.9,0.99)), Lernrate 5×10^{-4}
Trainingsschritte: 500k Schritte, Batch-Größe 512
Gewichtsbeschneidung: Verlustgewichte w_{t,m}, w_{t,c} auf 2,0 oder 10,0 beschneiden zur Optimierungsstabilisierung

Experimentelle Ergebnisse

Hauptergebnisse

Modell	Trainings-Token	Valid. PPL (↓)	Gen. PPL (↓)
MDLM-small	131B	≤27.39	163.7
GIDD+-small	131B	≤25.82	170.2
HDLM-small-64	131B	≤23.36	144.2
HDLM-small-128	131B	≤23.25	148.0
HDLM-base-128	131B	≤19.22	139.9

Wichtigste Erkenntnisse:

HDLM-small übertrifft andere diskrete Diffusionsmethoden sowohl bei Validierungs- als auch bei Generierungsperplexität
HDLM-base erreicht eine Perplexität von 19,22, was autoregressive Modelle übertrifft oder entspricht

Ablationsstudien

1. Auswirkung der Cluster-Anzahl

Optimale Cluster-Anzahl etwa 64-128 (ungefähr die Quadratwurzel der Vokabulargröße)
Bei n=1 wird MDLM-Leistung wiederhergestellt, was die theoretische Analyse validiert

2. Effekt der zufälligen Störung

Bei ξ=0,9 sinkt die Generierungsperplexität um 51% (von 144,2 auf 69,76)
Bei ξ=0,8 sinkt die Generierungsperplexität um 62% (auf 54,15)
Demonstriert signifikante Verbesserung der Selbstkorrektur

3. Vorwärtsprozess-Scheduling

Je größer der γ-Wert, desto schwieriger die Entrauschungsaufgabe pro Schritt, aber bessere tatsächliche Inferenzleistung
Bei γ=3 wird die beste Generierungsperplexität von 135,9 erreicht

Downstream-Task-Leistung

Bei mehreren Verständnisaufgaben erreicht HDLM-small eine durchschnittliche Genauigkeit von 39,62%, übertrifft GIDD mit 38,53% und demonstriert starke Verallgemeinerungsfähigkeit.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

HDLM verbessert effektiv die diskrete Diffusionssprachmodellierung durch das Schema "Vorhersage der nächsten semantischen Skala"
Die hierarchische Semantikstruktur bietet reichhaltigere Zwischendarstellungen als traditionelle Masken
Der zufällige Störungsmechanismus verbessert die Selbstkorrektur des Modells erheblich
Der theoretische Rahmen weist gute Universalität und Erweiterbarkeit auf

Einschränkungen

Abhängigkeit von Clusterqualität: Derzeit werden vordefinierte K-means-Cluster verwendet, Clusterqualität beeinflusst Leistung erheblich
Rechenkomplexität: Mehrschichtige Struktur kann Trainings- und Inferenzaufwand erhöhen
Hyperparameter-Empfindlichkeit: Erfordert sorgfältige Anpassung von Hyperparametern wie Gewichtsbeschneidung zur Trainierungsstabilisierung

Zukünftige Richtungen

Erforschung komplexerer Hierarchie-Lernmethoden (z.B. DeepSets)
Untersuchung der Implementierung und Optimierung mehrerer Zwischenebenen
Erweiterung des Rahmens auf größere Sprachmodelle
Erforschung von Anwendungen in multimodalen Aufgaben

Tiefgreifende Bewertung

Stärken

Solide theoretische Beiträge: Bietet vollständigen CTMC-Theorierahmen und strenge mathematische Herleitung
Starke Methodische Innovation: Erste Einführung semantischer Hierarchiestruktur in diskrete Diffusionssprachmodelle
Umfassende Experimentgestaltung: Enthält umfassende Ablationsstudien und Vergleichsexperimente
Hoher praktischer Wert: Vorgeschlagene Techniken können direkt auf bestehende Diffusionsmodellrahmen angewendet werden

Mängel

Skalierungsbeschränkungen: Experimente hauptsächlich auf kleinen bis mittleren Modellen, unzureichende Validierung in großem Maßstab
Einfache Cluster-Methode: Aktuelle semantische Cluster-Methode relativ grundlegend, könnte Leistungsobergrenze begrenzen
Bewertung der Generierungsqualität: Hauptsächlich auf Perplexität-Metriken angewiesen, mangelnde menschliche Bewertung und Vielfältigkeitsanalyse

Auswirkungen

Akademischer Beitrag: Bietet neue Forschungsrichtung für diskrete Diffusionssprachmodellierung
Praktischer Wert: Methode ist einfach zu implementieren, vielversprechend für praktische Anwendungen
Reproduzierbarkeit: Autoren bieten vollständige Code-Implementierung und detaillierte experimentelle Einrichtung

Anwendungsszenarien

Textgenerierungsaufgaben: Besonders geeignet für Generierungsszenarien, die progressive Verfeinerung erfordern
Kontrollierte Textgenerierung: Hierarchiestruktur ermöglicht Kontrolle auf verschiedenen Körnigkeitsstufen
Textbearbeitung und Überarbeitung: Selbstkorrektur-Fähigkeit macht es für Textänderungsaufgaben geeignet

Literaturverzeichnis

Das Papier zitiert wichtige Arbeiten in den Bereichen Diffusionsmodelle, Sprachmodellierung und diskrete Zustandsraum-Modellierung, einschließlich wichtiger Grundlagenarbeiten wie D3PM, MDLM, GIDD sowie klassischer Sprachmodelle der GPT- und BERT-Serie.