Next Semantic Scale Prediction via Hierarchical Diffusion Language Models
Zhou, Wang, Zhang et al.
In this paper we introduce Hierarchical Diffusion Language Models (HDLM) -- a novel family of discrete diffusion models for language modeling. HDLM builds on a hierarchical vocabulary where low-level tokens with detailed semantics are surjectively mapped to high-level tokens with coarse-grained meanings. In the forward process, each token is independently perturbed to its higher-level ancestor with more abstract semantics according to the scheduler, while in the reverse process the model progressively predicts the next, more detailed semantics. Taken together, HDLM provides a general time-varying next semantic scale prediction process for language modeling. We derive closed-form expressions for the diffusion Evidence Lower Bound (ELBO), and show that HDLM can be implemented in a flexible manner while including the existing MDLM as a special case. We also propose practical training techniques based on the insights. Extensive text generation experiments validate the effectiveness of HDLM, which demonstrates consistently lower validation and generative perplexity than baselines.
academic
Vorhersage der nächsten semantischen Skala mittels hierarchischer Diffusionssprachmodelle
Dieser Artikel stellt hierarchische Diffusionssprachmodelle (HDLM) vor – ein neuartiges diskretes Diffusionsmodell für die Sprachmodellierung. HDLM basiert auf einem hierarchischen Vokabular, in dem Token mit detaillierter Semantik auf niedriger Ebene surjektiv auf Token mit grobkörniger Bedeutung auf hoher Ebene abgebildet werden. Im Vorwärtsprozess wird jedes Token gemäß eines Schedulers unabhängig zu einem höherstufigen Vorfahr mit abstrakterer Semantik gestört, während das Modell im Rückwärtsprozess schrittweise die nächste detailliertere Semantik vorhersagt. HDLM bietet einen universellen zeitvarianten Vorhersageprozess für die nächste semantische Skala für die Sprachmodellierung. Die Autoren leiten einen geschlossenen Ausdruck für die Diffusionsevidenzuntergrenze (ELBO) her und zeigen, dass HDLM flexibel implementiert werden kann, während bestehende MDLM als Spezialfall enthalten sind.
Bestehende diskrete Diffusionssprachmodelle weisen mehrere grundlegende Einschränkungen auf:
Maskendiffusion: Alle maskierten Token haben die gleiche Maskierungseinbettung und entbehren einer reichhaltigen Semantik; können bereits generierte Token nicht selbst korrigieren
Gleichmäßige Diffusion: Dasselbe Token fungiert in Rauschphasen als Rauschen, wird aber beim Dekodieren bedeutungsvoll, was zu semantischer Inkonsistenz und Verwirrung führt
Obwohl autoregressive Sprachmodelle derzeit die beste Methode darstellen, beschränkt ihr Schema der Vorhersage des nächsten Tokens grundlegend die Fähigkeit, zuvor generierte Token zu überarbeiten. Diffusionsmodelle werden wegen ihrer progressiven Entrauschungs- und Verfeinerungsfähigkeiten beachtet, aber bestehende diskrete Diffusionsmethoden weisen in der Sprachmodellierung noch erhebliche Einschränkungen auf.
GIDD: Obwohl Masken- und gleichmäßiges Rauschen vereinheitlicht werden, entbehren Rausch-Token immer noch einer reichhaltigen Semantik und die Selbstkorrektur ist begrenzt
Die Autoren schlagen vor, die Vorteile von Diffusionsmodellen durch die Einführung einer semantischen Hierarchie zu maximieren, um Generierung in beliebiger Reihenfolge und progressive Selbstverfeinerung zu ermöglichen, ähnlich wie die Vorhersage der nächsten Skala in visuellen autoregressiven Modellen (VAR).
Vorschlag des HDLM-Rahmens: Ein universeller und flexibler Rahmen für diskrete Diffusionssprachmodellierung, implementiert durch zeitvariante Vorhersage der nächsten semantischen Skala
Etablierung einer strengen theoretischen Grundlage: Basierend auf dem Rahmen zeitlich inhomogener Markov-Ketten (CTMC), Herleitung einer geschlossenen ELBO für hierarchische diskrete Diffusion
Nachweis der Kompatibilität: Theoretischer Nachweis, dass MDLM ein Spezialfall von HDLM ist, was die Universalität des Rahmens demonstriert
Vorschlag praktischer Techniken: Verbesserte Trainings- und Samplingtechniken basierend auf theoretischen Erkenntnissen
Leistungsverbesserung: Konsistent niedrigere Validierungs- und Generierungsperplexität im Vergleich zu Baselines in Textgenerierungsexperimenten
Die Aufgabe von HDLM besteht darin, bei gegebener verrauschter Eingabe durch eine hierarchische semantische Struktur schrittweise detailliertere Token vorherzusagen, bis das ursprüngliche Vokabular wiederhergestellt ist. Die Eingabe sind verrauschte Token auf verschiedenen Ebenen, die Ausgabe ist eine Vorhersageverteilung auf Wortebene.
Progressive Semantik: Zwischenebenen können als teilweise dekodierte Token betrachtet werden und bieten reichhaltigere Semantik als einzelne maskierte Token
Flexibles Dekodieren: Unsicherheit in grobkörniger Semantik ermöglicht größere Dekodierungsflexibilität
Einführung einer Störungswahrscheinlichkeit ξ < 1, die Wort-Token mit Wahrscheinlichkeit 1-ξ zu falschen Clustern überführt, um die Selbstkorrektur des Modells zu verbessern.
Bei mehreren Verständnisaufgaben erreicht HDLM-small eine durchschnittliche Genauigkeit von 39,62%, übertrifft GIDD mit 38,53% und demonstriert starke Verallgemeinerungsfähigkeit.
Das Papier zitiert wichtige Arbeiten in den Bereichen Diffusionsmodelle, Sprachmodellierung und diskrete Zustandsraum-Modellierung, einschließlich wichtiger Grundlagenarbeiten wie D3PM, MDLM, GIDD sowie klassischer Sprachmodelle der GPT- und BERT-Serie.