2025-11-14T10:58:11.492990

Next Semantic Scale Prediction via Hierarchical Diffusion Language Models

Zhou, Wang, Zhang et al.

In this paper we introduce Hierarchical Diffusion Language Models (HDLM) -- a novel family of discrete diffusion models for language modeling. HDLM builds on a hierarchical vocabulary where low-level tokens with detailed semantics are surjectively mapped to high-level tokens with coarse-grained meanings. In the forward process, each token is independently perturbed to its higher-level ancestor with more abstract semantics according to the scheduler, while in the reverse process the model progressively predicts the next, more detailed semantics. Taken together, HDLM provides a general time-varying next semantic scale prediction process for language modeling. We derive closed-form expressions for the diffusion Evidence Lower Bound (ELBO), and show that HDLM can be implemented in a flexible manner while including the existing MDLM as a special case. We also propose practical training techniques based on the insights. Extensive text generation experiments validate the effectiveness of HDLM, which demonstrates consistently lower validation and generative perplexity than baselines.

academic

Prédiction de la Prochaine Échelle Sémantique via Modèles de Langage Diffusion Hiérarchiques

Informations Fondamentales

ID de l'article: 2510.08632
Titre: Next Semantic Scale Prediction via Hierarchical Diffusion Language Models
Auteurs: Cai Zhou, Chenyu Wang, Dinghuai Zhang, Shangyuan Tong, Yifei Wang, Stephen Bates, Tommi Jaakkola
Classification: cs.CL cs.LG
Conférence de publication: NeurIPS 2025 (39e Conférence sur les Systèmes de Traitement de l'Information Neuronale)
Lien de l'article: https://arxiv.org/abs/2510.08632

Résumé

Cet article présente les modèles de langage diffusion hiérarchiques (HDLM) — un nouveau modèle de diffusion discrète pour la modélisation du langage. HDLM repose sur un vocabulaire hiérarchique, où les jetons de bas niveau possédant une sémantique détaillée sont mappés surjectivement vers des jetons de haut niveau ayant une signification à granularité grossière. Dans le processus avant, chaque jeton est perturbé indépendamment selon un ordonnanceur vers des ancêtres de haut niveau possédant une sémantique plus abstraite, tandis que dans le processus inverse, le modèle prédit progressivement la prochaine sémantique plus détaillée. HDLM fournit un processus de prédiction de la prochaine échelle sémantique variant dans le temps pour la modélisation du langage. Les auteurs déduisent une expression en forme fermée de la limite inférieure de preuve de diffusion (ELBO) et démontrent que HDLM peut être implémenté de manière flexible tout en considérant les MDLM existants comme cas particulier.

Contexte et Motivation de la Recherche

1. Problèmes à Résoudre

Les modèles de langage diffusion discrète existants présentent plusieurs limitations fondamentales :

Diffusion masquée: Tous les jetons masqués possèdent le même plongement de masque, manquant de sémantique riche; incapacité à s'auto-corriger les jetons déjà générés
Diffusion uniforme: Le même jeton agit comme bruit à l'étape de bruit mais devient significatif lors du décodage, entraînant une incohérence sémantique et de la confusion

2. Importance du Problème

Bien que les modèles de langage autorégressifs soient actuellement l'état de l'art, leur schéma de prédiction du prochain jeton limite fondamentalement la capacité à réviser les jetons précédemment générés. Les modèles de diffusion attirent l'attention en raison de leurs capacités de débruitage progressif et d'affinage, mais les méthodes de diffusion discrète existantes présentent toujours des limitations significatives dans la modélisation du langage.

3. Limitations des Approches Existantes

MDLM et MD4: Les jetons masqués manquent de sémantique riche, incapables de s'auto-corriger
Diffusion discrète uniforme: Performance inférieure, incohérence sémantique
GIDD: Bien qu'unifiant le masquage et le bruit uniforme, les jetons bruits manquent toujours de sémantique riche, avec une capacité d'auto-correction limitée

4. Motivation de la Recherche

Les auteurs proposent de maximiser les avantages des modèles de diffusion en introduisant une structure sémantique hiérarchique, permettant la génération dans un ordre arbitraire et l'auto-affinage progressif, similaire à la prédiction de la prochaine échelle dans les modèles autorégressifs visuels (VAR).

Contributions Principales

Proposition du cadre HDLM: Un cadre de modélisation du langage diffusion discrète générique et flexible, implémenté via la prédiction de la prochaine échelle sémantique variant dans le temps
Établissement d'une base théorique rigoureuse: Basée sur le cadre des chaînes de Markov en temps continu (CTMC), déduction de l'ELBO en forme fermée pour la diffusion discrète hiérarchique
Preuve de compatibilité: Démonstration théorique que MDLM est un cas particulier de HDLM, montrant l'universalité du cadre
Proposition de techniques pratiques: Techniques d'entraînement et d'échantillonnage améliorées basées sur les intuitions théoriques
Réalisation d'améliorations de performance: Démonstration continue de perplexité de validation et de génération inférieure aux lignes de base dans les expériences de génération de texte

Détails de la Méthode

Définition de la Tâche

La tâche de HDLM consiste à prédire progressivement des jetons plus détaillés via une structure sémantique hiérarchique étant donné une entrée bruitée, jusqu'à récupérer le vocabulaire original. L'entrée est constituée de jetons bruits à différents niveaux, la sortie est une distribution de prédiction au niveau des mots.

Architecture du Modèle

1. Conception du Vocabulaire Hiérarchique

Niveaux de vocabulaire: Structure hiérarchique allant des jetons de mots propres x aux jetons en grappe c puis aux jetons masqués m: x → c → m
Relations de mapping: Mapping des jetons de bas niveau vers des jetons de haut niveau via la fonction surjective c = Γx, où Γ ∈ R^{|C|×|V|}

2. Processus Avant

La distribution marginale du processus avant est :

q_t(z_t|x) = Cat(z_t; α_t x + β_{t,c} c(x) + β_{t,m} m)

où β_{t,c} + β_{t,m} = β_t := 1 - α_t

3. Cadre CTMC

La matrice génératrice non-homogène dans le temps est :

Q_t = [α'_t/α_t I_{|V|}    -α'_t/α_t Γ^T    0]
      [0    (α'_t+β'_{t,c})/β_{t,c} I_{|C|}    -(α'_t+β'_{t,c})/β_{t,c} Ξ^T]
      [0    0    0]

4. Processus Inverse

Utilisant le processus inverse standard :

p_θ(z_s|z_t) = q_{t|s}(z_t|z_s) q_s(z_s|x_θ)/q_t(z_t|x_θ)

Points d'Innovation Technique

1. Structure Sémantique Hiérarchique

Sémantique progressive: Les niveaux intermédiaires peuvent être considérés comme des jetons partiellement décodés, fournissant une sémantique plus riche qu'un seul jeton masqué
Décodage flexible: L'incertitude dans la sémantique à granularité grossière permet une plus grande flexibilité de décodage

2. Déduction de l'ELBO en Forme Fermée

La perte d'entraînement déduite est une combinaison pondérée de deux pertes d'entropie croisée :

L(x,x_θ,t) = E_{t,z_t}[δ_{z_t,c} w_{t,c} CE(x, (x_θ ⊙ (Γ^T Γx))/(x_θ^T Γ^T Γx)) + δ_{z_t,m} w_{t,m} CE(Γx, Γx_θ)]

3. Mécanisme de Perturbation Aléatoire

Introduction d'une probabilité de perturbation ξ < 1, permettant aux jetons de mots de se transformer vers des grappes incorrectes avec probabilité 1-ξ, améliorant la capacité d'auto-correction du modèle.

Configuration Expérimentale

Ensembles de Données

Ensemble de données principal: OpenWebText (OWT), contenant 131B jetons d'entraînement
Ensembles de données supplémentaires: LM1B (33B jetons) pour validation supplémentaire
Longueur du contexte: 512 jetons, sans empaquetage de phrases

Métriques d'Évaluation

Perplexité de validation (Valid. PPL): Perplexité sur l'ensemble de validation OWT
Perplexité de génération (Gen. PPL): Évaluation des échantillons générés utilisant GPT2-large comme modèle de référence
Tâches en aval: ARC, BoolQ, PIQA, OpenBookQA, WinoGrande, etc.

Méthodes de Comparaison

Modèles autorégressifs: GPT-2, Llama-110M
Modèles de diffusion discrète: SEDD, MDLM, GIDD+

Détails d'Implémentation

Architecture du modèle: Architecture DiT, Small (170M paramètres) et Base (425M paramètres)
Optimiseur: Adam (β=(0.9,0.99)), taux d'apprentissage 5×10^{-4}
Étapes d'entraînement: 500k étapes, taille de lot 512
Écrêtage des poids: Écrêtage des poids de perte w_{t,m}, w_{t,c} à 2.0 ou 10.0 pour stabiliser l'optimisation

Résultats Expérimentaux

Résultats Principaux

Modèle	Jetons d'Entraînement	Valid. PPL (↓)	Gen. PPL (↓)
MDLM-small	131B	≤27.39	163.7
GIDD+-small	131B	≤25.82	170.2
HDLM-small-64	131B	≤23.36	144.2
HDLM-small-128	131B	≤23.25	148.0
HDLM-base-128	131B	≤19.22	139.9

Découvertes Clés:

HDLM-small surpasse les autres méthodes de diffusion discrète en perplexité de validation et de génération
HDLM-base atteint une perplexité de 19.22, surpassant ou égalant les performances des modèles autorégressifs

Études d'Ablation

1. Impact du Nombre de Grappes

Le nombre optimal de grappes est environ 64-128 (approximativement la racine carrée de la taille du vocabulaire)
Quand n=1, on retrouve la performance de MDLM, validant l'analyse théorique

2. Effet de la Perturbation Aléatoire

Avec ξ=0.9, la perplexité de génération diminue de 51% (de 144.2 à 69.76)
Avec ξ=0.8, la perplexité de génération diminue de 62% (à 54.15)
Démonstration d'une amélioration significative de la capacité d'auto-correction

3. Ordonnanceur du Processus Avant

Plus la valeur γ est grande, plus la tâche de débruitage en une étape est difficile, mais les performances d'inférence réelles sont meilleures
Avec γ=3, on obtient la meilleure perplexité de génération de 135.9

Performance sur les Tâches en Aval

Sur plusieurs tâches de compréhension, HDLM-small atteint une précision moyenne de 39.62%, surpassant GIDD avec 38.53%, démontrant une forte capacité de généralisation.

Travaux Connexes

1. Développement des Modèles de Diffusion Discrète

D3PM: Fondation de la base théorique de la diffusion discrète
SEDD: Apprentissage des scores concrets comme rapports de distributions marginales
MDLM/MD4: Simplification des objectifs d'entraînement du processus avant masqué

2. Mise à l'Échelle des Modèles de Langage Diffusion

LLaDA et Dream: Démonstration du potentiel de mise à l'échelle des modèles de langage diffusion
Block Diffusion: Exploration d'un nouveau paradigme générant des blocs de texte autorégressivement et diffusant au sein des blocs

3. Avantages par rapport aux Travaux Connexes

Fourniture d'une nouvelle procédure de bruit, conceptuellement simple et pratiquement efficace
Maintien de la capacité d'auto-correction tout en évitant les inconvénients du bruit uniforme
Établissement d'un cadre théorique rigoureux et d'une ELBO en forme fermée

Conclusion et Discussion

Conclusions Principales

HDLM améliore efficacement la modélisation du langage diffusion discrète via le schéma de « prédiction de la prochaine échelle sémantique »
La structure sémantique hiérarchique fournit des représentations intermédiaires plus riches que le masquage traditionnel
Le mécanisme de perturbation aléatoire améliore significativement la capacité d'auto-correction du modèle
Le cadre théorique possède une bonne universalité et extensibilité

Limitations

Dépendance de la qualité du clustering: Utilisation actuelle du clustering K-means prédéfini, la qualité du clustering affectant considérablement la performance
Complexité computationnelle: La structure multi-niveaux peut augmenter les frais généraux computationnels d'entraînement et d'inférence
Sensibilité aux hyperparamètres: Nécessité d'ajustement minutieux des hyperparamètres tels que l'écrêtage des poids pour stabiliser l'entraînement

Directions Futures

Exploration de méthodes d'apprentissage de structures hiérarchiques plus complexes (comme DeepSets)
Recherche sur l'implémentation et l'optimisation de multiples niveaux intermédiaires
Extension du cadre aux modèles de langage à plus grande échelle
Exploration des applications dans les tâches multimodales

Évaluation Approfondie

Points Forts

Contributions théoriques solides: Fourniture d'un cadre théorique CTMC complet et de déductions mathématiques rigoureuses
Forte innovativité de la méthode: Introduction pour la première fois de structures sémantiques hiérarchiques dans les modèles de langage diffusion discrète
Conception expérimentale complète: Inclusion d'études d'ablation complètes et d'expériences de comparaison
Valeur pratique élevée: Les techniques proposées peuvent être directement appliquées aux cadres de modèles de diffusion existants

Insuffisances

Limitations d'échelle: Les expériences se concentrent principalement sur des modèles de petite et moyenne taille, validation à grande échelle insuffisante
Méthode de clustering simple: La méthode actuelle de clustering sémantique est relativement basique, pouvant limiter le plafond de performance
Évaluation de la qualité de génération: Dépendance principalement sur les métriques de perplexité, manque d'évaluation humaine et d'analyse de diversité

Impact

Contribution académique: Fourniture d'une nouvelle direction de recherche pour la modélisation du langage diffusion discrète
Valeur pratique: Méthode simple et facile à implémenter, susceptible d'être promue dans les applications pratiques
Reproductibilité: Les auteurs fournissent une implémentation de code complète et des configurations expérimentales détaillées

Scénarios Applicables

Tâches de génération de texte: Particulièrement adaptées aux scénarios de génération nécessitant un affinage progressif
Génération de texte contrôlée: La structure hiérarchique facilite l'implémentation du contrôle à différentes granularités
Édition et révision de texte: La capacité d'auto-correction la rend adaptée aux tâches de modification de texte

Références

L'article cite des travaux importants dans les domaines des modèles de diffusion, de la modélisation du langage et de la modélisation d'espaces d'états discrets, incluant D3PM, MDLM, GIDD et autres travaux fondamentaux clés, ainsi que les modèles de langage classiques de la série GPT et BERT.