Next Semantic Scale Prediction via Hierarchical Diffusion Language Models
Zhou, Wang, Zhang et al.
In this paper we introduce Hierarchical Diffusion Language Models (HDLM) -- a novel family of discrete diffusion models for language modeling. HDLM builds on a hierarchical vocabulary where low-level tokens with detailed semantics are surjectively mapped to high-level tokens with coarse-grained meanings. In the forward process, each token is independently perturbed to its higher-level ancestor with more abstract semantics according to the scheduler, while in the reverse process the model progressively predicts the next, more detailed semantics. Taken together, HDLM provides a general time-varying next semantic scale prediction process for language modeling. We derive closed-form expressions for the diffusion Evidence Lower Bound (ELBO), and show that HDLM can be implemented in a flexible manner while including the existing MDLM as a special case. We also propose practical training techniques based on the insights. Extensive text generation experiments validate the effectiveness of HDLM, which demonstrates consistently lower validation and generative perplexity than baselines.
academic
Prédiction de la Prochaine Échelle Sémantique via Modèles de Langage Diffusion Hiérarchiques
Cet article présente les modèles de langage diffusion hiérarchiques (HDLM) — un nouveau modèle de diffusion discrète pour la modélisation du langage. HDLM repose sur un vocabulaire hiérarchique, où les jetons de bas niveau possédant une sémantique détaillée sont mappés surjectivement vers des jetons de haut niveau ayant une signification à granularité grossière. Dans le processus avant, chaque jeton est perturbé indépendamment selon un ordonnanceur vers des ancêtres de haut niveau possédant une sémantique plus abstraite, tandis que dans le processus inverse, le modèle prédit progressivement la prochaine sémantique plus détaillée. HDLM fournit un processus de prédiction de la prochaine échelle sémantique variant dans le temps pour la modélisation du langage. Les auteurs déduisent une expression en forme fermée de la limite inférieure de preuve de diffusion (ELBO) et démontrent que HDLM peut être implémenté de manière flexible tout en considérant les MDLM existants comme cas particulier.
Les modèles de langage diffusion discrète existants présentent plusieurs limitations fondamentales :
Diffusion masquée: Tous les jetons masqués possèdent le même plongement de masque, manquant de sémantique riche; incapacité à s'auto-corriger les jetons déjà générés
Diffusion uniforme: Le même jeton agit comme bruit à l'étape de bruit mais devient significatif lors du décodage, entraînant une incohérence sémantique et de la confusion
Bien que les modèles de langage autorégressifs soient actuellement l'état de l'art, leur schéma de prédiction du prochain jeton limite fondamentalement la capacité à réviser les jetons précédemment générés. Les modèles de diffusion attirent l'attention en raison de leurs capacités de débruitage progressif et d'affinage, mais les méthodes de diffusion discrète existantes présentent toujours des limitations significatives dans la modélisation du langage.
GIDD: Bien qu'unifiant le masquage et le bruit uniforme, les jetons bruits manquent toujours de sémantique riche, avec une capacité d'auto-correction limitée
Les auteurs proposent de maximiser les avantages des modèles de diffusion en introduisant une structure sémantique hiérarchique, permettant la génération dans un ordre arbitraire et l'auto-affinage progressif, similaire à la prédiction de la prochaine échelle dans les modèles autorégressifs visuels (VAR).
Proposition du cadre HDLM: Un cadre de modélisation du langage diffusion discrète générique et flexible, implémenté via la prédiction de la prochaine échelle sémantique variant dans le temps
Établissement d'une base théorique rigoureuse: Basée sur le cadre des chaînes de Markov en temps continu (CTMC), déduction de l'ELBO en forme fermée pour la diffusion discrète hiérarchique
Preuve de compatibilité: Démonstration théorique que MDLM est un cas particulier de HDLM, montrant l'universalité du cadre
Proposition de techniques pratiques: Techniques d'entraînement et d'échantillonnage améliorées basées sur les intuitions théoriques
Réalisation d'améliorations de performance: Démonstration continue de perplexité de validation et de génération inférieure aux lignes de base dans les expériences de génération de texte
La tâche de HDLM consiste à prédire progressivement des jetons plus détaillés via une structure sémantique hiérarchique étant donné une entrée bruitée, jusqu'à récupérer le vocabulaire original. L'entrée est constituée de jetons bruits à différents niveaux, la sortie est une distribution de prédiction au niveau des mots.
Sémantique progressive: Les niveaux intermédiaires peuvent être considérés comme des jetons partiellement décodés, fournissant une sémantique plus riche qu'un seul jeton masqué
Décodage flexible: L'incertitude dans la sémantique à granularité grossière permet une plus grande flexibilité de décodage
Introduction d'une probabilité de perturbation ξ < 1, permettant aux jetons de mots de se transformer vers des grappes incorrectes avec probabilité 1-ξ, améliorant la capacité d'auto-correction du modèle.
Sur plusieurs tâches de compréhension, HDLM-small atteint une précision moyenne de 39.62%, surpassant GIDD avec 38.53%, démontrant une forte capacité de généralisation.
Dépendance de la qualité du clustering: Utilisation actuelle du clustering K-means prédéfini, la qualité du clustering affectant considérablement la performance
Complexité computationnelle: La structure multi-niveaux peut augmenter les frais généraux computationnels d'entraînement et d'inférence
Sensibilité aux hyperparamètres: Nécessité d'ajustement minutieux des hyperparamètres tels que l'écrêtage des poids pour stabiliser l'entraînement
Contributions théoriques solides: Fourniture d'un cadre théorique CTMC complet et de déductions mathématiques rigoureuses
Forte innovativité de la méthode: Introduction pour la première fois de structures sémantiques hiérarchiques dans les modèles de langage diffusion discrète
Conception expérimentale complète: Inclusion d'études d'ablation complètes et d'expériences de comparaison
Valeur pratique élevée: Les techniques proposées peuvent être directement appliquées aux cadres de modèles de diffusion existants
Limitations d'échelle: Les expériences se concentrent principalement sur des modèles de petite et moyenne taille, validation à grande échelle insuffisante
Méthode de clustering simple: La méthode actuelle de clustering sémantique est relativement basique, pouvant limiter le plafond de performance
Évaluation de la qualité de génération: Dépendance principalement sur les métriques de perplexité, manque d'évaluation humaine et d'analyse de diversité
L'article cite des travaux importants dans les domaines des modèles de diffusion, de la modélisation du langage et de la modélisation d'espaces d'états discrets, incluant D3PM, MDLM, GIDD et autres travaux fondamentaux clés, ainsi que les modèles de langage classiques de la série GPT et BERT.