In this paper we introduce Hierarchical Diffusion Language Models (HDLM) -- a novel family of discrete diffusion models for language modeling. HDLM builds on a hierarchical vocabulary where low-level tokens with detailed semantics are surjectively mapped to high-level tokens with coarse-grained meanings. In the forward process, each token is independently perturbed to its higher-level ancestor with more abstract semantics according to the scheduler, while in the reverse process the model progressively predicts the next, more detailed semantics. Taken together, HDLM provides a general time-varying next semantic scale prediction process for language modeling. We derive closed-form expressions for the diffusion Evidence Lower Bound (ELBO), and show that HDLM can be implemented in a flexible manner while including the existing MDLM as a special case. We also propose practical training techniques based on the insights. Extensive text generation experiments validate the effectiveness of HDLM, which demonstrates consistently lower validation and generative perplexity than baselines.
論文ID : 2510.08632タイトル : Next Semantic Scale Prediction via Hierarchical Diffusion Language Models著者 : Cai Zhou, Chenyu Wang, Dinghuai Zhang, Shangyuan Tong, Yifei Wang, Stephen Bates, Tommi Jaakkola分類 : cs.CL cs.LG発表会議 : NeurIPS 2025(第39回ニューラル情報処理システム会議)論文リンク : https://arxiv.org/abs/2510.08632 本論文は、言語モデリング用の新規離散拡散モデルである階層型拡散言語モデル(HDLM)を提案する。HDLMは階層的語彙表現に基づいており、詳細なセマンティクスを持つ低レベルトークンが、粗粒度の意味を持つ高レベルトークンへ全射的にマッピングされる。前向きプロセスでは、各トークンはスケジューラに従って独立的により抽象的なセマンティクスを持つ高レベル祖先へ摂動され、逆向きプロセスでは、モデルは段階的により詳細なセマンティクスを予測する。HDLMは言語モデリングのための汎用的な時変次セマンティックスケール予測プロセスを提供する。著者らは拡散証拠下界(ELBO)の閉形式表現を導出し、HDLMが柔軟に実装可能であり、既存のMDLMを特殊ケースとして包含することを示す。
既存の離散拡散言語モデルには、いくつかの根本的な制限がある:
マスク拡散 :すべてのマスクトークンが同一のマスク埋め込みを持ち、豊かなセマンティクスが欠如している;生成済みトークンの自己修正ができない均一拡散 :同一トークンがノイズステージではノイズとして機能するが、デコード時には意味を持つようになり、セマンティック不一貫性と混乱を招く自己回帰言語モデルは現在の最先端手法であるが、その次トークン予測スキームは根本的に先前生成トークンの修正能力を制限している。拡散モデルは段階的なデノイジングと精緻化能力により注目されているが、既存の離散拡散手法は言語モデリングにおいてなお顕著な制限を有している。
MDLMおよびMD4 :マスクトークンが豊かなセマンティクスを欠き、自己修正ができない均一離散拡散 :性能が低く、セマンティック不一貫性があるGIDD :マスクと均一ノイズを統一したが、ノイズトークンはなお豊かなセマンティクスを欠き、自己修正能力が限定的である著者らは、セマンティック階層構造を導入することで拡散モデルの利点を最大化し、任意順序生成と段階的自己精緻化を実現することを提案する。これは視覚自己回帰モデル(VAR)における次スケール予測に類似している。
HDLMフレームワークの提案 :時変次セマンティックスケール予測により実装される汎用的で柔軟な離散拡散言語モデリングフレームワーク厳密な理論基礎の確立 :連続時間マルコフ連鎖(CTMC)フレームワークに基づき、階層型離散拡散の閉形式ELBOを導出互換性の証明 :MDLMがHDLMの特殊ケースであることを理論的に証明し、フレームワークの汎用性を実証実用的技術の提案 :理論的洞察に基づき、改善された訓練およびサンプリング技術を提案性能向上の実現 :テキスト生成実験において、ベースラインより一貫して低い検証および生成困惑度を示すHDLMのタスクは、ノイズ入力が与えられた場合、階層的セマンティック構造を通じて段階的により詳細なトークンを予測し、元の語彙を復元することである。入力は異なるレベルのノイズトークンであり、出力は単語レベルの予測分布である。
語彙階層 :クリーン単語トークンxからクラスタトークンc、さらにマスクトークンmへの階層構造:x → c → mマッピング関係 :全射関数c = Γxにより低レベルトークンを高レベルトークンにマッピングする。ここでΓ ∈ R^{|C|×|V|}前向きプロセスの周辺分布は以下の通り:
q_t(z_t|x) = Cat(z_t; α_t x + β_{t,c} c(x) + β_{t,m} m)
ここでβ_{t,c} + β_{t,m} = β_t := 1 - α_t
時間非斉次生成行列は以下の通り:
Q_t = [α'_t/α_t I_{|V|} -α'_t/α_t Γ^T 0]
[0 (α'_t+β'_{t,c})/β_{t,c} I_{|C|} -(α'_t+β'_{t,c})/β_{t,c} Ξ^T]
[0 0 0]
標準的な逆向きプロセスを採用:
p_θ(z_s|z_t) = q_{t|s}(z_t|z_s) q_s(z_s|x_θ)/q_t(z_t|x_θ)
段階的セマンティクス :中間レベルは部分的にデコードされたトークンとして解釈でき、単一のマスクトークンより豊かなセマンティクスを提供する柔軟なデコード :粗粒度セマンティクスの不確実性により、より大きなデコード柔軟性が可能になる導出された訓練損失は、2つの交差エントロピー損失の加重組合せ:
L(x,x_θ,t) = E_{t,z_t}[δ_{z_t,c} w_{t,c} CE(x, (x_θ ⊙ (Γ^T Γx))/(x_θ^T Γ^T Γx)) + δ_{z_t,m} w_{t,m} CE(Γx, Γx_θ)]
摂動確率ξ < 1を導入し、単語トークンが確率1-ξで誤ったクラスタに遷移するようにして、モデルの自己修正能力を向上させる。
主要データセット :OpenWebText(OWT)、131Bの訓練トークンを含む追加データセット :LM1B(33Bトークン)補足検証用コンテキスト長 :512トークン、文パッキングなし検証困惑度(Valid. PPL) :OWT検証セット上の困惑度生成困惑度(Gen. PPL) :GPT2-largeを参照モデルとして使用した生成サンプルの評価下流タスク :ARC、BoolQ、PIQA、OpenBookQA、WinoGrandeなど自己回帰モデル :GPT-2、Llama-110M離散拡散モデル :SEDD、MDLM、GIDD+モデルアーキテクチャ :DiTアーキテクチャ、Small(170Mパラメータ)およびBase(425Mパラメータ)オプティマイザ :Adam(β=(0.9,0.99))、学習率5×10^{-4}訓練ステップ :500kステップ、バッチサイズ512重みクリッピング :損失重みw_{t,m}、w_{t,c}を2.0または10.0にクリップして最適化を安定化モデル 訓練トークン Valid. PPL (↓) Gen. PPL (↓) MDLM-small 131B ≤27.39 163.7 GIDD+-small 131B ≤25.82 170.2 HDLM-small-64 131B ≤23.36 144.2 HDLM-small-128 131B ≤23.25 148.0 HDLM-base-128 131B ≤19.22 139.9
主要な知見 :
HDLM-smallは検証および生成困惑度の両方で他の離散拡散手法を上回る HDLM-baseは19.22の困惑度に達し、自己回帰モデルの性能を超えるか同等である 最適クラスタ数は約64~128(語彙表現サイズの平方根程度) n=1の場合、MDLM性能に復帰し、理論分析を検証する ξ=0.9の場合、生成困惑度が51%低下(144.2から69.76へ) ξ=0.8の場合、生成困惑度が62%低下(54.15へ) 自己修正能力の顕著な向上を証明する γ値が大きいほど、単一ステップのデノイジングタスクはより困難だが、実際の推論性能はより良好 γ=3の場合、最良の生成困惑度135.9を達成 複数の理解タスクにおいて、HDLM-smallの平均精度は39.62%に達し、GIDDの38.53%を上回り、強い汎化能力を示す。
D3PM :離散拡散の理論基礎を確立SEDD :周辺分布比率としての具体的スコアを学習MDLM/MD4 :マスク前向きプロセスの訓練目標を簡略化LLaDA およびDream :拡散言語モデルのスケーリング可能性を実証Block Diffusion :テキストブロックを自己回帰的に生成し、ブロック内で拡散する新しいパラダイムを探索概念的にシンプルで実用的に有効な新しいノイズプロセスを提供 均一ノイズの欠点を回避しながら自己修正能力を維持 厳密な理論フレームワークと閉形式ELBOを確立 HDLMは「次セマンティックスケール予測」スキームにより離散拡散言語モデリングを効果的に改善する 階層的セマンティック構造は従来のマスクより豊かな中間表現を提供する 確率的摂動メカニズムはモデルの自己修正能力を顕著に向上させる 理論フレームワークは良好な汎用性と拡張性を有する クラスタ品質への依存 :現在、事前定義されたK-meansクラスタリングを使用しており、クラスタ品質が性能に大きく影響する計算複雑性 :多層構造は訓練と推論の計算オーバーヘッドを増加させる可能性があるハイパーパラメータ感度 :重みクリッピングなどのハイパーパラメータを慎重に調整して訓練を安定化する必要があるより複雑な階層構造学習手法(DeepSetsなど)の探索 複数の中間レベルの実装と最適化の研究 より大規模な言語モデルへのフレームワーク拡張 マルチモーダルタスクへの応用探索 理論的貢献が堅牢 :完全なCTMC理論フレームワークと厳密な数学的導出を提供手法の革新性が高い :セマンティック階層構造を離散拡散言語モデルに初めて導入実験設計が充分 :包括的なアブレーション研究と比較実験を含む実用価値が高い :提案技術は既存の拡散モデルフレームワークに直接適用可能規模の制限 :実験は主に中小規模モデルで実施され、大規模検証が不足しているクラスタリング手法が単純 :現在のセマンティッククラスタリング手法は相対的に基礎的であり、性能上限を制限する可能性がある生成品質評価が不十分 :主に困惑度指標に依存し、人間評価と多様性分析が欠落している学術的貢献 :離散拡散言語モデリングに新しい研究方向を提供実用価値 :手法がシンプルで実装しやすく、実際の応用での普及が期待される再現性 :著者らが完全なコード実装と詳細な実験設定を提供テキスト生成タスク :特に段階的精緻化が必要な生成シーンに適している制御可能なテキスト生成 :階層構造により異なる粒度での制御が容易テキスト編集と修正 :自己修正能力がテキスト修正タスクに適している本論文は拡散モデル、言語モデリング、離散状態空間モデリング分野の重要な研究を引用しており、D3PM、MDLM、GIDDなどの主要基礎研究、ならびにGPTシリーズ、BERTなどの古典的言語モデルを含む。