2025-11-14T10:58:11.492990

Next Semantic Scale Prediction via Hierarchical Diffusion Language Models

Zhou, Wang, Zhang et al.

In this paper we introduce Hierarchical Diffusion Language Models (HDLM) -- a novel family of discrete diffusion models for language modeling. HDLM builds on a hierarchical vocabulary where low-level tokens with detailed semantics are surjectively mapped to high-level tokens with coarse-grained meanings. In the forward process, each token is independently perturbed to its higher-level ancestor with more abstract semantics according to the scheduler, while in the reverse process the model progressively predicts the next, more detailed semantics. Taken together, HDLM provides a general time-varying next semantic scale prediction process for language modeling. We derive closed-form expressions for the diffusion Evidence Lower Bound (ELBO), and show that HDLM can be implemented in a flexible manner while including the existing MDLM as a special case. We also propose practical training techniques based on the insights. Extensive text generation experiments validate the effectiveness of HDLM, which demonstrates consistently lower validation and generative perplexity than baselines.

academic

Next Semantic Scale Prediction via Hierarchical Diffusion Language Models

基本信息

论文ID: 2510.08632
标题: Next Semantic Scale Prediction via Hierarchical Diffusion Language Models
作者: Cai Zhou, Chenyu Wang, Dinghuai Zhang, Shangyuan Tong, Yifei Wang, Stephen Bates, Tommi Jaakkola
分类: cs.CL cs.LG
发表会议: NeurIPS 2025 (39th Conference on Neural Information Processing Systems)
论文链接: https://arxiv.org/abs/2510.08632

掩码扩散：所有掩码标记具有相同的掩码嵌入，缺乏丰富的语义；无法自我纠正已生成的标记
均匀扩散：同一标记在噪声阶段作为噪声但在解码时变得有意义，导致语义不一致和混乱

2. 问题的重要性

自回归语言模型虽然是当前最先进的方法，但其下一标记预测方案从根本上限制了修订先前生成标记的能力。扩散模型因其渐进去噪和细化能力而受到关注，但现有的离散扩散方法在语言建模中仍有显著局限。

3. 现有方法的局限性

MDLM和MD4：掩码标记缺乏丰富语义，无法自我纠正
均匀离散扩散：性能较差，语义不一致
GIDD：虽然统一了掩码和均匀噪声，但噪声标记仍缺乏丰富语义，自我纠正能力有限

4. 研究动机

作者提出通过引入语义层次结构来最大化扩散模型的优势，实现任意顺序生成和渐进自我细化，类似于视觉自回归模型（VAR）中的下一尺度预测。

核心贡献

提出了HDLM框架：一个通用且灵活的离散扩散语言建模框架，通过时变下一语义尺度预测实现
建立了严格的理论基础：基于连续时间马尔可夫链（CTMC）框架，推导出层次离散扩散的闭式ELBO
证明了兼容性：理论上证明MDLM是HDLM的特殊情况，展示了框架的通用性
提出了实用技术：基于理论洞察提出了改进的训练和采样技术
实现了性能提升：在文本生成实验中持续展现出比基线更低的验证和生成困惑度

词汇层次：从干净词标记x到聚类标记c再到掩码标记m的层次结构：x → c → m
映射关系：通过满射函数c = Γx将低级标记映射到高级标记，其中Γ ∈ R^{|C|×|V|}

2. 前向过程

前向过程的边际分布为：

q_t(z_t|x) = Cat(z_t; α_t x + β_{t,c} c(x) + β_{t,m} m)

其中β_{t,c} + β_{t,m} = β_t := 1 - α_t

3. CTMC框架

时间非齐次生成矩阵为：

Q_t = [α'_t/α_t I_{|V|}    -α'_t/α_t Γ^T    0]
      [0    (α'_t+β'_{t,c})/β_{t,c} I_{|C|}    -(α'_t+β'_{t,c})/β_{t,c} Ξ^T]
      [0    0    0]

4. 逆向过程

采用标准的逆向过程：

p_θ(z_s|z_t) = q_{t|s}(z_t|z_s) q_s(z_s|x_θ)/q_t(z_t|x_θ)

技术创新点

1. 语义层次结构

渐进语义：中间层次可视为部分解码的标记，提供比单一掩码标记更丰富的语义
灵活解码：粗粒度语义中的不确定性允许更大的解码灵活性

2. 闭式ELBO推导

推导出的训练损失为两个交叉熵损失的加权组合：

L(x,x_θ,t) = E_{t,z_t}[δ_{z_t,c} w_{t,c} CE(x, (x_θ ⊙ (Γ^T Γx))/(x_θ^T Γ^T Γx)) + δ_{z_t,m} w_{t,m} CE(Γx, Γx_θ)]

主要数据集：OpenWebText (OWT)，包含131B训练标记
额外数据集：LM1B（33B标记）用于补充验证
上下文长度：512标记，不使用句子打包

评价指标

验证困惑度（Valid. PPL）：在OWT验证集上的困惑度
生成困惑度（Gen. PPL）：使用GPT2-large作为参考模型评估生成样本
下游任务：ARC、BoolQ、PIQA、OpenBookQA、WinoGrande等

对比方法

自回归模型：GPT-2、Llama-110M
离散扩散模型：SEDD、MDLM、GIDD+

实现细节

模型架构：DiT架构，Small（170M参数）和Base（425M参数）
优化器：Adam（β=(0.9,0.99)），学习率5×10^{-4}
训练步数：500k步，批大小512
权重裁剪：将损失权重w_{t,m}、w_{t,c}裁剪到2.0或10.0以稳定优化

实验结果

主要结果

模型	训练标记	Valid. PPL (↓)	Gen. PPL (↓)
MDLM-small	131B	≤27.39	163.7
GIDD+-small	131B	≤25.82	170.2
HDLM-small-64	131B	≤23.36	144.2
HDLM-small-128	131B	≤23.25	148.0
HDLM-base-128	131B	≤19.22	139.9

关键发现：

HDLM-small在验证和生成困惑度上均优于其他离散扩散方法
HDLM-base达到19.22困惑度，超越或匹配自回归模型性能

消融实验

1. 聚类数量影响

最优聚类数量约为64-128（大约是词汇表大小的平方根）
n=1时恢复到MDLM性能，验证了理论分析

2. 随机扰动效果

ξ=0.9时生成困惑度降低51%（从144.2到69.76）
ξ=0.8时生成困惑度降低62%（到54.15）
证明了自我纠正能力的显著提升

3. 前向过程调度

γ值越大，单步去噪任务越困难，但实际推理性能更好
γ=3时获得最佳生成困惑度135.9

HDLM通过"下一语义尺度预测"方案有效改进了离散扩散语言建模
层次语义结构提供了比传统掩码更丰富的中间表示
随机扰动机制显著增强了模型的自我纠正能力
理论框架具有良好的通用性和可扩展性

局限性

聚类质量依赖：当前使用预定义的K-means聚类，聚类质量对性能影响较大
计算复杂度：多层次结构可能增加训练和推理的计算开销
超参数敏感性：需要仔细调整权重裁剪等超参数以稳定训练

未来方向

探索更复杂的层次结构学习方法（如DeepSets）
研究多个中间层次的实现和优化
将框架扩展到更大规模的语言模型
探索在多模态任务中的应用

深度评价

优点

理论贡献扎实：提供了完整的CTMC理论框架和严格的数学推导
方法创新性强：首次将语义层次结构引入离散扩散语言模型
实验设计充分：包含全面的消融研究和对比实验
实用价值高：提出的技术可直接应用于现有扩散模型框架

不足

规模限制：实验主要在中小规模模型上进行，大规模验证不足
聚类方法简单：当前的语义聚类方法相对基础，可能限制性能上限
生成质量评估：主要依赖困惑度指标，缺乏人工评估和多样性分析

影响力

学术贡献：为离散扩散语言建模提供了新的研究方向
实用价值：方法简单易实现，有望在实际应用中推广
可复现性：作者提供了完整的代码实现和详细的实验设置

适用场景

文本生成任务：特别适用于需要渐进细化的生成场景
可控文本生成：层次结构便于实现不同粒度的控制
文本编辑和修订：自我纠正能力使其适用于文本修改任务

参考文献

论文引用了扩散模型、语言建模和离散状态空间建模等领域的重要工作，包括D3PM、MDLM、GIDD等关键基础工作，以及GPT系列、BERT等经典语言模型。