2025-11-18T09:46:13.148309

DiffETM: Diffusion Process Enhanced Embedded Topic Model

Shao, Liu, Song

The embedded topic model (ETM) is a widely used approach that assumes the sampled document-topic distribution conforms to the logistic normal distribution for easier optimization. However, this assumption oversimplifies the real document-topic distribution, limiting the model's performance. In response, we propose a novel method that introduces the diffusion process into the sampling process of document-topic distribution to overcome this limitation and maintain an easy optimization process. We validate our method through extensive experiments on two mainstream datasets, proving its effectiveness in improving topic modeling performance.

academic

DiffETM: Diffusion Process Enhanced Embedded Topic Model

基本信息

论文ID: 2501.00862
标题: DiffETM: Diffusion Process Enhanced Embedded Topic Model
作者: Wei Shao, Mingyang Liu, Linqi Song (City University of Hong Kong)
分类: cs.CL cs.AI cs.IR cs.LG
发表时间: 2025年1月1日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2501.00862

摘要

嵌入式主题模型(ETM)是一种广泛使用的方法，它假设采样的文档-主题分布符合logistic正态分布以便于优化。然而，这一假设过度简化了真实的文档-主题分布，限制了模型性能。针对这一问题，作者提出了一种新颖的方法，将扩散过程引入文档-主题分布的采样过程中，以克服这一限制并保持简单的优化过程。通过在两个主流数据集上的大量实验验证了该方法在提升主题建模性能方面的有效性。

研究背景与动机

问题定义

嵌入式主题模型(ETM)作为一种基于变分自编码器架构的主题建模方法，在近年来受到了广泛关注。然而，ETM面临一个关键挑战：它假设文档的主题分布符合logistic-normal分布，并采用简单有效的变分损失进行训练。

核心问题

分布假设过于严格：ETM对文档-主题分布的logistic-normal假设过于简化，无法捕捉真实文档-主题分布的复杂性
性能限制：这种严格的约束导致ETM在主题建模任务中难以达到更高的性能
优化与表达能力的平衡：需要在保持易于优化的同时提升模型的表达能力

研究动机

论文通过图1展示了经典嵌入式主题模型在20NewsGroup数据集上的KL损失变化，发现在训练过程中，当采样的文档-主题分布试图突破符合logistic-normal分布的限制时，能够获得更好的主题建模性能，这表明现有假设确实限制了模型能力。

核心贡献

首次将扩散过程引入嵌入式主题模型：提出了DiffETM，这是首个将扩散过程集成到嵌入式主题模型中以增强文档-主题分布表示能力的工作
创新的表示增强策略：直接从文档表示中采样隐藏表示，将文档信息融入隐藏表示中，提升了对文档-主题分布的建模能力
保持优化简便性：通过结合扩散模型的前向过程，既增强了表示能力又保持了原有目标函数的可用性
显著的性能提升：在两个广泛使用的数据集上，在主题一致性、主题多样性和困惑度三个指标上都取得了显著改进

方法详解

任务定义

给定包含N个文档的文档集，每个文档用词袋模型表示为Xi ∈ R^V，其中V是唯一词汇数。存在K个潜在主题的集合Z = {z1, z2, ..., zK}，每个文档Xi有一个在主题集上的分布θi ∈ R^(1×K)（文档-主题分布），每个主题zi也有一个在词汇上的分布βi ∈ R^(1×V)。

目标是最大化文档的似然：

L = ∑(i=1 to N) log p(Xi)
p(Xi) = ∏(j=1 to V) (θi × β)^Xij

模型架构

DiffETM包含三个核心模块：

1. 扩散模块（Diffusion Module）

使用前馈神经网络生成文档的增强表示：X0 = NN(X)
采用线性噪声调度器，通过扩散过程逐步添加噪声：
```
q(XT|X0) = N(XT; √αT X0, (1-αT)I)
```
其中αT = ∏(s=1 to T) αs, αs = 1-βs

2. 文档-主题分布计算模块

利用扩散过程产生的隐藏表示ε，通过以下步骤生成文档-主题分布：

μ = NN(X; vμ)
σ = NN(X; vσ)  
z = ε ⊙ σ + μ
θ = softmax(z)

3. 主题-词分布计算模块

采用嵌入式主题模型的标准方法：

β = α × ρ^T

其中α ∈ R^(K×E)是主题嵌入矩阵，ρ ∈ R^(V×E)是词嵌入矩阵。

技术创新点

扩散增强的隐藏表示：不同于ETM直接从标准正态分布采样，DiffETM通过扩散过程将文档信息融入隐藏表示
渐进式噪声添加：通过T步扩散过程，逐步将文档表示转换为接近正态分布的表示，既保留了文档信息又满足了优化要求
双重优势结合：既增强了对文档-主题分布的建模能力，又保持了原有变分目标函数的适用性

训练策略

模型通过两个损失项进行训练：

重构损失：
```
L(X,X') = X log X'
```
KL散度损失：
```
L_KLD = KL(z||N(0,1))
```
总损失函数：
```
L = L(X,X') + λ * L_KLD
```

实验设置

数据集

实验在两个主流数据集上进行：

数据集	分割	文档数量	词汇表大小
20NewsGroup	训练/验证/测试	10132/1126/7487	1994
NYT-10000	训练/验证/测试	254616/14978/29934	1483
NYT-5000	训练/验证/测试	254666/14982/29947	2889
NYT-3000	训练/验证/测试	254671/14982/29952	4324

评价指标

主题一致性（Topic Coherence）：衡量主题内词汇的语义相关性
主题多样性（Topic Diversity）：衡量不同主题间的差异性
主题质量（Topic Quality）：主题一致性与主题多样性的乘积
困惑度（Perplexity）：衡量模型对测试数据的预测能力

对比方法

经典神经主题模型：NTM, NTMR
嵌入式主题模型：ETM, ERNTM
最新神经主题模型：DeTiME, Meta-CETM

实现细节

词嵌入和主题嵌入维度：300
扩散步数T：100
β0 = 0, βT = 0.02
批次大小：20NewsGroup为1000，NewYorkTimes为512
平衡参数λ = 1
学习率根据数据集和主题数进行调整

实验结果

主要结果

20NewsGroup数据集结果

在不同主题数量设置下，DiffETM在所有指标上都优于基线方法：

方法	K=50	K=100	K=200
ETM	0.1865/0.4864/0.0907/686.0	0.1821/0.3552/0.0647/660.0	0.1826/0.2326/0.0425/681.0
DiffETM	0.2003/0.7504/0.1503/547.1	0.1938/0.5940/0.1151/470.7	0.1927/0.2752/0.0530/596.6

相比ETM，在K=100时主题质量提升高达77.89%。

NewYorkTimes数据集结果

在不同词汇表大小的设置下，DiffETM同样取得了最佳的主题质量和困惑度：

数据集	ETM	DiffETM	改进
NYT-10000	0.1885/0.6224/0.1173/642.1	0.1906/0.7416/0.1413/593.7	+20.5%
NYT-5000	0.2003/0.6416/0.1285/1064.7	0.2145/0.7944/0.1704/996.2	+32.6%
NYT-3000	0.2083/0.6704/0.1397/1372.7	0.2240/0.7704/0.1725/1304.6	+23.5%

消融实验

移除扩散过程的变体(-Diffusion)与完整模型对比：

方法	K=50	K=100	K=200
DiffETM	0.2003/0.7504/0.1503/547.1	0.1938/0.5940/0.1151/470.7	0.1927/0.2752/0.0530/596.6
-Diffusion	0.1945/0.7245/0.1409/788.4	0.1891/0.5266/0.0996/765.3	0.1875/0.2546/0.0477/791.7