2025-11-18T09:46:13.148309

DiffETM: Diffusion Process Enhanced Embedded Topic Model

Shao, Liu, Song
The embedded topic model (ETM) is a widely used approach that assumes the sampled document-topic distribution conforms to the logistic normal distribution for easier optimization. However, this assumption oversimplifies the real document-topic distribution, limiting the model's performance. In response, we propose a novel method that introduces the diffusion process into the sampling process of document-topic distribution to overcome this limitation and maintain an easy optimization process. We validate our method through extensive experiments on two mainstream datasets, proving its effectiveness in improving topic modeling performance.
academic

DiffETM: Diffusion Process Enhanced Embedded Topic Model

基本信息

  • 论文ID: 2501.00862
  • 标题: DiffETM: Diffusion Process Enhanced Embedded Topic Model
  • 作者: Wei Shao, Mingyang Liu, Linqi Song (City University of Hong Kong)
  • 分类: cs.CL cs.AI cs.IR cs.LG
  • 发表时间: 2025年1月1日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2501.00862

摘要

嵌入式主题模型(ETM)是一种广泛使用的方法,它假设采样的文档-主题分布符合logistic正态分布以便于优化。然而,这一假设过度简化了真实的文档-主题分布,限制了模型性能。针对这一问题,作者提出了一种新颖的方法,将扩散过程引入文档-主题分布的采样过程中,以克服这一限制并保持简单的优化过程。通过在两个主流数据集上的大量实验验证了该方法在提升主题建模性能方面的有效性。

研究背景与动机

问题定义

嵌入式主题模型(ETM)作为一种基于变分自编码器架构的主题建模方法,在近年来受到了广泛关注。然而,ETM面临一个关键挑战:它假设文档的主题分布符合logistic-normal分布,并采用简单有效的变分损失进行训练。

核心问题

  1. 分布假设过于严格:ETM对文档-主题分布的logistic-normal假设过于简化,无法捕捉真实文档-主题分布的复杂性
  2. 性能限制:这种严格的约束导致ETM在主题建模任务中难以达到更高的性能
  3. 优化与表达能力的平衡:需要在保持易于优化的同时提升模型的表达能力

研究动机

论文通过图1展示了经典嵌入式主题模型在20NewsGroup数据集上的KL损失变化,发现在训练过程中,当采样的文档-主题分布试图突破符合logistic-normal分布的限制时,能够获得更好的主题建模性能,这表明现有假设确实限制了模型能力。

核心贡献

  1. 首次将扩散过程引入嵌入式主题模型:提出了DiffETM,这是首个将扩散过程集成到嵌入式主题模型中以增强文档-主题分布表示能力的工作
  2. 创新的表示增强策略:直接从文档表示中采样隐藏表示,将文档信息融入隐藏表示中,提升了对文档-主题分布的建模能力
  3. 保持优化简便性:通过结合扩散模型的前向过程,既增强了表示能力又保持了原有目标函数的可用性
  4. 显著的性能提升:在两个广泛使用的数据集上,在主题一致性、主题多样性和困惑度三个指标上都取得了显著改进

方法详解

任务定义

给定包含N个文档的文档集,每个文档用词袋模型表示为Xi ∈ R^V,其中V是唯一词汇数。存在K个潜在主题的集合Z = {z1, z2, ..., zK},每个文档Xi有一个在主题集上的分布θi ∈ R^(1×K)(文档-主题分布),每个主题zi也有一个在词汇上的分布βi ∈ R^(1×V)。

目标是最大化文档的似然:

L = ∑(i=1 to N) log p(Xi)
p(Xi) = ∏(j=1 to V) (θi × β)^Xij

模型架构

DiffETM包含三个核心模块:

1. 扩散模块(Diffusion Module)

  • 使用前馈神经网络生成文档的增强表示:X0 = NN(X)
  • 采用线性噪声调度器,通过扩散过程逐步添加噪声:
    q(XT|X0) = N(XT; √αT X0, (1-αT)I)
    
    其中αT = ∏(s=1 to T) αs, αs = 1-βs

2. 文档-主题分布计算模块

利用扩散过程产生的隐藏表示ε,通过以下步骤生成文档-主题分布:

μ = NN(X; vμ)
σ = NN(X; vσ)  
z = ε ⊙ σ + μ
θ = softmax(z)

3. 主题-词分布计算模块

采用嵌入式主题模型的标准方法:

β = α × ρ^T

其中α ∈ R^(K×E)是主题嵌入矩阵,ρ ∈ R^(V×E)是词嵌入矩阵。

技术创新点

  1. 扩散增强的隐藏表示:不同于ETM直接从标准正态分布采样,DiffETM通过扩散过程将文档信息融入隐藏表示
  2. 渐进式噪声添加:通过T步扩散过程,逐步将文档表示转换为接近正态分布的表示,既保留了文档信息又满足了优化要求
  3. 双重优势结合:既增强了对文档-主题分布的建模能力,又保持了原有变分目标函数的适用性

训练策略

模型通过两个损失项进行训练:

  1. 重构损失
    L(X,X') = X log X'
    
  2. KL散度损失
    L_KLD = KL(z||N(0,1))
    
  3. 总损失函数
    L = L(X,X') + λ * L_KLD
    

实验设置

数据集

实验在两个主流数据集上进行:

数据集分割文档数量词汇表大小
20NewsGroup训练/验证/测试10132/1126/74871994
NYT-10000训练/验证/测试254616/14978/299341483
NYT-5000训练/验证/测试254666/14982/299472889
NYT-3000训练/验证/测试254671/14982/299524324

评价指标

  • 主题一致性(Topic Coherence):衡量主题内词汇的语义相关性
  • 主题多样性(Topic Diversity):衡量不同主题间的差异性
  • 主题质量(Topic Quality):主题一致性与主题多样性的乘积
  • 困惑度(Perplexity):衡量模型对测试数据的预测能力

对比方法

  • 经典神经主题模型:NTM, NTMR
  • 嵌入式主题模型:ETM, ERNTM
  • 最新神经主题模型:DeTiME, Meta-CETM

实现细节

  • 词嵌入和主题嵌入维度:300
  • 扩散步数T:100
  • β0 = 0, βT = 0.02
  • 批次大小:20NewsGroup为1000,NewYorkTimes为512
  • 平衡参数λ = 1
  • 学习率根据数据集和主题数进行调整

实验结果

主要结果

20NewsGroup数据集结果

在不同主题数量设置下,DiffETM在所有指标上都优于基线方法:

方法K=50K=100K=200
ETM0.1865/0.4864/0.0907/686.00.1821/0.3552/0.0647/660.00.1826/0.2326/0.0425/681.0
DiffETM0.2003/0.7504/0.1503/547.10.1938/0.5940/0.1151/470.70.1927/0.2752/0.0530/596.6

相比ETM,在K=100时主题质量提升高达77.89%。

NewYorkTimes数据集结果

在不同词汇表大小的设置下,DiffETM同样取得了最佳的主题质量和困惑度:

数据集ETMDiffETM改进
NYT-100000.1885/0.6224/0.1173/642.10.1906/0.7416/0.1413/593.7+20.5%
NYT-50000.2003/0.6416/0.1285/1064.70.2145/0.7944/0.1704/996.2+32.6%
NYT-30000.2083/0.6704/0.1397/1372.70.2240/0.7704/0.1725/1304.6+23.5%

消融实验

移除扩散过程的变体(-Diffusion)与完整模型对比:

方法K=50K=100K=200
DiffETM0.2003/0.7504/0.1503/547.10.1938/0.5940/0.1151/470.70.1927/0.2752/0.0530/596.6
-Diffusion0.1945/0.7245/0.1409/788.40.1891/0.5266/0.0996/765.30.1875/0.2546/0.0477/791.7

结果表明扩散过程对模型性能,特别是困惑度指标有重要影响。

超参数分析

扩散步数T对模型性能的影响分析:

T一致性多样性质量困惑度
00.19450.72450.1409788.4
500.19920.75210.1498568.2
1000.20030.75040.1503547.1
2000.19590.68670.1345542.6

T=100时取得最佳平衡。

相关工作

主题建模发展

  1. 传统方法:LDA等基于概率图模型的方法
  2. 神经主题模型:NTM, NTMR等基于变分自编码器的方法
  3. 嵌入式主题模型:ETM及其变体,将词嵌入和主题嵌入引入主题建模

扩散模型应用

近年来扩散模型在生成建模领域取得重大进展,但在主题建模领域的应用仍然有限。本文是首个将扩散过程引入嵌入式主题模型的工作。

本文优势

相比现有工作,本文创新性地结合了扩散过程和主题建模,既保持了优化的简便性,又显著提升了模型的表达能力。

结论与讨论

主要结论

  1. 有效性验证:DiffETM在多个数据集和设置下都显著优于现有方法
  2. 扩散过程的重要性:消融实验证明扩散过程对提升模型性能至关重要
  3. 平衡优化与表达:成功解决了增强表达能力与保持优化简便性之间的矛盾

局限性

  1. 计算复杂度:引入扩散过程增加了计算开销
  2. 超参数敏感性:扩散步数T需要仔细调节以达到最佳性能
  3. 理论分析不足:缺乏对为什么扩散过程能够改进主题建模的深入理论分析

未来方向

  1. 理论分析:深入研究扩散过程改进主题建模的理论机制
  2. 效率优化:探索更高效的扩散过程实现方式
  3. 应用扩展:将该方法扩展到其他文本建模任务

深度评价

优点

  1. 创新性强:首次将扩散过程引入嵌入式主题模型,思路新颖
  2. 实验充分:在多个数据集、不同设置下进行了全面的实验验证
  3. 性能显著提升:相比现有方法取得了显著的性能改进
  4. 设计合理:巧妙地平衡了表达能力增强和优化简便性

不足

  1. 理论基础薄弱:缺乏对方法有效性的理论解释和分析
  2. 计算效率:扩散过程的引入必然增加计算复杂度,但论文未详细分析
  3. 适用性分析不足:未充分讨论方法的适用范围和限制条件
  4. 对比不够全面:缺少与更多最新方法的对比

影响力

  1. 学术贡献:为主题建模领域引入了新的技术路线
  2. 实用价值:显著的性能提升使其具有良好的应用前景
  3. 启发性:为扩散模型在文本建模中的应用提供了新思路

适用场景

  1. 文档分析:适用于需要高质量主题建模的文档分析任务
  2. 内容推荐:可应用于基于主题的内容推荐系统
  3. 文本挖掘:适合需要发现文档集合中潜在主题结构的场景

参考文献

论文引用了18篇相关文献,涵盖了主题建模、变分自编码器、扩散模型等相关领域的重要工作,为研究提供了坚实的理论基础。


总体评价:这是一篇创新性较强的论文,首次将扩散过程引入嵌入式主题模型,取得了显著的性能提升。尽管在理论分析和计算效率方面还有改进空间,但其新颖的思路和良好的实验结果使其具有重要的学术价值和应用前景。