2025-11-18T09:46:13.148309

DiffETM: Diffusion Process Enhanced Embedded Topic Model

Shao, Liu, Song

The embedded topic model (ETM) is a widely used approach that assumes the sampled document-topic distribution conforms to the logistic normal distribution for easier optimization. However, this assumption oversimplifies the real document-topic distribution, limiting the model's performance. In response, we propose a novel method that introduces the diffusion process into the sampling process of document-topic distribution to overcome this limitation and maintain an easy optimization process. We validate our method through extensive experiments on two mainstream datasets, proving its effectiveness in improving topic modeling performance.

academic

DiffETM: 拡散プロセス強化埋め込みトピックモデル

基本情報

論文ID: 2501.00862
タイトル: DiffETM: Diffusion Process Enhanced Embedded Topic Model
著者: Wei Shao, Mingyang Liu, Linqi Song (香港城市大学)
分類: cs.CL cs.AI cs.IR cs.LG
発表日: 2025年1月1日 (arXivプレプリント)
論文リンク: https://arxiv.org/abs/2501.00862

要約

埋め込みトピックモデル(ETM)は広く使用されている手法であり、サンプリングされた文書-トピック分布がロジスティック正規分布に従うと仮定して最適化を容易にしている。しかし、この仮定は実際の文書-トピック分布を過度に単純化し、モデルの性能を制限している。この問題に対処するため、著者らは文書-トピック分布のサンプリングプロセスに拡散プロセスを導入する新規手法を提案し、この制限を克服しながら単純な最適化プロセスを維持している。2つの主流データセットでの大規模な実験により、トピックモデリング性能向上における本手法の有効性が検証されている。

研究背景と動機

問題定義

埋め込みトピックモデル(ETM)は変分自己符号化器アーキテクチャに基づくトピックモデリング手法として、近年広く注目されている。しかし、ETMは重要な課題に直面している。すなわち、文書のトピック分布がロジスティック-正規分布に従うと仮定し、単純で効果的な変分損失を用いて訓練されている。

核心的問題

分布仮定が過度に厳格：ETMの文書-トピック分布に対するロジスティック-正規分布仮定は過度に単純化されており、実際の文書-トピック分布の複雑性を捉えることができない
性能の制限：この厳格な制約により、ETMはトピックモデリングタスクにおいてより高い性能を達成することが困難である
最適化と表現能力のバランス：最適化の容易性を保ちながらモデルの表現能力を向上させる必要がある

研究動機

論文は図1で、20NewsGroupデータセット上の古典的埋め込みトピックモデルのKL損失変化を示し、訓練プロセス中にサンプリングされた文書-トピック分布がロジスティック-正規分布の制限を超えようとするとき、より良いトピックモデリング性能が得られることを発見している。これは既存の仮定が実際にモデル能力を制限していることを示唆している。

核心的貢献

拡散プロセスを埋め込みトピックモデルに初めて導入：DiffETMを提案し、これは文書-トピック分布の表現能力を強化するために拡散プロセスを埋め込みトピックモデルに統合した初めての研究である
革新的な表現強化戦略：文書表現から直接隠れ表現をサンプリングし、文書情報を隠れ表現に融合させ、文書-トピック分布のモデリング能力を向上させている
最適化の簡便性を維持：拡散モデルの前向きプロセスと組み合わせることで、表現能力を強化しながら元の目的関数の有用性を保持している
顕著な性能向上：2つの広く使用されているデータセット上で、トピック一貫性、トピック多様性、困惑度の3つの指標すべてで顕著な改善を達成している

方法の詳細

タスク定義

N個の文書を含む文書集合が与えられ、各文書は語袋モデルとしてXi ∈ R^Vで表現される。ここでVは一意の語彙数である。K個の潜在トピックの集合Z = {z1, z2, ..., zK}が存在し、各文書Xiはトピック集合上の分布θi ∈ R^(1×K)（文書-トピック分布）を持ち、各トピックziも語彙上の分布βi ∈ R^(1×V)を持つ。

目標は文書の尤度を最大化することである：

L = ∑(i=1 to N) log p(Xi)
p(Xi) = ∏(j=1 to V) (θi × β)^Xij

モデルアーキテクチャ

DiffETMは3つの核心モジュールを含む：

1. 拡散モジュール（Diffusion Module）

フィードフォワードニューラルネットワークを使用して文書の強化表現を生成：X0 = NN(X)
線形ノイズスケジューラを採用し、拡散プロセスを通じて段階的にノイズを追加：
```
q(XT|X0) = N(XT; √αT X0, (1-αT)I)
```
ここでαT = ∏(s=1 to T) αs, αs = 1-βs

2. 文書-トピック分布計算モジュール

拡散プロセスから生成された隠れ表現εを利用し、以下のステップを通じて文書-トピック分布を生成：

μ = NN(X; vμ)
σ = NN(X; vσ)  
z = ε ⊙ σ + μ
θ = softmax(z)

3. トピック-語分布計算モジュール

埋め込みトピックモデルの標準的手法を採用：

β = α × ρ^T

ここでα ∈ R^(K×E)はトピック埋め込み行列、ρ ∈ R^(V×E)は語埋め込み行列である。

技術的革新点

拡散強化隠れ表現：ETMが標準正規分布から直接サンプリングするのとは異なり、DiffETMは拡散プロセスを通じて文書情報を隠れ表現に融合させている
段階的ノイズ追加：T段階の拡散プロセスを通じて、文書表現を段階的に正規分布に近い表現に変換し、文書情報を保持しながら最適化要件を満たしている
二重の利点の結合：文書-トピック分布のモデリング能力を強化しながら、元の変分目的関数の適用性を保持している

訓練戦略

モデルは2つの損失項を通じて訓練される：

再構成損失：
```
L(X,X') = X log X'
```
KL散度損失：
```
L_KLD = KL(z||N(0,1))
```
総損失関数：
```
L = L(X,X') + λ * L_KLD
```

実験設定

データセット

実験は2つの主流データセット上で実施された：

データセット	分割	文書数	語彙表サイズ
20NewsGroup	訓練/検証/テスト	10132/1126/7487	1994
NYT-10000	訓練/検証/テスト	254616/14978/29934	1483
NYT-5000	訓練/検証/テスト	254666/14982/29947	2889
NYT-3000	訓練/検証/テスト	254671/14982/29952	4324

評価指標

トピック一貫性（Topic Coherence）：トピック内の語彙の意味的関連性を測定
トピック多様性（Topic Diversity）：異なるトピック間の差異を測定
トピック品質（Topic Quality）：トピック一貫性とトピック多様性の積
困惑度（Perplexity）：テストデータに対するモデルの予測能力を測定

比較手法

古典的神経トピックモデル：NTM, NTMR
埋め込みトピックモデル：ETM, ERNTM
最新神経トピックモデル：DeTiME, Meta-CETM

実装詳細

語埋め込みとトピック埋め込み次元：300
拡散ステップ数T：100
β0 = 0, βT = 0.02
バッチサイズ：20NewsGroupは1000、NewYorkTimesは512
バランスパラメータλ = 1
学習率はデータセットとトピック数に応じて調整

実験結果

主要結果

20NewsGroupデータセット結果

異なるトピック数設定下で、DiffETMはすべての指標でベースライン手法を上回っている：

手法	K=50	K=100	K=200
ETM	0.1865/0.4864/0.0907/686.0	0.1821/0.3552/0.0647/660.0	0.1826/0.2326/0.0425/681.0
DiffETM	0.2003/0.7504/0.1503/547.1	0.1938/0.5940/0.1151/470.7	0.1927/0.2752/0.0530/596.6

K=100の場合、ETMと比較してトピック品質が77.89%向上している。

NewYorkTimesデータセット結果

異なる語彙表サイズの設定下で、DiffETMは同様に最高のトピック品質と困惑度を達成している：

データセット	ETM	DiffETM	改善
NYT-10000	0.1885/0.6224/0.1173/642.1	0.1906/0.7416/0.1413/593.7	+20.5%
NYT-5000	0.2003/0.6416/0.1285/1064.7	0.2145/0.7944/0.1704/996.2	+32.6%
NYT-3000	0.2083/0.6704/0.1397/1372.7	0.2240/0.7704/0.1725/1304.6	+23.5%

アブレーション実験

拡散プロセスを削除した変種(-Diffusion)と完全なモデルの比較：

手法	K=50	K=100	K=200
DiffETM	0.2003/0.7504/0.1503/547.1	0.1938/0.5940/0.1151/470.7	0.1927/0.2752/0.0530/596.6
-Diffusion	0.1945/0.7245/0.1409/788.4	0.1891/0.5266/0.0996/765.3	0.1875/0.2546/0.0477/791.7