2025-11-18T09:46:13.148309

DiffETM: Diffusion Process Enhanced Embedded Topic Model

Shao, Liu, Song
The embedded topic model (ETM) is a widely used approach that assumes the sampled document-topic distribution conforms to the logistic normal distribution for easier optimization. However, this assumption oversimplifies the real document-topic distribution, limiting the model's performance. In response, we propose a novel method that introduces the diffusion process into the sampling process of document-topic distribution to overcome this limitation and maintain an easy optimization process. We validate our method through extensive experiments on two mainstream datasets, proving its effectiveness in improving topic modeling performance.
academic

DiffETM: Модель встроенных тем, улучшенная процессом диффузии

Основная информация

  • ID статьи: 2501.00862
  • Название: DiffETM: Diffusion Process Enhanced Embedded Topic Model
  • Авторы: Wei Shao, Mingyang Liu, Linqi Song (City University of Hong Kong)
  • Классификация: cs.CL cs.AI cs.IR cs.LG
  • Дата публикации: 1 января 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2501.00862

Аннотация

Модель встроенных тем (ETM) — это широко используемый метод, который предполагает, что выборочное распределение документ-тема соответствует логистико-нормальному распределению для удобства оптимизации. Однако это предположение чрезмерно упрощает реальное распределение документ-тема, что ограничивает производительность модели. Для решения этой проблемы авторы предлагают новый метод, который вводит процесс диффузии в процесс выборки распределения документ-тема, чтобы преодолеть это ограничение и сохранить простой процесс оптимизации. Обширные эксперименты на двух основных наборах данных подтверждают эффективность метода в повышении производительности моделирования тем.

Исследовательский контекст и мотивация

Определение проблемы

Модель встроенных тем (ETM), основанная на архитектуре вариационного автокодировщика, в последние годы привлекла широкое внимание. Однако ETM сталкивается с ключевой проблемой: она предполагает, что распределение тем документа соответствует логистико-нормальному распределению и использует простую и эффективную вариационную потерю для обучения.

Основные проблемы

  1. Чрезмерно строгое предположение о распределении: предположение ETM о логистико-нормальном распределении документ-тема чрезмерно упрощено и не может захватить сложность реального распределения документ-тема
  2. Ограничения производительности: это строгое ограничение затрудняет достижение ETM более высокой производительности в задачах моделирования тем
  3. Баланс между оптимизацией и выразительной способностью: необходимо повысить выразительную способность модели, сохраняя при этом простоту оптимизации

Исследовательская мотивация

Статья демонстрирует на рисунке 1 изменение потери KL классической модели встроенных тем на наборе данных 20NewsGroup и обнаруживает, что во время обучения, когда выборочное распределение документ-тема пытается преодолеть ограничение соответствия логистико-нормальному распределению, достигается лучшая производительность моделирования тем. Это указывает на то, что существующие предположения действительно ограничивают возможности модели.

Основной вклад

  1. Первое введение процесса диффузии в модель встроенных тем: предложена DiffETM, первая работа, которая интегрирует процесс диффузии в модель встроенных тем для повышения способности представления распределения документ-тема
  2. Инновационная стратегия улучшения представления: прямая выборка скрытого представления из представления документа, интеграция информации документа в скрытое представление, повышение способности моделирования распределения документ-тема
  3. Сохранение простоты оптимизации: путем объединения прямого процесса модели диффузии одновременно повышается способность представления и сохраняется применимость исходной целевой функции
  4. Значительное повышение производительности: на двух широко используемых наборах данных достигнуто значительное улучшение по трем показателям: согласованность тем, разнообразие тем и перплексия

Подробное описание метода

Определение задачи

Дан набор документов, содержащий N документов, каждый документ представлен моделью мешка слов как Xi ∈ R^V, где V — количество уникальных слов. Существует набор K латентных тем Z = {z1, z2, ..., zK}, каждый документ Xi имеет распределение θi ∈ R^(1×K) над набором тем (распределение документ-тема), и каждая тема zi также имеет распределение βi ∈ R^(1×V) над словарем.

Цель — максимизировать правдоподобие документа:

L = ∑(i=1 to N) log p(Xi)
p(Xi) = ∏(j=1 to V) (θi × β)^Xij

Архитектура модели

DiffETM содержит три основных модуля:

1. Модуль диффузии (Diffusion Module)

  • Использует прямую нейронную сеть для создания улучшенного представления документа: X0 = NN(X)
  • Применяет линейный планировщик шума, постепенно добавляя шум через процесс диффузии:
    q(XT|X0) = N(XT; √αT X0, (1-αT)I)
    
    где αT = ∏(s=1 to T) αs, αs = 1-βs

2. Модуль вычисления распределения документ-тема

Использует скрытое представление ε, полученное из процесса диффузии, для создания распределения документ-тема через следующие шаги:

μ = NN(X; vμ)
σ = NN(X; vσ)  
z = ε ⊙ σ + μ
θ = softmax(z)

3. Модуль вычисления распределения тема-слово

Применяет стандартный метод модели встроенных тем:

β = α × ρ^T

где α ∈ R^(K×E) — матрица встраивания тем, ρ ∈ R^(V×E) — матрица встраивания слов.

Технические инновации

  1. Скрытое представление, улучшенное диффузией: в отличие от ETM, которая выполняет прямую выборку из стандартного нормального распределения, DiffETM интегрирует информацию документа в скрытое представление через процесс диффузии
  2. Постепенное добавление шума: через T-шаговый процесс диффузии постепенно преобразует представление документа в представление, близкое к нормальному распределению, сохраняя информацию документа и удовлетворяя требованиям оптимизации
  3. Комбинация двойных преимуществ: одновременно повышает способность моделирования распределения документ-тема и сохраняет применимость исходной вариационной целевой функции

Стратегия обучения

Модель обучается с использованием двух членов потерь:

  1. Потеря реконструкции:
    L(X,X') = X log X'
    
  2. Потеря дивергенции Кульбака-Лейблера:
    L_KLD = KL(z||N(0,1))
    
  3. Общая функция потерь:
    L = L(X,X') + λ * L_KLD
    

Экспериментальная установка

Наборы данных

Эксперименты проводились на двух основных наборах данных:

Набор данныхРазделКоличество документовРазмер словаря
20NewsGroupОбучение/Валидация/Тест10132/1126/74871994
NYT-10000Обучение/Валидация/Тест254616/14978/299341483
NYT-5000Обучение/Валидация/Тест254666/14982/299472889
NYT-3000Обучение/Валидация/Тест254671/14982/299524324

Метрики оценки

  • Согласованность тем (Topic Coherence): измеряет семантическую релевантность слов внутри темы
  • Разнообразие тем (Topic Diversity): измеряет различие между разными темами
  • Качество тем (Topic Quality): произведение согласованности тем и разнообразия тем
  • Перплексия (Perplexity): измеряет способность модели предсказывать тестовые данные

Методы сравнения

  • Классические нейронные модели тем: NTM, NTMR
  • Модели встроенных тем: ETM, ERNTM
  • Последние нейронные модели тем: DeTiME, Meta-CETM

Детали реализации

  • Размерность встраивания слов и тем: 300
  • Количество шагов диффузии T: 100
  • β0 = 0, βT = 0.02
  • Размер пакета: 1000 для 20NewsGroup, 512 для NewYorkTimes
  • Параметр баланса λ = 1
  • Скорость обучения настраивается в зависимости от набора данных и количества тем

Результаты экспериментов

Основные результаты

Результаты на наборе данных 20NewsGroup

При различных настройках количества тем DiffETM превосходит все методы базовой линии по всем показателям:

МетодK=50K=100K=200
ETM0.1865/0.4864/0.0907/686.00.1821/0.3552/0.0647/660.00.1826/0.2326/0.0425/681.0
DiffETM0.2003/0.7504/0.1503/547.10.1938/0.5940/0.1151/470.70.1927/0.2752/0.0530/596.6

По сравнению с ETM, при K=100 качество тем улучшилось на 77,89%.

Результаты на наборе данных NewYorkTimes

При различных настройках размера словаря DiffETM также достигла лучшего качества тем и перплексии:

Набор данныхETMDiffETMУлучшение
NYT-100000.1885/0.6224/0.1173/642.10.1906/0.7416/0.1413/593.7+20.5%
NYT-50000.2003/0.6416/0.1285/1064.70.2145/0.7944/0.1704/996.2+32.6%
NYT-30000.2083/0.6704/0.1397/1372.70.2240/0.7704/0.1725/1304.6+23.5%

Абляционные эксперименты

Сравнение варианта без процесса диффузии (-Diffusion) с полной моделью:

МетодK=50K=100K=200
DiffETM0.2003/0.7504/0.1503/547.10.1938/0.5940/0.1151/470.70.1927/0.2752/0.0530/596.6
-Diffusion0.1945/0.7245/0.1409/788.40.1891/0.5266/0.0996/765.30.1875/0.2546/0.0477/791.7

Результаты показывают, что процесс диффузии оказывает важное влияние на производительность модели, особенно на показатель перплексии.

Анализ гиперпараметров

Анализ влияния количества шагов диффузии T на производительность модели:

TСогласованностьРазнообразиеКачествоПерплексия
00.19450.72450.1409788.4
500.19920.75210.1498568.2
1000.20030.75040.1503547.1
2000.19590.68670.1345542.6

При T=100 достигается оптимальный баланс.

Связанные работы

Развитие моделирования тем

  1. Традиционные методы: методы на основе вероятностных графических моделей, такие как LDA
  2. Нейронные модели тем: NTM, NTMR и другие методы на основе вариационного автокодировщика
  3. Модели встроенных тем: ETM и её варианты, которые вводят встраивание слов и встраивание тем в моделирование тем

Применение моделей диффузии

В последние годы модели диффузии достигли значительных успехов в области генеративного моделирования, однако их применение в области моделирования тем остаётся ограниченным. Данная статья является первой работой, которая вводит процесс диффузии в модель встроенных тем.

Преимущества данной работы

По сравнению с существующими работами, данная статья инновационно объединяет процесс диффузии и моделирование тем, сохраняя при этом простоту оптимизации и значительно повышая выразительную способность модели.

Заключение и обсуждение

Основные выводы

  1. Проверка эффективности: DiffETM значительно превосходит существующие методы на нескольких наборах данных и при различных настройках
  2. Важность процесса диффузии: абляционные эксперименты доказывают, что процесс диффузии критически важен для повышения производительности модели
  3. Баланс оптимизации и выразительности: успешно решена проблема противоречия между повышением выразительной способности и сохранением простоты оптимизации

Ограничения

  1. Вычислительная сложность: введение процесса диффузии увеличивает вычислительные затраты
  2. Чувствительность гиперпараметров: количество шагов диффузии T требует тщательной настройки для достижения оптимальной производительности
  3. Недостаток теоретического анализа: отсутствует глубокий теоретический анализ того, почему процесс диффузии может улучшить моделирование тем

Направления будущих исследований

  1. Теоретический анализ: углубленное исследование теоретического механизма улучшения моделирования тем процессом диффузии
  2. Оптимизация эффективности: изучение более эффективных способов реализации процесса диффузии
  3. Расширение применения: распространение данного метода на другие задачи текстового моделирования

Глубокая оценка

Преимущества

  1. Высокая инновационность: первое введение процесса диффузии в модель встроенных тем, новаторский подход
  2. Полнота экспериментов: проведены комплексные экспериментальные проверки на нескольких наборах данных и при различных настройках
  3. Значительное повышение производительности: достигнуто значительное улучшение по сравнению с существующими методами
  4. Разумный дизайн: искусно сбалансирована повышение выразительной способности и сохранение простоты оптимизации

Недостатки

  1. Слабая теоретическая база: отсутствует теоретическое объяснение и анализ эффективности метода
  2. Вычислительная эффективность: введение процесса диффузии неизбежно увеличивает вычислительную сложность, но статья не проводит подробный анализ
  3. Недостаточный анализ применимости: недостаточно полно обсуждены область применения и ограничения метода
  4. Неполное сравнение: отсутствует сравнение с большим количеством последних методов

Влияние

  1. Академический вклад: вводит новый технический путь в область моделирования тем
  2. Практическая ценность: значительное повышение производительности обеспечивает хорошие перспективы применения
  3. Вдохновляющее значение: предоставляет новые идеи для применения моделей диффузии в текстовом моделировании

Сценарии применения

  1. Анализ документов: подходит для задач анализа документов, требующих высокого качества моделирования тем
  2. Рекомендация контента: может быть применена в системах рекомендации контента на основе тем
  3. Интеллектуальный анализ текста: подходит для сценариев, требующих обнаружения скрытой структуры тем в наборах документов

Библиография

Статья цитирует 18 связанных работ, охватывающих важные работы в области моделирования тем, вариационных автокодировщиков, моделей диффузии и других смежных областей, обеспечивая прочную теоретическую базу для исследования.


Общая оценка: Это статья с высокой степенью инновационности, которая впервые вводит процесс диффузии в модель встроенных тем и достигает значительного повышения производительности. Хотя существует место для улучшения в теоретическом анализе и вычислительной эффективности, её новаторский подход и хорошие экспериментальные результаты придают ей важную академическую ценность и хорошие перспективы применения.