2025-11-25T02:43:16.690246

Dynamic Topic Evolution with Temporal Decay and Attention in Large Language Models

Pan
This paper proposes a modeling framework for dynamic topic evolution based on temporal large language models. The method first uses a large language model to obtain contextual embeddings of text and then introduces a temporal decay function and an attention mechanism. These components allow the model to adjust the importance of semantic units according to time intervals and capture topic variations across different periods. The temporal representations are then mapped into a latent topic space, where a state transition matrix is applied to describe the dynamic evolution of topics. A joint optimization objective constrains both semantic modeling and temporal consistency, ensuring diversity and smoothness in topic generation. The design emphasizes the unified modeling of semantic representation and temporal evolution, which improves topic coherence and diversity while enhancing stability and interpretability over time. Experiments on real-world corpora show that the framework effectively captures the generation, expansion, and decline of topics and outperforms existing models across multiple metrics. Overall, the proposed method provides a systematic solution for understanding dynamic semantic patterns in large-scale text, enriches the research paradigm of topic modeling, and supports complex text analysis tasks in multiple domains.
academic

Динамическая эволюция тем с временным затуханием и вниманием в больших языковых моделях

Основная информация

  • ID статьи: 2510.10613
  • Название: Dynamic Topic Evolution with Temporal Decay and Attention in Large Language Models
  • Авторы: Di Wu (Университет Южной Калифорнии), Shuaidong Pan (Университет Карнеги-Меллон)
  • Классификация: cs.CL cs.AI
  • Дата публикации/конференция: Препринт 2024 года
  • Ссылка на статью: https://arxiv.org/abs/2510.10613

Аннотация

В данной работе предложена структура моделирования динамической эволюции тем на основе временных больших языковых моделей. Метод сначала использует большую языковую модель для получения контекстных встраиваний текста, затем вводит функцию временного затухания и механизм внимания, позволяя модели корректировать важность семантических единиц в зависимости от временных интервалов и фиксировать изменения тем в различные периоды. Временные представления впоследствии отображаются в пространство скрытых тем, где динамическая эволюция тем описывается матрицей переходов состояний. Совместная оптимизация одновременно ограничивает семантическое моделирование и временную согласованность, обеспечивая разнообразие и гладкость генерируемых тем. Данный подход подчеркивает унифицированное моделирование семантического представления и временной эволюции, повышая связность и разнообразие тем, одновременно улучшая временную стабильность и интерпретируемость.

Исследовательский контекст и мотивация

Определение проблемы

Данное исследование направлено на решение фундаментальных ограничений традиционных методов моделирования тем при обработке динамических текстовых данных:

  1. Проблема статических предположений: Традиционные методы, такие как LDA, основаны на статических предположениях и не могут фиксировать изменения тем во времени
  2. Отсутствие временной информации: Существующие большие языковые модели обладают мощными возможностями семантического представления, но игнорируют временное измерение
  3. Моделирование динамической эволюции: В реальности темы проходят динамические процессы возникновения, расширения, слияния или упадка

Значимость и практическая ценность

  1. Потребности в чувствительных областях: В финансах, здравоохранении, мониторинге общественного мнения понимание того, как темы эволюционируют во времени, критично для прогнозирования тенденций и поддержки принятия решений
  2. Построение систем знаний: Моделирование динамической эволюции тем является ключевым для понимания построения систем человеческих знаний
  3. Объяснение социальной динамики: Временное моделирование тем является ключевым способом объяснения логики социальной динамики в информационную эпоху

Ограничения существующих методов

  1. Традиционные модели тем: Методы, такие как LDA, основаны на частотности слов и совместном появлении, не могут отражать семантические траектории
  2. Статические языковые модели: BERT, DeBERTa и другие лишены механизмов временного моделирования
  3. Недостаточная временная согласованность: Существующие методы затрудняются в обеспечении гладкости переходов между темами

Основные вклады

  1. Предложена структура больших языковых моделей, чувствительная к времени: Впервые интегрированы функция временного затухания и механизм внимания в большую языковую модель для динамического моделирования тем
  2. Разработана унифицированная архитектура семантико-временного моделирования: Динамическое моделирование эволюции в пространстве тем реализовано через матрицу переходов состояний
  3. Построена совместная цель оптимизации: Одновременно ограничивает обучение семантического представления и моделирование временных рядов, обеспечивая разнообразие и временную гладкость тем
  4. Достигнуты значительные улучшения по множеству показателей: По сравнению с существующими методами показаны явные улучшения в перплексии, разнообразии, связности тем и стабильности

Подробное описание метода

Определение задачи

Дана последовательность временных текстов X={x1,x2,...,xT}X = \{x_1, x_2, ..., x_T\}, цель состоит в обучении модели, которая может:

  1. Фиксировать кодировщик семантического представления текста
  2. Моделировать механизм переходов динамической эволюции тем во времени
  3. Генерировать распределения тем, временно согласованные и семантически связные

Архитектура модели

1. Слой семантического встраивания

Входной текст отображается в контекстно-чувствительные векторы встраивания через кодирующий слой большой языковой модели:

H=f(X)={h1,h2,...,hT},htRdH = f(X) = \{h_1, h_2, ..., h_T\}, h_t \in \mathbb{R}^d

где ff обозначает параметризованную языковую модель, hth_t — семантический вектор tt-го слова.

2. Механизм внимания, чувствительный ко времени

Для фиксирования динамической эволюции временного измерения вводится коэффициент временного затухания:

αij=exp(g(tij)hiThjd)k=1Texp(g(tik)hiThkd)\alpha_{ij} = \frac{\exp(g(t_{ij}) \cdot \frac{h_i^T h_j}{d})}{\sum_{k=1}^T \exp(g(t_{ik}) \cdot \frac{h_i^T h_k}{d})}

где tijt_{ij} обозначает временной интервал между двумя текстовыми единицами, g()g(\cdot) — функция временного взвешивания, разработанная в виде экспоненциального затухания g(t)=eλtg(t) = e^{-\lambda t}.

3. Моделирование распределения тем

Временно-чувствительное семантическое представление отображается в пространство скрытых тем:

θi=softmax(Whi+b),θiRK\theta_i = \text{softmax}(W h_i + b), \theta_i \in \mathbb{R}^K

где WW и bb — обучаемые параметры, θi\theta_i — вектор распределения ii-го документа по KK темам.

4. Матрица переходов состояний

Матрица переходов состояний используется для моделирования динамических изменений тем во времени:

At+1=ΦAt+ϵt,ΦRK×KA_{t+1} = \Phi A_t + \epsilon_t, \Phi \in \mathbb{R}^{K \times K}

где Φ\Phi — матрица переходов тем, ϵt\epsilon_t — гауссовский шумовой член, описывающий неопределенность эволюции.

Технические инновации

1. Унифицированное моделирование временных и семантических аспектов

  • Инновационность: Впервые механизм временного затухания непосредственно интегрирован в расчет внимания большой языковой модели
  • Обоснованность: Функция экспоненциального затухания выделяет роль недавней семантики, одновременно ослабляя влияние удаленной семантики

2. Структура совместной оптимизации

Разработана совместная целевая функция оптимизации:

L=i=1Nk=1Kyiklog(θik)+λt=1T1At+1ΦAt22L = \sum_{i=1}^N \sum_{k=1}^K y_{ik} \log(\theta_{ik}) + \lambda \sum_{t=1}^{T-1} ||A_{t+1} - \Phi A_t||_2^2

  • Первый член: Потеря логарифмического правдоподобия на основе распределения тем
  • Второй член: Ограничение временной согласованности
  • Коэффициент веса λ\lambda: Балансирует семантическое представление и моделирование динамической эволюции

Экспериментальная установка

Наборы данных

Используется набор данных 20 Newsgroups:

  • Масштаб: Содержит статьи из 20 различных групп новостей
  • Характеристики: Охватывает множество областей тем, включая общество, науку, технологию, развлечения
  • Временные характеристики: После очистки и группировки сохранены межобластные различия и временные характеристики изменений

Показатели оценки

  1. Перплексия (Perplexity): Измеряет предсказательную способность модели
  2. Разнообразие (Diversity): Оценивает степень разнообразия тем
  3. Связность тем (Topic Coherence): Измеряет семантическую согласованность слов в теме
  4. Стабильность тем (Topic Stability): Оценивает гладкость эволюции тем во времени

Методы сравнения

  • LDA: Традиционное распределение Дирихле с латентными переменными
  • BERT: Моделирование тем на основе BERT
  • DeBERTa: Улучшенный вариант BERT
  • Topic Audiolization: Обнаружение тем на основе аудиализации
  • T3: Метод временного моделирования тем

Результаты экспериментов

Основные результаты

МодельПерплексияРазнообразиеСвязность темСтабильность тем
LDA950.30.620.410.48
BERT730.50.680.460.55
DeBERTa702.70.710.500.60
Topic Audiolization680.40.710.500.60
T3655.80.730.520.62
Предложенный метод598.20.780.570.69

Ключевые находки:

  1. Предложенный метод достигает лучшей производительности по всем показателям
  2. Перплексия снижена на 8,8% по сравнению с лучшим методом-базовым
  3. Стабильность тем значительно улучшена, повышена на 11,3% по сравнению с методом T3

Абляционные исследования

1. Анализ чувствительности размерности скрытого слоя

Результаты экспериментов показывают:

  • 128-768 измерений: Связность и разнообразие тем улучшаются с увеличением размерности
  • 768 измерений: Достигается оптимальная точка баланса производительности
  • 1024 измерения: Производительность немного снижается, указывая на то, что чрезмерно высокая размерность вводит шум

2. Анализ влияния временной длины

  • Длина последовательности 200: Перплексия достигает минимального значения
  • Средняя длина: Разнообразие достигает пикового значения
  • Чрезмерно длинные последовательности: Могут вводить избыточную информацию, влияя на эффективность моделирования

Экспериментальные находки

  1. Эффективность временного механизма: Введение временного затухания значительно повышает стабильность тем
  2. Важность выбора размерности: Надлежащая размерность скрытого слоя критична для балансирования емкости модели и эффективности
  3. Оптимизация длины последовательности: Существует оптимальное временное окно; слишком короткие или слишком длинные последовательности влияют на производительность

Связанные работы

Основные направления исследований

  1. Направляемые структурированные пути: Повышение логической связности генерации текста
  2. Механизмы динамической маршрутизации: Содействие адаптации знаний в больших языковых моделях
  3. Интеграция графов знаний: Улучшение способностей структурированного рассуждения
  4. Параметрически эффективная адаптация: Реализация гибких обновлений модели через адаптеры

Преимущества данной работы

По сравнению с существующими работами, данная статья впервые реализует:

  • Унифицированное моделирование семантического представления и временной эволюции
  • Явный механизм временного затухания
  • Сквозную структуру динамической эволюции тем

Заключение и обсуждение

Основные выводы

  1. Предложенная временно-чувствительная структура эффективно решает статические ограничения традиционного моделирования тем
  2. Комбинация временного затухания и механизма внимания значительно повышает способность моделирования эволюции тем
  3. Стратегия совместной оптимизации обеспечивает баланс между качеством семантики и временной согласованностью

Ограничения

  1. Вычислительная сложность: Механизм временного внимания увеличивает вычислительные затраты
  2. Чувствительность параметров: Параметр временного затухания λ требует настройки для различных наборов данных
  3. Долгосрочные зависимости: Способность моделирования для чрезвычайно длинных временных рядов все еще ограничена

Будущие направления

  1. Многомерное временное моделирование: Интеграция внешних событий и причинных структур
  2. Расширение на многоязычные системы: Тестирование адаптируемости на многоязычных и кроссдоменных корпусах
  3. Мультимодальная интеграция: Расширение на более сложные информационные среды

Глубокая оценка

Преимущества

  1. Высокая методологическая инновационность: Впервые временное затухание непосредственно интегрировано в механизм внимания большой языковой модели
  2. Полный экспериментальный дизайн: Включает достаточные сравнительные эксперименты и абляционные исследования
  3. Убедительные результаты: Достигнуты значительные и последовательные улучшения по множеству показателей
  4. Высокая практическая ценность: Имеет потенциал реального применения в финансах, здравоохранении, мониторинге общественного мнения и других областях

Недостатки

  1. Ограничения набора данных: Проверка проведена только на 20 Newsgroups, отсутствует оценка на более крупных и разнообразных наборах данных
  2. Недостаточный теоретический анализ: Отсутствует теоретический анализ выбора функции временного затухания
  3. Отсутствие обсуждения вычислительной эффективности: Не предоставлен подробный анализ вычислительной сложности и сравнение эффективности
  4. Недостаточное руководство по настройке параметров: Отсутствует систематическое руководство по выбору ключевых гиперпараметров

Влияние

  1. Академический вклад: Предоставляет новую исследовательскую парадигму для динамического моделирования тем
  2. Практическая ценность: Может быть непосредственно применена к анализу текста в реальном времени и прогнозированию тенденций
  3. Воспроизводимость: Метод описан четко, но отсутствует информация об открытом исходном коде

Применимые сценарии

  1. Анализ новостных медиа: Отслеживание эволюционных траекторий горячих тем
  2. Интеллектуальный анализ академической литературы: Обнаружение тенденций развития исследовательских областей
  3. Мониторинг социальных сетей: Мониторинг изменений общественного мнения в реальном времени
  4. Анализ деловой разведки: Анализ изменений рыночных тенденций и точек внимания потребителей

Библиография

Статья цитирует 26 связанных работ, охватывающих важные работы в нескольких областях исследований, включая традиционное моделирование тем, большие языковые модели и временное моделирование, обеспечивая прочную теоретическую основу для технического подхода данной работы.


Общая оценка: Это статья с важным вкладом в область динамического моделирования тем, которая инновационно интегрирует временные механизмы в большие языковые модели, эффективно решая статические ограничения традиционных методов. Хотя есть место для улучшения в масштабе экспериментов и теоретическом анализе, ее технологические инновации и практическая ценность делают ее важным прогрессом в этой области.