This paper proposes a modeling framework for dynamic topic evolution based on temporal large language models. The method first uses a large language model to obtain contextual embeddings of text and then introduces a temporal decay function and an attention mechanism. These components allow the model to adjust the importance of semantic units according to time intervals and capture topic variations across different periods. The temporal representations are then mapped into a latent topic space, where a state transition matrix is applied to describe the dynamic evolution of topics. A joint optimization objective constrains both semantic modeling and temporal consistency, ensuring diversity and smoothness in topic generation. The design emphasizes the unified modeling of semantic representation and temporal evolution, which improves topic coherence and diversity while enhancing stability and interpretability over time. Experiments on real-world corpora show that the framework effectively captures the generation, expansion, and decline of topics and outperforms existing models across multiple metrics. Overall, the proposed method provides a systematic solution for understanding dynamic semantic patterns in large-scale text, enriches the research paradigm of topic modeling, and supports complex text analysis tasks in multiple domains.
Évolution Dynamique des Sujets avec Décroissance Temporelle et Attention dans les Grands Modèles de Langage
- ID de l'article: 2510.10613
- Titre: Dynamic Topic Evolution with Temporal Decay and Attention in Large Language Models
- Auteurs: Di Wu (University of Southern California), Shuaidong Pan (Carnegie Mellon University)
- Classification: cs.CL cs.AI
- Date de publication/Conférence: Prépublication 2024
- Lien de l'article: https://arxiv.org/abs/2510.10613
Cet article propose un cadre de modélisation de l'évolution dynamique des sujets basé sur des modèles de langage de grande taille sensibles au temps. La méthode utilise d'abord un grand modèle de langage pour obtenir des représentations d'embeddings contextuels du texte, puis introduit une fonction de décroissance temporelle et un mécanisme d'attention permettant au modèle d'ajuster l'importance des unités sémantiques en fonction des intervalles de temps et de capturer les changements de sujets à différentes périodes. Les représentations temporelles sont ensuite mappées dans un espace de sujets latents, où l'évolution dynamique des sujets est décrite par une matrice de transition d'état. L'objectif d'optimisation conjointe contraint simultanément la modélisation sémantique et la cohérence temporelle, assurant la diversité et la fluidité de la génération de sujets. Cette conception met l'accent sur la modélisation unifiée de la représentation sémantique et de l'évolution temporelle, améliorant la cohérence et la diversité des sujets tout en renforçant la stabilité temporelle et l'interprétabilité.
Cette recherche vise à résoudre les limitations fondamentales des méthodes traditionnelles de modélisation de sujets dans le traitement de données textuelles dynamiques:
- Problème d'hypothèse statique: Les méthodes traditionnelles comme LDA reposent sur une hypothèse statique et ne peuvent pas capturer l'évolution des sujets dans le temps
- Absence d'informations temporelles: Bien que les grands modèles de langage existants possèdent une puissante capacité de représentation sémantique, ils ignorent la dimension temporelle
- Modélisation de l'évolution dynamique: En réalité, les sujets subissent des processus dynamiques tels que l'émergence, l'expansion, la fusion ou le déclin
- Besoins dans les domaines sensibles: Dans les secteurs financier, médical et de surveillance de l'opinion publique, comprendre comment les sujets évoluent dans le temps est crucial pour la prédiction de tendances et le soutien à la décision
- Construction de systèmes de connaissances: La modélisation de l'évolution dynamique des sujets est au cœur de la compréhension de la construction du système de connaissances humain
- Explication de la dynamique sociale: La modélisation temporelle des sujets est un élément clé pour expliquer la logique de la dynamique sociale à l'ère de l'information
- Modèles de sujets traditionnels: Les méthodes comme LDA reposent sur la fréquence des mots et la co-occurrence, ne pouvant pas refléter les trajectoires sémantiques
- Modèles de langage statiques: BERT, DeBERTa et autres manquent de mécanismes de modélisation temporelle
- Cohérence temporelle insuffisante: Les méthodes existantes ont du mal à assurer la fluidité des transitions de sujets
- Proposition d'un cadre de grand modèle de langage sensible au temps: Intégration pour la première fois de fonctions de décroissance temporelle et de mécanismes d'attention dans un grand modèle de langage pour la modélisation dynamique de sujets
- Conception d'une architecture de modélisation sémantique-temporelle unifiée: Réalisation de la modélisation de l'évolution dynamique dans l'espace des sujets via une matrice de transition d'état
- Construction d'un objectif d'optimisation conjointe: Contrainte simultanée de l'apprentissage de la représentation sémantique et de la modélisation des séries temporelles, assurant la diversité des sujets et la fluidité temporelle
- Amélioration significative sur plusieurs métriques: Amélioration notable par rapport aux méthodes existantes en termes de perplexité, diversité, cohérence des sujets et stabilité
Étant donné une séquence de texte temporelle X={x1,x2,...,xT}, l'objectif est d'apprendre un modèle capable de:
- Capturer la représentation sémantique du texte par un encodeur
- Modéliser le mécanisme de transition de l'évolution dynamique des sujets dans le temps
- Générer des distributions de sujets temporellement cohérentes et sémantiquement cohérentes
Mappage du texte d'entrée en vecteurs d'embeddings sensibles au contexte via la couche d'encodage du grand modèle de langage:
H=f(X)={h1,h2,...,hT},ht∈Rd
où f représente le modèle de langage paramétrisé et ht est le vecteur sémantique du t-ième mot.
Introduction d'un facteur de décroissance temporelle pour capturer l'évolution dynamique de la dimension temporelle:
αij=∑k=1Texp(g(tik)⋅dhiThk)exp(g(tij)⋅dhiThj)
où tij représente l'intervalle de temps entre deux unités textuelles, g(⋅) est la fonction de pondération temporelle, conçue sous forme de décroissance exponentielle g(t)=e−λt.
Mappage de la représentation sémantique sensible au temps dans l'espace des sujets latents:
θi=softmax(Whi+b),θi∈RK
où W et b sont des paramètres apprenables et θi est le vecteur de distribution du i-ième document sur K sujets.
Utilisation d'une matrice de transition d'état pour modéliser le changement dynamique des sujets dans le temps:
At+1=ΦAt+ϵt,Φ∈RK×K
où Φ est la matrice de transition des sujets et ϵt est un terme de bruit gaussien décrivant l'incertitude de l'évolution.
- Caractère innovant: Intégration pour la première fois du mécanisme de décroissance temporelle directement dans le calcul d'attention du grand modèle de langage
- Rationalité: La fonction de décroissance exponentielle met en évidence l'effet de la sémantique récente tout en affaiblissant l'influence de la sémantique lointaine
Conception d'une fonction objectif d'optimisation conjointe:
L=∑i=1N∑k=1Kyiklog(θik)+λ∑t=1T−1∣∣At+1−ΦAt∣∣22
- Premier terme: Perte de vraisemblance logarithmique basée sur la distribution des sujets
- Deuxième terme: Contrainte de cohérence temporelle
- Coefficient de pondération λ: Équilibre entre la représentation sémantique et la modélisation de l'évolution dynamique
Utilisation de l'ensemble de données 20 Newsgroups:
- Échelle: Articles provenant de 20 groupes de discussion différents
- Caractéristiques: Couvre plusieurs domaines de sujets incluant la société, la science, la technologie et le divertissement
- Propriétés temporelles: Après nettoyage et regroupement, conserve les distinctions inter-domaines et les caractéristiques de changement temporel
- Perplexité (Perplexity): Mesure la capacité prédictive du modèle
- Diversité (Diversity): Évalue le degré de diversification des sujets
- Cohérence des Sujets (Topic Coherence): Mesure la cohérence sémantique du vocabulaire au sein des sujets
- Stabilité des Sujets (Topic Stability): Évalue la fluidité de l'évolution des sujets dans le temps
- LDA: Allocation Latente de Dirichlet traditionnelle
- BERT: Modélisation de sujets basée sur BERT
- DeBERTa: Variante améliorée de BERT
- Topic Audiolization: Détection de sujets basée sur l'audiovisualisation
- T3: Méthode de modélisation temporelle des sujets
| Modèle | Perplexité | Diversité | Cohérence des Sujets | Stabilité des Sujets |
|---|
| LDA | 950.3 | 0.62 | 0.41 | 0.48 |
| BERT | 730.5 | 0.68 | 0.46 | 0.55 |
| DeBERTa | 702.7 | 0.71 | 0.50 | 0.60 |
| Topic Audiolization | 680.4 | 0.71 | 0.50 | 0.60 |
| T3 | 655.8 | 0.73 | 0.52 | 0.62 |
| Méthode Proposée | 598.2 | 0.78 | 0.57 | 0.69 |
Découvertes Clés:
- La méthode proposée atteint les meilleures performances sur tous les indicateurs
- La perplexité diminue de 8,8% par rapport à la meilleure méthode de base
- L'amélioration de la stabilité des sujets est significative, avec une augmentation de 11,3% par rapport à la méthode T3
Les résultats expérimentaux montrent:
- 128-768 dimensions: La cohérence des sujets et la diversité augmentent avec la dimension
- 768 dimensions: Point d'équilibre optimal des performances
- 1024 dimensions: Légère baisse de performance, indiquant que les dimensions trop élevées introduisent du bruit
- Longueur de séquence 200: Perplexité minimale atteinte
- Longueur moyenne: Diversité maximale atteinte
- Séquences trop longues: Peuvent introduire des informations redondantes, affectant l'efficacité de la modélisation
- Efficacité du mécanisme temporel: L'introduction de la décroissance temporelle améliore significativement la stabilité des sujets
- Importance du choix de dimension: Une dimension appropriée de la couche cachée est cruciale pour équilibrer la capacité du modèle et l'efficacité
- Optimisation de la longueur de séquence: Il existe une fenêtre de temps optimale; les séquences trop courtes ou trop longues affectent les performances
- Guidage par Chemins Structurés: Amélioration de la cohérence logique de la génération de texte
- Mécanismes de Routage Dynamique: Promotion de l'adaptation des connaissances au sein des grands modèles de langage
- Intégration de Graphes de Connaissances: Renforcement des capacités de raisonnement structuré
- Adaptation Efficace en Paramètres: Mise à jour flexible du modèle via des adaptateurs
Par rapport aux travaux existants, cet article réalise pour la première fois:
- Modélisation unifiée de la représentation sémantique et de l'évolution temporelle
- Mécanisme explicite de décroissance temporelle
- Cadre d'évolution dynamique des sujets de bout en bout
- Le cadre proposé sensible au temps résout efficacement les limitations statiques de la modélisation traditionnelle des sujets
- La combinaison de la décroissance temporelle et du mécanisme d'attention améliore significativement la capacité de modélisation de l'évolution des sujets
- La stratégie d'optimisation conjointe assure l'équilibre entre la qualité sémantique et la cohérence temporelle
- Complexité Computationnelle: Le mécanisme d'attention temporelle augmente les frais de calcul
- Sensibilité aux Paramètres: Le paramètre de décroissance temporelle λ nécessite un ajustement fin pour différents ensembles de données
- Dépendances à Long Terme: La capacité de modélisation pour les séries temporelles extrêmement longues reste limitée
- Modélisation Temporelle Multidimensionnelle: Intégration d'événements externes et de structures causales
- Extension Multilingue: Test de l'adaptabilité sur des corpus multilingues et inter-domaines
- Intégration Multimodale: Extension à des environnements informationnels plus complexes
- Forte Innovativité Méthodologique: Intégration pour la première fois de la décroissance temporelle directement dans le mécanisme d'attention du grand modèle de langage
- Conception Expérimentale Complète: Comprend des expériences de comparaison suffisantes et des études d'ablation
- Résultats Convaincants: Amélioration significative et cohérente sur plusieurs indicateurs
- Valeur Applicative Élevée: Potentiel d'application pratique dans les secteurs financier, médical et de surveillance de l'opinion publique
- Limitations de l'Ensemble de Données: Validation uniquement sur 20 Newsgroups, manque d'évaluation sur des ensembles plus grands et diversifiés
- Analyse Théorique Insuffisante: Manque d'analyse théorique du choix de la fonction de décroissance temporelle
- Absence de Discussion sur l'Efficacité Computationnelle: Pas d'analyse détaillée de la complexité computationnelle et de comparaison d'efficacité
- Guidance Insuffisante pour l'Ajustement des Paramètres: Manque de guidance systématique pour le choix des hyperparamètres clés
- Contribution Académique: Fournit un nouveau paradigme de recherche pour la modélisation dynamique des sujets
- Valeur Pratique: Peut être directement appliqué à l'analyse de texte en temps réel et à la prédiction de tendances
- Reproductibilité: Description claire de la méthode, mais manque d'information sur l'open-source du code
- Analyse de Médias d'Information: Suivi de l'évolution des sujets d'actualité
- Extraction de Littérature Académique: Découverte des tendances de développement des domaines de recherche
- Surveillance des Médias Sociaux: Surveillance en temps réel des changements d'opinion publique
- Analyse d'Intelligence Commerciale: Analyse des changements de tendances de marché et des points d'intérêt des consommateurs
L'article cite 26 références connexes, couvrant plusieurs domaines de recherche importants incluant la modélisation traditionnelle des sujets, les grands modèles de langage et la modélisation temporelle, fournissant une base théorique solide pour la ligne technique de cet article.
Évaluation Générale: Cet article constitue une contribution importante dans le domaine de la modélisation dynamique des sujets. En intégrant de manière innovante les mécanismes temporels dans les grands modèles de langage, il résout efficacement les limitations statiques des méthodes traditionnelles. Bien qu'il y ait encore de la place pour l'amélioration en termes d'échelle expérimentale et d'analyse théorique, son innovation technique et sa valeur pratique en font une avancée importante dans ce domaine.