2025-11-25T02:43:16.690246

Dynamic Topic Evolution with Temporal Decay and Attention in Large Language Models

Pan

This paper proposes a modeling framework for dynamic topic evolution based on temporal large language models. The method first uses a large language model to obtain contextual embeddings of text and then introduces a temporal decay function and an attention mechanism. These components allow the model to adjust the importance of semantic units according to time intervals and capture topic variations across different periods. The temporal representations are then mapped into a latent topic space, where a state transition matrix is applied to describe the dynamic evolution of topics. A joint optimization objective constrains both semantic modeling and temporal consistency, ensuring diversity and smoothness in topic generation. The design emphasizes the unified modeling of semantic representation and temporal evolution, which improves topic coherence and diversity while enhancing stability and interpretability over time. Experiments on real-world corpora show that the framework effectively captures the generation, expansion, and decline of topics and outperforms existing models across multiple metrics. Overall, the proposed method provides a systematic solution for understanding dynamic semantic patterns in large-scale text, enriches the research paradigm of topic modeling, and supports complex text analysis tasks in multiple domains.

academic

बड़े भाषा मॉडल में अस्थायी क्षय और ध्यान के साथ गतिशील विषय विकास

बुनियादी जानकारी

पेपर ID: 2510.10613
शीर्षक: Dynamic Topic Evolution with Temporal Decay and Attention in Large Language Models
लेखक: Di Wu (University of Southern California), Shuaidong Pan (Carnegie Mellon University)
वर्गीकरण: cs.CL cs.AI
प्रकाशन समय/सम्मेलन: 2024 प्रीप्रिंट
पेपर लिंक: https://arxiv.org/abs/2510.10613

सारांश

यह पेपर अस्थायी बड़े भाषा मॉडल के आधार पर गतिशील विषय विकास मॉडलिंग के लिए एक ढांचा प्रस्तावित करता है। यह विधि पहले बड़े भाषा मॉडल का उपयोग करके पाठ के संदर्भ एम्बेडिंग प्रतिनिधित्व प्राप्त करती है, फिर अस्थायी क्षय फ़ंक्शन और ध्यान तंत्र को पेश करती है, जो मॉडल को समय अंतराल के अनुसार शब्दार्थ इकाइयों की महत्ता को समायोजित करने और विभिन्न अवधियों में विषय परिवर्तन को पकड़ने में सक्षम बनाता है। अस्थायी प्रतिनिधित्व को बाद में अव्यक्त विषय स्थान में मैप किया जाता है, जहां राज्य संक्रमण मैट्रिक्स विषय के गतिशील विकास का वर्णन करता है। संयुक्त अनुकूलन उद्देश्य शब्दार्थ मॉडलिंग और अस्थायी सामंजस्य दोनों को बाधित करता है, विषय उत्पादन की विविधता और सुगमता सुनिश्चित करता है। यह डिजाइन शब्दार्थ प्रतिनिधित्व और अस्थायी विकास के एकीकृत मॉडलिंग पर जोर देता है, विषय की सुसंगतता और विविधता में सुधार करता है, साथ ही अस्थायी स्थिरता और व्याख्यात्मकता को बढ़ाता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह अनुसंधान गतिशील पाठ डेटा को संभालते समय पारंपरिक विषय मॉडलिंग विधियों की मौलिक सीमाओं को हल करने का लक्ष्य रखता है:

स्थिर धारणा समस्या: LDA जैसी पारंपरिक विधियां स्थिर धारणा पर आधारित हैं, समय के साथ विषय परिवर्तन को पकड़ने में असमर्थ हैं
अस्थायी जानकारी की कमी: मौजूदा बड़े भाषा मॉडल शक्तिशाली शब्दार्थ प्रतिनिधित्व क्षमता रखते हैं, लेकिन समय आयाम को नजरअंदाज करते हैं
गतिशील विकास मॉडलिंग: वास्तविकता में विषय उत्पादन, विस्तार, विलय या क्षय जैसी गतिशील प्रक्रियाओं से गुजरते हैं

महत्व और अनुप्रयोग मूल्य

उच्च संवेदनशील क्षेत्र की आवश्यकता: वित्त, चिकित्सा, जनमत निगरानी आदि क्षेत्रों में, यह समझना कि विषय समय के साथ कैसे विकसित होते हैं, प्रवृत्ति पूर्वानुमान और निर्णय समर्थन के लिए महत्वपूर्ण है
ज्ञान प्रणाली निर्माण: गतिशील विषय विकास को मॉडल करना मानव ज्ञान प्रणाली निर्माण को समझने का मूल है
सामाजिक गतिशीलता व्याख्या: अस्थायी विषय मॉडलिंग सूचना युग में सामाजिक गतिशीलता तर्क को समझाने का मुख्य तरीका है

मौजूदा विधियों की सीमाएं

पारंपरिक विषय मॉडल: LDA जैसी विधियां शब्द आवृत्ति और सह-घटना पर आधारित हैं, शब्दार्थ प्रक्षेपवक्र को प्रतिबिंबित नहीं कर सकती हैं
स्थिर भाषा मॉडल: BERT, DeBERTa आदि में अस्थायी मॉडलिंग तंत्र की कमी है
अस्थायी सामंजस्य अपर्याप्त: मौजूदा विधियां विषय संक्रमण की सुगमता सुनिश्चित करने में कठिनाई का सामना करती हैं

मुख्य योगदान

अस्थायी-जागरूक बड़े भाषा मॉडल ढांचा प्रस्तावित किया: पहली बार गतिशील विषय मॉडलिंग के लिए अस्थायी क्षय फ़ंक्शन और ध्यान तंत्र को बड़े भाषा मॉडल में एकीकृत किया
एकीकृत शब्दार्थ-अस्थायी मॉडलिंग आर्किटेक्चर डिजाइन किया: राज्य संक्रमण मैट्रिक्स के माध्यम से विषय स्थान के गतिशील विकास मॉडलिंग को लागू किया
संयुक्त अनुकूलन उद्देश्य निर्मित किया: शब्दार्थ प्रतिनिधित्व सीखने और अस्थायी अनुक्रम मॉडलिंग दोनों को बाधित करता है, विषय की विविधता और अस्थायी सुगमता सुनिश्चित करता है
कई मेट्रिक्स पर महत्वपूर्ण सुधार प्राप्त किया: मौजूदा विधियों की तुलना में भ्रम, विविधता, विषय सुसंगतता और स्थिरता में स्पष्ट सुधार

विधि विवरण

कार्य परिभाषा

अस्थायी पाठ अनुक्रम $X = \{x_1, x_2, ..., x_T\}$ दिया गया है, लक्ष्य एक ऐसा मॉडल सीखना है जो:

पाठ शब्दार्थ प्रतिनिधित्व को पकड़ने वाले एनकोडर को कैप्चर करे
समय के साथ विषय के गतिशील विकास के संक्रमण तंत्र को मॉडल करे
अस्थायी सामंजस्यपूर्ण और शब्दार्थ सुसंगत विषय वितरण उत्पन्न करे

मॉडल आर्किटेक्चर

1. शब्दार्थ एम्बेडिंग परत

बड़े भाषा मॉडल की एनकोडिंग परत के माध्यम से इनपुट पाठ को संदर्भ-संवेदनशील एम्बेडिंग वेक्टर में मैप करना:

$H = f(X) = \{h_1, h_2, ..., h_T\}, h_t \in \mathbb{R}^d$

जहां $f$ पैरामीटरयुक्त भाषा मॉडल को दर्शाता है, $h_t$ $t$ वें शब्द का शब्दार्थ वेक्टर है।

2. अस्थायी-जागरूक ध्यान तंत्र

समय आयाम के गतिशील विकास को पकड़ने के लिए, अस्थायी क्षय कारक को पेश किया जाता है:

$\alpha_{ij} = \frac{\exp(g(t_{ij}) \cdot \frac{h_i^T h_j}{d})}{\sum_{k=1}^T \exp(g(t_{ik}) \cdot \frac{h_i^T h_k}{d})}$

जहां $t_{ij}$ दो पाठ इकाइयों के बीच समय अंतराल को दर्शाता है, $g(\cdot)$ अस्थायी वजन फ़ंक्शन है, जिसे घातीय क्षय रूप $g(t) = e^{-\lambda t}$ के रूप में डिजाइन किया गया है।

3. विषय वितरण मॉडलिंग

अस्थायी-जागरूक शब्दार्थ प्रतिनिधित्व को अव्यक्त विषय स्थान में मैप करना:

$\theta_i = \text{softmax}(W h_i + b), \theta_i \in \mathbb{R}^K$

जहां $W$ और $b$ सीखने योग्य पैरामीटर हैं, $\theta_i$ $i$ वें दस्तावेज़ का $K$ विषयों पर वितरण वेक्टर है।

4. राज्य संक्रमण मैट्रिक्स

समय के साथ विषय के गतिशील परिवर्तन को मॉडल करने के लिए राज्य संक्रमण मैट्रिक्स का उपयोग:

$A_{t+1} = \Phi A_t + \epsilon_t, \Phi \in \mathbb{R}^{K \times K}$

जहां $\Phi$ विषय संक्रमण मैट्रिक्स है, $\epsilon_t$ विकास अनिश्चितता का वर्णन करने वाला गाऊसी शोर पद है।

तकनीकी नवाचार बिंदु

1. अस्थायी-शब्दार्थ एकीकृत मॉडलिंग

नवाचार: पहली बार अस्थायी क्षय तंत्र को सीधे बड़े भाषा मॉडल के ध्यान गणना में एकीकृत किया
तर्कसंगतता: घातीय क्षय फ़ंक्शन के माध्यम से हाल के शब्दार्थ के प्रभाव को उजागर करना, साथ ही दूरस्थ शब्दार्थ प्रभाव को कमजोर करना

2. संयुक्त अनुकूलन ढांचा

संयुक्त अनुकूलन उद्देश्य फ़ंक्शन डिजाइन करना:

$L = \sum_{i=1}^N \sum_{k=1}^K y_{ik} \log(\theta_{ik}) + \lambda \sum_{t=1}^{T-1} ||A_{t+1} - \Phi A_t||_2^2$

पहला पद: विषय वितरण पर आधारित लॉग-संभावना हानि
दूसरा पद: अस्थायी सामंजस्य बाधा
वजन गुणांक $\lambda$ : शब्दार्थ प्रतिनिधित्व और गतिशील विकास मॉडलिंग को संतुलित करना

प्रयोगात्मक सेटअप

डेटासेट

20 Newsgroups डेटासेट का उपयोग:

पैमाना: 20 विभिन्न समाचार समूहों के लेख शामिल हैं
विशेषताएं: सामाजिक, वैज्ञानिक, तकनीकी, मनोरंजन आदि कई विषय क्षेत्रों को शामिल करता है
अस्थायी विशेषताएं: सफाई और समूहीकरण प्रसंस्करण के माध्यम से, क्षेत्र-व्यापी अंतर और अस्थायी परिवर्तन विशेषताओं को बनाए रखा

मूल्यांकन मेट्रिक्स

भ्रम (Perplexity): मॉडल की भविष्यवाणी क्षमता को मापना
विविधता (Diversity): विषय विविधीकरण की डिग्री का मूल्यांकन
विषय सुसंगतता (Topic Coherence): विषय के भीतर शब्दावली की शब्दार्थ सामंजस्य को मापना
विषय स्थिरता (Topic Stability): समय के साथ विषय विकास की सुगमता का मूल्यांकन

तुलनात्मक विधियां

LDA: पारंपरिक अव्यक्त डिरिचलेट आवंटन
BERT: BERT-आधारित विषय मॉडलिंग
DeBERTa: सुधारा गया BERT वेरिएंट
Topic Audiolization: ऑडियो-आधारित विषय पहचान
T3: अस्थायी विषय मॉडलिंग विधि

प्रयोगात्मक परिणाम

मुख्य परिणाम

मॉडल	भ्रम	विविधता	विषय सुसंगतता	विषय स्थिरता
LDA	950.3	0.62	0.41	0.48
BERT	730.5	0.68	0.46	0.55
DeBERTa	702.7	0.71	0.50	0.60
Topic Audiolization	680.4	0.71	0.50	0.60
T3	655.8	0.73	0.52	0.62
यह विधि	598.2	0.78	0.57	0.69

मुख्य निष्कर्ष:

यह विधि सभी मेट्रिक्स पर सर्वोत्तम प्रदर्शन प्राप्त करती है
भ्रम सर्वोत्तम आधारभूत विधि की तुलना में 8.8% कम हुआ
विषय स्थिरता में महत्वपूर्ण सुधार, T3 विधि की तुलना में 11.3% वृद्धि

विलोपन प्रयोग

1. छिपी परत आयाम संवेदनशीलता विश्लेषण

प्रयोग परिणाम दिखाते हैं:

128-768 आयाम: विषय सुसंगतता और विविधता आयाम वृद्धि के साथ बढ़ते हैं
768 आयाम: सर्वोत्तम प्रदर्शन संतुलन बिंदु प्राप्त करता है
1024 आयाम: प्रदर्शन में मामूली गिरावट, अत्यधिक आयाम शोर का परिचय देता है

2. अस्थायी लंबाई प्रभाव विश्लेषण

अनुक्रम लंबाई 200: भ्रम न्यूनतम मान तक पहुंचता है
मध्यम लंबाई: विविधता शिखर तक पहुंचती है
अत्यधिक लंबे अनुक्रम: अनावश्यक जानकारी का परिचय दे सकते हैं, मॉडलिंग प्रभावित करते हैं

प्रयोगात्मक निष्कर्ष

अस्थायी तंत्र की प्रभावशीलता: अस्थायी क्षय का परिचय विषय स्थिरता में महत्वपूर्ण सुधार करता है
आयाम चयन की महत्ता: उपयुक्त छिपी परत आयाम मॉडल क्षमता और दक्षता को संतुलित करने के लिए महत्वपूर्ण है
अनुक्रम लंबाई अनुकूलन: इष्टतम समय विंडो मौजूद है, बहुत छोटा या बहुत लंबा दोनों प्रदर्शन को प्रभावित करते हैं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

प्रस्तावित अस्थायी-जागरूक ढांचा पारंपरिक विषय मॉडलिंग की स्थिर सीमाओं को प्रभावी ढंग से हल करता है
अस्थायी क्षय और ध्यान तंत्र का संयोजन विषय विकास मॉडलिंग क्षमता में महत्वपूर्ण सुधार करता है
संयुक्त अनुकूलन रणनीति शब्दार्थ गुणवत्ता और अस्थायी सामंजस्य के बीच संतुलन सुनिश्चित करती है

सीमाएं

कम्प्यूटेशनल जटिलता: अस्थायी ध्यान तंत्र कम्प्यूटेशनल ओवरहेड बढ़ाता है
पैरामीटर संवेदनशीलता: अस्थायी क्षय पैरामीटर λ को विभिन्न डेटासेट के लिए ट्यून करने की आवश्यकता है
दीर्घकालीन निर्भरता: अत्यंत लंबे समय अनुक्रमों की मॉडलिंग क्षमता अभी भी सीमित है

भविष्य की दिशाएं

बहु-आयामी अस्थायी मॉडलिंग: बाहरी घटनाओं और कारणात्मक संरचना को संयोजित करना
बहुभाषी विस्तार: बहुभाषी और क्रॉस-डोमेन कॉर्पस पर अनुकूलन क्षमता का परीक्षण
बहु-मोडल एकीकरण: अधिक जटिल सूचना वातावरण तक विस्तार

गहन मूल्यांकन

लाभ

विधि नवाचार मजबूत: पहली बार अस्थायी क्षय को सीधे बड़े भाषा मॉडल ध्यान तंत्र में एकीकृत किया
प्रयोगात्मक डिजाइन पूर्ण: पर्याप्त तुलनात्मक प्रयोग और विलोपन अनुसंधान शामिल है
परिणाम विश्वसनीयता मजबूत: कई मेट्रिक्स पर महत्वपूर्ण और सुसंगत सुधार
अनुप्रयोग मूल्य उच्च: वित्त, चिकित्सा, जनमत निगरानी आदि क्षेत्रों में व्यावहारिक अनुप्रयोग संभावना

कमियां

डेटासेट सीमाएं: केवल 20 Newsgroups पर सत्यापित, बड़े पैमाने और विविध मूल्यांकन की कमी
सैद्धांतिक विश्लेषण अपर्याप्त: अस्थायी क्षय फ़ंक्शन चयन के लिए सैद्धांतिक विश्लेषण की कमी
कम्प्यूटेशनल दक्षता चर्चा अनुपस्थित: विस्तृत कम्प्यूटेशनल जटिलता विश्लेषण और दक्षता तुलना प्रदान नहीं की गई
पैरामीटर ट्यूनिंग मार्गदर्शन अपर्याप्त: मुख्य हाइपरपैरामीटर चयन के लिए व्यवस्थित मार्गदर्शन की कमी

प्रभाव

शैक्षणिक योगदान: गतिशील विषय मॉडलिंग के लिए नया अनुसंधान प्रतिमान प्रदान करता है
व्यावहारिक मूल्य: वास्तविक समय पाठ विश्लेषण और प्रवृत्ति पूर्वानुमान में सीधे अनुप्रयोग
पुनरुत्पादनशीलता: विधि विवरण स्पष्ट है, लेकिन कोड ओपन-सोर्स जानकारी की कमी है

लागू परिदृश्य

समाचार मीडिया विश्लेषण: हॉट विषयों के विकास प्रक्षेपवक्र को ट्रैक करना
शैक्षणिक साहित्य खनन: अनुसंधान क्षेत्र विकास प्रवृत्तियां खोजना
सोशल मीडिया निगरानी: वास्तविक समय में जनमत परिवर्तन की निगरानी
व्यावसायिक बुद्धिमत्ता विश्लेषण: बाजार प्रवृत्ति और उपभोक्ता ध्यान बिंदु परिवर्तन विश्लेषण

संदर्भ

पेपर ने 26 संबंधित संदर्भों का हवाला दिया है, जो पारंपरिक विषय मॉडलिंग, बड़े भाषा मॉडल, अस्थायी मॉडलिंग आदि कई अनुसंधान क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करता है, जो इस पेपर के तकनीकी मार्ग के लिए ठोस सैद्धांतिक आधार प्रदान करता है।

समग्र मूल्यांकन: यह गतिशील विषय मॉडलिंग क्षेत्र में महत्वपूर्ण योगदान वाला एक पेपर है, जो नवाचारी रूप से अस्थायी तंत्र को बड़े भाषा मॉडल में एकीकृत करके पारंपरिक विधियों की स्थिर सीमाओं को प्रभावी ढंग से हल करता है। यद्यपि प्रयोगात्मक पैमाने और सैद्धांतिक विश्लेषण में सुधार की गुंजाइश है, लेकिन इसकी तकनीकी नवाचार और व्यावहारिक मूल्य इसे इस क्षेत्र में महत्वपूर्ण प्रगति बनाता है।