2025-11-20T07:19:14.926764

STaTS: Structure-Aware Temporal Sequence Summarization via Statistical Window Merging

Bhowmick, Ramanathan, Aakur

Time series data often contain latent temporal structure, transitions between locally stationary regimes, repeated motifs, and bursts of variability, that are rarely leveraged in standard representation learning pipelines. Existing models typically operate on raw or fixed-window sequences, treating all time steps as equally informative, which leads to inefficiencies, poor robustness, and limited scalability in long or noisy sequences. We propose STaTS, a lightweight, unsupervised framework for Structure-Aware Temporal Summarization that adaptively compresses both univariate and multivariate time series into compact, information-preserving token sequences. STaTS detects change points across multiple temporal resolutions using a BIC-based statistical divergence criterion, then summarizes each segment using simple functions like the mean or generative models such as GMMs. This process achieves up to 30x sequence compression while retaining core temporal dynamics. STaTS operates as a model-agnostic preprocessor and can be integrated with existing unsupervised time series encoders without retraining. Extensive experiments on 150+ datasets, including classification tasks on the UCR-85, UCR-128, and UEA-30 archives, and forecasting on ETTh1 and ETTh2, ETTm1, and Electricity, demonstrate that STaTS enables 85-90\% of the full-model performance while offering dramatic reductions in computational cost. Moreover, STaTS improves robustness under noise and preserves discriminative structure, outperforming uniform and clustering-based compression baselines. These results position STaTS as a principled, general-purpose solution for efficient, structure-aware time series modeling.

academic

STaTS: संरचना-सचेत अस्थायी अनुक्रम सारांश सांख्यिकीय विंडो विलय के माध्यम से

मूल जानकारी

पेपर ID: 2510.09593
शीर्षक: STaTS: Structure-Aware Temporal Sequence Summarization via Statistical Window Merging
लेखक: Disharee Bhowmick, Ranjith Ramanathan, Sathyanarayanan N. Aakur
वर्गीकरण: cs.LG (मशीन लर्निंग), cs.CV (कंप्यूटर विजन)
प्रकाशन समय: अक्टूबर 2025
पेपर लिंक: https://arxiv.org/abs/2510.09593

सारांश

अस्थायी श्रृंखला डेटा में सामान्यतः अंतर्निहित अस्थायी संरचना होती है, जैसे स्थानीय स्थिर अवस्थाओं के बीच संक्रमण, पुनरावृत्ति पैटर्न और परिवर्तनशीलता में विस्फोट, लेकिन ये संरचनाएं मानक प्रतिनिधित्व सीखने की प्रक्रिया में शायद ही कभी उपयोग की जाती हैं। मौजूदा मॉडल आमतौर पर कच्चे या निश्चित विंडो अनुक्रमों को संभालते हैं, सभी अस्थायी चरणों को समान रूप से महत्वपूर्ण मानते हैं, जिससे लंबे अनुक्रमों या शोरपूर्ण अनुक्रमों में अक्षमता, कमजोर मजबूती और सीमित स्केलेबिलिटी की समस्याएं उत्पन्न होती हैं। यह पेपर STaTS प्रस्तावित करता है, एक हल्का अनुपर्यवेक्षित ढांचा संरचना-सचेत अस्थायी श्रृंखला सारांश के लिए, जो एकचर और बहुचर अस्थायी श्रृंखलाओं को अनुकूलनीय रूप से संक्षिप्त, सूचना-संरक्षण टोकन अनुक्रमों में संपीड़ित कर सकता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

अस्थायी श्रृंखला डेटा वित्त, IoT, चिकित्सा और अन्य क्षेत्रों में व्यापक रूप से मौजूद है। संवेदक प्रौद्योगिकी की प्रगति के साथ, दर्ज की गई अस्थायी श्रृंखलाओं की लंबाई और जटिलता तेजी से बढ़ रही है, जो मशीन लर्निंग-आधारित अनुक्रम समझ ढांचे के लिए विशाल कम्प्यूटेशनल मांग प्रस्तुत करती है।

मौजूदा विधियों की सीमाएं

पारंपरिक विधियां: जैसे PAA (खंडित एकत्रीकरण सन्निकटन), SAX (प्रतीकात्मक एकत्रीकरण सन्निकटन), DTW (गतिशील समय विकृति) प्रभावी सारांश प्राप्त करते हैं, लेकिन एकीकृत विंडोकरण या कठोर प्रतीकात्मक एन्कोडिंग पर निर्भर करते हैं, संकेत जटिलता के गतिशील परिवर्तन को अनदेखा करते हैं
गहन शिक्षण विधियां: जैसे TS2Vec, TS-TCC पूर्ण अनुक्रमों को संभालते हैं या स्लाइडिंग विंडो लागू करते हैं, शब्दार्थिक परिवर्तनों पर विचार नहीं करते, जिससे अतिरेक, कम्प्यूटेशनल ओवरहेड और मॉडल टोकनीकरण और संकेत वास्तविक रूपांतरण के बीच गलतसंरेखण होता है

अनुसंधान प्रेरणा

मौजूदा विधियों में निम्नलिखित समस्याएं हैं:

निश्चित विंडो रणनीति स्थिर क्षेत्रों को अत्यधिक विभाजित कर सकती है, जबकि जटिल क्षेत्रों को अपर्याप्त रूप से विभाजित करती है
शोर की स्थितियों में, एकीकृत प्रसंस्करण इनपुट झूठे पैटर्न को बढ़ाने और सामान्यीकरण क्षमता को कम करने की प्रवृत्ति रखते हैं
संरचना-सचेतता की कमी अक्षमता और त्रुटि प्रसार की ओर ले जाती है

मुख्य योगदान

STaTS ढांचा प्रस्तावित करना: BIC-आधारित परिवर्तन पहचान मानदंड के आधार पर, कई अस्थायी पैमानों पर सांख्यिकीय रूप से सुसंगत खंडों की पहचान करने वाली संरचना-सचेत टोकनीकरण ढांचा
मॉड्यूलर हल्का सारांश पाइपलाइन: महत्वपूर्ण पैटर्न को बनाए रखते हुए अस्थायी श्रृंखला को 30 गुना से अधिक संपीड़ित करना, कुशल डाउनस्ट्रीम मॉडलिंग को सक्षम करना
मॉडल-अज्ञेयवादी अनुपर्यवेक्षित विधि: आर्किटेक्चर परिवर्तन या ढाल-आधारित ट्यूनिंग की आवश्यकता नहीं, मौजूदा अस्थायी श्रृंखला एन्कोडर (जैसे TS2Vec) के साथ सीधे संगत
एकीकृत इंटरफेस: वर्गीकरण, पूर्वानुमान और मजबूती कार्यों के लिए लागू, सामान्य अस्थायी श्रृंखला सारांश पूर्वप्रसंस्करण उपकरण के रूप में

विधि विवरण

कार्य परिभाषा

दिया गया बहुचर अस्थायी श्रृंखला $X \in \mathbb{R}^{T \times d}$ (जहां $T$ अस्थायी चरणों की संख्या है, $d$ आयामीता है), लक्ष्य $X$ को छोटे अनुक्रम $\tilde{X} \in \mathbb{R}^{T' \times d}$ में परिवर्तित करना है, जहां $T' \ll T$ , जबकि डाउनस्ट्रीम कार्यों के लिए आवश्यक अंतर्निहित संरचना को बनाए रखते हैं।

मॉडल आर्किटेक्चर

1. विभाजन चरण (टोकनीकरण)

बहु-पैमाना सुसंगतता पहचान:

आसन्न अस्थायी विंडो की सांख्यिकीय समानता का मूल्यांकन करने के लिए BIC (बेयेसियन सूचना मानदंड) का उपयोग करना
आसन्न विंडो $x_1, x_2 \in \mathbb{R}^{\delta \times d}$ के लिए, गणना करें:

$\Delta BIC = -2(\ell_{joint} - \ell_{sep}) + k \log(2\delta)$

जहां:

$\ell_{sep} = -\frac{\delta}{2}(\log|\Sigma_1| + \log|\Sigma_2|)$
$\ell_{joint} = -\delta \log|\Sigma_{12}|$
$k = d + \frac{d(d+1)}{2}$ (पूर्ण सहप्रसरण मॉडल के मुक्त पैरामीटर की संख्या)

वैश्विक उद्देश्य फलन: $L_{BIC}(\{S_i\}) = \sum_{i=1}^{T'} \left(-\frac{|S_i|}{2}\log|\Sigma_i| + \frac{k}{2}\log|S_i|\right)$

बहु-पैमाना मूल्यांकन:

पूर्वनिर्धारित श्रेणी के भीतर प्रत्येक $\delta$ मान पर सांख्यिकीय सुसंगतता का मूल्यांकन करना
अनुकूली सीमा $\mu_\delta + \alpha \cdot \sigma_\delta$ का उपयोग करके उम्मीदवार विभाजन बिंदुओं की पहचान करना
गैर-अधिकतम दमन के माध्यम से अनावश्यक पहचान को समाप्त करना

2. सारांश चरण (सारांशीकरण)

सारांश फलन: $\phi(S_i) = \frac{1}{|S_i|} \sum_{t=\tau_{i-1}}^{\tau_i-1} x_t$

खंड के प्रथम-क्रम सांख्यिकीय विशेषताओं को कैप्चर करते हुए, डिफ़ॉल्ट सारांश ऑपरेशन के रूप में माध्य पूलिंग का उपयोग करना।

तकनीकी नवाचार बिंदु

अनुकूली विभाजन: निश्चित विंडो विधियों के विपरीत, STaTS स्थानीय सांख्यिकीय परिवर्तन के आधार पर गतिशील रूप से खंड सीमाओं को समायोजित करता है
बहुचर विस्तार: पूर्ण सहप्रसरण मैट्रिक्स के माध्यम से बहुचर अस्थायी श्रृंखलाओं तक स्वाभाविक विस्तार
बहु-पैमाना पहचान: विभिन्न अस्थायी संकल्पों पर परिवर्तन का पता लगाना, अल्पकालिक विस्फोट और दीर्घकालिक क्रमिक परिवर्तन को कैप्चर करना
सांख्यिकीय वैधता: बहुचर गाऊसी धारणा के तहत, खंड माध्य पर्याप्त सांख्यिकी हैं

प्रयोगात्मक सेटअप

डेटासेट

एकचर वर्गीकरण: UCR-128 (128 डेटासेट) और UCR-85 (85 डेटासेट)
बहुचर वर्गीकरण: UEA-30 (30 डेटासेट)
बहुचर पूर्वानुमान: ETTh1, ETTh2, ETTm1, Electricity

मूल्यांकन मेट्रिक्स

वर्गीकरण कार्य: औसत सटीकता और औसत रैंकिंग
पूर्वानुमान कार्य: सामान्यीकृत माध्य वर्ग त्रुटि (nMSE)

तुलनात्मक विधियां

वर्गीकरण आधारभूत: T-Loss, TNC, TS-TCC, TST, DTW, TS2Vec
संपीड़न वेरिएंट: TS2Vec (uniform), TS2Vec (GMM)
पूर्वानुमान आधारभूत: Informer, TCN

कार्यान्वयन विवरण

विंडो आकार श्रेणी: $\delta \in \{5, 10, ..., 500\}$
सीमा पैरामीटर: $\alpha = 2$
न्यूनतम पृथक्करण दूरी: $s_{min} = 20$
संख्यात्मक स्थिरता: सहप्रसरण नियमितीकरण $\epsilon = 10^{-6}$

प्रयोगात्मक परिणाम

मुख्य परिणाम

एकचर वर्गीकरण प्रदर्शन

मॉडल	UCR-85 सटीकता	UCR-85 रैंकिंग	UCR-128 सटीकता	UCR-128 रैंकिंग	औसत लंबाई
TS2Vec (ori)	0.829	1.99	0.829	2.02	424.4/534.5
TS2Vec (mean)	0.739	4.82	0.741	4.39	12.1/12.9
TS2Vec (uniform)	0.621	8.21	0.616	8.10	12.1/12.9
TS2Vec (GMM)	0.655	7.35	0.664	6.92	60.7/73.2

मुख्य निष्कर्ष:

STaTS 33 गुना संपीड़न प्राप्त करता है, मूल प्रदर्शन का लगभग 90% बनाए रखता है
एकीकृत विभाजन और GMM आधारभूत से काफी बेहतर है

शोर मजबूती

मॉडल	UCR-85 (शोर)	UCR-128 (शोर)
TS2Vec (ori)	0.336	0.412
TS2Vec (mean)	0.581	0.603
TS2Vec (uniform)	0.475	0.485
TS2Vec (GMM)	0.505	0.522

महत्वपूर्ण निष्कर्ष: शोर की स्थितियों में, STaTS न केवल प्रतिस्पर्धी लाभ बनाए रखता है, बल्कि पूर्ण-संकल्प मॉडल से काफी बेहतर है।

बहुचर वर्गीकरण

TS2Vec (mean): सटीकता 0.622, रैंकिंग 4.70, 20 गुना संपीड़न
सभी संपीड़न वेरिएंट से बेहतर, मूल मॉडल के साथ प्रतिस्पर्धी प्रदर्शन बनाए रखता है

अस्थायी श्रृंखला पूर्वानुमान

दीर्घकालिक पूर्वानुमान (H=720) में, STaTS कई डेटासेट पर मूल TS2Vec से मेल खाता है या उससे बेहतर है, जबकि 15 गुना संपीड़न प्राप्त करता है।

विलोपन प्रयोग

विभाजन रणनीति तुलना: सांख्यिकीय विभाजन > GMM विभाजन > एकीकृत विभाजन
बहु-पैमाना मूल्यांकन: बहु-पैमाना पहचान एकल पैमाने से बेहतर है
सारांश फलन: माध्य पूलिंग अधिकांश कार्यों में सर्वश्रेष्ठ प्रदर्शन करता है

केस विश्लेषण

गुणात्मक विश्लेषण दर्शाता है कि STaTS दीर्घकालिक पूर्वानुमान में वास्तविक संकेत प्रवृत्ति को बेहतर तरीके से ट्रैक करता है, कंपन कलाकृतियों को कम करता है, विशेष रूप से अति-लंबी पूर्वानुमान श्रेणी (H=720) में उत्कृष्ट प्रदर्शन करता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

STaTS कुशल संरचना-सचेत अस्थायी श्रृंखला संपीड़न प्राप्त करता है, 85-90% प्रदर्शन बनाए रखते हुए 30 गुना संपीड़न प्राप्त करता है
शोर की स्थितियों में उत्कृष्ट प्रदर्शन, निहित विनोइसिंग प्रभाव प्रदान करता है
मॉडल-अज्ञेयवादी पूर्वप्रसंस्करण के रूप में, मौजूदा ढांचे में निर्बाध रूप से एकीकृत हो सकता है

सीमाएं

सांख्यिकीय धारणा: खंड के भीतर स्थानीय सांख्यिकीय सुसंगतता मानता है, गतिशील विस्फोट या अराजक प्रणालियों में खराब प्रदर्शन कर सकता है
गैर-अंत-से-अंत: संपीड़न रणनीति को अनुकूलित करने के लिए ढाल-आधारित प्रतिक्रिया का उपयोग नहीं करता है
पैरामीटर संवेदनशीलता: विंडो आकार श्रेणी और सीमा पैरामीटर को समायोजित करने की आवश्यकता है

भविष्य की दिशा

ऑनलाइन/स्ट्रीमिंग सेटिंग: वास्तविक समय सारांश और किनारे तैनाती तक विस्तार
बहु-मोडल डेटा: संवेदक नेटवर्क या वीडियो जैसे पदानुक्रमित डेटा में एकीकरण
अनुकूली शिक्षण: वितरण बदलाव या अवधारणा बहाव के तहत अंत-से-अंत अनुकूली शिक्षण प्रणाली

गहन मूल्यांकन

शक्तियां

विधि नवाचार: बहुचर अस्थायी श्रृंखला अनुकूली विभाजन के लिए बहु-पैमाना BIC मानदंड का पहला अनुप्रयोग
प्रयोगात्मक पूर्णता: 150+ डेटासेट पर व्यापक मूल्यांकन, वर्गीकरण और पूर्वानुमान कार्यों को कवर करता है
व्यावहारिक मूल्य: महत्वपूर्ण कम्प्यूटेशनल दक्षता सुधार (30 गुना संपीड़न) और न्यूनतम प्रदर्शन हानि
मजबूती: शोर की स्थितियों में उत्कृष्ट प्रदर्शन विधि की व्यावहारिकता को प्रमाणित करता है

कमियां

अपर्याप्त सैद्धांतिक विश्लेषण: यह समझाने के लिए सैद्धांतिक गारंटी की कमी कि STaTS कब और क्यों अन्य विधियों से बेहतर है
पैरामीटर चयन: कई हाइपरपैरामीटर के चयन के लिए व्यवस्थित मार्गदर्शन की कमी
लागू दृश्य सीमा: अत्यधिक अनियमित या गैर-स्थिर अस्थायी श्रृंखलाओं के लिए प्रयोज्यता पूरी तरह से सत्यापित नहीं है
कम्प्यूटेशनल जटिलता विश्लेषण: विस्तृत समय जटिलता विश्लेषण की कमी

प्रभाव

शैक्षणिक योगदान: अस्थायी श्रृंखला संपीड़न के लिए नया सांख्यिकीय दृष्टिकोण प्रदान करता है
व्यावहारिक मूल्य: संसाधन-सीमित वातावरण और बड़े पैमाने पर अस्थायी श्रृंखला प्रसंस्करण के लिए सीधे लागू किया जा सकता है
पुनरुत्पादनशीलता: विधि विवरण स्पष्ट है, कार्यान्वयन विवरण पर्याप्त है

लागू दृश्य

लंबी श्रृंखला प्रसंस्करण: विशेष रूप से अनियमित लंबाई की अस्थायी श्रृंखलाओं के लिए उपयुक्त
शोर वातावरण: उच्च शोर परिदृश्यों में उत्कृष्ट प्रदर्शन
संसाधन-सीमित: सीमित कम्प्यूटेशनल संसाधन वाले किनारे उपकरणों या वास्तविक समय प्रणालियों के लिए उपयुक्त
पूर्वप्रसंस्करण उपकरण: मौजूदा अस्थायी श्रृंखला मॉडल के लिए सामान्य पूर्वप्रसंस्करण के रूप में

संदर्भ

पेपर अस्थायी श्रृंखला विश्लेषण, प्रतिनिधित्व सीखने और सांख्यिकीय संकेत प्रसंस्करण क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:

शास्त्रीय अस्थायी श्रृंखला विधियां: PAA, SAX, DTW
गहन शिक्षण विधियां: TS2Vec, TS-TCC, InceptionTime
सांख्यिकीय विभाजन विधियां: BIC, TICC
पूर्वानुमान मॉडल: Informer, N-BEATS, Temporal Fusion Transformer

समग्र मूल्यांकन: यह अस्थायी श्रृंखला प्रसंस्करण का एक उच्च-गुणवत्ता वाला पेपर है, जो प्रस्तावित STaTS विधि सैद्धांतिक आधार, प्रयोगात्मक सत्यापन और व्यावहारिक मूल्य के संदर्भ में उत्कृष्ट प्रदर्शन करती है। यह विधि संरचना-सचेत अस्थायी श्रृंखला संपीड़न में महत्वपूर्ण अंतराल को भरता है और अस्थायी श्रृंखला विश्लेषण क्षेत्र में महत्वपूर्ण योगदान प्रदान करता है।