2025-11-20T07:19:14.926764

STaTS: Structure-Aware Temporal Sequence Summarization via Statistical Window Merging

Bhowmick, Ramanathan, Aakur

Time series data often contain latent temporal structure, transitions between locally stationary regimes, repeated motifs, and bursts of variability, that are rarely leveraged in standard representation learning pipelines. Existing models typically operate on raw or fixed-window sequences, treating all time steps as equally informative, which leads to inefficiencies, poor robustness, and limited scalability in long or noisy sequences. We propose STaTS, a lightweight, unsupervised framework for Structure-Aware Temporal Summarization that adaptively compresses both univariate and multivariate time series into compact, information-preserving token sequences. STaTS detects change points across multiple temporal resolutions using a BIC-based statistical divergence criterion, then summarizes each segment using simple functions like the mean or generative models such as GMMs. This process achieves up to 30x sequence compression while retaining core temporal dynamics. STaTS operates as a model-agnostic preprocessor and can be integrated with existing unsupervised time series encoders without retraining. Extensive experiments on 150+ datasets, including classification tasks on the UCR-85, UCR-128, and UEA-30 archives, and forecasting on ETTh1 and ETTh2, ETTm1, and Electricity, demonstrate that STaTS enables 85-90\% of the full-model performance while offering dramatic reductions in computational cost. Moreover, STaTS improves robustness under noise and preserves discriminative structure, outperforming uniform and clustering-based compression baselines. These results position STaTS as a principled, general-purpose solution for efficient, structure-aware time series modeling.

academic

STaTS: কাঠামো-সচেতন অস্থায়ী ক্রম সংক্ষিপ্তকরণ পরিসংখ্যানগত উইন্ডো মার্জিংয়ের মাধ্যমে

মৌলিক তথ্য

পেপার আইডি: 2510.09593
শিরোনাম: STaTS: কাঠামো-সচেতন অস্থায়ী ক্রম সংক্ষিপ্তকরণ পরিসংখ্যানগত উইন্ডো মার্জিংয়ের মাধ্যমে
লেখক: Disharee Bhowmick, Ranjith Ramanathan, Sathyanarayanan N. Aakur
শ্রেণীবিভাগ: cs.LG (মেশিন লার্নিং), cs.CV (কম্পিউটার ভিশন)
প্রকাশনার সময়: ২০২৫ সালের অক্টোবর
পেপার লিঙ্ক: https://arxiv.org/abs/2510.09593

সারসংক্ষেপ

অস্থায়ী ক্রম ডেটা সাধারণত অন্তর্নিহিত অস্থায়ী কাঠামো ধারণ করে, যেমন স্থানীয় স্থির অবস্থার মধ্যে রূপান্তর, পুনরাবৃত্তিমূলক প্যাটার্ন এবং পরিবর্তনশীলতার বিস্ফোরণ, কিন্তু এই কাঠামোগুলি মানক প্রতিনিধিত্ব শেখার প্রক্রিয়ায় খুব কমই ব্যবহৃত হয়। বিদ্যমান মডেলগুলি সাধারণত কাঁচা বা নির্দিষ্ট উইন্ডো ক্রম প্রক্রিয়া করে, সমস্ত অস্থায়ী পদক্ষেপকে সমান গুরুত্বপূর্ণ হিসাবে বিবেচনা করে, যা দীর্ঘ ক্রম বা শব্দযুক্ত ক্রমে অদক্ষতা, দুর্বল শক্তিশালীতা এবং সীমিত স্কেলেবিলিটির দিকে পরিচালিত করে। এই পেপারটি STaTS প্রস্তাব করে, একটি হালকা-ওজনের তত্ত্বাবধানহীন কাঠামো যা কাঠামো-সচেতন অস্থায়ী ক্রম সংক্ষিপ্তকরণের জন্য, যা একক-পরিবর্তনশীল এবং বহু-পরিবর্তনশীল অস্থায়ী ক্রমকে সংক্ষিপ্ত, তথ্য-সংরক্ষণকারী টোকেন ক্রমে স্বভাবিকভাবে সংকুচিত করতে পারে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

অস্থায়ী ক্রম ডেটা আর্থিক, IoT, স্বাস্থ্যসেবা এবং অন্যান্য ক্ষেত্রে ব্যাপকভাবে বিদ্যমান, সেন্সর প্রযুক্তির অগ্রগতির সাথে, রেকর্ড করা অস্থায়ী ক্রমের দৈর্ঘ্য এবং জটিলতা দ্রুত বৃদ্ধি পাচ্ছে, মেশিন লার্নিং-ভিত্তিক ক্রম বোঝার কাঠামোতে বিশাল গণনামূলক চাহিদা সৃষ্টি করছে।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

ঐতিহ্যবাহী পদ্ধতি: PAA (বিভাগীয় সমষ্টি অনুমান), SAX (প্রতীকী সমষ্টি অনুমান), DTW (গতিশীল সময় বিকৃতি) ইত্যাদি কার্যকর সংক্ষিপ্তকরণ বাস্তবায়ন করেছে, কিন্তু একীভূত উইন্ডোকরণ বা কঠোর প্রতীকী এনকোডিংয়ের উপর নির্ভর করে, সংকেত জটিলতার গতিশীল পরিবর্তনকে উপেক্ষা করে
গভীর শেখার পদ্ধতি: TS2Vec, TS-TCC ইত্যাদি সম্পূর্ণ ক্রম প্রক্রিয়া করে বা স্লাইডিং উইন্ডো প্রয়োগ করে, শব্দার্থিক পরিবর্তন বিবেচনা করে না, যা অপ্রয়োজনীয়তা, গণনামূলক ওভারহেড এবং মডেল টোকেনাইজেশন এবং সংকেত প্রকৃত রূপান্তরের মধ্যে ভুল সারিবদ্ধতার দিকে পরিচালিত করে

গবেষণা প্রেরণা

বিদ্যমান পদ্ধতিগুলি নিম্নলিখিত সমস্যাগুলির সম্মুখীন হয়:

নির্দিষ্ট উইন্ডো কৌশল স্থিতিশীল অঞ্চলগুলিকে অত্যধিক বিভক্ত করতে পারে, যখন জটিল অঞ্চলগুলি অপর্যাপ্তভাবে বিভক্ত করে
শব্দযুক্ত অবস্থায়, একীভূত প্রক্রিয়াকরণের ইনপুট মিথ্যা প্যাটার্ন প্রসারিত করতে এবং সাধারণীকরণ ক্ষমতা হ্রাস করতে থাকে
কাঠামো-সচেতনতার অভাব অদক্ষতা এবং ত্রুটি প্রচারের দিকে পরিচালিত করে

মূল অবদান

STaTS কাঠামো প্রস্তাব: BIC-ভিত্তিক পরিবর্তন সনাক্তকরণ মানদণ্ডের উপর ভিত্তি করে, একাধিক অস্থায়ী স্কেলে পরিসংখ্যানগত সুসংগত সেগমেন্ট সনাক্ত করার কাঠামো-সচেতন টোকেনাইজেশন কাঠামো
মডুলার হালকা-ওজনের সংক্ষিপ্তকরণ পাইপলাইন: উল্লেখযোগ্য প্যাটার্ন বজায় রেখে অস্থায়ী ক্রম ৩০ গুণেরও বেশি সংকুচিত করা, দক্ষ ডাউনস্ট্রিম মডেলিং বাস্তবায়ন
মডেল-অজ্ঞেয়বাদী তত্ত্বাবধানহীন পদ্ধতি: স্থাপত্য পরিবর্তন বা গ্রেডিয়েন্ট-ভিত্তিক সূক্ষ্ম-সুর ছাড়াই, বিদ্যমান অস্থায়ী ক্রম এনকোডার (যেমন TS2Vec) এর সাথে সরাসরি সামঞ্জস্যপূর্ণ
একীভূত ইন্টারফেস: শ্রেণীবিভাগ, পূর্বাভাস এবং শক্তিশালীতা কাজের জন্য প্রযোজ্য, সর্বজনীন অস্থায়ী ক্রম সংক্ষিপ্তকরণ প্রাক-প্রক্রিয়াকরণ সরঞ্জাম হিসাবে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

বহু-পরিবর্তনশীল অস্থায়ী ক্রম $X \in \mathbb{R}^{T \times d}$ দেওয়া (যেখানে $T$ অস্থায়ী পদক্ষেপের সংখ্যা, $d$ মাত্রা), লক্ষ্য হল $X$ কে আরও ছোট ক্রম $\tilde{X} \in \mathbb{R}^{T' \times d}$ এ রূপান্তরিত করা, যেখানে $T' \ll T$ , ডাউনস্ট্রিম কাজের জন্য প্রয়োজনীয় অন্তর্নিহিত কাঠামো বজায় রেখে।

মডেল স্থাপত্য

১. বিভাজন পর্যায় (টোকেনাইজেশন)

বহু-স্কেল সুসংগততা সনাক্তকরণ:

সন্নিহিত অস্থায়ী উইন্ডোর পরিসংখ্যানগত সাদৃশ্য মূল্যায়ন করতে BIC (বেয়েসিয়ান তথ্য মানদণ্ড) ব্যবহার করা
সন্নিহিত উইন্ডো $x_1, x_2 \in \mathbb{R}^{\delta \times d}$ এর জন্য, গণনা করা:

$\Delta BIC = -2(\ell_{joint} - \ell_{sep}) + k \log(2\delta)$

যেখানে:

$\ell_{sep} = -\frac{\delta}{2}(\log|\Sigma_1| + \log|\Sigma_2|)$
$\ell_{joint} = -\delta \log|\Sigma_{12}|$
$k = d + \frac{d(d+1)}{2}$ (সম্পূর্ণ সহ-বিচ্যুতি মডেলের স্বাধীন পরামিতির সংখ্যা)

বৈশ্বিক উদ্দেশ্য ফাংশন: $L_{BIC}(\{S_i\}) = \sum_{i=1}^{T'} \left(-\frac{|S_i|}{2}\log|\Sigma_i| + \frac{k}{2}\log|S_i|\right)$

বহু-স্কেল মূল্যায়ন:

প্রাক-সংজ্ঞায়িত পরিসরের মধ্যে প্রতিটি $\delta$ মানে পরিসংখ্যানগত সুসংগততা মূল্যায়ন করা
স্বভাবিক থ্রেশহোল্ড $\mu_\delta + \alpha \cdot \sigma_\delta$ ব্যবহার করে প্রার্থী বিভাজন পয়েন্ট সনাক্ত করা
অ-সর্বাধিক দমন দ্বারা অপ্রয়োজনীয় সনাক্তকরণ দূর করা

২. সংক্ষিপ্তকরণ পর্যায় (সারসংক্ষেপ)

সংক্ষিপ্তকরণ ফাংশন: $\phi(S_i) = \frac{1}{|S_i|} \sum_{t=\tau_{i-1}}^{\tau_i-1} x_t$

সেগমেন্টের প্রথম-ক্রম পরিসংখ্যানগত বৈশিষ্ট্য ক্যাপচার করে ডিফল্ট সংক্ষিপ্তকরণ অপারেশন হিসাবে গড় পুলিং ব্যবহার করা।

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

স্বভাবিক বিভাজন: নির্দিষ্ট উইন্ডো পদ্ধতির বিপরীতে, STaTS স্থানীয় পরিসংখ্যানগত পরিবর্তনের উপর ভিত্তি করে গতিশীলভাবে সেগমেন্ট সীমানা সামঞ্জস্য করে
বহু-পরিবর্তনশীল সম্প্রসারণ: সম্পূর্ণ সহ-বিচ্যুতি ম্যাট্রিক্সের মাধ্যমে বহু-পরিবর্তনশীল অস্থায়ী ক্রমে স্বাভাবিকভাবে সম্প্রসারণ
বহু-স্কেল সনাক্তকরণ: বিভিন্ন অস্থায়ী রেজোলিউশনে পরিবর্তন সনাক্ত করা, স্বল্পমেয়াদী আকস্মিক এবং দীর্ঘমেয়াদী ক্রমান্বয়ী পরিবর্তন ক্যাপচার করা
পরিসংখ্যানগত কার্যকারিতা: বহু-পরিবর্তনশীল গাউসিয়ান অনুমানের অধীনে, সেগমেন্ট গড় যথেষ্ট পরিসংখ্যান

পরীক্ষামূলক সেটআপ

ডেটাসেট

একক-পরিবর্তনশীল শ্রেণীবিভাগ: UCR-128 (১২৮টি ডেটাসেট) এবং UCR-85 (৮৫টি ডেটাসেট)
বহু-পরিবর্তনশীল শ্রেণীবিভাগ: UEA-30 (৩০টি ডেটাসেট)
বহু-পরিবর্তনশীল পূর্বাভাস: ETTh1, ETTh2, ETTm1, Electricity

মূল্যায়ন মেট্রিক্স

শ্রেণীবিভাগ কাজ: গড় নির্ভুলতা এবং গড় র্যাঙ্কিং
পূর্বাভাস কাজ: স্বাভাবিকীকৃত গড় বর্গ ত্রুটি (nMSE)

তুলনামূলক পদ্ধতি

শ্রেণীবিভাগ ভিত্তিরেখা: T-Loss, TNC, TS-TCC, TST, DTW, TS2Vec
সংকোচন ভেরিয়েন্ট: TS2Vec (uniform), TS2Vec (GMM)
পূর্বাভাস ভিত্তিরেখা: Informer, TCN

বাস্তবায়ন বিবরণ

উইন্ডো আকারের পরিসর: $\delta \in \{5, 10, ..., 500\}$
থ্রেশহোল্ড প্যারামিটার: $\alpha = 2$
ন্যূনতম বিচ্ছিন্নতা দূরত্ব: $s_{min} = 20$
সংখ্যাগত স্থিতিশীলতা: সহ-বিচ্যুতি নিয়মিতকরণ $\epsilon = 10^{-6}$

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

একক-পরিবর্তনশীল শ্রেণীবিভাগ কর্মক্ষমতা

মডেল	UCR-85 নির্ভুলতা	UCR-85 র্যাঙ্কিং	UCR-128 নির্ভুলতা	UCR-128 র্যাঙ্কিং	গড় দৈর্ঘ্য
TS2Vec (ori)	0.829	1.99	0.829	2.02	424.4/534.5
TS2Vec (mean)	0.739	4.82	0.741	4.39	12.1/12.9
TS2Vec (uniform)	0.621	8.21	0.616	8.10	12.1/12.9
TS2Vec (GMM)	0.655	7.35	0.664	6.92	60.7/73.2

মূল আবিষ্কার:

STaTS ৩৩ গুণ সংকোচন অর্জন করে, মূল কর্মক্ষমতার প্রায় ৯০% বজায় রাখে
একীভূত বিভাজন এবং GMM ভিত্তিরেখার চেয়ে উল্লেখযোগ্যভাবে উন্নত

শব্দ শক্তিশালীতা

মডেল	UCR-85 (শব্দ)	UCR-128 (শব্দ)
TS2Vec (ori)	0.336	0.412
TS2Vec (mean)	0.581	0.603
TS2Vec (uniform)	0.475	0.485
TS2Vec (GMM)	0.505	0.522

গুরুত্বপূর্ণ আবিষ্কার: শব্দযুক্ত অবস্থায়, STaTS শুধুমাত্র প্রতিযোগিতামূলক সুবিধা বজায় রাখে না, বরং সম্পূর্ণ-রেজোলিউশন মডেলের চেয়ে উল্লেখযোগ্যভাবে উন্নত।

বহু-পরিবর্তনশীল শ্রেণীবিভাগ

TS2Vec (mean): নির্ভুলতা 0.622, র্যাঙ্কিং 4.70, ২০ গুণ সংকোচন
সমস্ত সংকোচন ভেরিয়েন্টের চেয়ে উন্নত, মূল মডেলের সাথে প্রতিযোগিতামূলক কর্মক্ষমতা বজায় রাখে

অস্থায়ী ক্রম পূর্বাভাস

দীর্ঘমেয়াদী পূর্বাভাসে (H=720), STaTS একাধিক ডেটাসেটে মূল TS2Vec এর সাথে মিলিত বা অতিক্রম করে, একই সাথে ১৫ গুণ সংকোচন অর্জন করে।

বিলোপন পরীক্ষা

বিভাজন কৌশল তুলনা: পরিসংখ্যানগত বিভাজন > GMM বিভাজন > একীভূত বিভাজন
বহু-স্কেল মূল্যায়ন: বহু-স্কেল সনাক্তকরণ একক-স্কেলের চেয়ে উন্নত
সংক্ষিপ্তকরণ ফাংশন: গড় পুলিং বেশিরভাগ কাজে সর্বোত্তম কর্মক্ষমতা প্রদর্শন করে

কেস বিশ্লেষণ

গুণগত বিশ্লেষণ দেখায় যে STaTS দীর্ঘমেয়াদী পূর্বাভাসে প্রকৃত সংকেত প্রবণতা আরও ভালভাবে ট্র্যাক করে, কম্পন নিদর্শন হ্রাস করে, বিশেষত অতি-দীর্ঘ পূর্বাভাস পরিসরে (H=720) উল্লেখযোগ্য কর্মক্ষমতা প্রদর্শন করে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

STaTS কার্যকর কাঠামো-সচেতন অস্থায়ী ক্রম সংকোচন অর্জন করে, ৮৫-৯০% কর্মক্ষমতা বজায় রেখে ৩০ গুণ সংকোচন অর্জন করে
শব্দযুক্ত অবস্থায় উৎকৃষ্ট কর্মক্ষমতা প্রদর্শন করে, অন্তর্নিহিত ডি-নয়েজিং প্রভাব প্রদান করে
মডেল-অজ্ঞেয়বাদী প্রাক-প্রক্রিয়াকারী হিসাবে, বিদ্যমান কাঠামোতে নির্বিঘ্নে একীভূত করা যায়

সীমাবদ্ধতা

পরিসংখ্যানগত অনুমান: সেগমেন্ট-মধ্যে স্থানীয় পরিসংখ্যানগত সুসংগততা অনুমান করে, গতিশীল আকস্মিক বা বিশৃঙ্খল সিস্টেমে দুর্বল কর্মক্ষমতা হতে পারে
অ-শেষ-থেকে-শেষ: সংকোচন কৌশল অভিযোজনের জন্য গ্রেডিয়েন্ট-ভিত্তিক প্রতিক্রিয়া ব্যবহার করে না
প্যারামিটার সংবেদনশীলতা: উইন্ডো আকারের পরিসর এবং থ্রেশহোল্ড প্যারামিটার সামঞ্জস্য প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

অনলাইন/স্ট্রিমিং সেটিং: রিয়েল-টাইম সংক্ষিপ্তকরণ এবং প্রান্ত স্থাপনায় সম্প্রসারণ
মাল্টি-মোডাল ডেটা: সেন্সর নেটওয়ার্ক বা ভিডিওর মতো স্তরযুক্ত কাঠামো ডেটায় একীকরণ
স্বভাবিক শেখা: বিতরণ পরিবর্তন বা ধারণা বিচ্যুতির অধীনে শেষ-থেকে-শেষ অভিযোজন শেখার সিস্টেম

গভীর মূল্যায়ন

শক্তি

পদ্ধতি উদ্ভাবন: বহু-পরিবর্তনশীল অস্থায়ী ক্রম স্বভাবিক বিভাজনে বহু-স্কেল BIC মানদণ্ড প্রয়োগের প্রথম উদাহরণ
পরীক্ষামূলক সম্পূর্ণতা: ১৫০+ ডেটাসেটে ব্যাপক মূল্যায়ন, শ্রেণীবিভাগ এবং পূর্বাভাস কাজ জুড়ে
ব্যবহারিক মূল্য: উল্লেখযোগ্য গণনামূলক দক্ষতা উন্নতি (৩০ গুণ সংকোচন) এবং ন্যূনতম কর্মক্ষমতা ক্ষতি
শক্তিশালীতা: শব্দযুক্ত অবস্থায় উৎকৃষ্ট কর্মক্ষমতা পদ্ধতির ব্যবহারিকতা প্রমাণ করে

অপূর্ণতা

তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: কখন এবং কেন STaTS অন্যান্য পদ্ধতির চেয়ে উন্নত তা সম্পর্কে তাত্ত্বিক গ্যারান্টির অভাব
প্যারামিটার নির্বাচন: একাধিক হাইপার-প্যারামিটার নির্বাচনের জন্য পদ্ধতিগত নির্দেশনার অভাব
প্রযোজ্য দৃশ্যের সীমাবদ্ধতা: অত্যন্ত অনিয়মিত বা অ-স্থির অস্থায়ী ক্রমের জন্য প্রযোজ্যতা অপর্যাপ্তভাবে যাচাই করা হয়েছে
গণনামূলক জটিলতা বিশ্লেষণ: বিস্তারিত সময় জটিলতা বিশ্লেষণের অভাব

প্রভাব

একাডেমিক অবদান: অস্থায়ী ক্রম সংকোচনে নতুন পরিসংখ্যানগত দৃষ্টিভঙ্গি প্রদান করে
ব্যবহারিক মূল্য: সম্পদ-সীমিত পরিবেশ এবং বড় আকারের অস্থায়ী ক্রম প্রক্রিয়াকরণে সরাসরি প্রয়োগ করা যায়
পুনরুৎপাদনযোগ্যতা: পদ্ধতি বর্ণনা স্পষ্ট, বাস্তবায়ন বিবরণ পর্যাপ্ত

প্রযোজ্য দৃশ্য

দীর্ঘ ক্রম প্রক্রিয়াকরণ: বিশেষত অনিয়মিত দৈর্ঘ্যের অস্থায়ী ক্রমের জন্য উপযুক্ত
শব্দযুক্ত পরিবেশ: উচ্চ শব্দ দৃশ্যে উৎকৃষ্ট কর্মক্ষমতা
সম্পদ-সীমিত: সীমিত গণনামূলক সম্পদ বা রিয়েল-টাইম সিস্টেম সহ প্রান্ত ডিভাইসের জন্য উপযুক্ত
প্রাক-প্রক্রিয়াকরণ সরঞ্জাম: বিদ্যমান অস্থায়ী ক্রম মডেলের জন্য সর্বজনীন প্রাক-প্রক্রিয়াকারী হিসাবে

সংদর্ভ

পেপারটি অস্থায়ী ক্রম বিশ্লেষণ, প্রতিনিধিত্ব শেখা এবং পরিসংখ্যানগত সংকেত প্রক্রিয়াকরণ ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করেছে, যার মধ্যে রয়েছে:

ক্লাসিক অস্থায়ী ক্রম পদ্ধতি: PAA, SAX, DTW
গভীর শেখার পদ্ধতি: TS2Vec, TS-TCC, InceptionTime
পরিসংখ্যানগত বিভাজন পদ্ধতি: BIC, TICC
পূর্বাভাস মডেল: Informer, N-BEATS, Temporal Fusion Transformer

সামগ্রিক মূল্যায়ন: এটি অস্থায়ী ক্রম প্রক্রিয়াকরণে একটি উচ্চ-মানের পেপার, যা প্রস্তাবিত STaTS পদ্ধতি তাত্ত্বিক ভিত্তি, পরীক্ষামূলক যাচাইকরণ এবং ব্যবহারিক মূল্যের সকল দিক থেকে উৎকৃষ্ট কর্মক্ষমতা প্রদর্শন করে। এই পদ্ধতি কাঠামো-সচেতন অস্থায়ী ক্রম সংকোচনে গুরুত্বপূর্ণ ফাঁক পূরণ করে এবং অস্থায়ী ক্রম বিশ্লেষণ ক্ষেত্রে উল্লেখযোগ্য অবদান রাখে।