Time series data often contain latent temporal structure, transitions between locally stationary regimes, repeated motifs, and bursts of variability, that are rarely leveraged in standard representation learning pipelines. Existing models typically operate on raw or fixed-window sequences, treating all time steps as equally informative, which leads to inefficiencies, poor robustness, and limited scalability in long or noisy sequences. We propose STaTS, a lightweight, unsupervised framework for Structure-Aware Temporal Summarization that adaptively compresses both univariate and multivariate time series into compact, information-preserving token sequences. STaTS detects change points across multiple temporal resolutions using a BIC-based statistical divergence criterion, then summarizes each segment using simple functions like the mean or generative models such as GMMs. This process achieves up to 30x sequence compression while retaining core temporal dynamics. STaTS operates as a model-agnostic preprocessor and can be integrated with existing unsupervised time series encoders without retraining. Extensive experiments on 150+ datasets, including classification tasks on the UCR-85, UCR-128, and UEA-30 archives, and forecasting on ETTh1 and ETTh2, ETTm1, and Electricity, demonstrate that STaTS enables 85-90\% of the full-model performance while offering dramatic reductions in computational cost. Moreover, STaTS improves robustness under noise and preserves discriminative structure, outperforming uniform and clustering-based compression baselines. These results position STaTS as a principled, general-purpose solution for efficient, structure-aware time series modeling.
academic- معرّف الورقة: 2510.09593
- العنوان: STaTS: Structure-Aware Temporal Sequence Summarization via Statistical Window Merging
- المؤلفون: Disharee Bhowmick, Ranjith Ramanathan, Sathyanarayanan N. Aakur
- التصنيف: cs.LG (تعلم الآلة)، cs.CV (رؤية الحاسوب)
- تاريخ النشر: أكتوبر 2025
- رابط الورقة: https://arxiv.org/abs/2510.09593
تحتوي بيانات السلاسل الزمنية عادةً على بنية زمنية كامنة، مثل الانتقالات بين الحالات المستقرة محلياً والأنماط المتكررة والانفجارات المتغيرة، لكن هذه البنية نادراً ما يتم الاستفادة منها في خطوط سير العمل القياسية لتعلم التمثيل. عادةً ما تتعامل النماذج الموجودة مع السلاسل الأولية أو ذات النوافذ الثابتة، مما يعامل جميع الخطوات الزمنية على قدم المساواة، مما يؤدي إلى عدم الكفاءة والقوة الضعيفة وقابلية التوسع المحدودة في السلاسل الطويلة أو الضوضائية. تقترح هذه الورقة STaTS، إطار عمل خفيف الوزن وغير خاضع للإشراف لتلخيص السلاسل الزمنية الموجه للبنية، والذي يمكنه ضغط السلاسل الزمنية أحادية المتغير ومتعددة المتغيرات بشكل تكيفي إلى تسلسلات رموز مدمجة وحافظة على المعلومات.
تنتشر بيانات السلاسل الزمنية على نطاق واسع في المجالات المالية والإنترنت والرعاية الصحية وغيرها. مع تقدم تكنولوجيا الاستشعار، يزداد طول وتعقيد السلاسل الزمنية المسجلة بسرعة، مما يفرض متطلبات حسابية ضخمة على أطر عمل فهم السلاسل القائمة على تعلم الآلة.
- الطرق التقليدية: مثل PAA (التقريب التجميعي المقسم)، SAX (التقريب التجميعي الرمزي)، DTW (التشويه الزمني الديناميكي) وغيرها حققت تلخيصاً فعالاً، لكنها تعتمد على النوافذ الموحدة أو الترميز الرمزي الصارم، مما يتجاهل التغييرات الديناميكية في تعقيد الإشارة
- طرق التعلم العميق: مثل TS2Vec و TS-TCC تعالج السلاسل الكاملة أو تطبق نوافذ منزلقة، دون الأخذ في الاعتبار التغييرات الدلالية، مما يؤدي إلى التكرار والنفقات الحسابية والعدم المحاذاة بين رموز النموذج والتحولات الحقيقية للإشارة
تواجه الطرق الموجودة المشاكل التالية:
- قد تؤدي استراتيجية النافذة الثابتة إلى الإفراط في تقسيم المناطق المستقرة، بينما تقسم المناطق المعقدة بشكل غير كافٍ
- في ظروف الضوضاء، يميل المدخل الموحد المعالج إلى تضخيم الأنماط الكاذبة وتقليل القدرة على التعميم
- يؤدي الافتقار إلى الوعي بالبنية إلى عدم الكفاءة ونشر الأخطاء
- اقتراح إطار عمل STaTS: إطار عمل ترميز موجه للبنية يعتمد على معيار كشف التغيير القائم على BIC لتحديد القطاعات المتماسكة إحصائياً على مقاييس زمنية متعددة
- خط أنابيب تلخيص معياري خفيف الوزن: ضغط السلاسل الزمنية بأكثر من 30 مرة مع الحفاظ على الأنماط المهمة، مما يحقق نمذجة فعالة للمصب
- طريقة غير خاضعة للإشراف وغير مرتبطة بالنموذج: بدون تغييرات معمارية أو ضبط قائم على التدرجات، متوافقة مباشرة مع أجهزة ترميز السلاسل الزمنية الموجودة (مثل TS2Vec)
- واجهة موحدة: قابلة للتطبيق على مهام التصنيف والتنبؤ والقوة، كأداة معالجة مسبقة عامة لتلخيص السلاسل الزمنية
بالنظر إلى سلسلة زمنية متعددة المتغيرات X∈RT×d (حيث T هو عدد الخطوات الزمنية و d هو البعد)، الهدف هو تحويل X إلى سلسلة أقصر X~∈RT′×d، حيث T′≪T، مع الحفاظ على البنية الأساسية المطلوبة للمهام اللاحقة.
كشف التماسك متعدد المقاييس:
- استخدام BIC (معيار المعلومات البايزي) لتقييم التشابه الإحصائي للنوافذ الزمنية المجاورة
- للنوافذ المجاورة x1,x2∈Rδ×d، احسب:
ΔBIC=−2(ℓjoint−ℓsep)+klog(2δ)
حيث:
- ℓsep=−2δ(log∣Σ1∣+log∣Σ2∣)
- ℓjoint=−δlog∣Σ12∣
- k=d+2d(d+1) (عدد المعاملات الحرة لنموذج التباين المشترك الكامل)
الدالة الهدف العامة:
LBIC({Si})=∑i=1T′(−2∣Si∣log∣Σi∣+2klog∣Si∣)
التقييم متعدد المقاييس:
- تقييم التماسك الإحصائي على كل قيمة δ ضمن نطاق محدد مسبقاً
- استخدام عتبة تكيفية μδ+α⋅σδ لتحديد نقاط التقسيم المرشحة
- القضاء على الكشف المكرر من خلال الكبح غير الأقصى
دالة التلخيص:
ϕ(Si)=∣Si∣1∑t=τi−1τi−1xt
استخدام تجميع المتوسط كعملية تلخيص افتراضية، التقاط خصائص الإحصائيات من الدرجة الأولى للقطاع.
- التقسيم التكيفي: على عكس طرق النافذة الثابتة، يقوم STaTS بتعديل حدود القطاع ديناميكياً بناءً على التغييرات الإحصائية المحلية
- الامتداد متعدد المتغيرات: التوسع الطبيعي إلى السلاسل الزمنية متعددة المتغيرات من خلال مصفوفة التباين المشترك الكاملة
- الكشف متعدد المقاييس: كشف التغييرات في دقة زمنية مختلفة، التقاط الانفجارات قصيرة الأجل والتغييرات التدريجية طويلة الأجل
- الصحة الإحصائية: تحت افتراض غاوسي متعدد المتغيرات، متوسط القطاع إحصائية كافية
- التصنيف أحادي المتغير: UCR-128 (128 مجموعة بيانات) و UCR-85 (85 مجموعة بيانات)
- التصنيف متعدد المتغيرات: UEA-30 (30 مجموعة بيانات)
- التنبؤ متعدد المتغيرات: ETTh1، ETTh2، ETTm1، Electricity
- مهام التصنيف: متوسط الدقة والترتيب المتوسط
- مهام التنبؤ: متوسط الخطأ التربيعي المعياري (nMSE)
- خطوط أساس التصنيف: T-Loss، TNC، TS-TCC، TST، DTW، TS2Vec
- متغيرات الضغط: TS2Vec (موحد)، TS2Vec (GMM)
- خطوط أساس التنبؤ: Informer، TCN
- نطاق حجم النافذة: δ∈{5,10,...,500}
- معامل العتبة: α=2
- الحد الأدنى لمسافة الفصل: smin=20
- الاستقرار العددي: تنظيم التباين المشترك ϵ=10−6
| النموذج | دقة UCR-85 | ترتيب UCR-85 | دقة UCR-128 | ترتيب UCR-128 | متوسط الطول |
|---|
| TS2Vec (الأصلي) | 0.829 | 1.99 | 0.829 | 2.02 | 424.4/534.5 |
| TS2Vec (المتوسط) | 0.739 | 4.82 | 0.741 | 4.39 | 12.1/12.9 |
| TS2Vec (موحد) | 0.621 | 8.21 | 0.616 | 8.10 | 12.1/12.9 |
| TS2Vec (GMM) | 0.655 | 7.35 | 0.664 | 6.92 | 60.7/73.2 |
النتائج الرئيسية:
- يحقق STaTS ضغطاً بمعامل 33، مع الحفاظ على حوالي 90% من الأداء الأصلية
- يتفوق بشكل ملحوظ على خطوط الأساس الموحدة و GMM
| النموذج | UCR-85 (ضوضاء) | UCR-128 (ضوضاء) |
|---|
| TS2Vec (الأصلي) | 0.336 | 0.412 |
| TS2Vec (المتوسط) | 0.581 | 0.603 |
| TS2Vec (موحد) | 0.475 | 0.485 |
| TS2Vec (GMM) | 0.505 | 0.522 |
الاكتشاف المهم: في ظروف الضوضاء، لا يحافظ STaTS فقط على ميزة تنافسية، بل يتفوق بشكل ملحوظ على نماذج الدقة الكاملة.
- TS2Vec (المتوسط): دقة 0.622، ترتيب 4.70، ضغط 20 مرة
- يتفوق على جميع متغيرات الضغط، مع الحفاظ على الأداء التنافسية مع النموذج الأصلي
في التنبؤ طويل الأجل (H=720)، يطابق STaTS أو يتفوق على TS2Vec الأصلي في مجموعات بيانات متعددة، مع تحقيق ضغط بمعامل 15.
- مقارنة استراتيجيات التقسيم: التقسيم الإحصائي > تقسيم GMM > التقسيم الموحد
- التقييم متعدد المقاييس: الكشف متعدد المقاييس يتفوق على المقياس الواحد
- دوال التلخيص: تجميع المتوسط يحقق أفضل أداء في معظم المهام
يُظهر التحليل النوعي أن STaTS يتتبع اتجاهات الإشارة الحقيقية بشكل أفضل في التنبؤ طويل الأجل، مما يقلل من الحاجيات الاهتزازية، خاصة في نطاقات التنبؤ الطويلة جداً (H=720).
- الطرق الكلاسيكية: shapelets، BOSS وغيرها من الطرق القائمة على الرموز
- التعلم العميق: FCN، ResNet، InceptionTime وغيرها
- الطرق المجمعة: HIVE-COTE وغيرها
- الاختراقات المبكرة: LSTM من تسلسل إلى تسلسل
- الطرق الحديثة: DeepAR، N-BEATS، Temporal Fusion Transformer
- آليات الانتباه: Informer وطرق الانتباه الضعيفة الأخرى
- الطرق التقليدية: PAA، SAX (محدودة بالمتغير الواحد والطول الثابت)
- الطرق الحديثة: TICC (مكلفة حسابياً، تتطلب حل التحسين)
- مزايا STaTS: خفيفة الوزن، غير مرتبطة بالنموذج، دعم متعدد المتغيرات
- يحقق STaTS ضغطاً فعالاً للسلاسل الزمنية موجه للبنية، مع تحقيق ضغط بمعامل 30 مع الحفاظ على 85-90% من الأداء
- يُظهر أداءً ممتازاً في ظروف الضوضاء، مما يوفر تأثير إزالة ضوضاء ضمني
- كمعالج مسبق غير مرتبط بالنموذج، يمكن دمجه بسلاسة في الأطر الموجودة
- الافتراضات الإحصائية: يفترض التماسك الإحصائي المحلي ضمن القطاعات، قد يؤدي إلى أداء ضعيفة في الأنظمة الديناميكية المفاجئة أو الفوضوية
- غير نهائي: لا يستخدم التغذية الراجعة القائمة على التدرجات للتكيف مع استراتيجية الضغط
- حساسية المعاملات: يتطلب ضبط نطاق حجم النافذة ومعاملات العتبة
- الإعدادات عبر الإنترنت/البث: التوسع إلى التلخيص في الوقت الفعلي والنشر على الحافة
- البيانات متعددة الأنماط: التكامل في شبكات الاستشعار أو البيانات الهرمية مثل الفيديو
- التعلم التكيفي: أنظمة التعلم التكيفي النهائية تحت انجراف التوزيع أو انجراف المفهوم
- الابتكار في الطريقة: أول تطبيق لمعيار BIC متعدد المقاييس على التقسيم التكيفي للسلاسل الزمنية متعددة المتغيرات
- شمول التجارب: تقييم واسع على أكثر من 150 مجموعة بيانات، يغطي مهام التصنيف والتنبؤ
- القيمة العملية: تحسن كبير في الكفاءة الحسابية (ضغط 30 مرة) مع فقدان أداء ضئيل
- القوة: الأداء الممتازة في ظروف الضوضاء تثبت الجدوى العملية للطريقة
- نقص التحليل النظري: غياب الضمانات النظرية حول متى ولماذا يتفوق STaTS على الطرق الأخرى
- اختيار المعاملات: اختيار معاملات متعددة يفتقر إلى التوجيه المنهجي
- قيود السيناريوهات المطبقة: لم يتم التحقق الكافي من قابلية التطبيق على السلاسل الزمنية غير المنتظمة أو غير الثابتة بشدة
- تحليل التعقيد الحسابي: غياب تحليل تفصيلي لتعقيد الوقت
- المساهمة الأكاديمية: توفير منظور إحصائي جديد لضغط السلاسل الزمنية
- القيمة العملية: قابلة للتطبيق المباشر في البيئات ذات الموارد المحدودة ومعالجة السلاسل الزمنية على نطاق واسع
- قابلية الاستنساخ: وصف الطريقة واضح، تفاصيل التنفيذ كافية
- معالجة السلاسل الطويلة: مناسبة بشكل خاص للسلاسل الزمنية ذات الطول غير المنتظم
- البيئات الضوضائية: أداء ممتازة في السيناريوهات عالية الضوضاء
- الموارد المحدودة: مناسبة لأجهزة الحافة أو الأنظمة في الوقت الفعلي ذات الموارد المحدودة
- أداة المعالجة المسبقة: كمعالج مسبق عام لنماذج السلاسل الزمنية الموجودة
تستشهد الورقة بأعمال مهمة في مجالات تحليل السلاسل الزمنية وتعلم التمثيل ومعالجة الإشارات الإحصائية، بما في ذلك:
- الطرق الكلاسيكية للسلاسل الزمنية: PAA، SAX، DTW
- طرق التعلم العميق: TS2Vec، TS-TCC، InceptionTime
- طرق التقسيم الإحصائي: BIC، TICC
- نماذج التنبؤ: Informer، N-BEATS، Temporal Fusion Transformer
التقييم الشامل: هذه ورقة بحثية عالية الجودة في معالجة السلاسل الزمنية، حيث يُظهر طريقة STaTS المقترحة أداءً ممتازاً من حيث الأساس النظري والتحقق التجريبي والقيمة العملية. تملأ هذه الطريقة فجوة مهمة في ضغط السلاسل الزمنية الموجه للبنية، وتقدم مساهمة مهمة لمجال تحليل السلاسل الزمنية.