2025-11-20T07:19:14.926764

STaTS: Structure-Aware Temporal Sequence Summarization via Statistical Window Merging

Bhowmick, Ramanathan, Aakur
Time series data often contain latent temporal structure, transitions between locally stationary regimes, repeated motifs, and bursts of variability, that are rarely leveraged in standard representation learning pipelines. Existing models typically operate on raw or fixed-window sequences, treating all time steps as equally informative, which leads to inefficiencies, poor robustness, and limited scalability in long or noisy sequences. We propose STaTS, a lightweight, unsupervised framework for Structure-Aware Temporal Summarization that adaptively compresses both univariate and multivariate time series into compact, information-preserving token sequences. STaTS detects change points across multiple temporal resolutions using a BIC-based statistical divergence criterion, then summarizes each segment using simple functions like the mean or generative models such as GMMs. This process achieves up to 30x sequence compression while retaining core temporal dynamics. STaTS operates as a model-agnostic preprocessor and can be integrated with existing unsupervised time series encoders without retraining. Extensive experiments on 150+ datasets, including classification tasks on the UCR-85, UCR-128, and UEA-30 archives, and forecasting on ETTh1 and ETTh2, ETTm1, and Electricity, demonstrate that STaTS enables 85-90\% of the full-model performance while offering dramatic reductions in computational cost. Moreover, STaTS improves robustness under noise and preserves discriminative structure, outperforming uniform and clustering-based compression baselines. These results position STaTS as a principled, general-purpose solution for efficient, structure-aware time series modeling.
academic

STaTS: تلخيص التسلسل الزمني الموجه للبنية من خلال دمج النوافذ الإحصائية

المعلومات الأساسية

  • معرّف الورقة: 2510.09593
  • العنوان: STaTS: Structure-Aware Temporal Sequence Summarization via Statistical Window Merging
  • المؤلفون: Disharee Bhowmick, Ranjith Ramanathan, Sathyanarayanan N. Aakur
  • التصنيف: cs.LG (تعلم الآلة)، cs.CV (رؤية الحاسوب)
  • تاريخ النشر: أكتوبر 2025
  • رابط الورقة: https://arxiv.org/abs/2510.09593

الملخص

تحتوي بيانات السلاسل الزمنية عادةً على بنية زمنية كامنة، مثل الانتقالات بين الحالات المستقرة محلياً والأنماط المتكررة والانفجارات المتغيرة، لكن هذه البنية نادراً ما يتم الاستفادة منها في خطوط سير العمل القياسية لتعلم التمثيل. عادةً ما تتعامل النماذج الموجودة مع السلاسل الأولية أو ذات النوافذ الثابتة، مما يعامل جميع الخطوات الزمنية على قدم المساواة، مما يؤدي إلى عدم الكفاءة والقوة الضعيفة وقابلية التوسع المحدودة في السلاسل الطويلة أو الضوضائية. تقترح هذه الورقة STaTS، إطار عمل خفيف الوزن وغير خاضع للإشراف لتلخيص السلاسل الزمنية الموجه للبنية، والذي يمكنه ضغط السلاسل الزمنية أحادية المتغير ومتعددة المتغيرات بشكل تكيفي إلى تسلسلات رموز مدمجة وحافظة على المعلومات.

الخلفية البحثية والدافع

تعريف المشكلة

تنتشر بيانات السلاسل الزمنية على نطاق واسع في المجالات المالية والإنترنت والرعاية الصحية وغيرها. مع تقدم تكنولوجيا الاستشعار، يزداد طول وتعقيد السلاسل الزمنية المسجلة بسرعة، مما يفرض متطلبات حسابية ضخمة على أطر عمل فهم السلاسل القائمة على تعلم الآلة.

قيود الطرق الموجودة

  1. الطرق التقليدية: مثل PAA (التقريب التجميعي المقسم)، SAX (التقريب التجميعي الرمزي)، DTW (التشويه الزمني الديناميكي) وغيرها حققت تلخيصاً فعالاً، لكنها تعتمد على النوافذ الموحدة أو الترميز الرمزي الصارم، مما يتجاهل التغييرات الديناميكية في تعقيد الإشارة
  2. طرق التعلم العميق: مثل TS2Vec و TS-TCC تعالج السلاسل الكاملة أو تطبق نوافذ منزلقة، دون الأخذ في الاعتبار التغييرات الدلالية، مما يؤدي إلى التكرار والنفقات الحسابية والعدم المحاذاة بين رموز النموذج والتحولات الحقيقية للإشارة

الدافع البحثي

تواجه الطرق الموجودة المشاكل التالية:

  • قد تؤدي استراتيجية النافذة الثابتة إلى الإفراط في تقسيم المناطق المستقرة، بينما تقسم المناطق المعقدة بشكل غير كافٍ
  • في ظروف الضوضاء، يميل المدخل الموحد المعالج إلى تضخيم الأنماط الكاذبة وتقليل القدرة على التعميم
  • يؤدي الافتقار إلى الوعي بالبنية إلى عدم الكفاءة ونشر الأخطاء

المساهمات الأساسية

  1. اقتراح إطار عمل STaTS: إطار عمل ترميز موجه للبنية يعتمد على معيار كشف التغيير القائم على BIC لتحديد القطاعات المتماسكة إحصائياً على مقاييس زمنية متعددة
  2. خط أنابيب تلخيص معياري خفيف الوزن: ضغط السلاسل الزمنية بأكثر من 30 مرة مع الحفاظ على الأنماط المهمة، مما يحقق نمذجة فعالة للمصب
  3. طريقة غير خاضعة للإشراف وغير مرتبطة بالنموذج: بدون تغييرات معمارية أو ضبط قائم على التدرجات، متوافقة مباشرة مع أجهزة ترميز السلاسل الزمنية الموجودة (مثل TS2Vec)
  4. واجهة موحدة: قابلة للتطبيق على مهام التصنيف والتنبؤ والقوة، كأداة معالجة مسبقة عامة لتلخيص السلاسل الزمنية

شرح الطريقة

تعريف المهمة

بالنظر إلى سلسلة زمنية متعددة المتغيرات XRT×dX \in \mathbb{R}^{T \times d} (حيث TT هو عدد الخطوات الزمنية و dd هو البعد)، الهدف هو تحويل XX إلى سلسلة أقصر X~RT×d\tilde{X} \in \mathbb{R}^{T' \times d}، حيث TTT' \ll T، مع الحفاظ على البنية الأساسية المطلوبة للمهام اللاحقة.

معمارية النموذج

1. مرحلة التقسيم (الترميز)

كشف التماسك متعدد المقاييس:

  • استخدام BIC (معيار المعلومات البايزي) لتقييم التشابه الإحصائي للنوافذ الزمنية المجاورة
  • للنوافذ المجاورة x1,x2Rδ×dx_1, x_2 \in \mathbb{R}^{\delta \times d}، احسب:

ΔBIC=2(jointsep)+klog(2δ)\Delta BIC = -2(\ell_{joint} - \ell_{sep}) + k \log(2\delta)

حيث:

  • sep=δ2(logΣ1+logΣ2)\ell_{sep} = -\frac{\delta}{2}(\log|\Sigma_1| + \log|\Sigma_2|)
  • joint=δlogΣ12\ell_{joint} = -\delta \log|\Sigma_{12}|
  • k=d+d(d+1)2k = d + \frac{d(d+1)}{2} (عدد المعاملات الحرة لنموذج التباين المشترك الكامل)

الدالة الهدف العامة: LBIC({Si})=i=1T(Si2logΣi+k2logSi)L_{BIC}(\{S_i\}) = \sum_{i=1}^{T'} \left(-\frac{|S_i|}{2}\log|\Sigma_i| + \frac{k}{2}\log|S_i|\right)

التقييم متعدد المقاييس:

  • تقييم التماسك الإحصائي على كل قيمة δ\delta ضمن نطاق محدد مسبقاً
  • استخدام عتبة تكيفية μδ+ασδ\mu_\delta + \alpha \cdot \sigma_\delta لتحديد نقاط التقسيم المرشحة
  • القضاء على الكشف المكرر من خلال الكبح غير الأقصى

2. مرحلة التلخيص (الملخص)

دالة التلخيص: ϕ(Si)=1Sit=τi1τi1xt\phi(S_i) = \frac{1}{|S_i|} \sum_{t=\tau_{i-1}}^{\tau_i-1} x_t

استخدام تجميع المتوسط كعملية تلخيص افتراضية، التقاط خصائص الإحصائيات من الدرجة الأولى للقطاع.

نقاط الابتكار التقني

  1. التقسيم التكيفي: على عكس طرق النافذة الثابتة، يقوم STaTS بتعديل حدود القطاع ديناميكياً بناءً على التغييرات الإحصائية المحلية
  2. الامتداد متعدد المتغيرات: التوسع الطبيعي إلى السلاسل الزمنية متعددة المتغيرات من خلال مصفوفة التباين المشترك الكاملة
  3. الكشف متعدد المقاييس: كشف التغييرات في دقة زمنية مختلفة، التقاط الانفجارات قصيرة الأجل والتغييرات التدريجية طويلة الأجل
  4. الصحة الإحصائية: تحت افتراض غاوسي متعدد المتغيرات، متوسط القطاع إحصائية كافية

إعداد التجارب

مجموعات البيانات

  1. التصنيف أحادي المتغير: UCR-128 (128 مجموعة بيانات) و UCR-85 (85 مجموعة بيانات)
  2. التصنيف متعدد المتغيرات: UEA-30 (30 مجموعة بيانات)
  3. التنبؤ متعدد المتغيرات: ETTh1، ETTh2، ETTm1، Electricity

مؤشرات التقييم

  • مهام التصنيف: متوسط الدقة والترتيب المتوسط
  • مهام التنبؤ: متوسط الخطأ التربيعي المعياري (nMSE)

طرق المقارنة

  • خطوط أساس التصنيف: T-Loss، TNC، TS-TCC، TST، DTW، TS2Vec
  • متغيرات الضغط: TS2Vec (موحد)، TS2Vec (GMM)
  • خطوط أساس التنبؤ: Informer، TCN

تفاصيل التنفيذ

  • نطاق حجم النافذة: δ{5,10,...,500}\delta \in \{5, 10, ..., 500\}
  • معامل العتبة: α=2\alpha = 2
  • الحد الأدنى لمسافة الفصل: smin=20s_{min} = 20
  • الاستقرار العددي: تنظيم التباين المشترك ϵ=106\epsilon = 10^{-6}

نتائج التجارب

النتائج الرئيسية

أداء التصنيف أحادي المتغير

النموذجدقة UCR-85ترتيب UCR-85دقة UCR-128ترتيب UCR-128متوسط الطول
TS2Vec (الأصلي)0.8291.990.8292.02424.4/534.5
TS2Vec (المتوسط)0.7394.820.7414.3912.1/12.9
TS2Vec (موحد)0.6218.210.6168.1012.1/12.9
TS2Vec (GMM)0.6557.350.6646.9260.7/73.2

النتائج الرئيسية:

  • يحقق STaTS ضغطاً بمعامل 33، مع الحفاظ على حوالي 90% من الأداء الأصلية
  • يتفوق بشكل ملحوظ على خطوط الأساس الموحدة و GMM

قوة مقاومة الضوضاء

النموذجUCR-85 (ضوضاء)UCR-128 (ضوضاء)
TS2Vec (الأصلي)0.3360.412
TS2Vec (المتوسط)0.5810.603
TS2Vec (موحد)0.4750.485
TS2Vec (GMM)0.5050.522

الاكتشاف المهم: في ظروف الضوضاء، لا يحافظ STaTS فقط على ميزة تنافسية، بل يتفوق بشكل ملحوظ على نماذج الدقة الكاملة.

التصنيف متعدد المتغيرات

  • TS2Vec (المتوسط): دقة 0.622، ترتيب 4.70، ضغط 20 مرة
  • يتفوق على جميع متغيرات الضغط، مع الحفاظ على الأداء التنافسية مع النموذج الأصلي

التنبؤ بالسلاسل الزمنية

في التنبؤ طويل الأجل (H=720)، يطابق STaTS أو يتفوق على TS2Vec الأصلي في مجموعات بيانات متعددة، مع تحقيق ضغط بمعامل 15.

تجارب الاستئصال

  1. مقارنة استراتيجيات التقسيم: التقسيم الإحصائي > تقسيم GMM > التقسيم الموحد
  2. التقييم متعدد المقاييس: الكشف متعدد المقاييس يتفوق على المقياس الواحد
  3. دوال التلخيص: تجميع المتوسط يحقق أفضل أداء في معظم المهام

تحليل الحالات

يُظهر التحليل النوعي أن STaTS يتتبع اتجاهات الإشارة الحقيقية بشكل أفضل في التنبؤ طويل الأجل، مما يقلل من الحاجيات الاهتزازية، خاصة في نطاقات التنبؤ الطويلة جداً (H=720).

الأعمال ذات الصلة

تصنيف السلاسل الزمنية

  • الطرق الكلاسيكية: shapelets، BOSS وغيرها من الطرق القائمة على الرموز
  • التعلم العميق: FCN، ResNet، InceptionTime وغيرها
  • الطرق المجمعة: HIVE-COTE وغيرها

التنبؤ بالسلاسل الزمنية

  • الاختراقات المبكرة: LSTM من تسلسل إلى تسلسل
  • الطرق الحديثة: DeepAR، N-BEATS، Temporal Fusion Transformer
  • آليات الانتباه: Informer وطرق الانتباه الضعيفة الأخرى

تلخيص السلاسل الزمنية

  • الطرق التقليدية: PAA، SAX (محدودة بالمتغير الواحد والطول الثابت)
  • الطرق الحديثة: TICC (مكلفة حسابياً، تتطلب حل التحسين)
  • مزايا STaTS: خفيفة الوزن، غير مرتبطة بالنموذج، دعم متعدد المتغيرات

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. يحقق STaTS ضغطاً فعالاً للسلاسل الزمنية موجه للبنية، مع تحقيق ضغط بمعامل 30 مع الحفاظ على 85-90% من الأداء
  2. يُظهر أداءً ممتازاً في ظروف الضوضاء، مما يوفر تأثير إزالة ضوضاء ضمني
  3. كمعالج مسبق غير مرتبط بالنموذج، يمكن دمجه بسلاسة في الأطر الموجودة

القيود

  1. الافتراضات الإحصائية: يفترض التماسك الإحصائي المحلي ضمن القطاعات، قد يؤدي إلى أداء ضعيفة في الأنظمة الديناميكية المفاجئة أو الفوضوية
  2. غير نهائي: لا يستخدم التغذية الراجعة القائمة على التدرجات للتكيف مع استراتيجية الضغط
  3. حساسية المعاملات: يتطلب ضبط نطاق حجم النافذة ومعاملات العتبة

الاتجاهات المستقبلية

  1. الإعدادات عبر الإنترنت/البث: التوسع إلى التلخيص في الوقت الفعلي والنشر على الحافة
  2. البيانات متعددة الأنماط: التكامل في شبكات الاستشعار أو البيانات الهرمية مثل الفيديو
  3. التعلم التكيفي: أنظمة التعلم التكيفي النهائية تحت انجراف التوزيع أو انجراف المفهوم

التقييم المتعمق

المزايا

  1. الابتكار في الطريقة: أول تطبيق لمعيار BIC متعدد المقاييس على التقسيم التكيفي للسلاسل الزمنية متعددة المتغيرات
  2. شمول التجارب: تقييم واسع على أكثر من 150 مجموعة بيانات، يغطي مهام التصنيف والتنبؤ
  3. القيمة العملية: تحسن كبير في الكفاءة الحسابية (ضغط 30 مرة) مع فقدان أداء ضئيل
  4. القوة: الأداء الممتازة في ظروف الضوضاء تثبت الجدوى العملية للطريقة

أوجه القصور

  1. نقص التحليل النظري: غياب الضمانات النظرية حول متى ولماذا يتفوق STaTS على الطرق الأخرى
  2. اختيار المعاملات: اختيار معاملات متعددة يفتقر إلى التوجيه المنهجي
  3. قيود السيناريوهات المطبقة: لم يتم التحقق الكافي من قابلية التطبيق على السلاسل الزمنية غير المنتظمة أو غير الثابتة بشدة
  4. تحليل التعقيد الحسابي: غياب تحليل تفصيلي لتعقيد الوقت

التأثير

  1. المساهمة الأكاديمية: توفير منظور إحصائي جديد لضغط السلاسل الزمنية
  2. القيمة العملية: قابلة للتطبيق المباشر في البيئات ذات الموارد المحدودة ومعالجة السلاسل الزمنية على نطاق واسع
  3. قابلية الاستنساخ: وصف الطريقة واضح، تفاصيل التنفيذ كافية

السيناريوهات المطبقة

  1. معالجة السلاسل الطويلة: مناسبة بشكل خاص للسلاسل الزمنية ذات الطول غير المنتظم
  2. البيئات الضوضائية: أداء ممتازة في السيناريوهات عالية الضوضاء
  3. الموارد المحدودة: مناسبة لأجهزة الحافة أو الأنظمة في الوقت الفعلي ذات الموارد المحدودة
  4. أداة المعالجة المسبقة: كمعالج مسبق عام لنماذج السلاسل الزمنية الموجودة

المراجع

تستشهد الورقة بأعمال مهمة في مجالات تحليل السلاسل الزمنية وتعلم التمثيل ومعالجة الإشارات الإحصائية، بما في ذلك:

  • الطرق الكلاسيكية للسلاسل الزمنية: PAA، SAX، DTW
  • طرق التعلم العميق: TS2Vec، TS-TCC، InceptionTime
  • طرق التقسيم الإحصائي: BIC، TICC
  • نماذج التنبؤ: Informer، N-BEATS، Temporal Fusion Transformer

التقييم الشامل: هذه ورقة بحثية عالية الجودة في معالجة السلاسل الزمنية، حيث يُظهر طريقة STaTS المقترحة أداءً ممتازاً من حيث الأساس النظري والتحقق التجريبي والقيمة العملية. تملأ هذه الطريقة فجوة مهمة في ضغط السلاسل الزمنية الموجه للبنية، وتقدم مساهمة مهمة لمجال تحليل السلاسل الزمنية.