2025-11-20T07:19:14.926764

STaTS: Structure-Aware Temporal Sequence Summarization via Statistical Window Merging

Bhowmick, Ramanathan, Aakur
Time series data often contain latent temporal structure, transitions between locally stationary regimes, repeated motifs, and bursts of variability, that are rarely leveraged in standard representation learning pipelines. Existing models typically operate on raw or fixed-window sequences, treating all time steps as equally informative, which leads to inefficiencies, poor robustness, and limited scalability in long or noisy sequences. We propose STaTS, a lightweight, unsupervised framework for Structure-Aware Temporal Summarization that adaptively compresses both univariate and multivariate time series into compact, information-preserving token sequences. STaTS detects change points across multiple temporal resolutions using a BIC-based statistical divergence criterion, then summarizes each segment using simple functions like the mean or generative models such as GMMs. This process achieves up to 30x sequence compression while retaining core temporal dynamics. STaTS operates as a model-agnostic preprocessor and can be integrated with existing unsupervised time series encoders without retraining. Extensive experiments on 150+ datasets, including classification tasks on the UCR-85, UCR-128, and UEA-30 archives, and forecasting on ETTh1 and ETTh2, ETTm1, and Electricity, demonstrate that STaTS enables 85-90\% of the full-model performance while offering dramatic reductions in computational cost. Moreover, STaTS improves robustness under noise and preserves discriminative structure, outperforming uniform and clustering-based compression baselines. These results position STaTS as a principled, general-purpose solution for efficient, structure-aware time series modeling.
academic

STaTS: Strukturbewusste zeitliche Sequenzzusammenfassung durch statistische Fenstermerging

Grundinformationen

  • Paper-ID: 2510.09593
  • Titel: STaTS: Structure-Aware Temporal Sequence Summarization via Statistical Window Merging
  • Autoren: Disharee Bhowmick, Ranjith Ramanathan, Sathyanarayanan N. Aakur
  • Klassifizierung: cs.LG (Maschinelles Lernen), cs.CV (Computervision)
  • Veröffentlichungszeitpunkt: Oktober 2025
  • Paper-Link: https://arxiv.org/abs/2510.09593

Zusammenfassung

Zeitreihendaten enthalten typischerweise zugrunde liegende zeitliche Strukturen wie Übergänge zwischen lokalen stationären Zuständen, wiederholte Muster und Variabilitätsspitzen, die jedoch in standardmäßigen Darstellungslernverfahren selten genutzt werden. Bestehende Modelle verarbeiten typischerweise rohe oder Sequenzen mit festen Fenstern und behandeln alle Zeitschritte als gleich wichtig, was zu Ineffizienz, schlechter Robustheit und begrenzter Skalierbarkeit bei langen oder verrauschten Sequenzen führt. Dieses Paper präsentiert STaTS, ein leichtgewichtiges unüberwachtes Framework für strukturbewusste Zeitreihenzusammenfassung, das univariate und multivariate Zeitreihen adaptiv in kompakte, informationserhaltende Token-Sequenzen komprimiert.

Forschungshintergrund und Motivation

Problemdefinition

Zeitreihendaten sind in den Bereichen Finanzen, Internet der Dinge, Medizin und anderen Domänen weit verbreitet. Mit dem Fortschritt der Sensortechnologie wachsen die Länge und Komplexität aufgezeichneter Zeitreihen schnell und stellen enorme Rechenanforderungen an auf maschinellem Lernen basierende Sequenzverständnisrahmen.

Einschränkungen bestehender Methoden

  1. Traditionelle Methoden: Wie PAA (Piecewise Aggregate Approximation), SAX (Symbolic Aggregate approXimation), DTW (Dynamic Time Warping) usw. erzielen effektive Zusammenfassungen, sind jedoch auf einheitliche Fensterung oder starre symbolische Kodierung angewiesen und ignorieren dynamische Veränderungen der Signalkomplexität
  2. Deep-Learning-Methoden: Wie TS2Vec und TS-TCC verarbeiten vollständige Sequenzen oder wenden gleitende Fenster an, ohne semantische Veränderungen zu berücksichtigen, was zu Redundanz, Rechenaufwand und Fehlausrichtung zwischen Modell-Tokenisierung und echten Signalübergängen führt

Forschungsmotivation

Bestehende Methoden weisen folgende Probleme auf:

  • Strategien mit festen Fenstern können stabile Bereiche übermäßig unterteilen, während komplexe Bereiche unterteilt sind
  • Unter Rauschbedingungen neigt die einheitliche Verarbeitung von Eingaben dazu, falsche Muster zu verstärken und die Verallgemeinerungsfähigkeit zu verringern
  • Mangelnde Strukturbewusstheit führt zu Ineffizienz und Fehlerausbreitung

Kernbeiträge

  1. Präsentation des STaTS-Frameworks: Ein strukturbewusstes Tokenisierungs-Framework, das auf BIC-basierten Änderungserkennungskriterien basiert und statistisch kohärente Segmente auf mehreren Zeitskalen identifiziert
  2. Modulare leichtgewichtige Zusammenfassungs-Pipeline: Komprimiert Zeitreihen um mehr als das 30-fache, während signifikante Muster erhalten bleiben, und ermöglicht effiziente nachgelagerte Modellierung
  3. Modellunabhängige unüberwachte Methode: Keine Architekturänderungen oder gradientenbasierte Optimierung erforderlich; direkt kompatibel mit bestehenden Zeitreihen-Encodern wie TS2Vec
  4. Einheitliche Schnittstelle: Anwendbar auf Klassifizierungs-, Vorhersage- und Robustheitsaufgaben als universelles Zeitreihen-Zusammenfassungs-Vorverarbeitungswerkzeug

Methodische Details

Aufgabendefinition

Gegeben eine multivariate Zeitreihe XRT×dX \in \mathbb{R}^{T \times d} (wobei TT die Anzahl der Zeitschritte und dd die Dimensionalität ist), besteht das Ziel darin, XX in eine kürzere Sequenz X~RT×d\tilde{X} \in \mathbb{R}^{T' \times d} umzuwandeln, wobei TTT' \ll T, während die zugrunde liegende Struktur erhalten bleibt, die für nachgelagerte Aufgaben erforderlich ist.

Modellarchitektur

1. Segmentierungsphase (Tokenisierung)

Mehrskalige Kohärenzenerkennung:

  • Verwendet BIC (Bayesian Information Criterion) zur Bewertung der statistischen Ähnlichkeit benachbarter Zeitfenster
  • Für benachbarte Fenster x1,x2Rδ×dx_1, x_2 \in \mathbb{R}^{\delta \times d} wird berechnet:

ΔBIC=2(jointsep)+klog(2δ)\Delta BIC = -2(\ell_{joint} - \ell_{sep}) + k \log(2\delta)

wobei:

  • sep=δ2(logΣ1+logΣ2)\ell_{sep} = -\frac{\delta}{2}(\log|\Sigma_1| + \log|\Sigma_2|)
  • joint=δlogΣ12\ell_{joint} = -\delta \log|\Sigma_{12}|
  • k=d+d(d+1)2k = d + \frac{d(d+1)}{2} (Anzahl der freien Parameter des vollständigen Kovarianzmodells)

Globale Zielfunktion: LBIC({Si})=i=1T(Si2logΣi+k2logSi)L_{BIC}(\{S_i\}) = \sum_{i=1}^{T'} \left(-\frac{|S_i|}{2}\log|\Sigma_i| + \frac{k}{2}\log|S_i|\right)

Mehrskalige Bewertung:

  • Bewertet statistische Kohärenz für jeden δ\delta-Wert innerhalb eines vordefinierten Bereichs
  • Verwendet adaptive Schwelle μδ+ασδ\mu_\delta + \alpha \cdot \sigma_\delta zur Identifizierung von Kandidaten-Segmentierungspunkten
  • Eliminiert redundante Erkennungen durch Nicht-Maximum-Unterdrückung

2. Zusammenfassungsphase (Summarization)

Zusammenfassungsfunktion: ϕ(Si)=1Sit=τi1τi1xt\phi(S_i) = \frac{1}{|S_i|} \sum_{t=\tau_{i-1}}^{\tau_i-1} x_t

Verwendet Mittelwert-Pooling als Standard-Zusammenfassungsoperation, um die Statistiken erster Ordnung des Segments zu erfassen.

Technische Innovationen

  1. Adaptive Segmentierung: Im Gegensatz zu Methoden mit festen Fenstern passt STaTS Segmentgrenzen dynamisch basierend auf lokalen statistischen Veränderungen an
  2. Multivariate Erweiterung: Erweitert sich natürlich auf multivariate Zeitreihen durch vollständige Kovarianzmatrizen
  3. Mehrskalige Erkennung: Erkennt Veränderungen bei verschiedenen zeitlichen Auflösungen und erfasst sowohl kurzfristige Sprünge als auch langfristige Übergänge
  4. Statistische Validität: Unter multivariaten Gaußschen Annahmen sind Segment-Mittelwerte ausreichende Statistiken

Experimentelle Einrichtung

Datensätze

  1. Univariate Klassifizierung: UCR-128 (128 Datensätze) und UCR-85 (85 Datensätze)
  2. Multivariate Klassifizierung: UEA-30 (30 Datensätze)
  3. Multivariate Vorhersage: ETTh1, ETTh2, ETTm1, Electricity

Bewertungsmetriken

  • Klassifizierungsaufgaben: Durchschnittliche Genauigkeit und durchschnittliches Ranking
  • Vorhersageaufgaben: Normalisierter mittlerer quadratischer Fehler (nMSE)

Vergleichsmethoden

  • Klassifizierungs-Baselines: T-Loss, TNC, TS-TCC, TST, DTW, TS2Vec
  • Kompressionsvarianten: TS2Vec (uniform), TS2Vec (GMM)
  • Vorhersage-Baselines: Informer, TCN

Implementierungsdetails

  • Fenstergrößenbereich: δ{5,10,...,500}\delta \in \{5, 10, ..., 500\}
  • Schwellenparameter: α=2\alpha = 2
  • Minimale Trennungsdistanz: smin=20s_{min} = 20
  • Numerische Stabilität: Kovarianz-Regularisierung ϵ=106\epsilon = 10^{-6}

Experimentelle Ergebnisse

Hauptergebnisse

Univariate Klassifizierungsleistung

ModellUCR-85 GenauigkeitUCR-85 RankingUCR-128 GenauigkeitUCR-128 RankingDurchschnittliche Länge
TS2Vec (ori)0,8291,990,8292,02424,4/534,5
TS2Vec (mean)0,7394,820,7414,3912,1/12,9
TS2Vec (uniform)0,6218,210,6168,1012,1/12,9
TS2Vec (GMM)0,6557,350,6646,9260,7/73,2

Wichtigste Erkenntnisse:

  • STaTS erreicht 33-fache Kompression und behält etwa 90% der ursprünglichen Leistung bei
  • Deutlich überlegen gegenüber einheitlichen Segmentierungs- und GMM-Baselines

Rausch-Robustheit

ModellUCR-85 (Rauschen)UCR-128 (Rauschen)
TS2Vec (ori)0,3360,412
TS2Vec (mean)0,5810,603
TS2Vec (uniform)0,4750,485
TS2Vec (GMM)0,5050,522

Wichtige Erkenntnisse: Unter Rauschbedingungen behält STaTS nicht nur einen Wettbewerbsvorteil, sondern ist auch deutlich überlegen gegenüber Modellen mit vollständiger Auflösung.

Multivariate Klassifizierung

  • TS2Vec (mean): Genauigkeit 0,622, Ranking 4,70, 20-fache Kompression
  • Überlegen gegenüber allen Kompressionsvarianten, behält Wettbewerbsfähigkeit mit dem ursprünglichen Modell

Zeitreihen-Vorhersage

Bei langfristiger Vorhersage (H=720) entspricht oder übertrifft STaTS das ursprüngliche TS2Vec auf mehreren Datensätzen, während gleichzeitig 15-fache Kompression erreicht wird.

Ablationsstudien

  1. Segmentierungsstrategie-Vergleich: Statistische Segmentierung > GMM-Segmentierung > Einheitliche Segmentierung
  2. Mehrskalige Bewertung: Mehrskalige Erkennung überlegen gegenüber einzelner Skala
  3. Zusammenfassungsfunktion: Mittelwert-Pooling zeigt in den meisten Aufgaben die beste Leistung

Fallstudien

Qualitative Analysen zeigen, dass STaTS bei langfristiger Vorhersage echte Signaltrends besser verfolgt, Oszillationsartefakte reduziert und besonders bei extrem langen Vorhersagebereichen (H=720) hervorragende Leistungen zeigt.

Verwandte Arbeiten

Zeitreihen-Klassifizierung

  • Klassische Methoden: Shapelets, BOSS und andere symbolbasierte Methoden
  • Deep Learning: FCN, ResNet, InceptionTime usw.
  • Ensemble-Methoden: HIVE-COTE usw.

Zeitreihen-Vorhersage

  • Frühe Durchbrüche: Sequence-to-Sequence LSTM
  • Moderne Methoden: DeepAR, N-BEATS, Temporal Fusion Transformer
  • Aufmerksamkeitsmechanismen: Informer und andere Sparse-Attention-Methoden

Zeitreihen-Zusammenfassung

  • Traditionelle Methoden: PAA, SAX (begrenzt auf univariat, feste Länge)
  • Moderne Methoden: TICC (rechenintensiv, erfordert Optimierungslösung)
  • Vorteile von STaTS: Leichtgewichtig, modellunabhängig, multivariate Unterstützung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. STaTS erreicht effiziente strukturbewusste Zeitreihenkompression und erreicht 30-fache Kompression bei Beibehaltung von 85-90% der Leistung
  2. Zeigt hervorragende Leistung unter Rauschbedingungen und bietet implizite Entrauschungseffekte
  3. Als modellunabhängiger Vorverarbeiter kann es nahtlos in bestehende Frameworks integriert werden

Einschränkungen

  1. Statistische Annahmen: Setzt lokale statistische Kohärenz innerhalb von Segmenten voraus; kann bei dynamischen Sprüngen oder chaotischen Systemen schlecht abschneiden
  2. Nicht end-to-end: Verwendet kein gradientenbasiertes Feedback zur Anpassung der Kompressionsstrategie
  3. Parameterempfindlichkeit: Erfordert Anpassung des Fenstergrößenbereichs und der Schwellenparameter

Zukünftige Richtungen

  1. Online-/Streaming-Einstellungen: Erweiterung auf Echtzeit-Zusammenfassung und Edge-Bereitstellung
  2. Multimodale Daten: Integration in Sensornetzwerke oder hierarchische Daten wie Videos
  3. Adaptives Lernen: End-to-End-Adaptivlernungssysteme unter Verteilungsversatz oder Konzeptdrift

Tiefgreifende Bewertung

Stärken

  1. Methodische Innovation: Erstmalige Anwendung mehrskaliger BIC-Kriterien auf adaptive Segmentierung multivariater Zeitreihen
  2. Umfassende Experimente: Umfangreiche Bewertung auf 150+ Datensätzen, abdeckend Klassifizierungs- und Vorhersageaufgaben
  3. Praktischer Wert: Signifikante Verbesserung der Recheneffizienz (30-fache Kompression) mit minimalem Leistungsverlust
  4. Robustheit: Hervorragende Leistung unter Rauschbedingungen demonstriert praktische Anwendbarkeit

Mängel

  1. Unzureichende theoretische Analyse: Fehlende theoretische Garantien darüber, wann und warum STaTS anderen Methoden überlegen ist
  2. Parameterauswahl: Systematische Anleitung zur Auswahl mehrerer Hyperparameter fehlt
  3. Begrenzte Anwendungsszenarien: Anwendbarkeit auf hochgradig unregelmäßige oder nicht-stationäre Zeitreihen nicht ausreichend validiert
  4. Komplexitätsanalyse: Detaillierte Zeitkomplexitätsanalyse fehlt

Auswirkungen

  1. Akademischer Beitrag: Bietet neue statistische Perspektive auf Zeitreihenkompression
  2. Praktischer Wert: Direkt anwendbar auf ressourcenbegrenzte Umgebungen und großflächige Zeitreihenverarbeitung
  3. Reproduzierbarkeit: Klare Methodenbeschreibung mit ausreichenden Implementierungsdetails

Anwendungsszenarien

  1. Verarbeitung langer Sequenzen: Besonders geeignet für Zeitreihen mit unregelmäßiger Länge
  2. Rauschige Umgebungen: Hervorragende Leistung in hochrauschigen Szenarien
  3. Ressourcenbegrenzte Umgebungen: Geeignet für Edge-Geräte oder Echtzeitsysteme mit begrenzten Rechenressourcen
  4. Vorverarbeitungswerkzeug: Universeller Vorverarbeiter für bestehende Zeitreihenmodelle

Literaturverzeichnis

Das Paper zitiert wichtige Arbeiten aus den Bereichen Zeitreihenanalyse, Darstellungslernen und statistische Signalverarbeitung, einschließlich:

  • Klassische Zeitreihenmethoden: PAA, SAX, DTW
  • Deep-Learning-Methoden: TS2Vec, TS-TCC, InceptionTime
  • Statistische Segmentierungsmethoden: BIC, TICC
  • Vorhersagemodelle: Informer, N-BEATS, Temporal Fusion Transformer

Gesamtbewertung: Dies ist ein hochqualitatives Zeitreihenverarbeitungs-Paper, das die STaTS-Methode mit hervorragender Leistung in theoretischer Grundlage, experimenteller Validierung und praktischem Wert präsentiert. Die Methode füllt eine wichtige Lücke in der strukturbewussten Zeitreihenkompression und leistet einen bedeutenden Beitrag zum Bereich der Zeitreihenanalyse.