2025-11-25T18:04:18.517311

COGNOS: Universal Enhancement for Time Series Anomaly Detection via Constrained Gaussian-Noise Optimization and Smoothing

Shang, Chang
Reconstruction-based methods are a dominant paradigm in time series anomaly detection (TSAD), however, their near-universal reliance on Mean Squared Error (MSE) loss results in statistically flawed reconstruction residuals. This fundamental weakness leads to noisy, unstable anomaly scores with a poor signal-to-noise ratio, hindering reliable detection. To address this, we propose Constrained Gaussian-Noise Optimization and Smoothing (COGNOS), a universal, model-agnostic enhancement framework that tackles this issue at its source. COGNOS introduces a novel Gaussian-White Noise Regularization strategy during training, which directly constrains the model's output residuals to conform to a Gaussian white noise distribution. This engineered statistical property creates the ideal precondition for our second contribution: a Kalman Smoothing Post-processor that provably operates as a statistically optimal estimator to denoise the raw anomaly scores. The synergy between these two components allows COGNOS to robustly separate the true anomaly signal from random fluctuations. Extensive experiments demonstrate that COGNOS is highly effective, delivering an average F-score uplift of 57.9% when applied to 12 diverse backbone models across multiple real-world benchmark datasets. Our work reveals that directly regularizing output statistics is a powerful and generalizable strategy for significantly improving anomaly detection systems.
academic

COGNOS : Amélioration Universelle pour la Détection d'Anomalies dans les Séries Temporelles via Optimisation de Bruit Gaussien Contraint et Lissage

Informations Fondamentales

  • ID de l'article : 2511.06894
  • Titre : COGNOS: Universal Enhancement for Time Series Anomaly Detection via Constrained Gaussian-Noise Optimization and Smoothing
  • Auteurs : Wenlong Shang, Peng Chang (Université Technologique de Pékin)
  • Classification : cs.LG cs.AI
  • Date de soumission : 10 novembre 2025 sur arXiv
  • Lien de l'article : https://arxiv.org/abs/2511.06894

Résumé

Cet article propose le cadre COGNOS pour résoudre le problème fondamental de la détection d'anomalies dans les séries temporelles (TSAD) basée sur les méthodes de reconstruction : les résidus de reconstruction défectueux causés par la perte MSE. Le cadre utilise une stratégie de régularisation par bruit blanc gaussien pendant la phase d'entraînement, contraignant directement les résidus de sortie du modèle à suivre une distribution de bruit blanc gaussien, et combine un post-processeur de lissage de Kalman pour un débruitage optimal. Sur 12 modèles de base différents et plusieurs ensembles de données réelles, COGNOS réalise une amélioration moyenne du F-score de 57,9 %, démontrant que la régularisation directe des propriétés statistiques de sortie est une stratégie puissante et généralisable.

Contexte et Motivation de la Recherche

1. Problème Fondamental

La détection d'anomalies dans les séries temporelles est cruciale dans la surveillance de la fabrication industrielle, la sécurité des systèmes financiers et la maintenance des infrastructures informatiques. Les méthodes auto-supervisées basées sur la reconstruction sont devenues le paradigme dominant, mais présentent des défauts fondamentaux :

  • Résidus avec défauts statistiques : Les résidus de reconstruction produits par l'entraînement MSE standard présentent des propriétés statistiques non idéales (non-gaussiennes, avec corrélation temporelle)
  • Faible rapport signal-bruit : Les scores d'anomalie bruts sont bruyants et instables, rendant difficile la distinction entre les vraies anomalies et les fluctuations aléatoires
  • Modélisation incomplète : Le modèle ne sépare pas complètement les motifs déterministes du bruit aléatoire

2. Importance du Problème

Comme le montre la Figure 1, le Transformer entraîné avec MSE standard sur l'ensemble de données SWaT présente trois problèmes clés :

  • Les scores d'anomalie sont hautement bruyants avec un faible rapport signal-bruit
  • Le graphique Q-Q montre que les résidus sont fortement non-gaussiens
  • Le graphique d'autocorrélation montre une corrélation temporelle significative des résidus

Ces défauts statistiques affectent directement les performances de détection d'anomalies, entraînant des taux élevés de faux positifs et de faux négatifs.

3. Limitations des Méthodes Existantes

  • Méthodes d'apprentissage contrastif : Bien qu'elles puissent apprendre des représentations plus discriminantes, elles sont généralement couplées à des architectures spécifiques et ne résolvent pas directement les propriétés statistiques des résidus finaux
  • Techniques de filtrage et régularisation :
    • Les méthodes intégrant des filtres créent de nouvelles architectures hybrides, manquant d'universalité
    • La régularisation dans l'espace latent (comme SVD, cohérence périodique) n'agit pas directement sur les résidus de sortie
  • Absence de solution théoriquement optimale de post-traitement

4. Motivation de la Recherche

Cet article propose de résoudre le problème à la source : ingéniérer directement les propriétés statistiques des résidus de sortie pour créer des conditions idéales pour le débruitage optimal ultérieur.

Contributions Fondamentales

  1. Proposition d'une stratégie de régularisation par bruit blanc gaussien (GWNR) : Pour la première fois, contraindre directement les résidus de reconstruction à suivre une distribution de bruit blanc gaussien, un paradigme fondamentalement différent des méthodes contrastives existantes axées sur la représentation
  2. Conception d'un post-processeur de lissage de Kalman : Travaillant en synergie avec GWNR, utilisant les propriétés de résidus ingéniérées pour réaliser un débruitage théoriquement optimal, améliorant significativement la stabilité des scores d'anomalie
  3. Preuve de l'indépendance du modèle et de l'efficacité :
    • Cadre d'amélioration universelle applicable à tout modèle de reconstruction
    • Amélioration moyenne du F-score de 57,9 % sur 12 architectures différentes (attention, fusion temps-fréquence, CNN-MLP)
    • Validation sur 4 ensembles de données de référence réelles (MSL, SMAP, SWaT, PSM)
  4. Révélation d'une nouvelle direction d'amélioration : Démonstration que la régularisation directe des propriétés statistiques de sortie est plus efficace que les améliorations d'architecture ou de représentation traditionnelles

Détails de la Méthode

Définition de la Tâche

Entrée : Série temporelle multivariée xRL×D\mathbf{x} \in \mathbb{R}^{L \times D} (longueur LL, dimension DD)
Entraînement : Utilisation uniquement de données normales pour apprendre la variété des données
Sortie : Score d'anomalie pour chaque point temporel, pour identifier les points s'écartant des motifs normaux
Objectif : Générer des scores d'anomalie avec un rapport signal-bruit élevé et statistiquement optimaux

Architecture du Modèle

COGNOS est un cadre en deux étapes (Figure 2) :

Étape 1 : Phase d'Entraînement - Régularisation par Bruit Blanc Gaussien (GWNR)

Fonction de perte globale : LTotal=LAWL(LMSE,LMMD,LACF)L_{Total} = L_{AWL}(L_{MSE}, L_{MMD}, L_{ACF})

où la perte à pondération automatique (AWL) équilibre dynamiquement trois composants.

1. Perte de Reconstruction (LMSEL_{MSE}) : LMSE=1RrRr2L_{MSE} = \frac{1}{|R|}\sum_{r \in R} r^2R=xx^R = \mathbf{x} - \hat{\mathbf{x}} sont les résidus de reconstruction, assurant une reconstruction haute fidélité.

2. Régularisation de Gaussianité (LMMDL_{MMD}) : Utilisation de la divergence maximale moyenne (MMD) pour contraindre la distribution des résidus à s'approcher d'une distribution gaussienne cible N(0,σ2)\mathcal{N}(0, \sigma^{*2}) :

LMMD=1R2pi,pjRκ(pi,pj)+1S2qi,qjSκ(qi,qj)2RSpiR,qjSκ(pi,qj)L_{MMD} = \frac{1}{|R|^2}\sum_{p_i,p_j \in R}\kappa(p_i, p_j) + \frac{1}{|S|^2}\sum_{q_i,q_j \in S}\kappa(q_i, q_j) - \frac{2}{|R||S|}\sum_{p_i \in R, q_j \in S}\kappa(p_i, q_j)

La fonction noyau utilise RBF multi-bande : κ(a,b)=j=1Mexp(ab22(Bjσ)2)\kappa(a,b) = \sum_{j=1}^M \exp\left(-\frac{\|a-b\|^2}{2(B_j\sigma^*)^2}\right)

Multiplicateurs de bande {Bj}={0.1,0.5,1.0,2.0,5.0}\{B_j\} = \{0.1, 0.5, 1.0, 2.0, 5.0\}, σ=eω\sigma^* = e^\omega (paramètre apprenable).

Points d'innovation :

  • Méthode non-paramétrique, robustesse élevée
  • Apprentissage adaptatif du niveau de bruit
  • Pénalisation des biais systématiques et structures complexes

3. Régularisation de Bruit Blanc (LACFL_{ACF}) : Pénalisation de la corrélation temporelle, somme des carrés des coefficients d'autocorrélation pour les 10 premiers décalages :

LACF=kNlagEb,d[(ρk,b,d)2]L_{ACF} = \sum_{k \in N_{lag}} \mathbb{E}_{b,d}[(\rho_{k,b,d})^2]

où le coefficient d'autocorrélation au décalage kk : ρk,b,d=l=k+1L(rb,l,dμb,d)(rb,lk,dμb,d)l=1L(rb,l,dμb,d)2\rho_{k,b,d} = \frac{\sum_{l=k+1}^L (r_{b,l,d} - \mu_{b,d})(r_{b,l-k,d} - \mu_{b,d})}{\sum_{l=1}^L (r_{b,l,d} - \mu_{b,d})^2}

Justification de la conception : L'observation empirique montre que les corrélations les plus significatives apparaissent aux décalages précoces, Nlag={1,...,10}N_{lag}=\{1,...,10\} équilibrant l'efficacité et le coût computationnel.

Étape 2 : Phase d'Inférence - Post-processeur de Lissage de Kalman

Fondement théorique : Le filtre de Kalman est un estimateur linéaire prouvé optimal lorsque le processus de bruit est de moyenne zéro, non corrélé (bruit blanc) et gaussien. Les résidus créés par GWNR satisfont exactement ces conditions.

Modèle d'espace d'état :

undefined