2025-11-25T18:04:18.517311

COGNOS: Universal Enhancement for Time Series Anomaly Detection via Constrained Gaussian-Noise Optimization and Smoothing

Shang, Chang

Reconstruction-based methods are a dominant paradigm in time series anomaly detection (TSAD), however, their near-universal reliance on Mean Squared Error (MSE) loss results in statistically flawed reconstruction residuals. This fundamental weakness leads to noisy, unstable anomaly scores with a poor signal-to-noise ratio, hindering reliable detection. To address this, we propose Constrained Gaussian-Noise Optimization and Smoothing (COGNOS), a universal, model-agnostic enhancement framework that tackles this issue at its source. COGNOS introduces a novel Gaussian-White Noise Regularization strategy during training, which directly constrains the model's output residuals to conform to a Gaussian white noise distribution. This engineered statistical property creates the ideal precondition for our second contribution: a Kalman Smoothing Post-processor that provably operates as a statistically optimal estimator to denoise the raw anomaly scores. The synergy between these two components allows COGNOS to robustly separate the true anomaly signal from random fluctuations. Extensive experiments demonstrate that COGNOS is highly effective, delivering an average F-score uplift of 57.9% when applied to 12 diverse backbone models across multiple real-world benchmark datasets. Our work reveals that directly regularizing output statistics is a powerful and generalizable strategy for significantly improving anomaly detection systems.

academic

COGNOS: Universal Enhancement for Time Series Anomaly Detection via Constrained Gaussian-Noise Optimization and Smoothing

基本信息

论文ID: 2511.06894
标题: COGNOS: Universal Enhancement for Time Series Anomaly Detection via Constrained Gaussian-Noise Optimization and Smoothing
作者: Wenlong Shang, Peng Chang (Beijing University of Technology)
分类: cs.LG cs.AI
发表时间: 2025年11月10日提交至arXiv
论文链接: https://arxiv.org/abs/2511.06894

摘要

本文针对时间序列异常检测（TSAD）中基于重构方法的核心问题：MSE损失导致的统计缺陷重构残差，提出了COGNOS框架。该框架通过训练阶段的高斯白噪声正则化策略，直接约束模型输出残差符合高斯白噪声分布，并结合卡尔曼平滑后处理器进行最优去噪。在12个不同骨干模型和多个真实数据集上，COGNOS实现了平均57.9%的F-score提升，证明了直接正则化输出统计特性是一种强大且可泛化的策略。

研究背景与动机

1. 核心问题

时间序列异常检测在工业制造监控、金融系统安全和IT基础设施维护等领域至关重要。基于重构的自监督方法已成为主流范式，但存在根本性缺陷：

统计缺陷的残差：标准MSE训练产生的重构残差具有不理想的统计特性（非高斯、存在时间相关性）
低信噪比：原始异常分数噪声大、不稳定，难以区分真实异常和随机波动
未充分建模：模型未能完全分离确定性模式和随机噪声

2. 问题重要性

如图1所示，标准MSE训练的Transformer在SWaT数据集上表现出三个关键问题：

异常分数高度嘈杂，信噪比差
Q-Q图显示残差强烈非高斯
自相关图显示残差存在显著时间相关性

这些统计缺陷直接影响异常检测性能，导致误报率高、漏检率高。

3. 现有方法局限

对比学习方法：虽然能学习更具判别性的表示，但通常与特定架构耦合，且不直接解决最终残差的统计特性问题
滤波和正则化技术：
- 集成滤波器的方法创建新的混合架构，缺乏通用性
- 潜在空间正则化（如SVD、周期一致性）不直接作用于输出残差
缺乏理论最优的后处理方案

4. 研究动机

本文提出从源头解决问题：直接工程化输出残差的统计特性，为后续最优去噪创造理想前提条件。

核心贡献

提出高斯白噪声正则化（GWNR）策略：首次直接约束重构残差符合高斯白噪声分布，这是与现有表示聚焦的对比方法根本不同的范式
设计卡尔曼平滑后处理器：与GWNR协同工作，利用工程化的残差特性实现理论最优去噪，显著提升异常分数稳定性
证明模型无关性和有效性：
- 可应用于任意重构模型的通用增强框架
- 在12个不同架构（注意力、时频融合、CNN-MLP）上平均F-score提升57.9%
- 在4个真实基准数据集（MSL、SMAP、SWaT、PSM）上验证
揭示新的改进方向：证明直接正则化输出统计特性比传统架构或表示改进更有效

方法详解

任务定义

输入：多变量时间序列 $\mathbf{x} \in \mathbb{R}^{L \times D}$ （长度 $L$ ，维度 $D$ ）
训练：仅使用正常数据学习数据流形
输出：每个时间点的异常分数，用于识别偏离正常模式的点
目标：生成高信噪比、统计最优的异常分数

模型架构

COGNOS是一个两阶段框架（图2）：

阶段1：训练阶段 - 高斯白噪声正则化（GWNR）

总体目标函数： $L_{Total} = L_{AWL}(L_{MSE}, L_{MMD}, L_{ACF})$

其中使用自动加权损失（AWL）动态平衡三个组件。

1. 重构损失（ $L_{MSE}$ ）： $L_{MSE} = \frac{1}{|R|}\sum_{r \in R} r^2$ 其中 $R = \mathbf{x} - \hat{\mathbf{x}}$ 是重构残差，确保高保真重构。

2. 高斯性正则化（ $L_{MMD}$ ）：使用最大均值差异（MMD）约束残差分布接近目标高斯分布 $\mathcal{N}(0, \sigma^{*2})$ ：

$L_{MMD} = \frac{1}{|R|^2}\sum_{p_i,p_j \in R}\kappa(p_i, p_j) + \frac{1}{|S|^2}\sum_{q_i,q_j \in S}\kappa(q_i, q_j) - \frac{2}{|R||S|}\sum_{p_i \in R, q_j \in S}\kappa(p_i, q_j)$

核函数采用多带宽RBF： $\kappa(a,b) = \sum_{j=1}^M \exp\left(-\frac{\|a-b\|^2}{2(B_j\sigma^*)^2}\right)$

带宽乘数 $\{B_j\} = \{0.1, 0.5, 1.0, 2.0, 5.0\}$ ， $\sigma^* = e^\omega$ （可学习参数）。

创新点：

非参数方法，鲁棒性强
自适应学习噪声水平
惩罚系统偏差和复杂结构

3. 白噪声正则化（ $L_{ACF}$ ）：惩罚时间相关性，对前10个滞后的自相关系数平方求和：

$L_{ACF} = \sum_{k \in N_{lag}} \mathbb{E}_{b,d}[(\rho_{k,b,d})^2]$

其中滞后 $k$ 的自相关系数： $\rho_{k,b,d} = \frac{\sum_{l=k+1}^L (r_{b,l,d} - \mu_{b,d})(r_{b,l-k,d} - \mu_{b,d})}{\sum_{l=1}^L (r_{b,l,d} - \mu_{b,d})^2}$

设计依据：经验观察显示最显著相关性出现在早期滞后， $N_{lag}=\{1,...,10\}$ 平衡效果和计算成本。

阶段2：推理阶段 - 卡尔曼平滑后处理器

理论基础：卡尔曼滤波器在噪声过程为零均值、不相关（白噪声）和高斯分布时，是可证明的最优线性估计器。GWNR创造的残差恰好满足这些条件。

状态空间模型：