2025-11-23T03:16:16.407109

TARD: Test-time Domain Adaptation for Robust Fault Detection under Evolving Operating Conditions

Sun, Fink
Fault detection is essential in complex industrial systems to prevent failures and optimize performance by distinguishing abnormal from normal operating conditions. With the growing availability of condition monitoring data, data-driven approaches have increasingly applied in detecting system faults. However, these methods typically require large, diverse, and representative training datasets that capture the full range of operating scenarios, an assumption rarely met in practice, particularly in the early stages of deployment. Industrial systems often operate under highly variable and evolving conditions, making it difficult to collect comprehensive training data. This variability results in a distribution shift between training and testing data, as future operating conditions may diverge from those previously observed ones. Such domain shifts hinder the generalization of traditional models, limiting their ability to transfer knowledge across time and system instances, ultimately leading to performance degradation in practical deployments. To address these challenges, we propose a novel method for continuous test-time domain adaptation, designed to support robust early-stage fault detection in the presence of domain shifts and limited representativeness of training data. Our proposed framework --Test-time domain Adaptation for Robust fault Detection (TARD) -- explicitly separates input features into system parameters and sensor measurements. It employs a dedicated domain adaptation module to adapt to each input type using different strategies, enabling more targeted and effective adaptation to evolving operating conditions. We validate our approach on two real-world case studies from multi-phase flow facilities, delivering substantial improvements in both fault detection accuracy and model robustness over existing domain adaptation methods under real-world variability.
academic

TARD: Test-time Domain Adaptation for Robust Fault Detection under Evolving Operating Conditions

基本信息

  • 论文ID: 2507.16354
  • 标题: TARD: Test-time Domain Adaptation for Robust Fault Detection under Evolving Operating Conditions
  • 作者: Han Sun, Olga Fink (EPFL)
  • 分类: stat.AP (Statistics - Applications)
  • 发表时间: 2025年10月13日 (arXiv v2)
  • 论文链接: https://arxiv.org/abs/2507.16354

摘要

工业系统中的故障检测对于预防失效和优化性能至关重要。随着状态监测数据的日益丰富,数据驱动方法在故障检测中得到广泛应用。然而,这些方法通常需要大规模、多样化且具有代表性的训练数据集,这在实践中很难满足,特别是在部署初期。工业系统往往在高度可变和不断演化的条件下运行,导致训练和测试数据之间存在分布偏移。为解决这些挑战,本文提出了一种新颖的连续测试时域适应方法TARD,专门设计用于在域偏移和有限训练数据条件下支持鲁棒的早期故障检测。

研究背景与动机

核心问题

  1. 数据稀缺性: 工业系统,特别是新部署或翻新的设备,缺乏全面的历史数据,尤其是故障数据极其稀缺
  2. 域偏移挑战: 不同设备单元之间以及同一系统在不同时间的操作条件存在显著差异,违反了传统机器学习的i.i.d假设
  3. 动态环境: 工业系统在持续演化的环境中运行,需要连续适应而非离散的域适应

研究重要性

  • 早期故障检测对于优化系统性能、最小化维护成本和减少资产不可用性至关重要
  • 现有方法在面对分布偏移时容易产生高误报率和检测精度下降
  • 需要支持舰队级知识转移,从数据丰富的系统向数据稀缺的新系统转移经验

现有方法局限性

  1. 传统域适应方法: 需要大量源域和目标域数据,且通常需要标记的故障数据
  2. 静态适应: 大多数方法假设离散的静态域特征,无法处理连续演化的操作条件
  3. 测试时适应风险: 现有TTA方法可能错误地将故障模式适应为正常行为

核心贡献

  1. 提出TARD框架: 一种专为无监督故障检测设计的连续测试时域适应框架,完全不依赖标记的故障数据
  2. 创新的特征分离策略: 明确将输入变量分为控制参数和传感器测量值,并为每类采用专门的适应策略
  3. 实用性框架: 仅需目标系统的少量正常样本,适合早期部署和舰队级知识转移
  4. 实证验证: 在两个多相流设施的真实案例研究中验证了方法的有效性

方法详解

任务定义

给定:

  • 源系统的丰富健康训练数据:Xs=[x1s,,xns]X^s = [x^s_1, \cdots, x^s_n]
  • 目标域的有限正常数据:Xt=[x1t,,xmt]X^t = [x^t_1, \cdots, x^t_m]

目标:在目标域tt中实现鲁棒的故障检测,考虑:

  • 两个域都缺乏故障训练数据
  • 目标域数据可用性有限
  • 推理过程中的连续分布偏移

系统变量分类

将输入数据分为两组:X=[x,w]X = [x, w]

  • 控制变量 ww:操作员或控制系统设置的系统条件控制变量
  • 传感器测量值 xx:监测系统组件并反映实时系统状态的传感器信号

模型架构

1. 重构基础异常检测

采用自编码器fθf_\theta作为重构模型,在源域正常数据上训练: lossMSE=1n1n(XsX^s)2\text{loss}_{MSE} = \frac{1}{n}\sum_{1}^{n}(X^s - \hat{X}^s)^2

2. 测试时域适应模块

引入适应模块hϕh_\phi,而非直接修改重构模型:

  • 输入: 控制变量ww和预训练自编码器的预测值
  • 输出: 补偿项Δx\Delta x
  • 设计原理: 避免适应到潜在的故障数据分布

3. 关键技术特点

  • 冻结主模型: 预训练的自编码器fθf_\theta在适应阶段保持冻结
  • AdaBN层: 在适应模块中集成自适应批归一化层,基于批统计更新均值和方差
  • 分离适应: 仅对控制变量进行适应,保护传感器测量的异常检测能力

评分和故障检测机制

相对残差计算

ri=X^iXiXˉt_trainingr_i = \frac{|\hat{X}_i - X_i|}{\bar{X}_{t\_training}}

异常评分

si=1kj=1krij+maxj=1krijs_i = \frac{1}{k}\sum_{j=1}^{k}r_i^j + \max\sum_{j=1}^{k}r_i^j

时间平滑

si_smooth=meanq=0l1si+qs_{i\_smooth} = \text{mean}\sum_{q=0}^{l-1}s_{i+q}

故障判定

si_smooth>αrˉt_trainings_{i\_smooth} > \alpha \cdot \bar{r}_{t\_training}

实验设置

数据集

1. Cranfield三相流设施

  • 监测变量: 24个过程变量(压力、流量、液位、密度、温度、阀位)
  • 控制变量: 空气和水流量设定点
  • 故障类型: 6种(空气管路阻塞、水管路阻塞、顶部分离器输入阻塞、直接旁路开启、段塞流条件、2英寸管路加压)
  • 采样频率: 1 Hz

2. PRONTO异构基准数据集

  • 监测变量: 15个过程变量
  • 操作条件: 20种不同的空气和水流量组合
  • 故障类型: 3种(空气泄漏、空气阻塞、分流)
  • 采样频率: 1 Hz

评价指标

  • 准确率 (Accuracy): 整体预测正确率
  • F1分数: 精确率和召回率的调和平均
  • AUC: ROC曲线下面积

对比方法

  • Baseline: 仅在源域训练的模型
  • AdaBN: 自适应批归一化
  • MMD: 最大均值差异

实现细节

  • 优化器: Adam,学习率1e-5
  • 批大小: 128
  • 训练轮数: 自编码器500轮,适应模块50轮
  • 架构: 编码器和解码器各3层全连接,维度50-50-10

实验结果

主要结果

Cranfield数据集结果

故障类型BaselineAdaBNMMDTARD
空气管路阻塞F1: 0.43F1: 0.43F1: 0.47F1: 0.70
水管路阻塞F1: 0.67F1: 0.62F1: 0.69F1: 0.76
顶部分离器阻塞F1: 0.63F1: 0.65F1: 0.64F1: 0.79
直接旁路开启F1: 0.53F1: 0.60F1: 0.56F1: 0.69
段塞流条件F1: 0.85F1: 0.88F1: 0.89F1: 0.92
2英寸管路加压F1: 0.94F1: 0.98F1: 1.00F1: 1.00

PRONTO数据集结果

故障类型BaselineAdaBNMMDTARD
空气泄漏F1: 0.62F1: 0.36F1: 0.51F1: 0.76
空气阻塞F1: 0.93F1: 0.88F1: 0.96F1: 0.94
分流F1: 0.11F1: 0.51F1: 0.51F1: 0.69

消融实验

在Cranfield顶部分离器阻塞案例的不同操作条件下:

  • 变化条件: TARD在动态环境中表现最佳(F1: 0.86 vs MMD: 0.79)
  • 稳态条件: TARD在大多数稳态条件下也保持优势

不确定性量化

通过深度集成(10个独立模型)验证了TARD检测结果的高置信度,在故障检测期间不确定性带保持较窄(标准差约0.8)。

高维合成数据实验

  • 100维传感器: F1从0.42提升到0.67
  • 1000维传感器: F1从0.10提升到0.48
  • 推理延迟: 保持在实时监测要求范围内(<2ms)

相关工作

故障检测方法

  1. 概率模型: 高斯混合模型、能量基模型
  2. 一类分类: 支持向量机等判别边界方法
  3. 重构方法: 自编码器等基于重构误差的方法

舰队级故障检测

  • 同质化子舰队: 基于相似性聚类的方法
  • 功能表示学习: 学习整体舰队行为的方法
  • 局限性: 依赖足够的相似性假设

域适应在故障检测中的应用

  • 差异最小化方法: MMD等统计距离最小化
  • 对抗方法: DANN等域判别网络
  • 测试时适应: Tent、SHOT等方法
  • 挑战: 需要标记数据、假设静态域、可能适应到故障数据

结论与讨论

主要结论

  1. TARD成功解决了工业故障检测中的三大挑战:缺乏标记故障数据、目标域数据有限、连续域偏移
  2. 特征分离策略有效区分了操作条件变化和实际故障
  3. 在两个真实工业数据集上显著优于现有域适应方法

局限性

  1. 参数调节: 故障检测敏感性参数α需要手动设置
  2. 重大系统变化: 缺乏处理永久性重大系统变化的保护机制
  3. 时间动态: 当前的残差平滑策略可能丢失重要的时间细节

未来方向

  1. 自动保护机制: 开发检测重大域偏移并触发适应模块重训练的方法
  2. 自适应参数调节: 自动调整敏感性参数α的方法
  3. 时间序列分析: 引入专门的时间序列模型分析残差序列中的复杂模式

深度评价

优点

  1. 实用性强: 解决了工业界真实存在的挑战,仅需少量正常数据
  2. 技术创新: 特征分离和专门适应策略的设计巧妙且有效
  3. 实验充分: 两个真实工业数据集 + 高维合成数据的全面验证
  4. 理论基础: 清晰的问题定义和方法动机

不足

  1. 适用范围: 主要验证了多相流系统,其他工业系统的泛化性有待验证
  2. 理论分析: 缺乏对方法收敛性和稳定性的理论保证
  3. 计算开销: 虽然报告了推理时间,但缺乏详细的计算复杂度分析
  4. 超参数敏感性: 对关键超参数(如α、窗口长度l)的敏感性分析不足

影响力

  1. 学术贡献: 为工业故障检测领域提供了新的研究方向
  2. 实用价值: 直接适用于工业部署,特别是新设备的早期监测
  3. 可复现性: 提供了详细的实现细节和算法描述

适用场景

  1. 新部署系统: 历史数据有限的工业设备
  2. 舰队管理: 需要跨设备知识转移的场景
  3. 动态环境: 操作条件持续变化的工业系统
  4. 关键基础设施: 对误报敏感的重要工业系统

参考文献

论文引用了51篇相关文献,涵盖了故障检测、域适应、深度学习等核心领域的重要工作,为研究提供了坚实的理论基础。


总体评价: 这是一篇高质量的应用统计学论文,成功将域适应技术应用于工业故障检测这一重要实际问题。方法设计合理,实验验证充分,具有很强的实用价值和学术意义。