2025-11-23T03:16:16.407109

TARD: Test-time Domain Adaptation for Robust Fault Detection under Evolving Operating Conditions

Sun, Fink

Fault detection is essential in complex industrial systems to prevent failures and optimize performance by distinguishing abnormal from normal operating conditions. With the growing availability of condition monitoring data, data-driven approaches have increasingly applied in detecting system faults. However, these methods typically require large, diverse, and representative training datasets that capture the full range of operating scenarios, an assumption rarely met in practice, particularly in the early stages of deployment. Industrial systems often operate under highly variable and evolving conditions, making it difficult to collect comprehensive training data. This variability results in a distribution shift between training and testing data, as future operating conditions may diverge from those previously observed ones. Such domain shifts hinder the generalization of traditional models, limiting their ability to transfer knowledge across time and system instances, ultimately leading to performance degradation in practical deployments. To address these challenges, we propose a novel method for continuous test-time domain adaptation, designed to support robust early-stage fault detection in the presence of domain shifts and limited representativeness of training data. Our proposed framework --Test-time domain Adaptation for Robust fault Detection (TARD) -- explicitly separates input features into system parameters and sensor measurements. It employs a dedicated domain adaptation module to adapt to each input type using different strategies, enabling more targeted and effective adaptation to evolving operating conditions. We validate our approach on two real-world case studies from multi-phase flow facilities, delivering substantial improvements in both fault detection accuracy and model robustness over existing domain adaptation methods under real-world variability.

academic

TARD: 進化する運転条件下での堅牢な故障検出のためのテスト時域適応

基本情報

論文ID: 2507.16354
タイトル: TARD: Test-time Domain Adaptation for Robust Fault Detection under Evolving Operating Conditions
著者: Han Sun, Olga Fink (EPFL)
分類: stat.AP (統計学 - 応用)
発表日: 2025年10月13日 (arXiv v2)
論文リンク: https://arxiv.org/abs/2507.16354

概要

産業システムにおける故障検出は、障害の予防とパフォーマンス最適化に不可欠である。状態監視データの増加に伴い、データ駆動型手法が故障検出に広く応用されている。しかし、これらの手法は通常、大規模で多様性があり代表性を持つ訓練データセットを必要とするが、これは実務では達成困難であり、特に展開初期段階では困難である。産業システムはしばしば高度に可変で進化し続ける条件下で動作し、訓練データとテストデータ間に分布シフトが生じる。これらの課題に対処するため、本論文は域シフトと限定的な訓練データの条件下で堅牢な早期故障検出を支援するために特別に設計された、新規な連続テスト時域適応手法TARDを提案する。

研究背景と動機

中核的な問題

データ稀少性: 産業システム、特に新規展開または改修された機器は包括的な履歴データを欠いており、特に故障データは極めて稀少である
域シフトの課題: 異なる機器ユニット間および同一システムの異なる時間における運転条件に顕著な差異が存在し、従来の機械学習のi.i.d仮定に違反する
動的環境: 産業システムは継続的に進化する環境で動作し、離散的な域適応ではなく連続的な適応が必要である

研究の重要性

早期故障検出はシステムパフォーマンスの最適化、保守コストの最小化、資産の利用不可時間の削減に不可欠である
既存手法は分布シフトに直面する際、高い誤報率と検出精度の低下を招きやすい
フリート規模の知識転移を支援する必要があり、データ豊富なシステムからデータ稀少な新規システムへの経験転移が必要である

既存手法の限界

従来の域適応手法: 大量のソース域およびターゲット域データを必要とし、通常はラベル付き故障データが必要である
静的適応: ほとんどの手法は離散的な静的域特性を仮定し、継続的に進化する運転条件に対応できない
テスト時適応のリスク: 既存のTTA手法は故障パターンを正常動作に誤って適応させる可能性がある

中核的な貢献

TARDフレームワークの提案: ラベル付き故障データに全く依存しない、無監督故障検出のために設計された連続テスト時域適応フレームワーク
革新的な特徴分離戦略: 入力変数を制御パラメータとセンサー測定値に明示的に分離し、各カテゴリに対して専門的な適応戦略を採用
実用的フレームワーク: ターゲットシステムの少量の正常サンプルのみを必要とし、早期展開とフリート規模の知識転移に適している
実証的検証: 2つの多相流設備の実際のケーススタディで手法の有効性を検証

手法の詳細

タスク定義

与えられるもの：

ソースシステムの豊富な健全性訓練データ: $X^s = [x^s_1, \cdots, x^s_n]$
ターゲット域の限定的な正常データ: $X^t = [x^t_1, \cdots, x^t_m]$

目標：以下を考慮してターゲット域 $t$ で堅牢な故障検出を実現する：

両域とも故障訓練データが不足している
ターゲット域のデータ利用可能性が限定的である
推論プロセス中の継続的な分布シフト

システム変数の分類

入力データを2つのグループに分割: $X = [x, w]$

制御変数 $w$ : オペレータまたは制御システムによって設定されるシステム条件制御変数
センサー測定値 $x$ : システムコンポーネントを監視し、リアルタイムシステム状態を反映するセンサー信号

モデルアーキテクチャ

1. 再構成ベースの異常検出

ソース域正常データで訓練された再構成モデルとして自己符号化器 $f_\theta$ を採用： $\text{loss}_{MSE} = \frac{1}{n}\sum_{1}^{n}(X^s - \hat{X}^s)^2$

2. テスト時域適応モジュール

再構成モデルを直接修正するのではなく、適応モジュール $h_\phi$ を導入：

入力: 制御変数 $w$ と事前訓練済み自己符号化器の予測値
出力: 補正項 $\Delta x$
設計原理: 潜在的な故障データ分布への適応を回避

3. 主要な技術的特徴

主モデルの凍結: 事前訓練済み自己符号化器 $f_\theta$ は適応段階で凍結状態を保つ
AdaBN層: 適応モジュール内に適応的バッチ正規化層を統合し、バッチ統計に基づいて平均と分散を更新
分離適応: 制御変数に対してのみ適応を実施し、センサー測定値の異常検出能力を保護

スコアリングと故障検出メカニズム

相対残差の計算

$r_i = \frac{|\hat{X}_i - X_i|}{\bar{X}_{t\_training}}$

異常スコア

$s_i = \frac{1}{k}\sum_{j=1}^{k}r_i^j + \max\sum_{j=1}^{k}r_i^j$

時間平滑化

$s_{i\_smooth} = \text{mean}\sum_{q=0}^{l-1}s_{i+q}$

故障判定

$s_{i\_smooth} > \alpha \cdot \bar{r}_{t\_training}$

実験設定

データセット

1. Cranfield三相流設備

監視変数: 24個のプロセス変数（圧力、流量、液位、密度、温度、弁位置）
制御変数: 空気および水流量設定値
故障タイプ: 6種類（空気配管閉塞、水配管閉塞、上部セパレータ入口閉塞、直接バイパス開放、スラグフロー条件、2インチ配管加圧）
サンプリング周波数: 1 Hz

2. PRONTO異種ベンチマークデータセット

監視変数: 15個のプロセス変数
運転条件: 20種類の異なる空気および水流量組み合わせ
故障タイプ: 3種類（空気漏洩、空気閉塞、分流）
サンプリング周波数: 1 Hz

評価指標

精度 (Accuracy): 全体的な予測正確率
F1スコア: 適合率と再現率の調和平均
AUC: ROC曲線下面積

比較手法

ベースライン: ソース域のみで訓練されたモデル
AdaBN: 適応的バッチ正規化
MMD: 最大平均差異

実装詳細

最適化器: Adam、学習率1e-5
バッチサイズ: 128
訓練エポック数: 自己符号化器500エポック、適応モジュール50エポック
アーキテクチャ: エンコーダおよびデコーダ各3層の全結合層、次元50-50-10

実験結果

主要な結果

Cranfieldデータセットの結果

故障タイプ	ベースライン	AdaBN	MMD	TARD
空気配管閉塞	F1: 0.43	F1: 0.43	F1: 0.47	F1: 0.70
水配管閉塞	F1: 0.67	F1: 0.62	F1: 0.69	F1: 0.76
上部セパレータ閉塞	F1: 0.63	F1: 0.65	F1: 0.64	F1: 0.79
直接バイパス開放	F1: 0.53	F1: 0.60	F1: 0.56	F1: 0.69
スラグフロー条件	F1: 0.85	F1: 0.88	F1: 0.89	F1: 0.92
2インチ配管加圧	F1: 0.94	F1: 0.98	F1: 1.00	F1: 1.00