2025-11-23T03:16:16.407109

TARD: Test-time Domain Adaptation for Robust Fault Detection under Evolving Operating Conditions

Sun, Fink

Fault detection is essential in complex industrial systems to prevent failures and optimize performance by distinguishing abnormal from normal operating conditions. With the growing availability of condition monitoring data, data-driven approaches have increasingly applied in detecting system faults. However, these methods typically require large, diverse, and representative training datasets that capture the full range of operating scenarios, an assumption rarely met in practice, particularly in the early stages of deployment. Industrial systems often operate under highly variable and evolving conditions, making it difficult to collect comprehensive training data. This variability results in a distribution shift between training and testing data, as future operating conditions may diverge from those previously observed ones. Such domain shifts hinder the generalization of traditional models, limiting their ability to transfer knowledge across time and system instances, ultimately leading to performance degradation in practical deployments. To address these challenges, we propose a novel method for continuous test-time domain adaptation, designed to support robust early-stage fault detection in the presence of domain shifts and limited representativeness of training data. Our proposed framework --Test-time domain Adaptation for Robust fault Detection (TARD) -- explicitly separates input features into system parameters and sensor measurements. It employs a dedicated domain adaptation module to adapt to each input type using different strategies, enabling more targeted and effective adaptation to evolving operating conditions. We validate our approach on two real-world case studies from multi-phase flow facilities, delivering substantial improvements in both fault detection accuracy and model robustness over existing domain adaptation methods under real-world variability.

academic

TARD: 진화하는 운영 조건에서 강건한 고장 감지를 위한 테스트 시간 도메인 적응

기본 정보

논문 ID: 2507.16354
제목: TARD: Test-time Domain Adaptation for Robust Fault Detection under Evolving Operating Conditions
저자: Han Sun, Olga Fink (EPFL)
분류: stat.AP (통계학 - 응용)
발표 시간: 2025년 10월 13일 (arXiv v2)
논문 링크: https://arxiv.org/abs/2507.16354

초록

산업 시스템에서의 고장 감지는 고장 예방 및 성능 최적화에 필수적입니다. 상태 모니터링 데이터의 증가에 따라 데이터 기반 방법이 고장 감지에 광범위하게 적용되고 있습니다. 그러나 이러한 방법들은 일반적으로 대규모의 다양하고 대표성 있는 훈련 데이터 세트를 필요로 하는데, 이는 실제로 충족하기 어렵습니다. 특히 배포 초기 단계에서 그렇습니다. 산업 시스템은 종종 매우 변동성이 크고 지속적으로 진화하는 조건에서 작동하여 훈련 데이터와 테스트 데이터 간의 분포 편이를 초래합니다. 이러한 과제들을 해결하기 위해 본 논문은 도메인 편이 및 제한된 훈련 데이터 조건에서 강건한 조기 고장 감지를 지원하도록 특별히 설계된 새로운 연속 테스트 시간 도메인 적응 방법인 TARD를 제안합니다.

연구 배경 및 동기

핵심 문제

데이터 부족: 산업 시스템, 특히 새로 배포되거나 개조된 장비는 포괄적인 과거 데이터가 부족하며, 특히 고장 데이터는 극히 드뭅니다.
도메인 편이 과제: 서로 다른 장비 단위 간 및 동일 시스템의 서로 다른 시간대의 운영 조건에 상당한 차이가 존재하여 전통적인 기계학습의 i.i.d 가정을 위반합니다.
동적 환경: 산업 시스템은 지속적으로 진화하는 환경에서 작동하므로 이산적 도메인 적응이 아닌 연속적 적응이 필요합니다.

연구의 중요성

조기 고장 감지는 시스템 성능 최적화, 유지보수 비용 최소화 및 자산 가용성 감소에 필수적입니다.
기존 방법들은 분포 편이에 직면했을 때 높은 오경보율과 감지 정확도 저하를 초래합니다.
데이터가 풍부한 시스템에서 데이터가 부족한 새로운 시스템으로의 경험 이전을 지원하는 함대 수준의 지식 이전이 필요합니다.

기존 방법의 한계

전통적 도메인 적응 방법: 대량의 원본 도메인 및 목표 도메인 데이터가 필요하며, 일반적으로 레이블이 지정된 고장 데이터가 필요합니다.
정적 적응: 대부분의 방법은 이산적 정적 도메인 특성을 가정하여 지속적으로 진화하는 운영 조건을 처리할 수 없습니다.
테스트 시간 적응 위험: 기존 TTA 방법은 고장 패턴을 정상 행동으로 잘못 적응시킬 수 있습니다.

핵심 기여

TARD 프레임워크 제안: 비지도 고장 감지를 위해 설계된 연속 테스트 시간 도메인 적응 프레임워크로, 레이블이 지정된 고장 데이터에 완전히 독립적입니다.
혁신적 특성 분리 전략: 입력 변수를 제어 매개변수와 센서 측정값으로 명시적으로 분리하고 각 범주에 대해 전문화된 적응 전략을 적용합니다.
실용적 프레임워크: 목표 시스템의 소량의 정상 샘플만 필요하여 조기 배포 및 함대 수준의 지식 이전에 적합합니다.
실증적 검증: 두 개의 다상 흐름 설비의 실제 사례 연구에서 방법의 유효성을 검증했습니다.

방법 상세 설명

작업 정의

주어진 조건:

원본 시스템의 풍부한 정상 훈련 데이터: $X^s = [x^s_1, \cdots, x^s_n]$
목표 도메인의 제한된 정상 데이터: $X^t = [x^t_1, \cdots, x^t_m]$

목표: 목표 도메인 $t$ 에서 강건한 고장 감지 달성, 고려 사항:

두 도메인 모두 고장 훈련 데이터 부족
목표 도메인 데이터 가용성 제한
추론 과정 중 연속적 분포 편이

시스템 변수 분류

입력 데이터를 두 그룹으로 분류: $X = [x, w]$

제어 변수 $w$ : 운영자 또는 제어 시스템에 의해 설정된 시스템 조건 제어 변수
센서 측정값 $x$ : 시스템 구성 요소를 모니터링하고 실시간 시스템 상태를 반영하는 센서 신호

모델 아키텍처

1. 재구성 기반 이상 감지

원본 도메인 정상 데이터에서 훈련된 자동인코더 $f_\theta$ 를 재구성 모델로 채택: $\text{loss}_{MSE} = \frac{1}{n}\sum_{1}^{n}(X^s - \hat{X}^s)^2$

2. 테스트 시간 도메인 적응 모듈

재구성 모델을 직접 수정하지 않고 적응 모듈 $h_\phi$ 를 도입:

입력: 제어 변수 $w$ 와 사전 훈련된 자동인코더의 예측값
출력: 보정항 $\Delta x$
설계 원리: 잠재적 고장 데이터 분포로의 적응 방지

3. 주요 기술 특성

주 모델 고정: 사전 훈련된 자동인코더 $f_\theta$ 는 적응 단계에서 고정 유지
AdaBN 계층: 적응 모듈에 적응형 배치 정규화 계층 통합, 배치 통계를 기반으로 평균 및 분산 업데이트
분리된 적응: 제어 변수에만 적응을 수행하여 센서 측정의 이상 감지 능력 보호

점수 및 고장 감지 메커니즘

상대 잔차 계산

$r_i = \frac{|\hat{X}_i - X_i|}{\bar{X}_{t\_training}}$

이상 점수

$s_i = \frac{1}{k}\sum_{j=1}^{k}r_i^j + \max\sum_{j=1}^{k}r_i^j$

시간 평활

$s_{i\_smooth} = \text{mean}\sum_{q=0}^{l-1}s_{i+q}$

고장 판정

$s_{i\_smooth} > \alpha \cdot \bar{r}_{t\_training}$

실험 설정

데이터 세트

1. Cranfield 삼상 흐름 설비

모니터링 변수: 24개 공정 변수 (압력, 흐름, 액위, 밀도, 온도, 밸브 위치)
제어 변수: 공기 및 물 흐름 설정점
고장 유형: 6가지 (공기 배관 폐색, 물 배관 폐색, 상부 분리기 입구 폐색, 직접 우회 개방, 슬러그 흐름 조건, 2인치 배관 가압)
샘플링 주파수: 1 Hz

2. PRONTO 이기종 벤치마크 데이터 세트

모니터링 변수: 15개 공정 변수
운영 조건: 20가지 서로 다른 공기 및 물 흐름 조합
고장 유형: 3가지 (공기 누출, 공기 폐색, 분류)
샘플링 주파수: 1 Hz

평가 지표

정확도 (Accuracy): 전체 예측 정확률
F1 점수: 정밀도와 재현율의 조화 평균
AUC: ROC 곡선 아래 면적

비교 방법

기준선: 원본 도메인에서만 훈련된 모델
AdaBN: 적응형 배치 정규화
MMD: 최대 평균 차이

구현 세부 사항

최적화기: Adam, 학습률 1e-5
배치 크기: 128
훈련 에포크: 자동인코더 500 에포크, 적응 모듈 50 에포크
아키텍처: 인코더 및 디코더 각 3층 완전 연결, 차원 50-50-10

실험 결과

주요 결과

Cranfield 데이터 세트 결과

고장 유형	기준선	AdaBN	MMD	TARD
공기 배관 폐색	F1: 0.43	F1: 0.43	F1: 0.47	F1: 0.70
물 배관 폐색	F1: 0.67	F1: 0.62	F1: 0.69	F1: 0.76
상부 분리기 폐색	F1: 0.63	F1: 0.65	F1: 0.64	F1: 0.79
직접 우회 개방	F1: 0.53	F1: 0.60	F1: 0.56	F1: 0.69
슬러그 흐름 조건	F1: 0.85	F1: 0.88	F1: 0.89	F1: 0.92
2인치 배관 가압	F1: 0.94	F1: 0.98	F1: 1.00	F1: 1.00

PRONTO 데이터 세트 결과

고장 유형	기준선	AdaBN	MMD	TARD
공기 누출	F1: 0.62	F1: 0.36	F1: 0.51	F1: 0.76
공기 폐색	F1: 0.93	F1: 0.88	F1: 0.96	F1: 0.94
분류	F1: 0.11	F1: 0.51	F1: 0.51	F1: 0.69

절제 실험

Cranfield 상부 분리기 폐색 사례의 서로 다른 운영 조건에서:

변동 조건: TARD는 동적 환경에서 최고 성능 발휘 (F1: 0.86 vs MMD: 0.79)
정상 상태 조건: TARD는 대부분의 정상 상태 조건에서도 우위 유지

불확실성 정량화

심층 앙상블 (10개 독립 모델)을 통해 TARD 감지 결과의 높은 신뢰도를 검증했으며, 고장 감지 기간 동안 불확실성 대역이 좁게 유지됩니다 (표준편차 약 0.8).

고차원 합성 데이터 실험

100차원 센서: F1이 0.42에서 0.67로 향상
1000차원 센서: F1이 0.10에서 0.48로 향상
추론 지연: 실시간 모니터링 요구 사항 범위 내 유지 (<2ms)

결론 및 논의

주요 결론

TARD는 산업 고장 감지의 세 가지 주요 과제를 성공적으로 해결했습니다: 레이블이 지정된 고장 데이터 부족, 목표 도메인 데이터 제한, 연속적 도메인 편이
특성 분리 전략은 운영 조건 변화와 실제 고장을 효과적으로 구분합니다.
두 개의 실제 산업 데이터 세트에서 기존 도메인 적응 방법을 크게 능가합니다.

한계

매개변수 조정: 고장 감지 민감도 매개변수 α는 수동으로 설정해야 합니다.
주요 시스템 변화: 영구적 주요 시스템 변화를 처리하는 보호 메커니즘 부족
시간 동역학: 현재의 잔차 평활 전략은 중요한 시간 세부 사항을 손실할 수 있습니다.

향후 방향

자동 보호 메커니즘: 주요 도메인 편이를 감지하고 적응 모듈 재훈련을 트리거하는 방법 개발
자동 매개변수 조정: 민감도 매개변수 α를 자동으로 조정하는 방법
시계열 분석: 잔차 수열의 복잡한 패턴을 분석하기 위한 전문화된 시계열 모델 도입

심층 평가

장점

높은 실용성: 산업계에 실제로 존재하는 과제를 해결하며, 소량의 정상 데이터만 필요합니다.
기술 혁신: 특성 분리 및 전문화된 적응 전략의 설계가 정교하고 효과적입니다.
충분한 실험: 두 개의 실제 산업 데이터 세트 + 고차원 합성 데이터의 포괄적 검증
이론적 기초: 명확한 문제 정의 및 방법 동기

부족한 점

적용 범위: 주로 다상 흐름 시스템에서 검증되었으며, 다른 산업 시스템으로의 일반화 가능성은 미지수입니다.
이론적 분석: 방법의 수렴성 및 안정성에 대한 이론적 보장 부족
계산 오버헤드: 추론 시간을 보고했지만 상세한 계산 복잡도 분석 부족
초매개변수 민감성: 주요 초매개변수 (예: α, 윈도우 길이 l)에 대한 민감도 분석 부족

영향력

학술적 기여: 산업 고장 감지 분야에 새로운 연구 방향 제시
실용적 가치: 산업 배포에 직접 적용 가능하며, 특히 새 장비의 조기 모니터링에 적합
재현성: 상세한 구현 세부 사항 및 알고리즘 설명 제공

적용 시나리오

새로 배포된 시스템: 과거 데이터가 제한된 산업 장비
함대 관리: 장비 간 지식 이전이 필요한 시나리오
동적 환경: 운영 조건이 지속적으로 변화하는 산업 시스템
중요 기반 시설: 오경보에 민감한 중요 산업 시스템

참고문헌

논문은 51개의 관련 문헌을 인용하며, 고장 감지, 도메인 적응, 심층 학습 등 핵심 분야의 중요한 연구를 포함하여 연구에 견고한 이론적 기초를 제공합니다.

종합 평가: 이는 도메인 적응 기술을 산업 고장 감지라는 중요한 실제 문제에 성공적으로 적용한 고품질의 응용 통계학 논문입니다. 방법 설계가 합리적이고 실험 검증이 충분하며, 매우 강한 실용적 가치와 학술적 의의를 갖고 있습니다.