2025-11-23T03:16:16.407109

TARD: Test-time Domain Adaptation for Robust Fault Detection under Evolving Operating Conditions

Sun, Fink
Fault detection is essential in complex industrial systems to prevent failures and optimize performance by distinguishing abnormal from normal operating conditions. With the growing availability of condition monitoring data, data-driven approaches have increasingly applied in detecting system faults. However, these methods typically require large, diverse, and representative training datasets that capture the full range of operating scenarios, an assumption rarely met in practice, particularly in the early stages of deployment. Industrial systems often operate under highly variable and evolving conditions, making it difficult to collect comprehensive training data. This variability results in a distribution shift between training and testing data, as future operating conditions may diverge from those previously observed ones. Such domain shifts hinder the generalization of traditional models, limiting their ability to transfer knowledge across time and system instances, ultimately leading to performance degradation in practical deployments. To address these challenges, we propose a novel method for continuous test-time domain adaptation, designed to support robust early-stage fault detection in the presence of domain shifts and limited representativeness of training data. Our proposed framework --Test-time domain Adaptation for Robust fault Detection (TARD) -- explicitly separates input features into system parameters and sensor measurements. It employs a dedicated domain adaptation module to adapt to each input type using different strategies, enabling more targeted and effective adaptation to evolving operating conditions. We validate our approach on two real-world case studies from multi-phase flow facilities, delivering substantial improvements in both fault detection accuracy and model robustness over existing domain adaptation methods under real-world variability.
academic

TARD: Test-time Domain Adaptation for Robust Fault Detection under Evolving Operating Conditions

Grundinformationen

  • Papier-ID: 2507.16354
  • Titel: TARD: Test-time Domain Adaptation for Robust Fault Detection under Evolving Operating Conditions
  • Autoren: Han Sun, Olga Fink (EPFL)
  • Klassifizierung: stat.AP (Statistik - Anwendungen)
  • Veröffentlichungsdatum: 13. Oktober 2025 (arXiv v2)
  • Papierlink: https://arxiv.org/abs/2507.16354

Zusammenfassung

Die Fehlererkennung in Industriesystemen ist entscheidend für die Vermeidung von Ausfällen und die Optimierung der Leistung. Mit der zunehmenden Verfügbarkeit von Zustandsüberwachungsdaten werden datengesteuerte Methoden in der Fehlererkennung weit verbreitet. Diese Methoden erfordern jedoch typischerweise große, vielfältige und repräsentative Trainingsdatensätze, was in der Praxis schwer zu erfüllen ist, besonders in der frühen Bereitstellungsphase. Industriesysteme arbeiten häufig unter hochvariablen und sich ständig ändernden Bedingungen, was zu Verteilungsverschiebungen zwischen Trainings- und Testdaten führt. Um diese Herausforderungen zu bewältigen, wird in diesem Papier eine neuartige kontinuierliche Test-Zeit-Domänenadaptationsmethode TARD vorgestellt, die speziell für die Unterstützung robuster Früherkennung von Fehlern unter Domänenverschiebung und begrenzten Trainingsdaten entwickelt wurde.

Forschungshintergrund und Motivation

Kernprobleme

  1. Datenmangel: Industriesysteme, besonders neu bereitgestellte oder überholte Geräte, verfügen über unzureichende historische Daten, insbesondere sind Fehlerdaten äußerst selten
  2. Domänenverschiebungs-Herausforderungen: Signifikante Unterschiede in den Betriebsbedingungen zwischen verschiedenen Geräteeinheiten und desselben Systems zu verschiedenen Zeiten verletzen die i.i.d-Annahme des traditionellen maschinellen Lernens
  3. Dynamische Umgebung: Industriesysteme arbeiten in kontinuierlich sich ändernden Umgebungen und erfordern kontinuierliche Anpassung statt diskreter Domänenadaptation

Forschungsbedeutung

  • Früherkennung von Fehlern ist entscheidend für die Optimierung der Systemleistung, Minimierung von Wartungskosten und Reduzierung von Ausfallzeiten
  • Bestehende Methoden führen zu hohen Fehlalarmraten und verminderter Erkennungsgenauigkeit bei Verteilungsverschiebungen
  • Notwendigkeit der Unterstützung von Flottenebenen-Wissenstransfer, um Erfahrungen von datenreichen Systemen auf datenknappen neue Systeme zu übertragen

Einschränkungen bestehender Methoden

  1. Traditionelle Domänenadaptationsmethoden: Erfordern große Mengen an Quell- und Zielbereichsdaten und benötigen typischerweise gekennzeichnete Fehlerdaten
  2. Statische Anpassung: Die meisten Methoden gehen von diskreten statischen Domänenmerkmalen aus und können kontinuierlich sich ändernde Betriebsbedingungen nicht verarbeiten
  3. Test-Zeit-Adaptationsrisiken: Bestehende TTA-Methoden können Fehlermuster fälschlicherweise an normales Verhalten anpassen

Kernbeiträge

  1. Vorschlag des TARD-Rahmens: Ein kontinuierlicher Test-Zeit-Domänenadaptationsrahmen speziell für unüberwachte Fehlererkennung, völlig unabhängig von gekennzeichneten Fehlerdaten
  2. Innovative Merkmalstrennungsstrategie: Explizite Aufteilung von Eingabevariablen in Steuerparameter und Sensormessungen mit speziellen Adaptationsstrategien für jede Klasse
  3. Praktischer Rahmen: Benötigt nur wenige normale Proben des Zielsystems, geeignet für frühe Bereitstellung und Flottenebenen-Wissenstransfer
  4. Empirische Validierung: Validierung der Methodeneffektivität in zwei echten Fallstudien von Mehrphasen-Strömungsanlagen

Methodische Details

Aufgabendefinition

Gegeben:

  • Umfangreiche gesunde Trainingsdaten des Quellsystems: Xs=[x1s,,xns]X^s = [x^s_1, \cdots, x^s_n]
  • Begrenzte normale Daten des Zielbereichs: Xt=[x1t,,xmt]X^t = [x^t_1, \cdots, x^t_m]

Ziel: Erreichung robuster Fehlererkennung im Zielbereich tt unter Berücksichtigung von:

  • Fehlende Fehlertrainingsdaten in beiden Bereichen
  • Begrenzte Datenverfügbarkeit im Zielbereich
  • Kontinuierliche Verteilungsverschiebungen während der Inferenz

Klassifizierung von Systemvariablen

Aufteilung der Eingabedaten in zwei Gruppen: X=[x,w]X = [x, w]

  • Steuerungsvariablen ww: Systemzustandskontrollvariablen, die vom Bediener oder Kontrollsystem eingestellt werden
  • Sensormessungen xx: Sensorsignale, die Systemkomponenten überwachen und den Echtzeit-Systemzustand widerspiegeln

Modellarchitektur

1. Rekonstruktionsbasierte Anomalieerkennung

Verwendung eines Autoencoders fθf_\theta als Rekonstruktionsmodell, trainiert auf normalen Daten des Quellbereichs: lossMSE=1n1n(XsX^s)2\text{loss}_{MSE} = \frac{1}{n}\sum_{1}^{n}(X^s - \hat{X}^s)^2

2. Test-Zeit-Domänenadaptationsmodul

Einführung eines Adaptationsmoduls hϕh_\phi, statt direkter Modifikation des Rekonstruktionsmodells:

  • Eingabe: Steuerungsvariablen ww und Vorhersagen des vortrainierten Autoencoders
  • Ausgabe: Kompensationsterm Δx\Delta x
  • Designprinzip: Vermeidung der Anpassung an potenzielle Fehlerverteilungen

3. Wichtige technische Merkmale

  • Gefrorenes Hauptmodell: Der vortrainierte Autoencoder fθf_\theta bleibt während der Adaptationsphase eingefroren
  • AdaBN-Schichten: Integration von adaptiven Batch-Normalisierungsschichten im Adaptationsmodul, die Mittelwert und Varianz basierend auf Batch-Statistiken aktualisieren
  • Getrennte Anpassung: Anpassung nur an Steuerungsvariablen, um die Anomalieerkennung von Sensormessungen zu schützen

Bewertungs- und Fehlererkennung-Mechanismus

Berechnung relativer Residuen

ri=X^iXiXˉt_trainingr_i = \frac{|\hat{X}_i - X_i|}{\bar{X}_{t\_training}}

Anomaliebewertung

si=1kj=1krij+maxj=1krijs_i = \frac{1}{k}\sum_{j=1}^{k}r_i^j + \max\sum_{j=1}^{k}r_i^j

Zeitliche Glättung

si_smooth=meanq=0l1si+qs_{i\_smooth} = \text{mean}\sum_{q=0}^{l-1}s_{i+q}

Fehlerbestimmung

si_smooth>αrˉt_trainings_{i\_smooth} > \alpha \cdot \bar{r}_{t\_training}

Experimentelle Einrichtung

Datensätze

1. Cranfield-Mehrphasen-Strömungsanlage

  • Überwachte Variablen: 24 Prozessvariablen (Druck, Durchfluss, Flüssigkeitsniveau, Dichte, Temperatur, Ventilposition)
  • Steuerungsvariablen: Luft- und Wasserdurchsatz-Sollwerte
  • Fehlertypen: 6 Typen (Luftleitungsblockade, Wasserleitungsblockade, Blockade des oberen Separators, direkte Umgehung offen, Pfropfenströmungsbedingungen, Druckaufbau in 2-Zoll-Leitung)
  • Abtastfrequenz: 1 Hz

2. PRONTO-heterogener Benchmark-Datensatz

  • Überwachte Variablen: 15 Prozessvariablen
  • Betriebsbedingungen: 20 verschiedene Luft- und Wasserdurchsatz-Kombinationen
  • Fehlertypen: 3 Typen (Luftleck, Luftblockade, Umleitung)
  • Abtastfrequenz: 1 Hz

Bewertungsmetriken

  • Genauigkeit (Accuracy): Gesamtvorhersage-Korrektheit
  • F1-Score: Harmonisches Mittel von Präzision und Recall
  • AUC: Fläche unter der ROC-Kurve

Vergleichsmethoden

  • Baseline: Nur auf Quellbereich trainiertes Modell
  • AdaBN: Adaptive Batch-Normalisierung
  • MMD: Maximum Mean Discrepancy

Implementierungsdetails

  • Optimierer: Adam, Lernrate 1e-5
  • Batch-Größe: 128
  • Trainingsepochen: 500 für Autoencoder, 50 für Adaptationsmodul
  • Architektur: Encoder und Decoder jeweils 3 vollständig verbundene Schichten, Dimensionen 50-50-10

Experimentelle Ergebnisse

Hauptergebnisse

Cranfield-Datensatz-Ergebnisse

FehlertypBaselineAdaBNMMDTARD
LuftleitungsblockadeF1: 0,43F1: 0,43F1: 0,47F1: 0,70
WasserleitungsblockadeF1: 0,67F1: 0,62F1: 0,69F1: 0,76
Blockade oberer SeparatorF1: 0,63F1: 0,65F1: 0,64F1: 0,79
Direkte Umgehung offenF1: 0,53F1: 0,60F1: 0,56F1: 0,69
PfropfenströmungsbedingungenF1: 0,85F1: 0,88F1: 0,89F1: 0,92
Druckaufbau 2-Zoll-LeitungF1: 0,94F1: 0,98F1: 1,00F1: 1,00

PRONTO-Datensatz-Ergebnisse

FehlertypBaselineAdaBNMMDTARD
LuftleckF1: 0,62F1: 0,36F1: 0,51F1: 0,76
LuftblockadeF1: 0,93F1: 0,88F1: 0,96F1: 0,94
UmleitungF1: 0,11F1: 0,51F1: 0,51F1: 0,69

Ablationsstudien

Bei unterschiedlichen Betriebsbedingungen im Fall der Blockade des oberen Separators von Cranfield:

  • Veränderliche Bedingungen: TARD zeigt beste Leistung in dynamischen Umgebungen (F1: 0,86 vs. MMD: 0,79)
  • Stationäre Bedingungen: TARD behält Vorteil auch unter den meisten stationären Bedingungen

Unsicherheitsquantifizierung

Validierung der hohen Zuverlässigkeit der TARD-Erkennungsergebnisse durch tiefe Ensembles (10 unabhängige Modelle), wobei Unsicherheitsbänder während der Fehlererkennung eng bleiben (Standardabweichung etwa 0,8).

Hochdimensionale synthetische Datenexperimente

  • 100-dimensionale Sensoren: F1-Verbesserung von 0,42 auf 0,67
  • 1000-dimensionale Sensoren: F1-Verbesserung von 0,10 auf 0,48
  • Inferenzverzögerung: Bleibt innerhalb der Anforderungen für Echtzeit-Überwachung (<2ms)

Verwandte Arbeiten

Fehlererkennung-Methoden

  1. Probabilistische Modelle: Gaußsche Mischungsmodelle, energiebasierte Modelle
  2. One-Class-Klassifizierung: Diskriminative Grenzwertmethoden wie Support Vector Machines
  3. Rekonstruktionsmethoden: Auf Rekonstruktionsfehler basierende Methoden wie Autoencoders

Flottenebenen-Fehlererkennung

  • Homogene Subflotten: Auf Ähnlichkeits-Clustering basierende Methoden
  • Funktionale Merkmalslernens: Methoden zum Lernen des Gesamtflottenverhaltens
  • Einschränkungen: Abhängigkeit von ausreichenden Ähnlichkeitsannahmen

Domänenadaptation in der Fehlererkennung

  • Divergenzminimierungsmethoden: Statistische Distanzminimierung wie MMD
  • Adversariale Methoden: Domänen-Diskriminatornetzwerke wie DANN
  • Test-Zeit-Adaptationen: Methoden wie Tent, SHOT
  • Herausforderungen: Benötigung gekennzeichneter Daten, statische Domänenannahmen, mögliche Anpassung an Fehlerdaten

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. TARD bewältigt erfolgreich drei Hauptherausforderungen in der industriellen Fehlererkennung: Mangel an gekennzeichneten Fehlerdaten, begrenzte Zielbereichsdaten, kontinuierliche Domänenverschiebung
  2. Die Merkmalstrennungsstrategie unterscheidet effektiv zwischen Betriebsbedingungsänderungen und tatsächlichen Fehlern
  3. Signifikante Überlegenheit gegenüber bestehenden Domänenadaptationsmethoden auf zwei echten Industriedatensätzen

Einschränkungen

  1. Parametereinstellung: Der Empfindlichkeitsparameter α für die Fehlererkennung muss manuell eingestellt werden
  2. Wesentliche Systemänderungen: Fehlende Schutzmechanismen gegen permanente wesentliche Systemänderungen
  3. Zeitliche Dynamik: Die aktuelle Residuen-Glättungsstrategie kann wichtige zeitliche Details verlieren

Zukünftige Richtungen

  1. Automatische Schutzmechanismen: Entwicklung von Methoden zur Erkennung wesentlicher Domänenverschiebungen und Auslösung des Neutrainings des Adaptationsmoduls
  2. Adaptive Parametereinstellung: Methoden zur automatischen Anpassung des Empfindlichkeitsparameters α
  3. Zeitreihenanalyse: Einführung spezialisierter Zeitreihenmodelle zur Analyse komplexer Muster in Residuenreihen

Tiefgreifende Bewertung

Stärken

  1. Hohe Praktikabilität: Löst echte Herausforderungen der Industrie, benötigt nur wenige normale Proben
  2. Technische Innovation: Geschickte und effektive Gestaltung der Merkmalstrennung und speziellen Adaptationsstrategie
  3. Umfassende Experimente: Vollständige Validierung mit zwei echten Industriedatensätzen + hochdimensionalen synthetischen Daten
  4. Solide theoretische Grundlage: Klare Problemdefinition und Methodenmotivation

Mängel

  1. Anwendungsbereich: Hauptsächlich Mehrphasen-Strömungssysteme validiert, Verallgemeinerbarkeit auf andere Industriesysteme unklar
  2. Theoretische Analyse: Fehlende theoretische Garantien für Konvergenz und Stabilität der Methode
  3. Rechenkomplexität: Obwohl Inferenzzeit berichtet wird, fehlt detaillierte Komplexitätsanalyse
  4. Hyperparameter-Sensitivität: Unzureichende Sensitivitätsanalyse für kritische Hyperparameter (wie α, Fensterlänge l)

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Forschungsrichtung für industrielle Fehlererkennung
  2. Praktischer Wert: Direkt anwendbar auf industrielle Bereitstellung, besonders für Früh-Monitoring neuer Geräte
  3. Reproduzierbarkeit: Bereitstellung detaillierter Implementierungsdetails und Algorithmusbeschreibung

Anwendungsszenarien

  1. Neu bereitgestellte Systeme: Industriegeräte mit begrenzter historischer Datenverfügbarkeit
  2. Flottenmanagement: Szenarien mit erforderlichem Wissenstransfer zwischen Geräten
  3. Dynamische Umgebungen: Industriesysteme mit kontinuierlich sich ändernden Betriebsbedingungen
  4. Kritische Infrastruktur: Wichtige Industriesysteme, die gegenüber Fehlalarmen empfindlich sind

Literaturverzeichnis

Das Papier zitiert 51 relevante Arbeiten, die wichtige Arbeiten in den Kernbereichen Fehlererkennung, Domänenadaptation und tiefes Lernen abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Gesamtbewertung: Dies ist ein hochqualitatives Papier der angewandten Statistik, das Domänenadaptationstechniken erfolgreich auf das wichtige praktische Problem der industriellen Fehlererkennung anwendet. Die Methodengestaltung ist rational, die experimentelle Validierung umfassend, und es besitzt starken praktischen Wert und akademische Bedeutung.