2025-11-23T03:16:16.407109

TARD: Test-time Domain Adaptation for Robust Fault Detection under Evolving Operating Conditions

Sun, Fink

Fault detection is essential in complex industrial systems to prevent failures and optimize performance by distinguishing abnormal from normal operating conditions. With the growing availability of condition monitoring data, data-driven approaches have increasingly applied in detecting system faults. However, these methods typically require large, diverse, and representative training datasets that capture the full range of operating scenarios, an assumption rarely met in practice, particularly in the early stages of deployment. Industrial systems often operate under highly variable and evolving conditions, making it difficult to collect comprehensive training data. This variability results in a distribution shift between training and testing data, as future operating conditions may diverge from those previously observed ones. Such domain shifts hinder the generalization of traditional models, limiting their ability to transfer knowledge across time and system instances, ultimately leading to performance degradation in practical deployments. To address these challenges, we propose a novel method for continuous test-time domain adaptation, designed to support robust early-stage fault detection in the presence of domain shifts and limited representativeness of training data. Our proposed framework --Test-time domain Adaptation for Robust fault Detection (TARD) -- explicitly separates input features into system parameters and sensor measurements. It employs a dedicated domain adaptation module to adapt to each input type using different strategies, enabling more targeted and effective adaptation to evolving operating conditions. We validate our approach on two real-world case studies from multi-phase flow facilities, delivering substantial improvements in both fault detection accuracy and model robustness over existing domain adaptation methods under real-world variability.

academic

TARD: Adaptación de Dominio en Tiempo de Prueba para Detección Robusta de Fallos bajo Condiciones Operativas Evolutivas

Información Básica

ID del Artículo: 2507.16354
Título: TARD: Test-time Domain Adaptation for Robust Fault Detection under Evolving Operating Conditions
Autores: Han Sun, Olga Fink (EPFL)
Clasificación: stat.AP (Estadística - Aplicaciones)
Fecha de Publicación: 13 de octubre de 2025 (arXiv v2)
Enlace del Artículo: https://arxiv.org/abs/2507.16354

Resumen

La detección de fallos en sistemas industriales es crucial para prevenir averías y optimizar el rendimiento. Con la creciente disponibilidad de datos de monitoreo de condiciones, los métodos impulsados por datos se han generalizado en la detección de fallos. Sin embargo, estos métodos típicamente requieren conjuntos de datos de entrenamiento grandes, diversos y representativos, lo cual es difícil de satisfacer en la práctica, especialmente durante el despliegue inicial. Los sistemas industriales frecuentemente operan bajo condiciones altamente variables y en constante evolución, lo que provoca cambios de distribución entre los datos de entrenamiento y prueba. Para abordar estos desafíos, este artículo propone un novedoso método de adaptación de dominio en tiempo de prueba continuo denominado TARD, diseñado específicamente para respaldar la detección temprana robusta de fallos bajo cambios de dominio y disponibilidad limitada de datos de entrenamiento.

Contexto de Investigación y Motivación

Problemas Centrales

Escasez de Datos: Los sistemas industriales, especialmente equipos recién desplegados o renovados, carecen de datos históricos exhaustivos, siendo los datos de fallos extremadamente escasos
Desafíos de Cambio de Dominio: Existen diferencias significativas en las condiciones operativas entre diferentes unidades de equipos y en el mismo sistema en diferentes momentos, violando el supuesto i.i.d. del aprendizaje automático tradicional
Ambiente Dinámico: Los sistemas industriales operan en entornos en constante evolución, requiriendo adaptación continua en lugar de adaptación de dominio discreta

Importancia de la Investigación

La detección temprana de fallos es esencial para optimizar el rendimiento del sistema, minimizar costos de mantenimiento y reducir la indisponibilidad de activos
Los métodos existentes tienden a producir altas tasas de falsas alarmas y disminución de precisión cuando se enfrentan a cambios de distribución
Se requiere respaldar la transferencia de conocimiento a nivel de flota, transfiriendo experiencia desde sistemas ricos en datos hacia nuevos sistemas con datos escasos

Limitaciones de Métodos Existentes

Métodos de Adaptación de Dominio Tradicionales: Requieren grandes cantidades de datos de dominio fuente y objetivo, típicamente necesitando datos de fallos etiquetados
Adaptación Estática: La mayoría de los métodos asumen características de dominio estáticas y discretas, siendo incapaces de manejar condiciones operativas en constante evolución
Riesgos de Adaptación en Tiempo de Prueba: Los métodos TTA existentes pueden adaptar erróneamente patrones de fallos como comportamiento normal

Contribuciones Principales

Marco TARD Propuesto: Un marco de adaptación de dominio en tiempo de prueba continuo diseñado específicamente para detección de fallos no supervisada, completamente independiente de datos de fallos etiquetados
Estrategia Innovadora de Separación de Características: Separa explícitamente las variables de entrada en parámetros de control y mediciones de sensores, empleando estrategias de adaptación especializadas para cada tipo
Marco Práctico: Requiere solo una pequeña cantidad de muestras normales del sistema objetivo, siendo adecuado para despliegue temprano y transferencia de conocimiento a nivel de flota
Validación Empírica: Verifica la efectividad del método en estudios de caso reales en dos instalaciones de flujo multifásico

Explicación Detallada del Método

Definición de la Tarea

Dado:

Datos de entrenamiento de salud abundantes del sistema fuente: $X^s = [x^s_1, \cdots, x^s_n]$
Datos normales limitados del dominio objetivo: $X^t = [x^t_1, \cdots, x^t_m]$

Objetivo: Lograr detección robusta de fallos en el dominio objetivo $t$ , considerando:

Ambos dominios carecen de datos de entrenamiento de fallos
Disponibilidad limitada de datos en el dominio objetivo
Cambios de distribución continua durante la inferencia

Clasificación de Variables del Sistema

Se dividen los datos de entrada en dos grupos: $X = [x, w]$

Variables de Control $w$ : Variables que controlan las condiciones del sistema establecidas por el operador o sistema de control
Mediciones de Sensores $x$ : Señales de sensores que monitorean componentes del sistema y reflejan el estado del sistema en tiempo real

Arquitectura del Modelo

1. Detección de Anomalías Basada en Reconstrucción

Se emplea un codificador automático $f_\theta$ como modelo de reconstrucción, entrenado en datos normales del dominio fuente: $\text{loss}_{MSE} = \frac{1}{n}\sum_{1}^{n}(X^s - \hat{X}^s)^2$

2. Módulo de Adaptación en Tiempo de Prueba

Se introduce un módulo de adaptación $h_\phi$ , en lugar de modificar directamente el modelo de reconstrucción:

Entrada: Variables de control $w$ y predicciones del codificador automático preentrenado
Salida: Término de compensación $\Delta x$
Principio de Diseño: Evitar la adaptación a potenciales distribuciones de datos de fallos

3. Características Técnicas Clave

Congelación del Modelo Principal: El codificador automático preentrenado $f_\theta$ se mantiene congelado durante la fase de adaptación
Capas AdaBN: Se integran capas de normalización de lotes adaptativas en el módulo de adaptación, actualizando medias y varianzas basadas en estadísticas de lotes
Adaptación Separada: Solo se adaptan las variables de control, protegiendo la capacidad de detección de anomalías de las mediciones de sensores

Mecanismo de Puntuación y Detección de Fallos

Cálculo de Residuos Relativos

$r_i = \frac{|\hat{X}_i - X_i|}{\bar{X}_{t\_training}}$

Puntuación de Anomalía

$s_i = \frac{1}{k}\sum_{j=1}^{k}r_i^j + \max\sum_{j=1}^{k}r_i^j$

Suavizado Temporal

$s_{i\_smooth} = \text{mean}\sum_{q=0}^{l-1}s_{i+q}$

Determinación de Fallo

$s_{i\_smooth} > \alpha \cdot \bar{r}_{t\_training}$

Configuración Experimental

Conjuntos de Datos

1. Instalación de Flujo Trifásico Cranfield

Variables Monitoreadas: 24 variables de proceso (presión, caudal, nivel de líquido, densidad, temperatura, posición de válvula)
Variables de Control: Puntos de consigna de caudal de aire y agua
Tipos de Fallos: 6 tipos (obstrucción de línea de aire, obstrucción de línea de agua, obstrucción de entrada del separador superior, apertura de derivación directa, condiciones de flujo de tapones, presurización de tubería de 2 pulgadas)
Frecuencia de Muestreo: 1 Hz

2. Conjunto de Datos de Referencia Heterogéneo PRONTO

Variables Monitoreadas: 15 variables de proceso
Condiciones Operativas: 20 combinaciones diferentes de caudales de aire y agua
Tipos de Fallos: 3 tipos (fuga de aire, obstrucción de aire, derivación)
Frecuencia de Muestreo: 1 Hz

Métricas de Evaluación

Precisión (Accuracy): Tasa general de predicción correcta
Puntuación F1: Media armónica de precisión y exhaustividad
AUC: Área bajo la curva ROC

Métodos de Comparación

Baseline: Modelo entrenado solo en dominio fuente
AdaBN: Normalización de lotes adaptativa
MMD: Diferencia de media máxima

Detalles de Implementación

Optimizador: Adam, tasa de aprendizaje 1e-5
Tamaño de Lote: 128
Épocas de Entrenamiento: 500 para codificador automático, 50 para módulo de adaptación
Arquitectura: Capas completamente conectadas de 3 capas en codificador y decodificador, dimensiones 50-50-10

Resultados Experimentales

Resultados Principales

Resultados del Conjunto de Datos Cranfield

Tipo de Fallo	Baseline	AdaBN	MMD	TARD
Obstrucción de línea de aire	F1: 0.43	F1: 0.43	F1: 0.47	F1: 0.70
Obstrucción de línea de agua	F1: 0.67	F1: 0.62	F1: 0.69	F1: 0.76
Obstrucción del separador superior	F1: 0.63	F1: 0.65	F1: 0.64	F1: 0.79
Apertura de derivación directa	F1: 0.53	F1: 0.60	F1: 0.56	F1: 0.69
Condiciones de flujo de tapones	F1: 0.85	F1: 0.88	F1: 0.89	F1: 0.92
Presurización de tubería de 2 pulgadas	F1: 0.94	F1: 0.98	F1: 1.00	F1: 1.00

Resultados del Conjunto de Datos PRONTO

Tipo de Fallo	Baseline	AdaBN	MMD	TARD
Fuga de aire	F1: 0.62	F1: 0.36	F1: 0.51	F1: 0.76
Obstrucción de aire	F1: 0.93	F1: 0.88	F1: 0.96	F1: 0.94
Derivación	F1: 0.11	F1: 0.51	F1: 0.51	F1: 0.69

Experimentos de Ablación

En el caso de obstrucción del separador superior de Cranfield bajo diferentes condiciones operativas:

Condiciones Variables: TARD muestra el mejor rendimiento en ambientes dinámicos (F1: 0.86 vs MMD: 0.79)
Condiciones de Estado Estacionario: TARD mantiene ventaja en la mayoría de condiciones de estado estacionario

Cuantificación de Incertidumbre

Se verifica la alta confiabilidad de los resultados de detección de TARD mediante ensamble profundo (10 modelos independientes), manteniendo bandas de incertidumbre estrechas durante la detección de fallos (desviación estándar aproximadamente 0.8).

Experimentos con Datos Sintéticos de Alta Dimensión

100 Sensores Dimensionales: F1 mejorado de 0.42 a 0.67
1000 Sensores Dimensionales: F1 mejorado de 0.10 a 0.48
Latencia de Inferencia: Se mantiene dentro de los requisitos de monitoreo en tiempo real (<2ms)

Trabajo Relacionado

Métodos de Detección de Fallos

Modelos Probabilísticos: Modelos de mezcla gaussiana, modelos basados en energía
Clasificación de Una Clase: Métodos de límites discriminativos como máquinas de vectores de soporte
Métodos de Reconstrucción: Métodos basados en error de reconstrucción como codificadores automáticos

Detección de Fallos a Nivel de Flota

Sub-flotas Homogéneas: Métodos basados en agrupamiento por similitud
Aprendizaje de Representaciones Funcionales: Métodos que aprenden el comportamiento general de la flota
Limitaciones: Dependen de supuestos de similitud suficiente

Aplicación de Adaptación de Dominio en Detección de Fallos

Métodos de Minimización de Diferencias: Minimización de distancias estadísticas como MMD
Métodos Adversariales: Redes de discriminación de dominio como DANN
Adaptación en Tiempo de Prueba: Métodos como Tent y SHOT
Desafíos: Requieren datos etiquetados, asumen dominios estáticos, pueden adaptarse a datos de fallos

Conclusiones y Discusión

Conclusiones Principales

TARD resuelve exitosamente los tres grandes desafíos en detección de fallos industrial: falta de datos de fallos etiquetados, disponibilidad limitada de datos en dominio objetivo, cambios de dominio continuo
La estrategia de separación de características distingue efectivamente cambios en condiciones operativas de fallos reales
Supera significativamente los métodos de adaptación de dominio existentes en dos conjuntos de datos industriales reales

Limitaciones

Ajuste de Parámetros: El parámetro de sensibilidad de detección de fallos α requiere configuración manual
Cambios Importantes del Sistema: Carece de mecanismos de protección contra cambios permanentes importantes del sistema
Dinámicas Temporales: La estrategia actual de suavizado de residuos puede perder detalles temporales importantes

Direcciones Futuras

Mecanismos de Protección Automática: Desarrollar métodos para detectar cambios de dominio importantes y desencadenar reentrenamiento del módulo de adaptación
Ajuste de Parámetros Adaptativo: Métodos para ajustar automáticamente el parámetro de sensibilidad α
Análisis de Series Temporales: Introducir modelos especializados de series temporales para analizar patrones complejos en secuencias de residuos

Evaluación Profunda

Fortalezas

Alta Practicidad: Resuelve desafíos reales que existen en la industria, requiriendo solo una pequeña cantidad de datos normales
Innovación Técnica: El diseño de la estrategia de separación de características y adaptación especializada es ingenioso y efectivo
Validación Exhaustiva: Verificación completa con dos conjuntos de datos industriales reales + datos sintéticos de alta dimensión
Fundamento Teórico: Definición clara del problema y motivación del método

Deficiencias

Alcance de Aplicabilidad: Principalmente validado en sistemas de flujo multifásico, la generalización a otros sistemas industriales requiere verificación
Análisis Teórico: Carece de garantías teóricas sobre convergencia y estabilidad del método
Costo Computacional: Aunque se reportan tiempos de inferencia, falta análisis detallado de complejidad computacional
Sensibilidad a Hiperparámetros: Análisis insuficiente de sensibilidad a hiperparámetros clave (como α, longitud de ventana l)

Impacto

Contribución Académica: Proporciona una nueva dirección de investigación para el campo de detección de fallos industrial
Valor Práctico: Directamente aplicable a despliegue industrial, especialmente para monitoreo temprano de equipos nuevos
Reproducibilidad: Proporciona detalles de implementación detallados y descripción de algoritmos

Escenarios de Aplicación

Sistemas Recién Desplegados: Equipos industriales con datos históricos limitados
Gestión de Flotas: Escenarios que requieren transferencia de conocimiento entre equipos
Ambientes Dinámicos: Sistemas industriales con condiciones operativas en constante cambio
Infraestructura Crítica: Sistemas industriales importantes sensibles a falsas alarmas

Referencias

El artículo cita 51 referencias relevantes, cubriendo trabajos importantes en los campos centrales de detección de fallos, adaptación de dominio y aprendizaje profundo, proporcionando una base teórica sólida para la investigación.

Evaluación General: Este es un artículo de alta calidad en estadística aplicada que aplica exitosamente técnicas de adaptación de dominio al importante problema práctico de detección de fallos industrial. El diseño del método es razonable, la verificación experimental es exhaustiva, y posee un fuerte valor práctico y significado académico.