2025-11-23T03:16:16.407109

TARD: Test-time Domain Adaptation for Robust Fault Detection under Evolving Operating Conditions

Sun, Fink
Fault detection is essential in complex industrial systems to prevent failures and optimize performance by distinguishing abnormal from normal operating conditions. With the growing availability of condition monitoring data, data-driven approaches have increasingly applied in detecting system faults. However, these methods typically require large, diverse, and representative training datasets that capture the full range of operating scenarios, an assumption rarely met in practice, particularly in the early stages of deployment. Industrial systems often operate under highly variable and evolving conditions, making it difficult to collect comprehensive training data. This variability results in a distribution shift between training and testing data, as future operating conditions may diverge from those previously observed ones. Such domain shifts hinder the generalization of traditional models, limiting their ability to transfer knowledge across time and system instances, ultimately leading to performance degradation in practical deployments. To address these challenges, we propose a novel method for continuous test-time domain adaptation, designed to support robust early-stage fault detection in the presence of domain shifts and limited representativeness of training data. Our proposed framework --Test-time domain Adaptation for Robust fault Detection (TARD) -- explicitly separates input features into system parameters and sensor measurements. It employs a dedicated domain adaptation module to adapt to each input type using different strategies, enabling more targeted and effective adaptation to evolving operating conditions. We validate our approach on two real-world case studies from multi-phase flow facilities, delivering substantial improvements in both fault detection accuracy and model robustness over existing domain adaptation methods under real-world variability.
academic

TARD: Adaptación de Dominio en Tiempo de Prueba para Detección Robusta de Fallos bajo Condiciones Operativas Evolutivas

Información Básica

  • ID del Artículo: 2507.16354
  • Título: TARD: Test-time Domain Adaptation for Robust Fault Detection under Evolving Operating Conditions
  • Autores: Han Sun, Olga Fink (EPFL)
  • Clasificación: stat.AP (Estadística - Aplicaciones)
  • Fecha de Publicación: 13 de octubre de 2025 (arXiv v2)
  • Enlace del Artículo: https://arxiv.org/abs/2507.16354

Resumen

La detección de fallos en sistemas industriales es crucial para prevenir averías y optimizar el rendimiento. Con la creciente disponibilidad de datos de monitoreo de condiciones, los métodos impulsados por datos se han generalizado en la detección de fallos. Sin embargo, estos métodos típicamente requieren conjuntos de datos de entrenamiento grandes, diversos y representativos, lo cual es difícil de satisfacer en la práctica, especialmente durante el despliegue inicial. Los sistemas industriales frecuentemente operan bajo condiciones altamente variables y en constante evolución, lo que provoca cambios de distribución entre los datos de entrenamiento y prueba. Para abordar estos desafíos, este artículo propone un novedoso método de adaptación de dominio en tiempo de prueba continuo denominado TARD, diseñado específicamente para respaldar la detección temprana robusta de fallos bajo cambios de dominio y disponibilidad limitada de datos de entrenamiento.

Contexto de Investigación y Motivación

Problemas Centrales

  1. Escasez de Datos: Los sistemas industriales, especialmente equipos recién desplegados o renovados, carecen de datos históricos exhaustivos, siendo los datos de fallos extremadamente escasos
  2. Desafíos de Cambio de Dominio: Existen diferencias significativas en las condiciones operativas entre diferentes unidades de equipos y en el mismo sistema en diferentes momentos, violando el supuesto i.i.d. del aprendizaje automático tradicional
  3. Ambiente Dinámico: Los sistemas industriales operan en entornos en constante evolución, requiriendo adaptación continua en lugar de adaptación de dominio discreta

Importancia de la Investigación

  • La detección temprana de fallos es esencial para optimizar el rendimiento del sistema, minimizar costos de mantenimiento y reducir la indisponibilidad de activos
  • Los métodos existentes tienden a producir altas tasas de falsas alarmas y disminución de precisión cuando se enfrentan a cambios de distribución
  • Se requiere respaldar la transferencia de conocimiento a nivel de flota, transfiriendo experiencia desde sistemas ricos en datos hacia nuevos sistemas con datos escasos

Limitaciones de Métodos Existentes

  1. Métodos de Adaptación de Dominio Tradicionales: Requieren grandes cantidades de datos de dominio fuente y objetivo, típicamente necesitando datos de fallos etiquetados
  2. Adaptación Estática: La mayoría de los métodos asumen características de dominio estáticas y discretas, siendo incapaces de manejar condiciones operativas en constante evolución
  3. Riesgos de Adaptación en Tiempo de Prueba: Los métodos TTA existentes pueden adaptar erróneamente patrones de fallos como comportamiento normal

Contribuciones Principales

  1. Marco TARD Propuesto: Un marco de adaptación de dominio en tiempo de prueba continuo diseñado específicamente para detección de fallos no supervisada, completamente independiente de datos de fallos etiquetados
  2. Estrategia Innovadora de Separación de Características: Separa explícitamente las variables de entrada en parámetros de control y mediciones de sensores, empleando estrategias de adaptación especializadas para cada tipo
  3. Marco Práctico: Requiere solo una pequeña cantidad de muestras normales del sistema objetivo, siendo adecuado para despliegue temprano y transferencia de conocimiento a nivel de flota
  4. Validación Empírica: Verifica la efectividad del método en estudios de caso reales en dos instalaciones de flujo multifásico

Explicación Detallada del Método

Definición de la Tarea

Dado:

  • Datos de entrenamiento de salud abundantes del sistema fuente: Xs=[x1s,,xns]X^s = [x^s_1, \cdots, x^s_n]
  • Datos normales limitados del dominio objetivo: Xt=[x1t,,xmt]X^t = [x^t_1, \cdots, x^t_m]

Objetivo: Lograr detección robusta de fallos en el dominio objetivo tt, considerando:

  • Ambos dominios carecen de datos de entrenamiento de fallos
  • Disponibilidad limitada de datos en el dominio objetivo
  • Cambios de distribución continua durante la inferencia

Clasificación de Variables del Sistema

Se dividen los datos de entrada en dos grupos: X=[x,w]X = [x, w]

  • Variables de Control ww: Variables que controlan las condiciones del sistema establecidas por el operador o sistema de control
  • Mediciones de Sensores xx: Señales de sensores que monitorean componentes del sistema y reflejan el estado del sistema en tiempo real

Arquitectura del Modelo

1. Detección de Anomalías Basada en Reconstrucción

Se emplea un codificador automático fθf_\theta como modelo de reconstrucción, entrenado en datos normales del dominio fuente: lossMSE=1n1n(XsX^s)2\text{loss}_{MSE} = \frac{1}{n}\sum_{1}^{n}(X^s - \hat{X}^s)^2

2. Módulo de Adaptación en Tiempo de Prueba

Se introduce un módulo de adaptación hϕh_\phi, en lugar de modificar directamente el modelo de reconstrucción:

  • Entrada: Variables de control ww y predicciones del codificador automático preentrenado
  • Salida: Término de compensación Δx\Delta x
  • Principio de Diseño: Evitar la adaptación a potenciales distribuciones de datos de fallos

3. Características Técnicas Clave

  • Congelación del Modelo Principal: El codificador automático preentrenado fθf_\theta se mantiene congelado durante la fase de adaptación
  • Capas AdaBN: Se integran capas de normalización de lotes adaptativas en el módulo de adaptación, actualizando medias y varianzas basadas en estadísticas de lotes
  • Adaptación Separada: Solo se adaptan las variables de control, protegiendo la capacidad de detección de anomalías de las mediciones de sensores

Mecanismo de Puntuación y Detección de Fallos

Cálculo de Residuos Relativos

ri=X^iXiXˉt_trainingr_i = \frac{|\hat{X}_i - X_i|}{\bar{X}_{t\_training}}

Puntuación de Anomalía

si=1kj=1krij+maxj=1krijs_i = \frac{1}{k}\sum_{j=1}^{k}r_i^j + \max\sum_{j=1}^{k}r_i^j

Suavizado Temporal

si_smooth=meanq=0l1si+qs_{i\_smooth} = \text{mean}\sum_{q=0}^{l-1}s_{i+q}

Determinación de Fallo

si_smooth>αrˉt_trainings_{i\_smooth} > \alpha \cdot \bar{r}_{t\_training}

Configuración Experimental

Conjuntos de Datos

1. Instalación de Flujo Trifásico Cranfield

  • Variables Monitoreadas: 24 variables de proceso (presión, caudal, nivel de líquido, densidad, temperatura, posición de válvula)
  • Variables de Control: Puntos de consigna de caudal de aire y agua
  • Tipos de Fallos: 6 tipos (obstrucción de línea de aire, obstrucción de línea de agua, obstrucción de entrada del separador superior, apertura de derivación directa, condiciones de flujo de tapones, presurización de tubería de 2 pulgadas)
  • Frecuencia de Muestreo: 1 Hz

2. Conjunto de Datos de Referencia Heterogéneo PRONTO

  • Variables Monitoreadas: 15 variables de proceso
  • Condiciones Operativas: 20 combinaciones diferentes de caudales de aire y agua
  • Tipos de Fallos: 3 tipos (fuga de aire, obstrucción de aire, derivación)
  • Frecuencia de Muestreo: 1 Hz

Métricas de Evaluación

  • Precisión (Accuracy): Tasa general de predicción correcta
  • Puntuación F1: Media armónica de precisión y exhaustividad
  • AUC: Área bajo la curva ROC

Métodos de Comparación

  • Baseline: Modelo entrenado solo en dominio fuente
  • AdaBN: Normalización de lotes adaptativa
  • MMD: Diferencia de media máxima

Detalles de Implementación

  • Optimizador: Adam, tasa de aprendizaje 1e-5
  • Tamaño de Lote: 128
  • Épocas de Entrenamiento: 500 para codificador automático, 50 para módulo de adaptación
  • Arquitectura: Capas completamente conectadas de 3 capas en codificador y decodificador, dimensiones 50-50-10

Resultados Experimentales

Resultados Principales

Resultados del Conjunto de Datos Cranfield

Tipo de FalloBaselineAdaBNMMDTARD
Obstrucción de línea de aireF1: 0.43F1: 0.43F1: 0.47F1: 0.70
Obstrucción de línea de aguaF1: 0.67F1: 0.62F1: 0.69F1: 0.76
Obstrucción del separador superiorF1: 0.63F1: 0.65F1: 0.64F1: 0.79
Apertura de derivación directaF1: 0.53F1: 0.60F1: 0.56F1: 0.69
Condiciones de flujo de taponesF1: 0.85F1: 0.88F1: 0.89F1: 0.92
Presurización de tubería de 2 pulgadasF1: 0.94F1: 0.98F1: 1.00F1: 1.00

Resultados del Conjunto de Datos PRONTO

Tipo de FalloBaselineAdaBNMMDTARD
Fuga de aireF1: 0.62F1: 0.36F1: 0.51F1: 0.76
Obstrucción de aireF1: 0.93F1: 0.88F1: 0.96F1: 0.94
DerivaciónF1: 0.11F1: 0.51F1: 0.51F1: 0.69

Experimentos de Ablación

En el caso de obstrucción del separador superior de Cranfield bajo diferentes condiciones operativas:

  • Condiciones Variables: TARD muestra el mejor rendimiento en ambientes dinámicos (F1: 0.86 vs MMD: 0.79)
  • Condiciones de Estado Estacionario: TARD mantiene ventaja en la mayoría de condiciones de estado estacionario

Cuantificación de Incertidumbre

Se verifica la alta confiabilidad de los resultados de detección de TARD mediante ensamble profundo (10 modelos independientes), manteniendo bandas de incertidumbre estrechas durante la detección de fallos (desviación estándar aproximadamente 0.8).

Experimentos con Datos Sintéticos de Alta Dimensión

  • 100 Sensores Dimensionales: F1 mejorado de 0.42 a 0.67
  • 1000 Sensores Dimensionales: F1 mejorado de 0.10 a 0.48
  • Latencia de Inferencia: Se mantiene dentro de los requisitos de monitoreo en tiempo real (<2ms)

Trabajo Relacionado

Métodos de Detección de Fallos

  1. Modelos Probabilísticos: Modelos de mezcla gaussiana, modelos basados en energía
  2. Clasificación de Una Clase: Métodos de límites discriminativos como máquinas de vectores de soporte
  3. Métodos de Reconstrucción: Métodos basados en error de reconstrucción como codificadores automáticos

Detección de Fallos a Nivel de Flota

  • Sub-flotas Homogéneas: Métodos basados en agrupamiento por similitud
  • Aprendizaje de Representaciones Funcionales: Métodos que aprenden el comportamiento general de la flota
  • Limitaciones: Dependen de supuestos de similitud suficiente

Aplicación de Adaptación de Dominio en Detección de Fallos

  • Métodos de Minimización de Diferencias: Minimización de distancias estadísticas como MMD
  • Métodos Adversariales: Redes de discriminación de dominio como DANN
  • Adaptación en Tiempo de Prueba: Métodos como Tent y SHOT
  • Desafíos: Requieren datos etiquetados, asumen dominios estáticos, pueden adaptarse a datos de fallos

Conclusiones y Discusión

Conclusiones Principales

  1. TARD resuelve exitosamente los tres grandes desafíos en detección de fallos industrial: falta de datos de fallos etiquetados, disponibilidad limitada de datos en dominio objetivo, cambios de dominio continuo
  2. La estrategia de separación de características distingue efectivamente cambios en condiciones operativas de fallos reales
  3. Supera significativamente los métodos de adaptación de dominio existentes en dos conjuntos de datos industriales reales

Limitaciones

  1. Ajuste de Parámetros: El parámetro de sensibilidad de detección de fallos α requiere configuración manual
  2. Cambios Importantes del Sistema: Carece de mecanismos de protección contra cambios permanentes importantes del sistema
  3. Dinámicas Temporales: La estrategia actual de suavizado de residuos puede perder detalles temporales importantes

Direcciones Futuras

  1. Mecanismos de Protección Automática: Desarrollar métodos para detectar cambios de dominio importantes y desencadenar reentrenamiento del módulo de adaptación
  2. Ajuste de Parámetros Adaptativo: Métodos para ajustar automáticamente el parámetro de sensibilidad α
  3. Análisis de Series Temporales: Introducir modelos especializados de series temporales para analizar patrones complejos en secuencias de residuos

Evaluación Profunda

Fortalezas

  1. Alta Practicidad: Resuelve desafíos reales que existen en la industria, requiriendo solo una pequeña cantidad de datos normales
  2. Innovación Técnica: El diseño de la estrategia de separación de características y adaptación especializada es ingenioso y efectivo
  3. Validación Exhaustiva: Verificación completa con dos conjuntos de datos industriales reales + datos sintéticos de alta dimensión
  4. Fundamento Teórico: Definición clara del problema y motivación del método

Deficiencias

  1. Alcance de Aplicabilidad: Principalmente validado en sistemas de flujo multifásico, la generalización a otros sistemas industriales requiere verificación
  2. Análisis Teórico: Carece de garantías teóricas sobre convergencia y estabilidad del método
  3. Costo Computacional: Aunque se reportan tiempos de inferencia, falta análisis detallado de complejidad computacional
  4. Sensibilidad a Hiperparámetros: Análisis insuficiente de sensibilidad a hiperparámetros clave (como α, longitud de ventana l)

Impacto

  1. Contribución Académica: Proporciona una nueva dirección de investigación para el campo de detección de fallos industrial
  2. Valor Práctico: Directamente aplicable a despliegue industrial, especialmente para monitoreo temprano de equipos nuevos
  3. Reproducibilidad: Proporciona detalles de implementación detallados y descripción de algoritmos

Escenarios de Aplicación

  1. Sistemas Recién Desplegados: Equipos industriales con datos históricos limitados
  2. Gestión de Flotas: Escenarios que requieren transferencia de conocimiento entre equipos
  3. Ambientes Dinámicos: Sistemas industriales con condiciones operativas en constante cambio
  4. Infraestructura Crítica: Sistemas industriales importantes sensibles a falsas alarmas

Referencias

El artículo cita 51 referencias relevantes, cubriendo trabajos importantes en los campos centrales de detección de fallos, adaptación de dominio y aprendizaje profundo, proporcionando una base teórica sólida para la investigación.


Evaluación General: Este es un artículo de alta calidad en estadística aplicada que aplica exitosamente técnicas de adaptación de dominio al importante problema práctico de detección de fallos industrial. El diseño del método es razonable, la verificación experimental es exhaustiva, y posee un fuerte valor práctico y significado académico.