Fault detection is essential in complex industrial systems to prevent failures and optimize performance by distinguishing abnormal from normal operating conditions. With the growing availability of condition monitoring data, data-driven approaches have increasingly applied in detecting system faults. However, these methods typically require large, diverse, and representative training datasets that capture the full range of operating scenarios, an assumption rarely met in practice, particularly in the early stages of deployment.
Industrial systems often operate under highly variable and evolving conditions, making it difficult to collect comprehensive training data. This variability results in a distribution shift between training and testing data, as future operating conditions may diverge from those previously observed ones. Such domain shifts hinder the generalization of traditional models, limiting their ability to transfer knowledge across time and system instances, ultimately leading to performance degradation in practical deployments.
To address these challenges, we propose a novel method for continuous test-time domain adaptation, designed to support robust early-stage fault detection in the presence of domain shifts and limited representativeness of training data. Our proposed framework --Test-time domain Adaptation for Robust fault Detection (TARD) -- explicitly separates input features into system parameters and sensor measurements. It employs a dedicated domain adaptation module to adapt to each input type using different strategies, enabling more targeted and effective adaptation to evolving operating conditions. We validate our approach on two real-world case studies from multi-phase flow facilities, delivering substantial improvements in both fault detection accuracy and model robustness over existing domain adaptation methods under real-world variability.
- ID del Artículo: 2507.16354
- Título: TARD: Test-time Domain Adaptation for Robust Fault Detection under Evolving Operating Conditions
- Autores: Han Sun, Olga Fink (EPFL)
- Clasificación: stat.AP (Estadística - Aplicaciones)
- Fecha de Publicación: 13 de octubre de 2025 (arXiv v2)
- Enlace del Artículo: https://arxiv.org/abs/2507.16354
La detección de fallos en sistemas industriales es crucial para prevenir averías y optimizar el rendimiento. Con la creciente disponibilidad de datos de monitoreo de condiciones, los métodos impulsados por datos se han generalizado en la detección de fallos. Sin embargo, estos métodos típicamente requieren conjuntos de datos de entrenamiento grandes, diversos y representativos, lo cual es difícil de satisfacer en la práctica, especialmente durante el despliegue inicial. Los sistemas industriales frecuentemente operan bajo condiciones altamente variables y en constante evolución, lo que provoca cambios de distribución entre los datos de entrenamiento y prueba. Para abordar estos desafíos, este artículo propone un novedoso método de adaptación de dominio en tiempo de prueba continuo denominado TARD, diseñado específicamente para respaldar la detección temprana robusta de fallos bajo cambios de dominio y disponibilidad limitada de datos de entrenamiento.
- Escasez de Datos: Los sistemas industriales, especialmente equipos recién desplegados o renovados, carecen de datos históricos exhaustivos, siendo los datos de fallos extremadamente escasos
- Desafíos de Cambio de Dominio: Existen diferencias significativas en las condiciones operativas entre diferentes unidades de equipos y en el mismo sistema en diferentes momentos, violando el supuesto i.i.d. del aprendizaje automático tradicional
- Ambiente Dinámico: Los sistemas industriales operan en entornos en constante evolución, requiriendo adaptación continua en lugar de adaptación de dominio discreta
- La detección temprana de fallos es esencial para optimizar el rendimiento del sistema, minimizar costos de mantenimiento y reducir la indisponibilidad de activos
- Los métodos existentes tienden a producir altas tasas de falsas alarmas y disminución de precisión cuando se enfrentan a cambios de distribución
- Se requiere respaldar la transferencia de conocimiento a nivel de flota, transfiriendo experiencia desde sistemas ricos en datos hacia nuevos sistemas con datos escasos
- Métodos de Adaptación de Dominio Tradicionales: Requieren grandes cantidades de datos de dominio fuente y objetivo, típicamente necesitando datos de fallos etiquetados
- Adaptación Estática: La mayoría de los métodos asumen características de dominio estáticas y discretas, siendo incapaces de manejar condiciones operativas en constante evolución
- Riesgos de Adaptación en Tiempo de Prueba: Los métodos TTA existentes pueden adaptar erróneamente patrones de fallos como comportamiento normal
- Marco TARD Propuesto: Un marco de adaptación de dominio en tiempo de prueba continuo diseñado específicamente para detección de fallos no supervisada, completamente independiente de datos de fallos etiquetados
- Estrategia Innovadora de Separación de Características: Separa explícitamente las variables de entrada en parámetros de control y mediciones de sensores, empleando estrategias de adaptación especializadas para cada tipo
- Marco Práctico: Requiere solo una pequeña cantidad de muestras normales del sistema objetivo, siendo adecuado para despliegue temprano y transferencia de conocimiento a nivel de flota
- Validación Empírica: Verifica la efectividad del método en estudios de caso reales en dos instalaciones de flujo multifásico
Dado:
- Datos de entrenamiento de salud abundantes del sistema fuente: Xs=[x1s,⋯,xns]
- Datos normales limitados del dominio objetivo: Xt=[x1t,⋯,xmt]
Objetivo: Lograr detección robusta de fallos en el dominio objetivo t, considerando:
- Ambos dominios carecen de datos de entrenamiento de fallos
- Disponibilidad limitada de datos en el dominio objetivo
- Cambios de distribución continua durante la inferencia
Se dividen los datos de entrada en dos grupos: X=[x,w]
- Variables de Control w: Variables que controlan las condiciones del sistema establecidas por el operador o sistema de control
- Mediciones de Sensores x: Señales de sensores que monitorean componentes del sistema y reflejan el estado del sistema en tiempo real
Se emplea un codificador automático fθ como modelo de reconstrucción, entrenado en datos normales del dominio fuente:
lossMSE=n1∑1n(Xs−X^s)2
Se introduce un módulo de adaptación hϕ, en lugar de modificar directamente el modelo de reconstrucción:
- Entrada: Variables de control w y predicciones del codificador automático preentrenado
- Salida: Término de compensación Δx
- Principio de Diseño: Evitar la adaptación a potenciales distribuciones de datos de fallos
- Congelación del Modelo Principal: El codificador automático preentrenado fθ se mantiene congelado durante la fase de adaptación
- Capas AdaBN: Se integran capas de normalización de lotes adaptativas en el módulo de adaptación, actualizando medias y varianzas basadas en estadísticas de lotes
- Adaptación Separada: Solo se adaptan las variables de control, protegiendo la capacidad de detección de anomalías de las mediciones de sensores
ri=Xˉt_training∣X^i−Xi∣
si=k1∑j=1krij+max∑j=1krij
si_smooth=mean∑q=0l−1si+q
si_smooth>α⋅rˉt_training
- Variables Monitoreadas: 24 variables de proceso (presión, caudal, nivel de líquido, densidad, temperatura, posición de válvula)
- Variables de Control: Puntos de consigna de caudal de aire y agua
- Tipos de Fallos: 6 tipos (obstrucción de línea de aire, obstrucción de línea de agua, obstrucción de entrada del separador superior, apertura de derivación directa, condiciones de flujo de tapones, presurización de tubería de 2 pulgadas)
- Frecuencia de Muestreo: 1 Hz
- Variables Monitoreadas: 15 variables de proceso
- Condiciones Operativas: 20 combinaciones diferentes de caudales de aire y agua
- Tipos de Fallos: 3 tipos (fuga de aire, obstrucción de aire, derivación)
- Frecuencia de Muestreo: 1 Hz
- Precisión (Accuracy): Tasa general de predicción correcta
- Puntuación F1: Media armónica de precisión y exhaustividad
- AUC: Área bajo la curva ROC
- Baseline: Modelo entrenado solo en dominio fuente
- AdaBN: Normalización de lotes adaptativa
- MMD: Diferencia de media máxima
- Optimizador: Adam, tasa de aprendizaje 1e-5
- Tamaño de Lote: 128
- Épocas de Entrenamiento: 500 para codificador automático, 50 para módulo de adaptación
- Arquitectura: Capas completamente conectadas de 3 capas en codificador y decodificador, dimensiones 50-50-10
| Tipo de Fallo | Baseline | AdaBN | MMD | TARD |
|---|
| Obstrucción de línea de aire | F1: 0.43 | F1: 0.43 | F1: 0.47 | F1: 0.70 |
| Obstrucción de línea de agua | F1: 0.67 | F1: 0.62 | F1: 0.69 | F1: 0.76 |
| Obstrucción del separador superior | F1: 0.63 | F1: 0.65 | F1: 0.64 | F1: 0.79 |
| Apertura de derivación directa | F1: 0.53 | F1: 0.60 | F1: 0.56 | F1: 0.69 |
| Condiciones de flujo de tapones | F1: 0.85 | F1: 0.88 | F1: 0.89 | F1: 0.92 |
| Presurización de tubería de 2 pulgadas | F1: 0.94 | F1: 0.98 | F1: 1.00 | F1: 1.00 |
| Tipo de Fallo | Baseline | AdaBN | MMD | TARD |
|---|
| Fuga de aire | F1: 0.62 | F1: 0.36 | F1: 0.51 | F1: 0.76 |
| Obstrucción de aire | F1: 0.93 | F1: 0.88 | F1: 0.96 | F1: 0.94 |
| Derivación | F1: 0.11 | F1: 0.51 | F1: 0.51 | F1: 0.69 |
En el caso de obstrucción del separador superior de Cranfield bajo diferentes condiciones operativas:
- Condiciones Variables: TARD muestra el mejor rendimiento en ambientes dinámicos (F1: 0.86 vs MMD: 0.79)
- Condiciones de Estado Estacionario: TARD mantiene ventaja en la mayoría de condiciones de estado estacionario
Se verifica la alta confiabilidad de los resultados de detección de TARD mediante ensamble profundo (10 modelos independientes), manteniendo bandas de incertidumbre estrechas durante la detección de fallos (desviación estándar aproximadamente 0.8).
- 100 Sensores Dimensionales: F1 mejorado de 0.42 a 0.67
- 1000 Sensores Dimensionales: F1 mejorado de 0.10 a 0.48
- Latencia de Inferencia: Se mantiene dentro de los requisitos de monitoreo en tiempo real (<2ms)
- Modelos Probabilísticos: Modelos de mezcla gaussiana, modelos basados en energía
- Clasificación de Una Clase: Métodos de límites discriminativos como máquinas de vectores de soporte
- Métodos de Reconstrucción: Métodos basados en error de reconstrucción como codificadores automáticos
- Sub-flotas Homogéneas: Métodos basados en agrupamiento por similitud
- Aprendizaje de Representaciones Funcionales: Métodos que aprenden el comportamiento general de la flota
- Limitaciones: Dependen de supuestos de similitud suficiente
- Métodos de Minimización de Diferencias: Minimización de distancias estadísticas como MMD
- Métodos Adversariales: Redes de discriminación de dominio como DANN
- Adaptación en Tiempo de Prueba: Métodos como Tent y SHOT
- Desafíos: Requieren datos etiquetados, asumen dominios estáticos, pueden adaptarse a datos de fallos
- TARD resuelve exitosamente los tres grandes desafíos en detección de fallos industrial: falta de datos de fallos etiquetados, disponibilidad limitada de datos en dominio objetivo, cambios de dominio continuo
- La estrategia de separación de características distingue efectivamente cambios en condiciones operativas de fallos reales
- Supera significativamente los métodos de adaptación de dominio existentes en dos conjuntos de datos industriales reales
- Ajuste de Parámetros: El parámetro de sensibilidad de detección de fallos α requiere configuración manual
- Cambios Importantes del Sistema: Carece de mecanismos de protección contra cambios permanentes importantes del sistema
- Dinámicas Temporales: La estrategia actual de suavizado de residuos puede perder detalles temporales importantes
- Mecanismos de Protección Automática: Desarrollar métodos para detectar cambios de dominio importantes y desencadenar reentrenamiento del módulo de adaptación
- Ajuste de Parámetros Adaptativo: Métodos para ajustar automáticamente el parámetro de sensibilidad α
- Análisis de Series Temporales: Introducir modelos especializados de series temporales para analizar patrones complejos en secuencias de residuos
- Alta Practicidad: Resuelve desafíos reales que existen en la industria, requiriendo solo una pequeña cantidad de datos normales
- Innovación Técnica: El diseño de la estrategia de separación de características y adaptación especializada es ingenioso y efectivo
- Validación Exhaustiva: Verificación completa con dos conjuntos de datos industriales reales + datos sintéticos de alta dimensión
- Fundamento Teórico: Definición clara del problema y motivación del método
- Alcance de Aplicabilidad: Principalmente validado en sistemas de flujo multifásico, la generalización a otros sistemas industriales requiere verificación
- Análisis Teórico: Carece de garantías teóricas sobre convergencia y estabilidad del método
- Costo Computacional: Aunque se reportan tiempos de inferencia, falta análisis detallado de complejidad computacional
- Sensibilidad a Hiperparámetros: Análisis insuficiente de sensibilidad a hiperparámetros clave (como α, longitud de ventana l)
- Contribución Académica: Proporciona una nueva dirección de investigación para el campo de detección de fallos industrial
- Valor Práctico: Directamente aplicable a despliegue industrial, especialmente para monitoreo temprano de equipos nuevos
- Reproducibilidad: Proporciona detalles de implementación detallados y descripción de algoritmos
- Sistemas Recién Desplegados: Equipos industriales con datos históricos limitados
- Gestión de Flotas: Escenarios que requieren transferencia de conocimiento entre equipos
- Ambientes Dinámicos: Sistemas industriales con condiciones operativas en constante cambio
- Infraestructura Crítica: Sistemas industriales importantes sensibles a falsas alarmas
El artículo cita 51 referencias relevantes, cubriendo trabajos importantes en los campos centrales de detección de fallos, adaptación de dominio y aprendizaje profundo, proporcionando una base teórica sólida para la investigación.
Evaluación General: Este es un artículo de alta calidad en estadística aplicada que aplica exitosamente técnicas de adaptación de dominio al importante problema práctico de detección de fallos industrial. El diseño del método es razonable, la verificación experimental es exhaustiva, y posee un fuerte valor práctico y significado académico.