Knowledge Distillation and Enhanced Subdomain Adaptation Using Graph Convolutional Network for Resource-Constrained Bearing Fault Diagnosis
Kavianpour, Kavianpour, Ramezani et al.
Bearing fault diagnosis under varying working conditions faces challenges, including a lack of labeled data, distribution discrepancies, and resource constraints. To address these issues, we propose a progressive knowledge distillation framework that transfers knowledge from a complex teacher model, utilizing a Graph Convolutional Network (GCN) with Autoregressive moving average (ARMA) filters, to a compact and efficient student model. To mitigate distribution discrepancies and labeling uncertainty, we introduce Enhanced Local Maximum Mean Squared Discrepancy (ELMMSD), which leverages mean and variance statistics in the Reproducing Kernel Hilbert Space (RKHS) and incorporates a priori probability distributions between labels. This approach increases the distance between clustering centers, bridges subdomain gaps, and enhances subdomain alignment reliability. Experimental results on benchmark datasets (CWRU and JNU) demonstrate that the proposed method achieves superior diagnostic accuracy while significantly reducing computational costs. Comprehensive ablation studies validate the effectiveness of each component, highlighting the robustness and adaptability of the approach across diverse working conditions.
academic
Destilación de Conocimiento y Adaptación Mejorada de Subdominio Utilizando Red Convolucional de Grafos para Diagnóstico de Fallas en Rodamientos con Recursos Limitados
El diagnóstico de fallas en rodamientos bajo condiciones de funcionamiento variable enfrenta desafíos como la escasez de datos etiquetados, diferencias de distribución y restricciones de recursos. Para abordar estos problemas, este artículo propone un marco de destilación de conocimiento progresivo que transfiere conocimiento desde un modelo maestro complejo (que utiliza una Red Convolucional de Grafos con filtros ARMA) hacia un modelo estudiante compacto y eficiente. Para mitigar las diferencias de distribución e incertidumbre de etiquetas, se introduce la Distancia Máxima Mejorada de Cuadrados Medios Locales (ELMMSD), que aprovecha estadísticas de media y varianza en el Espacio de Hilbert de Núcleo Reproducible (RKHS) y combina distribuciones de probabilidad a priori entre etiquetas. Este método aumenta la distancia entre centros de agrupamiento, cierra las brechas entre subdominios y mejora la confiabilidad de la alineación de subdominios. Los resultados experimentales en conjuntos de datos de referencia (CWRU y JNU) demuestran que el método logra una precisión de diagnóstico excelente mientras reduce significativamente los costos computacionales. Estudios de ablación exhaustivos validan la efectividad de cada componente, destacando la robustez y adaptabilidad del método bajo diferentes condiciones de funcionamiento.
Los rodamientos, como uno de los componentes más propensos a fallar en maquinaria rotatoria, enfrentan tres desafíos centrales en el diagnóstico de fallas:
Complejidad Computacional: Los modelos de aprendizaje profundo son difíciles de desplegar en dispositivos industriales con recursos limitados
Problema de Cambio de Dominio: Existe una diferencia de distribución entre los datos de entrenamiento (dominio fuente) y los datos de operación real (dominio objetivo)
Escasez de Datos Etiquetados: Es difícil obtener datos de alta calidad anotados en escenarios industriales
Insuficiencias en Métodos de Adaptación de Dominio:
Métodos como MMD y CORAL se enfocaban principalmente en alineación de estadísticas de media o covarianza, sin poder capturar características de distribución completas
Dependen de etiquetas de alta calidad y son sensibles a etiquetas ruidosas
Ignoran la alineación de subdominios de la misma clase
Limitaciones de Métodos GCN:
Los filtros de grafos estándar (Chebyshev, polinomiales) presentan inflexibilidad, sobre-suavizado y altos costos computacionales
Los filtros espectrales tienen alto costo computacional y son sensibles a cambios en la estructura del grafo
Defectos en Métodos de Destilación de Conocimiento:
Los métodos tradicionales de KD no resuelven completamente el problema de adaptación de subdominios
La brecha de capacidad entre modelos maestro y estudiante afecta la efectividad de la transferencia de conocimiento
En escenarios sin supervisión, dependen de datos etiquetados del dominio objetivo
Este artículo tiene como objetivo construir un marco unificado que aborde simultáneamente los tres grandes desafíos de eficiencia computacional, cambio de dominio e incertidumbre de etiquetas, logrando un diagnóstico eficiente de fallas en rodamientos en entornos con recursos limitados.
Propuesta de Métrica ELMMSD: Innovadoramente combina estadísticas de media y varianza para la métrica de adaptación de subdominios, logrando alineación de dominio más precisa en RKHS y mejorando la robustez a etiquetas ruidosas mediante suavizado de etiquetas
Diseño de Marco de Destilación de Conocimiento Progresivo: Logra compresión del tamaño del modelo del 99.67% (de 0.92MB a 0.028MB) con una pérdida de precisión de solo el 2%, permitiendo el despliegue en dispositivos con recursos limitados
Arquitectura GCN con Filtro ARMA: Utiliza filtros de media móvil autorregresiva para capturar características de estructura geométrica, mejorando la capacidad de adaptación de subdominios y robustez ante cambios de dominio
Construcción de Solución Unificada de Diagnóstico de Fallas: Integra ELMMSD, destilación de conocimiento y GCN, abordando integralmente los desafíos de complejidad computacional, cambio de dominio y etiquetas ruidosas en el diagnóstico de fallas en rodamientos
Pérdida de clasificación suavizada:
Lcls=−∑c=1C[(1−ϵ)q(c∣xis)+ncϵ]log(p(c∣xis))
Definición de Distancia ELMMSD:
Calculada en capas FC1 y FC2 con ELMMSD multicapa y multinúcleo: dz1=nc1∑c=1nc[∑i,jωiscωjsck2(z~1si,z~1sj)+∑i,jωitcωjtck2(z1ti,z1tj)−2∑i,jωiscωjtck2(z~1si,z1tj)]
Diseño Multinúcleo:
k≜∑u=1Uμuku
Utiliza múltiples núcleos gaussianos (anchos de banda: {0.001, 0.01, 1, 10, 100}) para capturar momentos de bajo y alto orden
Factor de Equilibrio Dinámico:
λSDA=−e4ne+1ne+4
Inicialmente 0 para aprender características de falla básicas, aumentando gradualmente durante el entrenamiento
Pérdida General de Adaptación de Subdominios:
LSDA=LCLS+λSDA(dz1+dz2)
1. Impacto del Número de Nodos del Filtro ARMA (Tabla 5, Tarea A1→A3)
Número de Nodos
FLOPs(M)
Tamaño del Modelo(MB)
Precisión del Maestro
Precisión del Estudiante
32
34.54
0.54
98.83%
97.25%
64
44.37
0.69
99.06%
97.34%
128
59.05
0.92
99.82%
97.76%
256
126.16
1.97
99.67%
97.58%
Conclusión: 128 nodos logran el mejor equilibrio entre precisión y costo, con 256 nodos aumentando el volumen computacional 2.13 veces sin mejora de precisión
2. Efecto de Compresión del Modelo Estudiante
FLOPs: Reducción de 59.05M a 32.83M (reducción del 44.4%)
Tamaño del modelo: Reducción de 0.92MB a 0.028MB (compresión del 99.67%)
Pérdida de precisión: Solo 2.06% (99.82%→97.76%)
3. Impacto del Suavizado de Etiquetas (Tabla 6)
Tarea
Etiquetas Duras
Suavizado de Etiquetas
Mejora
A1→A4
99.18%
99.67%
+0.49%
A3→A2
99.59%
99.83%
+0.24%
J1→J2
98.24%
98.93%
+0.69%
J3→J2
98.80%
99.09%
+0.29%
Conclusión: El suavizado de etiquetas mejora la precisión en todas las tareas, reduciendo el exceso de confianza del modelo
4. Métrica de Distancia de Dominio (Figura 4, Tarea J3→J1)
Comparación de distancia A y distancia AL:
La distancia A y AL de KAVI son las más bajas
Demuestra que ELMMSD es superior a LMMD, DANN y MMSD tanto en adaptación de dominio global como en alineación de subdominios
MMSD Supera a LMMD y DANN: Porque considera simultáneamente media y varianza, utilizando núcleos cuadrados para representar estadísticas de segundo orden
ELMMSD Mejora Aún Más: Mediante suavizado de etiquetas y alineación conjunta de distribuciones marginales y condicionales logrando rendimiento óptimo
Superioridad del Filtro ARMA: Muestra el mejor rendimiento entre todas las variantes de GCN, demostrando su efectividad en capturar características de estructura geométrica
Necesidad de Estrategia Progresiva: El factor de equilibrio dinámico logra transferencia suave de conocimiento, evitando cambios abruptos que causen degradación de rendimiento
Capacidad de Generalización: Logra rendimiento consistentemente excelente en dos conjuntos de datos diferentes (CWRU y JNU)
Efectividad del Marco KAVI: Logra rendimiento SOTA en conjuntos de datos CWRU y JNU, con precisión promedio del modelo maestro de 99.53% y 98.88% respectivamente
Compresión Extrema: El modelo estudiante logra compresión del 99.67% (0.92MB→0.028MB) con pérdida de precisión de solo 2%
Superioridad de ELMMSD: Comparado con LMMD, DANN y MMSD, muestra mejor rendimiento tanto en adaptación de dominio global como en alineación de subdominios
Valor del Filtro ARMA: Muestra el mejor rendimiento entre todas las variantes de GCN, demostrando ventajas en extracción de características estructurales
Efecto del Suavizado de Etiquetas: Mejora significativamente la robustez del modelo ante etiquetas ruidosas y capacidad de generalización
Filtro ARMA: Bianchi et al. (2021) - Graph neural networks with convolutional ARMA filters, IEEE TPAMI
LMMD: Zhu et al. (2020) - Deep subdomain adaptation network for image classification, IEEE TNNLS
MMSD: Qian et al. (2023) - Maximum mean square discrepancy: a new discrepancy representation metric, KBS
Adversaria de Dominio: Ganin et al. (2016) - Domain-adversarial training of neural networks, JMLR
Conjunto de Datos CWRU: Lou & Loparo (2004) - Bearing fault diagnosis based on wavelet transform and fuzzy inference
Resumen: El marco KAVI propuesto en este artículo realiza contribuciones importantes en el campo del diagnóstico de fallas en rodamientos, combinando ingeniosamente redes convolucionales de grafos, adaptación mejorada de subdominios y destilación de conocimiento progresiva, resolviendo exitosamente el desafío del diagnóstico de fallas bajo condiciones variables en entornos con recursos limitados. La tasa de compresión del modelo del 99.67% y la pérdida de precisión de solo 2% demuestran el valor práctico del método. Aunque presenta limitaciones como la suposición de conjunto cerrado, su diseño sistemático y validación experimental exhaustiva lo convierten en un trabajo importante en el campo, mereciendo investigación y promoción de aplicación adicionales.