Knowledge Distillation and Enhanced Subdomain Adaptation Using Graph Convolutional Network for Resource-Constrained Bearing Fault Diagnosis
Kavianpour, Kavianpour, Ramezani et al.
Bearing fault diagnosis under varying working conditions faces challenges, including a lack of labeled data, distribution discrepancies, and resource constraints. To address these issues, we propose a progressive knowledge distillation framework that transfers knowledge from a complex teacher model, utilizing a Graph Convolutional Network (GCN) with Autoregressive moving average (ARMA) filters, to a compact and efficient student model. To mitigate distribution discrepancies and labeling uncertainty, we introduce Enhanced Local Maximum Mean Squared Discrepancy (ELMMSD), which leverages mean and variance statistics in the Reproducing Kernel Hilbert Space (RKHS) and incorporates a priori probability distributions between labels. This approach increases the distance between clustering centers, bridges subdomain gaps, and enhances subdomain alignment reliability. Experimental results on benchmark datasets (CWRU and JNU) demonstrate that the proposed method achieves superior diagnostic accuracy while significantly reducing computational costs. Comprehensive ablation studies validate the effectiveness of each component, highlighting the robustness and adaptability of the approach across diverse working conditions.
academic
Distillation de Connaissances et Adaptation de Sous-Domaines Améliorée Utilisant les Réseaux de Convolution Graphique pour le Diagnostic de Défauts de Roulements en Environnement Contraint en Ressources
Le diagnostic de défauts de roulements dans des conditions de fonctionnement variables fait face à des défis tels que la rareté des données étiquetées, les décalages de distribution et les contraintes de ressources. Pour résoudre ces problèmes, cet article propose un cadre de distillation de connaissances progressif qui transfère les connaissances d'un modèle enseignant complexe (utilisant un réseau de convolution graphique GCN avec filtres ARMA) vers un modèle étudiant compact et efficace. Pour atténuer les décalages de distribution et l'incertitude des étiquettes, une distance maximale moyenne carrée de sous-domaine améliorée (ELMMSD) est introduite, qui exploite les statistiques de moyenne et de variance dans l'espace de Hilbert à noyau reproduisant (RKHS) et combine les distributions de probabilités a priori entre les étiquettes. Cette méthode augmente la distance entre les centres de clustering, comble les écarts entre sous-domaines et améliore la fiabilité de l'alignement des sous-domaines. Les résultats expérimentaux sur les ensembles de données de référence (CWRU et JNU) démontrent que la méthode atteint une précision diagnostique excellente tout en réduisant considérablement les coûts de calcul. Des études d'ablation complètes valident l'efficacité de chaque composant, mettant en évidence la robustesse et l'adaptabilité de la méthode dans différentes conditions de fonctionnement.
Les roulements, en tant que composants les plus susceptibles de défaillance dans les machines rotatives, font face à trois défis fondamentaux en matière de diagnostic de défauts :
Complexité Computationnelle : Les modèles d'apprentissage profond sont difficiles à déployer sur les équipements industriels aux ressources limitées
Problème de Décalage de Domaine : Il existe des différences de distribution entre les données d'entraînement (domaine source) et les données d'exploitation réelles (domaine cible)
Rareté des Données Étiquetées : L'acquisition de données annotées de haute qualité est difficile dans les scénarios industriels
La détection rapide et précise des défauts de roulements est essentielle pour prévenir les pertes économiques majeures et les arrêts d'exploitation
Les équipements en environnement industriel fonctionnent souvent dans des conditions variables, entraînant des changements dans la distribution des données
Les limitations de ressources des appareils informatiques périphériques exigent que les modèles soient légers
Insuffisances des méthodes d'adaptation de domaine :
Les méthodes MMD, CORAL et autres se concentrent principalement sur l'alignement des statistiques de moyenne ou de covariance, incapables de capturer les caractéristiques complètes de la distribution
Elles dépendent de labels de haute qualité et sont sensibles aux labels bruyants
Elles ignorent l'alignement des sous-domaines de la même classe
Limitations des méthodes GCN :
Les filtres graphiques standard (Chebyshev, polynomiaux) présentent des problèmes d'inflexibilité, de sur-lissage et de coûts de calcul élevés
Les filtres spectraux ont une charge computationnelle importante et sont sensibles aux changements de structure graphique
Défauts des méthodes de distillation de connaissances :
Les méthodes KD traditionnelles ne résolvent pas suffisamment le problème d'adaptation de sous-domaines
L'écart de capacité entre les modèles enseignant et étudiant affecte l'efficacité du transfert de connaissances
Elles dépendent des données étiquetées du domaine cible dans les scénarios non supervisés
Cet article vise à construire un cadre unifié qui résout simultanément les trois défis majeurs que sont l'efficacité computationnelle, le décalage de domaine et l'incertitude des étiquettes, réalisant ainsi un diagnostic efficace des défauts de roulements en environnement contraint en ressources.
Proposition de la métrique ELMMSD : Combine innovamment les statistiques de moyenne et de variance pour la mesure d'adaptation de sous-domaines, réalisant un alignement de domaine plus précis dans l'espace RKHS, et renforçant la robustesse aux labels bruyants par lissage des étiquettes
Conception d'un cadre de distillation de connaissances progressif : Réalise une compression de taille de modèle de 99,67% (de 0,92 MB à 0,028 MB), avec une perte de précision de seulement 2%, permettant le déploiement du modèle sur des appareils aux ressources limitées
Architecture GCN utilisant des filtres ARMA : Utilise des filtres de moyenne mobile autorégressive pour capturer les caractéristiques de structure géométrique, renforçant la capacité d'adaptation de sous-domaines et la robustesse au décalage de domaine
Construction d'une solution de diagnostic de défauts unifiée : Intègre ELMMSD, la distillation de connaissances et GCN, abordant de manière complète les défis de complexité computationnelle, de décalage de domaine et de labels bruyants dans le diagnostic de défauts de roulements
Perte de classification lissée :
Lcls=−∑c=1C[(1−ϵ)q(c∣xis)+ncϵ]log(p(c∣xis))
Définition de la Distance ELMMSD :
Calculée sur plusieurs couches et plusieurs noyaux aux couches FC1 et FC2 : dz1=nc1∑c=1nc[∑i,jωiscωjsck2(z~1si,z~1sj)+∑i,jωitcωjtck2(z1ti,z1tj)−2∑i,jωiscωjtck2(z~1si,z1tj)]
Conception Multi-Noyaux :
k≜∑u=1Uμuku
Utilise plusieurs noyaux gaussiens (bandes passantes : {0,001, 0,01, 1, 10, 100}) pour capturer les moments d'ordre bas et élevé
Facteur d'Équilibre Dynamique :
λSDA=−e4ne+1ne+4
Initialement 0 pour apprendre les caractéristiques de défaut fondamentales, augmentant progressivement pendant l'entraînement
Perte Globale d'Adaptation de Sous-Domaines :
LSDA=LCLS+λSDA(dz1+dz2)
Comparé à MMD qui considère uniquement la moyenne, ELMMSD utilise simultanément les informations de moyenne et de variance
Comparé à LMMD, introduit le lissage des étiquettes réduisant la dépendance aux labels de haute qualité
Utilise des noyaux carrés (produit tensoriel) préservant les caractéristiques statistiques d'ordre élevé, réduisant la complexité computationnelle
Avantages du Filtre ARMA :
Plus flexible que le filtre Chebyshev, avec plus de paramètres ajustables
La mise en œuvre récursive réduit les coûts de calcul
Plus robuste aux changements de structure graphique, réduisant le problème de sur-lissage
Stratégie de Distillation Progressive :
Adaptation d'abord, puis distillation, évitant la dégradation de la capacité de généralisation causée par la compression préalable dans les méthodes traditionnelles
Le facteur d'équilibre dynamique réalise une transition en douceur
Transfert de connaissances simultané dans les domaines source et cible
1. Impact du Nombre de Nœuds du Filtre ARMA (Tableau 5, Tâche A1→A3)
Nombre de Nœuds
FLOPs(M)
Taille du Modèle(MB)
Précision Enseignant
Précision Étudiant
32
34,54
0,54
98,83%
97,25%
64
44,37
0,69
99,06%
97,34%
128
59,05
0,92
99,82%
97,76%
256
126,16
1,97
99,67%
97,58%
Conclusion : 128 nœuds atteignent le meilleur équilibre entre précision et coût, 256 nœuds augmentent la charge computationnelle de 2,13 fois sans amélioration de précision
2. Effet de Compression du Modèle Étudiant
FLOPs : Réduction de 59,05M à 32,83M (réduction de 44,4%)
Taille du modèle : Réduction de 0,92 MB à 0,028 MB (compression de 99,67%)
Perte de précision : Seulement 2,06% (99,82%→97,76%)
3. Impact du Lissage des Étiquettes (Tableau 6)
Tâche
Labels Durs
Lissage des Étiquettes
Amélioration
A1→A4
99,18%
99,67%
+0,49%
A3→A2
99,59%
99,83%
+0,24%
J1→J2
98,24%
98,93%
+0,69%
J3→J2
98,80%
99,09%
+0,29%
Conclusion : Le lissage des étiquettes améliore la précision sur toutes les tâches, réduisant la sur-confiance du modèle
4. Mesures de Distance de Domaine (Figure 4, Tâche J3→J1)
Comparaison de la distance A et de la distance AL :
La distance A et la distance AL de KAVI sont toutes deux les plus faibles
Prouve que ELMMSD surpasse LMMD, DANN et MMSD à la fois dans l'adaptation de domaine global et l'alignement de sous-domaines
MMSD surpasse LMMD et DANN : Car il considère à la fois la moyenne et la variance, utilisant des noyaux carrés pour représenter les statistiques du second ordre
ELMMSD améliore davantage : Réalise les meilleures performances par lissage des étiquettes et alignement conjoint des distributions marginales et conditionnelles
Supériorité du Filtre ARMA : Montre les meilleures performances parmi toutes les variantes GCN, prouvant son efficacité dans l'extraction de caractéristiques de structure géométrique
Nécessité de la Stratégie Progressive : Le facteur d'équilibre dynamique réalise un transfert de connaissances en douceur, évitant les changements brusques causant une dégradation des performances
Capacité de Généralisation : Atteint des performances excellentes et cohérentes sur deux ensembles de données différents (CWRU et JNU)
Méthodes Précoces : Qian et al. utilisant CORAL+MMD, Jiang et al. adoptant LMMD+CORAL
Limitations : Se concentrent principalement sur les statistiques de moyenne, ignorant la variance ; sensibles aux labels bruyants
Améliorations de cet Article : ELMMSD utilise simultanément la moyenne et la variance, combiné avec le lissage des étiquettes pour renforcer la robustesse
Efficacité du Cadre KAVI : Atteint les performances SOTA sur les ensembles de données CWRU et JNU, avec des précisions moyennes du modèle enseignant respectivement de 99,53% et 98,88%
Compression Extrême : Le modèle étudiant réalise une compression de taille de 99,67% (0,92 MB→0,028 MB), avec une perte de précision de seulement 2%
Supériorité d'ELMMSD : Comparé à LMMD, DANN et MMSD, montre de meilleures performances à la fois dans l'adaptation de domaine global et l'alignement de sous-domaines
Valeur du Filtre ARMA : Montre les meilleures performances parmi toutes les variantes GCN, prouvant ses avantages dans l'extraction de caractéristiques de structure
Rôle du Lissage des Étiquettes : Améliore significativement la robustesse du modèle aux labels bruyants et la capacité de généralisation
Restrictions d'Hypothèses : Suppose que les domaines source et cible possèdent le même ensemble d'étiquettes de classe (scénario fermé)
Coûts Computationnels : Bien que le modèle étudiant soit léger, l'entraînement du modèle enseignant nécessite toujours des ressources computationnelles importantes
Sensibilité aux Hyperparamètres : Plusieurs hyperparamètres (τ, λe, ε, etc.) nécessitent une optimisation par recherche en grille
Stratégie de Construction de Graphe : La stratégie de parcimonie Top-K (K=2) peut ne pas être applicable à tous les scénarios
Temps Réel : L'article ne discute pas de la faisabilité de l'apprentissage en ligne et du diagnostic en temps réel
Appareils Périphériques Industriels : Nœuds de capteurs, systèmes embarqués et autres environnements aux ressources limitées
Diagnostic dans des Conditions Variables : Scénarios où la charge, la vitesse de rotation, etc. changent fréquemment
Scénarios de Rareté de Labels : Applications où l'acquisition de données annotées en grande quantité est difficile
Modérément Applicable :
Transfert Multi-Source : Nécessite une extension pour supporter plusieurs domaines sources
Diagnostic En Ligne : Nécessite l'ajout de mécanismes d'apprentissage incrémental
Systèmes à Grande Échelle : Peut nécessiter des stratégies d'entraînement distribué
Non Applicable :
Diagnostic de Défauts en Ensemble Ouvert : Impossible d'identifier les types de défauts inconnus
Exigences de Temps Réel Extrêmes : L'entraînement du modèle enseignant est chronophage
Scénarios Sensibles à la Confidentialité des Données : Nécessite l'intégration d'apprentissage fédéré et d'autres techniques de protection de la confidentialité
Filtres ARMA : Bianchi et al. (2021) - Graph neural networks with convolutional ARMA filters, IEEE TPAMI
LMMD : Zhu et al. (2020) - Deep subdomain adaptation network for image classification, IEEE TNNLS
MMSD : Qian et al. (2023) - Maximum mean square discrepancy: a new discrepancy representation metric, KBS
Adversité de Domaine : Ganin et al. (2016) - Domain-adversarial training of neural networks, JMLR
Ensemble de Données CWRU : Lou & Loparo (2004) - Bearing fault diagnosis based on wavelet transform and fuzzy inference
Résumé : Le cadre KAVI proposé dans cet article apporte des contributions importantes au domaine du diagnostic de défauts de roulements, résolvant avec succès le problème du diagnostic de défauts dans des conditions variables en environnement contraint en ressources par l'intégration ingénieuse de réseaux de convolution graphique, d'adaptation de sous-domaines améliorée et de distillation de connaissances progressive. Le taux de compression de modèle de 99,67% et la perte de précision de seulement 2% démontrent la valeur pratique de cette méthode. Bien qu'il existe des limitations telles que l'hypothèse d'ensemble fermé, sa conception systématique et sa vérification expérimentale complète en font un travail important dans ce domaine, méritant une recherche et une application ultérieures.