Knowledge Distillation and Enhanced Subdomain Adaptation Using Graph Convolutional Network for Resource-Constrained Bearing Fault Diagnosis
Kavianpour, Kavianpour, Ramezani et al.
Bearing fault diagnosis under varying working conditions faces challenges, including a lack of labeled data, distribution discrepancies, and resource constraints. To address these issues, we propose a progressive knowledge distillation framework that transfers knowledge from a complex teacher model, utilizing a Graph Convolutional Network (GCN) with Autoregressive moving average (ARMA) filters, to a compact and efficient student model. To mitigate distribution discrepancies and labeling uncertainty, we introduce Enhanced Local Maximum Mean Squared Discrepancy (ELMMSD), which leverages mean and variance statistics in the Reproducing Kernel Hilbert Space (RKHS) and incorporates a priori probability distributions between labels. This approach increases the distance between clustering centers, bridges subdomain gaps, and enhances subdomain alignment reliability. Experimental results on benchmark datasets (CWRU and JNU) demonstrate that the proposed method achieves superior diagnostic accuracy while significantly reducing computational costs. Comprehensive ablation studies validate the effectiveness of each component, highlighting the robustness and adaptability of the approach across diverse working conditions.
academic
Distillazione della Conoscenza e Adattamento Sottodominio Migliorato Utilizzando Reti Convoluzionali Grafiche per la Diagnosi di Guasti ai Cuscinetti in Ambienti con Risorse Limitate
La diagnosi di guasti ai cuscinetti in condizioni di lavoro variabili affronta sfide significative quali la scarsità di dati etichettati, le differenze di distribuzione e i vincoli di risorse. Per affrontare questi problemi, il presente articolo propone un framework di distillazione della conoscenza progressiva che trasferisce la conoscenza da un modello insegnante complesso (che utilizza reti convoluzionali grafiche con filtri ARMA) a un modello studente compatto ed efficiente. Per mitigare le differenze di distribuzione e l'incertezza delle etichette, viene introdotta la Distanza Massima Media Quadratica Locale Migliorata (ELMMSD), che sfrutta le statistiche di media e varianza nello spazio di Hilbert a nucleo riproducente (RKHS) e incorpora distribuzioni di probabilità a priori tra le etichette. Questo metodo aumenta la distanza tra i centri di clustering, colma i divari tra sottodomini e migliora l'affidabilità dell'allineamento sottodominio. I risultati sperimentali su dataset di riferimento (CWRU e JNU) dimostrano che il metodo raggiunge un'eccellente precisione diagnostica riducendo significativamente i costi computazionali. Studi di ablazione completi verificano l'efficacia di ogni componente, evidenziando la robustezza e l'adattabilità del metodo in diverse condizioni di lavoro.
I cuscinetti, come uno dei componenti più soggetti a guasti nei macchinari rotanti, affrontano tre sfide fondamentali nella diagnosi di guasti:
Complessità Computazionale: I modelli di deep learning sono difficili da distribuire su dispositivi industriali con risorse limitate
Problema di Domain Shift: Esistono differenze di distribuzione tra i dati di addestramento (dominio sorgente) e i dati di funzionamento reale (dominio target)
Scarsità di Dati Etichettati: L'acquisizione di dati annotati di alta qualità è difficile in ambienti industriali
Insufficienze dei Metodi di Adattamento di Dominio:
Metodi come MMD e CORAL si concentrano principalmente sull'allineamento delle statistiche di media o covarianza, incapaci di catturare le caratteristiche di distribuzione complete
Dipendono da etichette di alta qualità e sono sensibili alle etichette rumorose
Trascurano l'allineamento dei sottodomini della stessa classe
Limitazioni dei Metodi GCN:
I filtri grafici standard (Chebyshev, polinomiali) presentano problemi di inflessibilità, over-smoothing e costi computazionali elevati
I filtri spettrali hanno elevata complessità computazionale e sono sensibili ai cambiamenti della struttura grafica
Difetti dei Metodi di Distillazione della Conoscenza:
I metodi KD tradizionali non affrontano sufficientemente il problema dell'adattamento sottodominio
Il divario di capacità tra modelli insegnante e studente influisce sull'efficacia del trasferimento di conoscenza
Dipendono dai dati etichettati del dominio target in scenari non supervisionati
Questo articolo mira a costruire un framework unificato che affronti simultaneamente le tre sfide di efficienza computazionale, domain shift e incertezza delle etichette, realizzando una diagnosi efficiente di guasti ai cuscinetti in ambienti con risorse limitate.
Propone la Metrica ELMMSD: Combina innovativamente le statistiche di media e varianza per la misurazione dell'adattamento sottodominio, realizzando un allineamento di dominio più preciso nello spazio RKHS e migliorando la robustezza alle etichette rumorose attraverso lo smoothing delle etichette
Progetta un Framework di Distillazione Progressiva: Realizza una compressione della dimensione del modello del 99,67% (da 0,92MB a 0,028MB) con una perdita di precisione di soli il 2%, rendendo il modello distribuibile su dispositivi con risorse limitate
Adotta un'Architettura GCN con Filtri ARMA: Utilizza filtri autoregressivi a media mobile per catturare le caratteristiche della struttura geometrica, migliorando la capacità di adattamento sottodominio e la robustezza al domain shift
Costruisce una Soluzione Unificata di Diagnosi di Guasti: Integra ELMMSD, distillazione della conoscenza e GCN, affrontando complessivamente la complessità computazionale, il domain shift e le sfide delle etichette rumorose nella diagnosi di guasti ai cuscinetti
Perdita di classificazione smussata:
Lcls=−∑c=1C[(1−ϵ)q(c∣xis)+ncϵ]log(p(c∣xis))
Definizione della Distanza ELMMSD:
Calcolata su più strati e più nuclei nei strati FC1 e FC2: dz1=nc1∑c=1nc[∑i,jωiscωjsck2(z~1si,z~1sj)+∑i,jωitcωjtck2(z1ti,z1tj)−2∑i,jωiscωjtck2(z~1si,z1tj)]
Progettazione Multi-Nucleo:
k≜∑u=1Uμuku
Utilizza più nuclei gaussiani (larghezze di banda: {0.001, 0.01, 1, 10, 100}) per catturare momenti di ordine basso e alto
Fattore di Equilibrio Dinamico:
λSDA=−e4ne+1ne+4
Inizialmente 0 per apprendere le caratteristiche di guasto di base, aumenta gradualmente durante l'addestramento
Perdita Complessiva di Adattamento Sottodominio:
LSDA=LCLS+λSDA(dz1+dz2)
A differenza di MMD che considera solo la media, ELMMSD sfrutta simultaneamente le informazioni di media e varianza
Rispetto a LMMD, introduce lo smoothing delle etichette riducendo la dipendenza da etichette di alta qualità
Utilizza nuclei quadrati (tensor product) preservando le caratteristiche statistiche di ordine superiore, riducendo la complessità computazionale
Vantaggi del Filtro ARMA:
Più flessibile rispetto al filtro Chebyshev, con più parametri regolabili
L'implementazione ricorsiva riduce i costi computazionali
Più robusto ai cambiamenti della struttura grafica, riducendo il problema dell'over-smoothing
Strategia di Distillazione Progressiva:
Adattamento prima della distillazione, evitando la riduzione della capacità di generalizzazione causata dalla compressione precoce nei metodi tradizionali
Il fattore di equilibrio dinamico realizza una transizione fluida
Il trasferimento di conoscenza simultaneo nei domini sorgente e target
1. Impatto del Numero di Nodi del Filtro ARMA (Tabella 5, Compito A1→A3)
Numero di Nodi
FLOPs(M)
Dimensione Modello(MB)
Precisione Insegnante
Precisione Studente
32
34.54
0.54
98.83%
97.25%
64
44.37
0.69
99.06%
97.34%
128
59.05
0.92
99.82%
97.76%
256
126.16
1.97
99.67%
97.58%
Conclusione: 128 nodi raggiungono il miglior equilibrio tra precisione e costo, mentre 256 nodi aumentano il volume di calcolo di 2.13 volte senza miglioramento di precisione
2. Effetto di Compressione del Modello Studente
FLOPs: Ridotto da 59.05M a 32.83M (riduzione del 44.4%)
Dimensione del Modello: Ridotto da 0.92MB a 0.028MB (compressione del 99.67%)
Perdita di Precisione: Solo 2.06% (99.82%→97.76%)
3. Impatto dello Smoothing delle Etichette (Tabella 6)
Compito
Etichette Dure
Smoothing Etichette
Miglioramento
A1→A4
99.18%
99.67%
+0.49%
A3→A2
99.59%
99.83%
+0.24%
J1→J2
98.24%
98.93%
+0.69%
J3→J2
98.80%
99.09%
+0.29%
Conclusione: Lo smoothing delle etichette migliora la precisione in tutti i compiti, riducendo l'eccessiva fiducia del modello
4. Misure di Distanza di Dominio (Figura 4, Compito J3→J1)
Confronto di A-distance e AL-distance:
Sia A-distance che AL-distance di KAVI sono i più bassi
Dimostra che ELMMSD è superiore a LMMD, DANN e MMSD sia nell'adattamento di dominio globale che nell'allineamento sottodominio
MMSD Superiore a LMMD e DANN: Perché considera simultaneamente media e varianza, utilizzando nuclei quadrati per rappresentare statistiche di secondo ordine
ELMMSD Migliora Ulteriormente: Attraverso lo smoothing delle etichette e l'allineamento congiunto di distribuzione marginale e condizionale raggiunge le migliori prestazioni
Superiorità del Filtro ARMA: Mostra le migliori prestazioni tra tutte le varianti GCN, provando l'efficacia nella cattura di caratteristiche di struttura geometrica
Necessità della Strategia Progressiva: Il fattore di equilibrio dinamico realizza un trasferimento di conoscenza fluido, evitando la riduzione di prestazioni causata da cambiamenti improvvisi
Capacità di Generalizzazione: Raggiunge prestazioni eccellenti e coerenti su due dataset diversi (CWRU e JNU)
Metodi Iniziali: Qian et al. utilizzano CORAL+MMD, Jiang et al. adottano LMMD+CORAL
Limitazioni: Si concentrano principalmente su statistiche di media, trascurando la varianza; sensibili alle etichette rumorose
Miglioramento di questo Articolo: ELMMSD sfrutta simultaneamente media e varianza, combinato con smoothing delle etichette per migliorare la robustezza
KD Tradizionale: Distillazione MsGPAT di Chen et al., KD+quantizzazione di Gue et al.
Limitazioni: Non affronta sufficientemente l'adattamento sottodominio; la compressione prima o dopo l'adattamento presenta difetti
Innovazione di questo Articolo: Framework di distillazione progressiva che esegue simultaneamente il trasferimento di conoscenza durante il processo di adattamento
Efficacia del Framework KAVI: Raggiunge prestazioni SOTA su dataset CWRU e JNU, con precisione media del modello insegnante rispettivamente 99.53% e 98.88%
Compressione Estrema: Il modello studente realizza una compressione della dimensione del 99.67% (0.92MB→0.028MB) con perdita di precisione di solo il 2%
Superiorità di ELMMSD: Rispetto a LMMD, DANN e MMSD, mostra prestazioni superiori sia nell'adattamento di dominio globale che nell'allineamento sottodominio
Valore del Filtro ARMA: Mostra le migliori prestazioni tra tutte le varianti GCN, provando il vantaggio nell'estrazione di caratteristiche strutturali
Effetto dello Smoothing delle Etichette: Migliora significativamente la robustezza del modello alle etichette rumorose e la capacità di generalizzazione
Filtri ARMA: Bianchi et al. (2021) - Graph neural networks with convolutional ARMA filters, IEEE TPAMI
LMMD: Zhu et al. (2020) - Deep subdomain adaptation network for image classification, IEEE TNNLS
MMSD: Qian et al. (2023) - Maximum mean square discrepancy: a new discrepancy representation metric, KBS
Domain Adversarial: Ganin et al. (2016) - Domain-adversarial training of neural networks, JMLR
Dataset CWRU: Lou & Loparo (2004) - Bearing fault diagnosis based on wavelet transform and fuzzy inference
Sintesi: L'articolo propone il framework KAVI che realizza contributi importanti nel campo della diagnosi di guasti ai cuscinetti, combinando abilmente reti convoluzionali grafiche, adattamento sottodominio migliorato e distillazione della conoscenza progressiva, risolvendo con successo il difficile problema della diagnosi di guasti in condizioni variabili in ambienti con risorse limitate. Il tasso di compressione del modello del 99.67% e la perdita di precisione di solo il 2% dimostrano il valore pratico del metodo. Sebbene presenti limitazioni come l'ipotesi di insieme chiuso, il design sistematico e la verifica sperimentale completa lo rendono un lavoro importante nel campo, meritevole di ulteriore ricerca e applicazione pratica.