Knowledge Distillation and Enhanced Subdomain Adaptation Using Graph Convolutional Network for Resource-Constrained Bearing Fault Diagnosis
Kavianpour, Kavianpour, Ramezani et al.
Bearing fault diagnosis under varying working conditions faces challenges, including a lack of labeled data, distribution discrepancies, and resource constraints. To address these issues, we propose a progressive knowledge distillation framework that transfers knowledge from a complex teacher model, utilizing a Graph Convolutional Network (GCN) with Autoregressive moving average (ARMA) filters, to a compact and efficient student model. To mitigate distribution discrepancies and labeling uncertainty, we introduce Enhanced Local Maximum Mean Squared Discrepancy (ELMMSD), which leverages mean and variance statistics in the Reproducing Kernel Hilbert Space (RKHS) and incorporates a priori probability distributions between labels. This approach increases the distance between clustering centers, bridges subdomain gaps, and enhances subdomain alignment reliability. Experimental results on benchmark datasets (CWRU and JNU) demonstrate that the proposed method achieves superior diagnostic accuracy while significantly reducing computational costs. Comprehensive ablation studies validate the effectiveness of each component, highlighting the robustness and adaptability of the approach across diverse working conditions.
academic
Wissensdestillation und verbesserte Subdomänen-Anpassung unter Verwendung von Graphenfaltungsnetzwerken für die Lagerfehlererkennung unter Ressourcenbeschränkungen
Die Lagerfehlererkennung unter variablen Betriebsbedingungen steht vor Herausforderungen wie Mangel an gekennzeichneten Daten, Verteilungsunterschiede und Ressourcenbeschränkungen. Um diese Probleme zu lösen, wird ein progressives Wissensdestillations-Framework vorgeschlagen, das Wissen von einem komplexen Lehrermodell (mit ARMA-gefilterten Graphenfaltungsnetzwerken – GCN) auf ein kompaktes und effizientes Schülermodell überträgt. Um Verteilungsunterschiede und Labelunsicherheit zu mildern, wird die verbesserte lokale maximale mittlere quadratische Diskrepanz (ELMMSD) eingeführt, die Mittelwert- und Varianzstatistiken im reproduzierenden Kernel-Hilbert-Raum (RKHS) nutzt und vorherige Wahrscheinlichkeitsverteilungen zwischen Labels kombiniert. Diese Methode vergrößert die Abstände zwischen Clusterzentren, überbrückt Subdomänenlücken und verbessert die Zuverlässigkeit der Subdomänen-Ausrichtung. Experimentelle Ergebnisse auf Benchmark-Datensätzen (CWRU und JNU) zeigen, dass die Methode eine hervorragende Diagnosgenauigkeit bei deutlich reduzierten Rechenkosten erreicht. Umfassende Ablationsstudien validieren die Wirksamkeit jeder Komponente und unterstreichen die Robustheit und Anpassungsfähigkeit der Methode unter verschiedenen Betriebsbedingungen.
MMD-, CORAL- und ähnliche Methoden konzentrieren sich hauptsächlich auf Mittelwert-Statistiken oder Kovarianz-Ausrichtung und können vollständige Verteilungsmerkmale nicht erfassen
Abhängigkeit von hochwertigen Labels, Empfindlichkeit gegenüber verrauschten Labels
Vernachlässigung der Ausrichtung von Subdomänen derselben Klasse
Einschränkungen von GCN-Methoden:
Standard-Graphenfilter (Chebyshev, Polynom) weisen Inflexibilität, Überglättung und hohe Rechenkosten auf
Spektralfilter sind rechenintensiv und empfindlich gegenüber Graphenstrukturänderungen
Mängel von Wissensdestillationsmethoden:
Traditionelle KD-Methoden lösen Subdomänen-Anpassungsprobleme nicht ausreichend
Kapazitätslücke zwischen Lehrer- und Schülermodellen beeinträchtigt den Wissenstransfer
Abhängigkeit von Zieldomänen-Labeldaten in unüberwachten Szenarien
Ziel ist es, ein einheitliches Framework zu schaffen, das gleichzeitig die drei Hauptherausforderungen – Recheneffizienz, Domänenverlagerung und Labelunsicherheit – löst und eine effiziente Lagerfehlererkennung in ressourcenbeschränkten Umgebungen ermöglicht.
Einführung der ELMMSD-Metrik: Innovative Kombination von Mittelwert- und Varianzstatistiken für die Subdomänen-Anpassungsmessung, Erreichung präziserer Domänen-Ausrichtung im RKHS und Verbesserung der Robustheit gegenüber verrauschten Labels durch Label-Smoothing
Progressives Wissensdestillations-Framework: Modellgrößenkompression um 99,67% (von 0,92 MB auf 0,028 MB) mit nur 2% Genauigkeitsverlust, was die Bereitstellung auf ressourcenbeschränkten Geräten ermöglicht
GCN-Architektur mit ARMA-Filtern: Nutzung von autoregressiven gleitenden Durchschnittsfiltern zur Erfassung geometrischer Strukturmerkmale, Verbesserung der Subdomänen-Anpassungsfähigkeit und Robustheit gegenüber Domänenverlagerung
Einheitliche Lagerfehlererkennung-Lösung: Integration von ELMMSD, Wissensdestillation und GCN zur umfassenden Bewältigung von Rechenkomplexität, Domänenverlagerung und verrauschten Label-Herausforderungen in der Lagerfehlererkennung
ELMMSD-Distanzdefinition:
Berechnung von Multi-Layer-Multi-Kernel-ELMMSD in FC1- und FC2-Schichten: dz1=nc1∑c=1nc[∑i,jωiscωjsck2(z~1si,z~1sj)+∑i,jωitcωjtck2(z1ti,z1tj)−2∑i,jωiscωjtck2(z~1si,z1tj)]
Multi-Kernel-Design:
k≜∑u=1Uμuku
Verwendung mehrerer Gaußkerne (Bandbreiten: {0,001, 0,01, 1, 10, 100}) zur Erfassung niedriger und höherer Momente
Dynamischer Ausgleichsfaktor:
λSDA=−e4ne+1ne+4
Anfangs 0 zum Erlernen grundlegender Fehlermerkmale, nimmt während des Trainings schrittweise zu
Gesamte Subdomänen-Anpassungsverlustfunktion:
LSDA=LCLS+λSDA(dz1+dz2)
1. Einfluss der ARMA-Filter-Knotenzahl (Tabelle 5, Aufgabe A1→A3)
Knotenzahl
FLOPs(M)
Modellgröße(MB)
Lehrergenauigkeit
Schülergenauigkeit
32
34,54
0,54
98,83%
97,25%
64
44,37
0,69
99,06%
97,34%
128
59,05
0,92
99,82%
97,76%
256
126,16
1,97
99,67%
97,58%
Schlussfolgerung: 128 Knoten erreichen das beste Genauigkeit-Kosten-Gleichgewicht; 256 Knoten erhöhen die Rechenlast um 2,13x ohne Genauigkeitsverbesserung
2. Kompressionseffekt des Schülermodells
FLOPs: Von 59,05M auf 32,83M reduziert (44,4% Reduktion)
Modellgröße: Von 0,92MB auf 0,028MB reduziert (99,67% Kompression)
Genauigkeitsverlust: Nur 2,06% (99,82%→97,76%)
3. Einfluss von Label-Smoothing (Tabelle 6)
Aufgabe
Harte Labels
Label-Smoothing
Verbesserung
A1→A4
99,18%
99,67%
+0,49%
A3→A2
99,59%
99,83%
+0,24%
J1→J2
98,24%
98,93%
+0,69%
J3→J2
98,80%
99,09%
+0,29%
Schlussfolgerung: Label-Smoothing verbessert die Genauigkeit bei allen Aufgaben und reduziert Übervertrauen des Modells
MMSD übertrifft LMMD und DANN: Durch gleichzeitige Berücksichtigung von Mittelwert und Varianz unter Verwendung quadratischer Kerne zur Darstellung von Statistiken zweiter Ordnung
ELMMSD bietet weitere Verbesserung: Durch Label-Smoothing und gemeinsame Ausrichtung von Rand- und bedingten Verteilungen
Überlegenheit des ARMA-Filters: Beste Leistung unter allen GCN-Varianten, beweist Effektivität bei der Erfassung geometrischer Strukturmerkmale
Notwendigkeit der progressiven Strategie: Dynamische Ausgleichsfaktoren ermöglichen sanften Wissenstransfer und vermeiden Leistungsabfälle durch Sprünge
Generalisierungsfähigkeit: Konsistent hervorragende Leistung auf zwei verschiedenen Datensätzen (CWRU und JNU)
KAVI-Framework-Effektivität: Erreicht SOTA-Leistung auf CWRU- und JNU-Datensätzen mit durchschnittlicher Lehrermodell-Genauigkeit von 99,53% bzw. 98,88%
Extreme Kompression: Schülermodell erreicht 99,67% Größenkompression (0,92MB→0,028MB) mit nur 2% Genauigkeitsverlust
ELMMSD-Überlegenheit: Übertrifft LMMD, DANN und MMSD bei globaler Domänen-Anpassung und Subdomänen-Ausrichtung
ARMA-Filter-Wert: Beste Leistung unter allen GCN-Varianten, beweist Vorteile bei der Strukturmerkmal-Extraktion
Rolle von Label-Smoothing: Signifikante Verbesserung der Modellrobustheit und Generalisierungsfähigkeit unter verrauschten Labels
ARMA-Filter: Bianchi et al. (2021) - Graph neural networks with convolutional ARMA filters, IEEE TPAMI
LMMD: Zhu et al. (2020) - Deep subdomain adaptation network for image classification, IEEE TNNLS
MMSD: Qian et al. (2023) - Maximum mean square discrepancy: a new discrepancy representation metric, KBS
Domänen-Adversarial: Ganin et al. (2016) - Domain-adversarial training of neural networks, JMLR
CWRU-Datensatz: Lou & Loparo (2004) - Bearing fault diagnosis based on wavelet transform and fuzzy inference
Zusammenfassung: Das in dieser Arbeit vorgeschlagene KAVI-Framework leistet wichtige Beiträge zum Forschungsgebiet der Lagerfehlererkennung. Durch geschickte Kombination von Graphenfaltungsnetzwerken, verbesserter Subdomänen-Anpassung und progressiver Wissensdestillation löst es erfolgreich das Problem der variablen Betriebsbedingungen-Fehlerdiagnose in ressourcenbeschränkten Umgebungen. Die 99,67%ige Modellkompressionsrate und der nur 2%ige Genauigkeitsverlust demonstrieren den praktischen Wert dieser Methode. Obwohl es Einschränkungen wie die Geschlossenes-Szenario-Annahme gibt, machen die systematische Gestaltung und umfassende experimentelle Validierung dies zu einer wichtigen Arbeit in diesem Forschungsgebiet, die weitere Forschung und praktische Anwendung verdient.