2025-11-29T00:43:18.950980

Knowledge Distillation and Enhanced Subdomain Adaptation Using Graph Convolutional Network for Resource-Constrained Bearing Fault Diagnosis

Kavianpour, Kavianpour, Ramezani et al.

Bearing fault diagnosis under varying working conditions faces challenges, including a lack of labeled data, distribution discrepancies, and resource constraints. To address these issues, we propose a progressive knowledge distillation framework that transfers knowledge from a complex teacher model, utilizing a Graph Convolutional Network (GCN) with Autoregressive moving average (ARMA) filters, to a compact and efficient student model. To mitigate distribution discrepancies and labeling uncertainty, we introduce Enhanced Local Maximum Mean Squared Discrepancy (ELMMSD), which leverages mean and variance statistics in the Reproducing Kernel Hilbert Space (RKHS) and incorporates a priori probability distributions between labels. This approach increases the distance between clustering centers, bridges subdomain gaps, and enhances subdomain alignment reliability. Experimental results on benchmark datasets (CWRU and JNU) demonstrate that the proposed method achieves superior diagnostic accuracy while significantly reducing computational costs. Comprehensive ablation studies validate the effectiveness of each component, highlighting the robustness and adaptability of the approach across diverse working conditions.

academic

Knowledge Distillation and Enhanced Subdomain Adaptation Using Graph Convolutional Network for Resource-Constrained Bearing Fault Diagnosis

基本信息

论文ID: 2501.07173
标题: Knowledge Distillation and Enhanced Subdomain Adaptation Using Graph Convolutional Network for Resource-Constrained Bearing Fault Diagnosis
作者: Mohammadreza Kavianpour, Parisa Kavianpour, Amin Ramezani, Mohammad Th Beheshti
机构: Tarbiat Modares University (Iran), University of Mazandaran (Iran), Baylor College of Medicine (USA)
分类: cs.LG (Machine Learning), eess.SP (Signal Processing)
发表时间: 2025年1月13日 (arXiv)
论文链接: https://arxiv.org/abs/2501.07173

摘要

轴承故障诊断在变工况条件下面临标签数据缺乏、分布差异和资源约束等挑战。为解决这些问题，本文提出了一个渐进式知识蒸馏框架，将知识从复杂的教师模型（采用带ARMA滤波器的图卷积网络GCN）迁移到紧凑高效的学生模型。为缓解分布差异和标签不确定性，引入了增强局部最大均方差异（ELMMSD），该方法利用再生核希尔伯特空间（RKHS）中的均值和方差统计，并结合标签间的先验概率分布。该方法增加聚类中心间距离，弥合子域间隙，提高子域对齐可靠性。在基准数据集（CWRU和JNU）上的实验结果表明，该方法在显著降低计算成本的同时实现了优异的诊断精度。全面的消融研究验证了各组件的有效性，突显了该方法在不同工况下的鲁棒性和适应性。

研究背景与动机

1. 要解决的核心问题

轴承作为旋转机械中最易失效的组件之一，其故障诊断面临三大核心挑战：

计算复杂性：深度学习模型难以部署在资源受限的工业设备上
域偏移问题：训练数据（源域）与实际运行数据（目标域）之间存在分布差异
标签数据稀缺：工业场景中高质量标注数据获取困难

2. 问题的重要性

及时准确的轴承故障检测对防止重大经济损失和运营停机至关重要
工业环境中设备常在变工况下运行，导致数据分布发生变化
边缘计算设备的资源限制要求模型必须轻量化

3. 现有方法的局限性

域适应方法的不足：

MMD、CORAL等方法主要关注均值统计或协方差对齐，无法捕获完整的分布特征
依赖高质量标签，对噪声标签敏感
忽略相同类别子域的对齐

GCN方法的局限：

标准图滤波器（Chebyshev、多项式）存在不灵活、过平滑和计算成本高等问题
谱滤波器计算量大，对图结构变化敏感

知识蒸馏方法的缺陷：

传统KD方法未充分解决子域适应问题
教师-学生模型间的容量差距影响知识迁移效果
在无监督场景下依赖目标域标签数据

4. 研究动机

本文旨在构建一个统一框架，同时解决计算效率、域偏移和标签不确定性三大挑战，实现资源受限环境下的高效轴承故障诊断。

核心贡献

提出ELMMSD度量：创新性地结合均值和方差统计的子域适应度量，在RKHS中实现更精确的域对齐，并通过标签平滑增强对噪声标签的鲁棒性
设计渐进式知识蒸馏框架：实现模型尺寸压缩99.67%（从0.92MB降至0.028MB），精度仅损失2%，使模型可部署在资源受限设备
采用ARMA滤波器的GCN架构：利用自回归移动平均滤波器捕获几何结构特征，增强子域适应能力和对域偏移的鲁棒性
构建统一故障诊断解决方案：整合ELMMSD、知识蒸馏和GCN，全面应对轴承故障诊断中的计算复杂性、域偏移和噪声标签挑战

方法详解

任务定义

问题形式化：

源域： $D_s = \{(x_i^s, y_i^s)\}_{i=1}^{n_s}$ ，包含 $n_s$ 个带标签样本
目标域： $D_t = \{(x_j^t)\}_{j=1}^{n_t}$ ，包含 $n_t$ 个无标签样本
两域具有相同的 $n_c$ 个类别，但采样自不同分布 $p_s \neq p_t$
目标：学习一个轻量级学生模型，能在目标域准确诊断轴承故障

模型架构

整体框架KAVI包含三个核心模块：

模块1：教师与学生模型

教师模型架构：

图生成层（GGL）：从每个mini-batch构建实例图
- 邻接矩阵： $A = \text{normalize}(X X^T)$
- 稀疏化： $\tilde{A} = \text{Top-K}(A)$ ，K=2
ARMA卷积层：三层ARMA1卷积提取结构信息
- K阶ARMA滤波器定义： $h_{ARMA_K}(\lambda) = \frac{\sum_{k=0}^{K-1} b_k\lambda^k}{1 + \sum_{k=1}^K a_k\lambda^k}$
- 一阶ARMA递归近似： $\tilde{X}^{(t+1)} = ReLU(F\tilde{X}^{(t)}W + \tilde{X}V)$
其中 $F = \frac{1}{2}(\lambda_{max} - \lambda_{min})I - L$ $F = \frac{1}{2} (λ_{ma x} - λ_{min}) I - L$
全连接层：三层FC用于故障分类和域对齐（256→128→类别数）

学生模型架构：

轻量级一维CNN：两个卷积层（16和32个3×2核）
两层全连接（128→类别数）
参数量大幅减少，适合边缘部署

模块2：子域适应模块

ELMMSD核心创新：

标签平滑（Label Smoothing）：
- 平滑标签： $S(y_i) = (1-\epsilon)y_i + \frac{\epsilon}{n_c}$
- 平滑分类损失： $L_{cls} = -\sum_{c=1}^C \left[(1-\epsilon)q(c|x_i^s) + \frac{\epsilon}{n_c}\right] \log(p(c|x_i^s))$
ELMMSD距离定义：在FC1和FC2层计算多层多核ELMMSD：
$d_{z_1} = \frac{1}{n_c}\sum_{c=1}^{n_c}\left[\sum_{i,j}\omega_i^{sc}\omega_j^{sc}k^2(\tilde{z}_{1s_i}, \tilde{z}_{1s_j}) + \sum_{i,j}\omega_i^{tc}\omega_j^{tc}k^2(z_{1t_i}, z_{1t_j}) - 2\sum_{i,j}\omega_i^{sc}\omega_j^{tc}k^2(\tilde{z}_{1s_i}, z_{1t_j})\right]$
多核设计： $k \triangleq \sum_{u=1}^U \mu_u k_u$ 采用多个高斯核（带宽：{0.001, 0.01, 1, 10, 100}）捕获低阶和高阶矩
动态权衡因子： $\lambda_{SDA} = -\frac{4}{\sqrt{e}} \frac{n_e}{n_e+1} + 4$ 初始为0以学习基本故障特征，随训练逐渐增加
总体子域适应损失： $L_{SDA} = L_{CLS} + \lambda_{SDA}(d_{z_1} + d_{z_2})$

模块3：渐进式知识蒸馏

目标域蒸馏损失： $L_{KD}^T = L_{KL}(Q_s(D_t, \tau), Q_t(D_t, \tau))$
温度软化输出： $Q_i = \frac{\exp(z_i/\tau)}{\sum_j \exp(z_j/\tau)}$
源域蒸馏损失： $L_{KD}^S = L_{KL}(Q_s(D_s, \tau), Q_t(D_s, \tau)) + \lambda_{CLS}L_{CLS}$
总体目标函数： $L_{total} = (1-\lambda_e)L_{SDA} + \lambda_e(L_{KD}^T + L_{KD}^S)$
渐进权重： $\lambda_e = \alpha_1 \cdot \exp\left(\frac{e}{n_e} \cdot \log\left(\frac{\alpha_2}{\alpha_1}\right)\right)$

技术创新点

ELMMSD vs 传统方法：
- 相比MMD只考虑均值，ELMMSD同时利用均值和方差信息
- 相比LMMD，引入标签平滑减少对高质量标签的依赖
- 使用平方核（tensor product）保留高阶统计特性，降低计算复杂度
ARMA滤波器优势：
- 相比Chebyshev滤波器更灵活，可调参数更多
- 递归实现降低计算成本
- 对图结构变化更鲁棒，减少过平滑问题
渐进式蒸馏策略：
- 先适应后蒸馏，避免传统方法先压缩导致的泛化能力下降
- 动态权衡因子实现平滑过渡
- 同时在源域和目标域进行知识迁移

实验设置

数据集

1. CWRU数据集：

健康状态：10种（1个正常+3种故障×3个严重程度）
- 外圈故障（ORF）、内圈故障（IRF）、滚珠故障（BF）
- 严重程度：0.007、0.014、0.021英寸
工况：4种负载条件（0hp-A1, 1hp-A2, 2hp-A3, 3hp-A4）
采样：12kHz采样频率
迁移任务：12个（如A1→A2表示从0hp迁移到1hp）
样本：每类1000个样本，每样本1024个数据点

2. JNU数据集：

健康状态：4种
工况：3种转速（600rpm-J1, 800rpm-J2, 1000rpm-J3）
采样：50kHz采样频率，持续30秒
迁移任务：6个（如J1→J2）

数据划分：训练70%、验证15%、测试15%

评价指标

诊断精度（Accuracy）：主要性能指标
A-distance：度量全局域适应效果 $\hat{d}_A = 2(1-2\zeta)$ 其中 $\zeta$ 为SVM分类器误差
AL-distance：度量子域对齐效果 $d_{AL} = 2\sum_{c=1}^C p(c)(1-2\zeta_c)$
计算成本：FLOPs（浮点运算次数）和模型大小（MB）

对比方法

类别1：KD与SDA配置

SDA→KD：先适应教师模型再蒸馏
KD→SDA：先蒸馏再适应学生模型
SDA only：仅对学生模型进行子域适应

类别2：域适应技术

DANN：域对抗神经网络
LMMD：局部最大均值差异
MMSD：最大均方差异

类别3：GCN骨干网络

CNN：三层卷积网络
GAT：图注意力网络
MRFGCN：多感受野图卷积网络
TAGCN：拓扑自适应图卷积网络

实现细节

框架：PyTorch
批大小：128
优化器：SGD
训练轮数：400 epochs
学习率：0.001（初始）
温度参数：τ=20
权衡参数：λe从0.1指数增长至0.9，λCLS=0.8
ARMA阶数：3阶
重复实验：5次取平均
超参数调优：网格搜索

实验结果

主要结果

表2：不同KD与SDA配置的精度对比

方法	A1→A2	A2→A4	A4→A1	J2→J1	J2→J3	J3→J1
SDA→KD	67.87%	65.37%	66.63%	61.98%	67.77%	64.95%
KD→SDA	95.17%	94.78%	94.83%	93.77%	94.58%	94.42%
SDA only	94.31%	94.02%	93.98%	93.36%	93.47%	93.39%
KAVI	97.53%	97.04%	97.13%	96.02%	96.59%	95.69%

关键发现：

KAVI在所有任务上均优于其他配置
"SDA only"优于"SDA→KD"，说明无监督场景下交叉熵损失的重要性
"KD→SDA"表现良好，但KAVI的渐进策略进一步提升性能

表3：CWRU数据集上的完整结果

教师模型平均精度：

KAVI: 99.53%（最高）
MMSD: 98.51%
LMMD: 97.35%
DANN: 97.00%

学生模型平均精度：

KAVI: 97.39%（最高）
MMSD: 96.07%
LMMD: 94.38%
DANN: 93.60%

表4：JNU数据集上的完整结果

教师模型平均精度：

KAVI: 98.88%
MMSD: 98.14%
LMMD: 96.26%
DANN: 95.89%

学生模型平均精度：

KAVI: 96.30%
MMSD: 95.05%
LMMD: 93.78%
DANN: 93.17%

图2：不同GCN骨干的对比

A1→A4任务：KAVI达到99.67%，超越TAGCN（99.12%）0.55%
J3→J2任务：KAVI达到99.09%，超越TAGCN（98.71%）0.38%
所有GCN方法均优于CNN基线

消融实验

1. ARMA滤波器节点数影响（表5，任务A1→A3）

节点数	FLOPs(M)	模型大小(MB)	教师精度	学生精度
32	34.54	0.54	98.83%	97.25%
64	44.37	0.69	99.06%	97.34%
128	59.05	0.92	99.82%	97.76%
256	126.16	1.97	99.67%	97.58%

结论：128个节点达到最佳精度-成本平衡，256节点计算量增加2.13倍但无精度提升

2. 学生模型压缩效果

FLOPs：从59.05M降至32.83M（减少44.4%）
模型大小：从0.92MB降至0.028MB（压缩99.67%）
精度损失：仅2.06%（99.82%→97.76%）

3. 标签平滑的影响（表6）

任务	硬标签	标签平滑	提升
A1→A4	99.18%	99.67%	+0.49%
A3→A2	99.59%	99.83%	+0.24%
J1→J2	98.24%	98.93%	+0.69%
J3→J2	98.80%	99.09%	+0.29%

结论：标签平滑在所有任务上均提升精度，减少模型过度自信

4. 域距离度量（图4，任务J3→J1）

A-distance和AL-distance对比：

KAVI的A-distance和AL-distance均最低
证明ELMMSD在全局域适应和子域对齐上均优于LMMD、DANN、MMSD

案例分析

图3：混淆矩阵（任务A3→A2）

学生模型：所有类别识别正确，最低精度99.3%（BF021类）
教师模型：接近完美分类
表明KAVI在不同故障严重程度下均保持高准确性

实验发现

MMSD优于LMMD和DANN：因其同时考虑均值和方差，使用平方核表示二阶统计量
ELMMSD进一步提升：通过标签平滑和边际-条件分布联合对齐实现最佳性能
ARMA滤波器的优越性：在所有GCN变体中表现最佳，证明其在捕获几何结构特征方面的有效性
渐进式策略的必要性：动态权衡因子实现平滑知识迁移，避免突变导致的性能下降
泛化能力：在两个不同数据集（CWRU和JNU）上均取得一致的优异表现

结论与讨论

主要结论

KAVI框架有效性：在CWRU和JNU数据集上实现SOTA性能，教师模型平均精度分别达到99.53%和98.88%
极致压缩：学生模型实现99.67%的尺寸压缩（0.92MB→0.028MB），精度仅损失2%
ELMMSD优越性：相比LMMD、DANN和MMSD，在全局域适应和子域对齐上均表现更优
ARMA滤波器价值：在所有GCN变体中表现最佳，证明其在结构特征提取方面的优势
标签平滑的作用：显著提升模型在噪声标签下的鲁棒性和泛化能力

局限性

假设限制：假设源域和目标域具有相同的类别标签集（闭集场景）
计算成本：虽然学生模型轻量，但教师模型训练仍需较高计算资源
超参数敏感性：多个超参数（τ、λe、ε等）需要网格搜索调优
图构建策略：Top-K稀疏化策略（K=2）可能不适用于所有场景
实时性：论文未讨论在线学习和实时诊断的可行性

未来方向

开集故障诊断：扩展到未知故障类型的识别
多源域迁移：从多个源域联合迁移知识
在线自适应：研究增量学习策略以应对持续变化的工况
联邦学习集成：在保护数据隐私的前提下实现跨设备协同诊断
可解释性增强：提供故障诊断决策的可解释性分析

深度评价

优点

1. 方法创新性（★★★★★）

理论创新：ELMMSD首次将均值和方差统计结合，理论上更完备
架构创新：渐进式蒸馏框架巧妙解决适应-压缩的矛盾
技术融合：ARMA-GCN+ELMMSD+KD的有机整合展现系统性思维

2. 实验充分性（★★★★★）

数据集多样性：两个基准数据集，18个迁移任务
对比全面：三类共7种对比方法
消融彻底：验证了每个组件的贡献
统计严谨：5次重复实验取平均，保证可靠性

3. 结果说服力（★★★★☆）

性能提升显著：相比次优方法提升0.5-3%
压缩效果惊人：99.67%的模型压缩率
一致性好：在不同数据集和任务上表现稳定
可视化丰富：混淆矩阵、距离度量等多维度展示

4. 写作清晰度（★★★★☆）

结构合理：问题-方法-实验逻辑清晰
数学严谨：公式推导完整
图表丰富：架构图、对比图、混淆矩阵等辅助理解
细节充分：实现细节和超参数设置详尽

不足

1. 方法局限性

闭集假设：无法处理开集场景下的未知故障类型
计算开销：教师模型训练阶段仍需较高计算资源
图构建依赖：基于欧氏距离的图构建可能不适用于所有数据类型

2. 实验设置缺陷

缺少实时性分析：未报告推理时间和延迟
硬件环境单一：未在真实边缘设备上验证
数据集规模：两个数据集相对较小，缺少大规模验证

3. 分析不足

失败案例分析：未深入讨论方法失效的场景
可解释性欠缺：未提供模型决策的可解释性分析
理论保证缺失：缺乏收敛性和泛化误差的理论分析

4. 技术细节

超参数敏感性：多个超参数的选择缺乏系统性指导
动态因子设计：λSDA和λe的指数函数形式缺乏理论依据
标签平滑系数：ε的选择策略未充分讨论

影响力

1. 对领域的贡献（★★★★☆）

理论贡献：ELMMSD为子域适应提供新思路
实践价值：为资源受限场景提供可行方案
启发性：渐进式蒸馏策略可推广到其他任务

2. 实用价值（★★★★☆）

工业应用潜力：极致压缩使边缘部署成为可能
可扩展性：框架具有模型无关性，易于扩展
成本效益：显著降低计算和存储成本

3. 可复现性（★★★★☆）

实现细节充分：超参数、网络结构等均有详细说明
代码开源：论文未明确提及，但细节足够复现
数据集公开：使用公开基准数据集

适用场景

高度适用：

工业边缘设备：传感器节点、嵌入式系统等资源受限环境
变工况诊断：负载、转速等工况频繁变化的场景
标签稀缺场景：难以获取大量标注数据的应用

中度适用：

多源域迁移：需要扩展以支持多个源域
在线诊断：需要增加增量学习机制
大规模系统：可能需要分布式训练策略

不适用：

开集故障诊断：无法识别未知故障类型
实时性要求极高：教师模型训练耗时较长
数据隐私敏感：需要结合联邦学习等隐私保护技术

综合评分

维度	评分	说明
创新性	9/10	ELMMSD和渐进式蒸馏框架具有显著创新
技术深度	8/10	理论扎实，但缺少收敛性分析
实验完整性	9/10	对比和消融实验充分
实用价值	9/10	极致压缩使工业应用成为可能
写作质量	8/10	结构清晰，但部分细节可更深入
总体评分	8.6/10	优秀的工作，具有重要学术和实用价值

参考文献

关键引用：

ARMA滤波器：Bianchi et al. (2021) - Graph neural networks with convolutional ARMA filters, IEEE TPAMI
LMMD：Zhu et al. (2020) - Deep subdomain adaptation network for image classification, IEEE TNNLS
MMSD：Qian et al. (2023) - Maximum mean square discrepancy: a new discrepancy representation metric, KBS
域对抗：Ganin et al. (2016) - Domain-adversarial training of neural networks, JMLR
CWRU数据集：Lou & Loparo (2004) - Bearing fault diagnosis based on wavelet transform and fuzzy inference

总结：本文提出的KAVI框架在轴承故障诊断领域做出了重要贡献，通过巧妙结合图卷积网络、增强子域适应和渐进式知识蒸馏，成功解决了资源受限环境下的变工况故障诊断难题。99.67%的模型压缩率和仅2%的精度损失展现了该方法的实用价值。尽管存在闭集假设等局限，但其系统性设计和充分实验验证使其成为该领域的重要工作，值得进一步研究和应用推广。