2025-11-12T10:52:10.099968

Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation

Sui, Lichau, Lefèvre et al.
Recent studies of multimodal industrial anomaly detection (IAD) based on 3D point clouds and RGB images have highlighted the importance of exploiting the redundancy and complementarity among modalities for accurate classification and segmentation. However, achieving multimodal IAD in practical production lines remains a work in progress. It is essential to consider the trade-offs between the costs and benefits associated with the introduction of new modalities while ensuring compatibility with current processes. Existing quality control processes combine rapid in-line inspections, such as optical and infrared imaging with high-resolution but time-consuming near-line characterization techniques, including industrial CT and electron microscopy to manually or semi-automatically locate and analyze defects in the production of Li-ion batteries and composite materials. Given the cost and time limitations, only a subset of the samples can be inspected by all in-line and near-line methods, and the remaining samples are only evaluated through one or two forms of in-line inspection. To fully exploit data for deep learning-driven automatic defect detection, the models must have the ability to leverage multimodal training and handle incomplete modalities during inference. In this paper, we propose CMDIAD, a Cross-Modal Distillation framework for IAD to demonstrate the feasibility of a Multi-modal Training, Few-modal Inference (MTFI) pipeline. Our findings show that the MTFI pipeline can more effectively utilize incomplete multimodal information compared to applying only a single modality for training and inference. Moreover, we investigate the reasons behind the asymmetric performance improvement using point clouds or RGB images as the main modality of inference. This provides a foundation for our future multimodal dataset construction with additional modalities from manufacturing scenarios.
academic

Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation

基本信息

  • 论文ID: 2405.13571
  • 标题: Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation
  • 作者: Wenbo Sui, Daniel Lichau, Josselin Lefèvre, Harold Phelippeau
  • 分类: cs.CV
  • 发表期刊: Information Fusion 126 (2026) 103572
  • 论文链接: https://arxiv.org/abs/2405.13571
  • 代码链接: https://github.com/evenrose/CMDIAD

摘要

本文解决了工业异常检测中的一个实际问题:在实际生产线中,由于成本和时间限制,无法对所有样本进行完整的多模态检测。作者提出了CMDIAD框架,实现了多模态训练、少模态推理(MTFI)的管道,通过跨模态知识蒸馏技术,使模型能够在训练时利用完整的多模态数据,而在推理时仅使用部分模态即可获得更好的性能。

研究背景与动机

问题定义

在工业异常检测中,现有的多模态方法通常要求训练和推理时都具备完整的模态信息。然而在实际生产环境中:

  1. 成本约束:高分辨率检测技术(如工业CT、电子显微镜)成本高昂且耗时
  2. 实用性限制:只有部分样本能够进行全模态检测,大部分样本只能通过1-2种快速在线检测方法评估
  3. 数据利用不充分:现有方法无法充分利用训练阶段的多模态信息来改善单模态推理性能

研究意义

这个问题在锂电池和复合材料生产等实际工业场景中非常重要,解决这一问题能够:

  • 降低质量控制成本
  • 提高检测效率
  • 充分利用有限的多模态训练数据

现有方法局限性

  1. 完整模态依赖:现有多模态IAD方法要求训练和推理时都需要完整模态
  2. 缺失模态处理:对于缺失模态的研究很少,主要采用简单的后融合策略
  3. 信息浪费:无法利用训练时的多模态信息来改善推理时的单模态性能

核心贡献

  1. 首次提出不完整多模态IAD:据作者所知,这是首个针对不完整多模态数据进行工业异常检测的工作
  2. CMDIAD框架:提出了基于跨模态蒸馏的新颖多模态IAD框架,实现多模态训练、少模态推理
  3. MTFI管道:证明了多模态训练、少模态推理管道的可行性和有效性
  4. 模态关联性分析:深入分析了不同模态间的信息传递机制,为未来数据集构建提供指导

方法详解

任务定义

  • 输入:训练时为RGB图像和3D点云的配对数据;推理时仅为单一模态(RGB或点云)
  • 输出:图像级和像素级的异常检测结果
  • 目标:使单模态推理性能超越仅用该模态训练和推理的基线方法

模型架构

1. 特征提取模块

  • RGB特征提取:使用预训练的DINO ViT-B/8提取RGB特征,输出维度为R^(2Hf×2Wf×d1)
  • 点云特征提取:使用Point-MAE提取点云特征,通过FPS采样和IDW插值得到与RGB对齐的特征图

2. 跨模态蒸馏网络

提出三种蒸馏路径:

Feature-to-Feature (F2F)

H^f_RGB^(i,j) = F2F(R^(i,j)_PC)

使用三层MLP直接建立特征空间到特征空间的映射。

Feature-to-Input (F2I)

H^f_RGB = ℱ_RGB(H^i_RGB), H^i_RGB = F2I(R_PC)

从一种模态的特征生成另一种模态的输入。

Input-to-Feature (I2F)

H^f_RGB = I2F(I_PC)

直接从输入生成目标模态的特征。

3. 记忆库构建

使用贪心算法进行核心集选择:

p_{i+1} = arg max_{p_j∈S,i≠j} D_c(p_i, p_j)

通过稀疏随机投影降维以提高计算效率。

4. 决策层融合

使用两个一类支持向量机进行分类和分割:

c = C_c(αψ(F_PC, M_PC), βψ(F_RGB, M_RGB))
s = C_s(αφ(F_PC, M_PC), βφ(F_RGB, M_RGB))

技术创新点

  1. 跨模态幻觉生成:通过学习跨模态映射,在推理时生成缺失模态的"幻觉"特征
  2. 多路径蒸馏策略:提供三种不同层次的蒸馏方法,平衡计算复杂度和性能
  3. 非对称性能分析:深入分析了不同蒸馏方向的性能差异及其原因

实验设置

数据集

  • MVTec 3D-AD:包含10类物体,每类3-5种缺陷类型,提供像素级二进制标注
  • Eyecandies:合成的RGB+3D异常检测数据集

评价指标

  • I-AUROC:图像级异常检测的ROC曲线下面积
  • P-AUROC:像素级异常检测的ROC曲线下面积
  • AUPRO:平均每区域重叠面积,减少异常大小对评估的影响

对比方法

  • DualBanksPCs/RGB:仅使用单一模态的双记忆库方法
  • Shape-guided:专门为点云设计的SOTA方法
  • M3DM:多模态记忆库方法
  • AST:非对称师生网络

实现细节

  • 优化器:Adam,批大小32,预热10轮
  • 学习率:F2F和F2I为0.0005,I2F为0.0003
  • 训练轮数:100轮,基于验证集早停
  • 硬件:NVIDIA RTX A6000,256G内存

实验结果

主要结果

MTFI管道(点云推理)性能

  • F2F方法在MVTec 3D-AD上达到I-AUROC 0.938,AUPRO 0.934
  • 相比DualBanksPCs基线,I-AUROC提升7.8%,AUPRO提升2.3%
  • 超越SOTA的Shape-guided方法(I-AUROC提升2.2%)

性能对比表现

方法I-AUROCAUPRO
Shape-guided0.9160.931
DualBanksPCs0.8600.911
Ours F2F0.9380.934
Ours F2I0.8630.912
Ours I2F0.8200.942

非对称性能现象

MTFI管道(RGB推理)

  • 仅有轻微改善,F2F方法I-AUROC仅从0.851提升到0.856
  • 表明从RGB生成点云幻觉的效果有限

消融实验

  1. 不同特征提取器:在ViT-S/8、ViT-B/8-in21k和Point-Bert上验证了方法的通用性
  2. 距离度量对比:L2距离在大部分情况下表现最佳
  3. 核心集比例:10%的核心集选择比例达到最佳性能平衡

案例分析

通过可视化分析发现:

  1. 纹理异常:对于Cable Gland的"thread"异常,点云中形状变化微小但RGB中纹理差异明显
  2. 形状异常:对于"bent"异常,需要空间信息进行判断,RGB图像难以提供足够信息
  3. 复合异常:Cookie的"crack"和Foam的"contamination"异常需要多模态信息协同判断

相关工作

无监督2D工业异常检测

  • 特征嵌入方法:师生架构、一类分类、特征分布映射
  • 重构方法:自编码器、GAN、扩散模型
  • 记忆库方法:PatchCore等选择和保存正常特征进行对比

3D和多模态RGB-3D工业异常检测

  • AST:非对称师生网络避免学生网络学习异常
  • M3DM:多模态记忆库方法,使用预训练特征提取器
  • DADA:学习RGB-3D的联合表示

跨模态知识蒸馏

  • 视频动作识别:RGB-D跨模态幻觉网络
  • 医学图像分割:处理缺失模态的学习策略
  • 显著性检测:跨模态特征学习

结论与讨论

主要结论

  1. MTFI管道可行性:证明了多模态训练、少模态推理的有效性
  2. 非对称性能:点云推理时的显著改善 vs RGB推理时的微小提升
  3. 信息传递机制:共享的纹理信息可以跨模态传递,但空间信息难以从RGB推断

局限性

  1. 预训练依赖:依赖于大规模数据集上的预训练特征提取器
  2. 数据需求:需要大量配准的多模态训练数据
  3. 计算开销:两阶段训练增加了计算复杂度
  4. 模态限制:目前仅在RGB和点云模态上验证

未来方向

  1. 扩展到更多模态:超声波、红外等工业检测模态
  2. 减少预训练依赖:探索不依赖大规模预训练的方法
  3. 实际部署:在真实工业场景中收集和验证数据

深度评价

优点

  1. 实际意义重大:解决了工业界的真实痛点问题
  2. 方法新颖:首次将跨模态蒸馏应用到不完整多模态IAD
  3. 实验充分:在多个数据集和特征提取器上验证了方法的有效性
  4. 分析深入:对非对称性能现象提供了合理的解释
  5. 工程价值高:F2F方法计算开销小,适合实际部署

不足

  1. 理论分析不足:缺乏对跨模态信息传递的理论分析
  2. 数据集限制:主要在合成和实验室数据上验证,缺乏真实工业环境验证
  3. 模态扩展性:方法目前局限于RGB和点云,扩展到其他模态的能力未知
  4. 超参数敏感性:对于不同的蒸馏网络需要调整学习率等超参数

影响力

  1. 学术贡献:为不完整多模态学习提供了新的研究方向
  2. 实用价值:为工业质量控制提供了成本效益更高的解决方案
  3. 可复现性:提供了开源代码,便于复现和扩展
  4. 启发性:为其他领域的不完整多模态问题提供了参考

适用场景

  1. 工业质量控制:特别是锂电池、复合材料等高价值产品生产
  2. 医疗诊断:多种成像模态但成本限制的场景
  3. 自动驾驶:传感器故障或成本优化场景
  4. 安防监控:多模态传感器部署但维护成本考虑的场景

参考文献

本文引用了67篇相关文献,主要包括:

  • 工业异常检测领域的经典方法(PatchCore, M3DM等)
  • 跨模态知识蒸馏的相关工作
  • 3D点云处理和多模态学习的基础方法
  • MVTec 3D-AD等重要数据集的原始论文

总体评价:这是一篇解决实际工业问题的高质量论文,提出的CMDIAD框架具有重要的理论意义和实用价值。虽然在理论分析和真实场景验证方面还有提升空间,但其创新性和实用性使其成为该领域的重要贡献。