2025-11-12T10:52:10.099968

Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation

Sui, Lichau, LefÃ¨vre et al.

Recent studies of multimodal industrial anomaly detection (IAD) based on 3D point clouds and RGB images have highlighted the importance of exploiting the redundancy and complementarity among modalities for accurate classification and segmentation. However, achieving multimodal IAD in practical production lines remains a work in progress. It is essential to consider the trade-offs between the costs and benefits associated with the introduction of new modalities while ensuring compatibility with current processes. Existing quality control processes combine rapid in-line inspections, such as optical and infrared imaging with high-resolution but time-consuming near-line characterization techniques, including industrial CT and electron microscopy to manually or semi-automatically locate and analyze defects in the production of Li-ion batteries and composite materials. Given the cost and time limitations, only a subset of the samples can be inspected by all in-line and near-line methods, and the remaining samples are only evaluated through one or two forms of in-line inspection. To fully exploit data for deep learning-driven automatic defect detection, the models must have the ability to leverage multimodal training and handle incomplete modalities during inference. In this paper, we propose CMDIAD, a Cross-Modal Distillation framework for IAD to demonstrate the feasibility of a Multi-modal Training, Few-modal Inference (MTFI) pipeline. Our findings show that the MTFI pipeline can more effectively utilize incomplete multimodal information compared to applying only a single modality for training and inference. Moreover, we investigate the reasons behind the asymmetric performance improvement using point clouds or RGB images as the main modality of inference. This provides a foundation for our future multimodal dataset construction with additional modalities from manufacturing scenarios.

academic

基本信息

论文ID: 2405.13571
标题: Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation
作者: Wenbo Sui, Daniel Lichau, Josselin Lefèvre, Harold Phelippeau
分类: cs.CV
发表期刊: Information Fusion 126 (2026) 103572
论文链接: https://arxiv.org/abs/2405.13571
代码链接: https://github.com/evenrose/CMDIAD

成本约束：高分辨率检测技术（如工业CT、电子显微镜）成本高昂且耗时
实用性限制：只有部分样本能够进行全模态检测，大部分样本只能通过1-2种快速在线检测方法评估
数据利用不充分：现有方法无法充分利用训练阶段的多模态信息来改善单模态推理性能

研究意义

这个问题在锂电池和复合材料生产等实际工业场景中非常重要，解决这一问题能够：

降低质量控制成本
提高检测效率
充分利用有限的多模态训练数据

现有方法局限性

完整模态依赖：现有多模态IAD方法要求训练和推理时都需要完整模态
缺失模态处理：对于缺失模态的研究很少，主要采用简单的后融合策略
信息浪费：无法利用训练时的多模态信息来改善推理时的单模态性能

核心贡献

首次提出不完整多模态IAD：据作者所知，这是首个针对不完整多模态数据进行工业异常检测的工作
CMDIAD框架：提出了基于跨模态蒸馏的新颖多模态IAD框架，实现多模态训练、少模态推理
MTFI管道：证明了多模态训练、少模态推理管道的可行性和有效性
模态关联性分析：深入分析了不同模态间的信息传递机制，为未来数据集构建提供指导

方法详解

任务定义

输入：训练时为RGB图像和3D点云的配对数据；推理时仅为单一模态（RGB或点云）
输出：图像级和像素级的异常检测结果
目标：使单模态推理性能超越仅用该模态训练和推理的基线方法

模型架构

1. 特征提取模块

RGB特征提取：使用预训练的DINO ViT-B/8提取RGB特征，输出维度为R^(2Hf×2Wf×d1)
点云特征提取：使用Point-MAE提取点云特征，通过FPS采样和IDW插值得到与RGB对齐的特征图

2. 跨模态蒸馏网络

提出三种蒸馏路径：

Feature-to-Feature (F2F)：

H^f_RGB^(i,j) = F2F(R^(i,j)_PC)

使用三层MLP直接建立特征空间到特征空间的映射。

Feature-to-Input (F2I)：

H^f_RGB = ℱ_RGB(H^i_RGB), H^i_RGB = F2I(R_PC)

从一种模态的特征生成另一种模态的输入。

Input-to-Feature (I2F)：

H^f_RGB = I2F(I_PC)

直接从输入生成目标模态的特征。

3. 记忆库构建

使用贪心算法进行核心集选择：

p_{i+1} = arg max_{p_j∈S,i≠j} D_c(p_i, p_j)

通过稀疏随机投影降维以提高计算效率。

4. 决策层融合

使用两个一类支持向量机进行分类和分割：

c = C_c(αψ(F_PC, M_PC), βψ(F_RGB, M_RGB))
s = C_s(αφ(F_PC, M_PC), βφ(F_RGB, M_RGB))

技术创新点

跨模态幻觉生成：通过学习跨模态映射，在推理时生成缺失模态的"幻觉"特征
多路径蒸馏策略：提供三种不同层次的蒸馏方法，平衡计算复杂度和性能
非对称性能分析：深入分析了不同蒸馏方向的性能差异及其原因

实验设置

数据集

MVTec 3D-AD：包含10类物体，每类3-5种缺陷类型，提供像素级二进制标注
Eyecandies：合成的RGB+3D异常检测数据集

评价指标

I-AUROC：图像级异常检测的ROC曲线下面积
P-AUROC：像素级异常检测的ROC曲线下面积
AUPRO：平均每区域重叠面积，减少异常大小对评估的影响

对比方法

DualBanksPCs/RGB：仅使用单一模态的双记忆库方法
Shape-guided：专门为点云设计的SOTA方法
M3DM：多模态记忆库方法
AST：非对称师生网络

实现细节

优化器：Adam，批大小32，预热10轮
学习率：F2F和F2I为0.0005，I2F为0.0003
训练轮数：100轮，基于验证集早停
硬件：NVIDIA RTX A6000，256G内存

实验结果

主要结果

MTFI管道（点云推理）性能：

F2F方法在MVTec 3D-AD上达到I-AUROC 0.938，AUPRO 0.934
相比DualBanksPCs基线，I-AUROC提升7.8%，AUPRO提升2.3%
超越SOTA的Shape-guided方法（I-AUROC提升2.2%）

性能对比表现：

方法	I-AUROC	AUPRO
Shape-guided	0.916	0.931
DualBanksPCs	0.860	0.911
Ours F2F	0.938	0.934
Ours F2I	0.863	0.912
Ours I2F	0.820	0.942

非对称性能现象

MTFI管道（RGB推理）：

仅有轻微改善，F2F方法I-AUROC仅从0.851提升到0.856
表明从RGB生成点云幻觉的效果有限

消融实验

不同特征提取器：在ViT-S/8、ViT-B/8-in21k和Point-Bert上验证了方法的通用性
距离度量对比：L2距离在大部分情况下表现最佳
核心集比例：10%的核心集选择比例达到最佳性能平衡

案例分析

通过可视化分析发现：

纹理异常：对于Cable Gland的"thread"异常，点云中形状变化微小但RGB中纹理差异明显
形状异常：对于"bent"异常，需要空间信息进行判断，RGB图像难以提供足够信息
复合异常：Cookie的"crack"和Foam的"contamination"异常需要多模态信息协同判断

结论与讨论

主要结论

MTFI管道可行性：证明了多模态训练、少模态推理的有效性
非对称性能：点云推理时的显著改善 vs RGB推理时的微小提升
信息传递机制：共享的纹理信息可以跨模态传递，但空间信息难以从RGB推断

局限性

预训练依赖：依赖于大规模数据集上的预训练特征提取器
数据需求：需要大量配准的多模态训练数据
计算开销：两阶段训练增加了计算复杂度
模态限制：目前仅在RGB和点云模态上验证

未来方向

扩展到更多模态：超声波、红外等工业检测模态
减少预训练依赖：探索不依赖大规模预训练的方法
实际部署：在真实工业场景中收集和验证数据

深度评价

优点

实际意义重大：解决了工业界的真实痛点问题
方法新颖：首次将跨模态蒸馏应用到不完整多模态IAD
实验充分：在多个数据集和特征提取器上验证了方法的有效性
分析深入：对非对称性能现象提供了合理的解释
工程价值高：F2F方法计算开销小，适合实际部署

不足

理论分析不足：缺乏对跨模态信息传递的理论分析
数据集限制：主要在合成和实验室数据上验证，缺乏真实工业环境验证
模态扩展性：方法目前局限于RGB和点云，扩展到其他模态的能力未知
超参数敏感性：对于不同的蒸馏网络需要调整学习率等超参数

影响力

学术贡献：为不完整多模态学习提供了新的研究方向
实用价值：为工业质量控制提供了成本效益更高的解决方案
可复现性：提供了开源代码，便于复现和扩展
启发性：为其他领域的不完整多模态问题提供了参考

适用场景

工业质量控制：特别是锂电池、复合材料等高价值产品生产
医疗诊断：多种成像模态但成本限制的场景
自动驾驶：传感器故障或成本优化场景
安防监控：多模态传感器部署但维护成本考虑的场景

参考文献

本文引用了67篇相关文献，主要包括：

工业异常检测领域的经典方法（PatchCore, M3DM等）
跨模态知识蒸馏的相关工作
3D点云处理和多模态学习的基础方法
MVTec 3D-AD等重要数据集的原始论文

总体评价：这是一篇解决实际工业问题的高质量论文，提出的CMDIAD框架具有重要的理论意义和实用价值。虽然在理论分析和真实场景验证方面还有提升空间，但其创新性和实用性使其成为该领域的重要贡献。