2025-11-12T10:52:10.099968

Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation

Sui, Lichau, LefÃ¨vre et al.

Recent studies of multimodal industrial anomaly detection (IAD) based on 3D point clouds and RGB images have highlighted the importance of exploiting the redundancy and complementarity among modalities for accurate classification and segmentation. However, achieving multimodal IAD in practical production lines remains a work in progress. It is essential to consider the trade-offs between the costs and benefits associated with the introduction of new modalities while ensuring compatibility with current processes. Existing quality control processes combine rapid in-line inspections, such as optical and infrared imaging with high-resolution but time-consuming near-line characterization techniques, including industrial CT and electron microscopy to manually or semi-automatically locate and analyze defects in the production of Li-ion batteries and composite materials. Given the cost and time limitations, only a subset of the samples can be inspected by all in-line and near-line methods, and the remaining samples are only evaluated through one or two forms of in-line inspection. To fully exploit data for deep learning-driven automatic defect detection, the models must have the ability to leverage multimodal training and handle incomplete modalities during inference. In this paper, we propose CMDIAD, a Cross-Modal Distillation framework for IAD to demonstrate the feasibility of a Multi-modal Training, Few-modal Inference (MTFI) pipeline. Our findings show that the MTFI pipeline can more effectively utilize incomplete multimodal information compared to applying only a single modality for training and inference. Moreover, we investigate the reasons behind the asymmetric performance improvement using point clouds or RGB images as the main modality of inference. This provides a foundation for our future multimodal dataset construction with additional modalities from manufacturing scenarios.

academic

Détection d'Anomalies Industrielles Multimodales Incomplètes via Distillation Inter-Modale

Informations Fondamentales

ID de l'article : 2405.13571
Titre : Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation
Auteurs : Wenbo Sui, Daniel Lichau, Josselin Lefèvre, Harold Phelippeau
Classification : cs.CV
Journal de publication : Information Fusion 126 (2026) 103572
Lien de l'article : https://arxiv.org/abs/2405.13571
Lien du code : https://github.com/evenrose/CMDIAD

Résumé

Cet article aborde un problème pratique de la détection d'anomalies industrielles : en raison des contraintes de coûts et de temps dans les chaînes de production réelles, il est impossible d'effectuer une détection multimodale complète sur tous les échantillons. Les auteurs proposent le cadre CMDIAD, qui réalise un pipeline d'entraînement multimodal et d'inférence peu modal (MTFI). Grâce à la technique de distillation de connaissances inter-modale, le modèle peut exploiter les données multimodales complètes lors de l'entraînement, tout en n'utilisant que des modalités partielles lors de l'inférence pour obtenir de meilleures performances.

Contexte de Recherche et Motivation

Définition du Problème

Dans la détection d'anomalies industrielles, les méthodes multimodales existantes exigent généralement des informations modales complètes à la fois lors de l'entraînement et de l'inférence. Cependant, dans les environnements de production réels :

Contraintes de coûts : Les technologies de détection haute résolution (comme la tomodensitométrie industrielle, la microscopie électronique) sont coûteuses et chronophages
Limitations pratiques : Seuls certains échantillons peuvent subir une détection multimodale complète, tandis que la plupart ne peuvent être évalués que par 1-2 méthodes de détection rapides en ligne
Utilisation insuffisante des données : Les méthodes existantes ne peuvent pas exploiter pleinement les informations multimodales de la phase d'entraînement pour améliorer les performances d'inférence unimodale

Signification de la Recherche

Ce problème est très important dans les scénarios industriels réels tels que la production de batteries lithium-ion et de matériaux composites. La résolution de ce problème peut :

Réduire les coûts du contrôle qualité
Améliorer l'efficacité de la détection
Exploiter pleinement les données d'entraînement multimodales limitées

Limitations des Méthodes Existantes

Dépendance aux modalités complètes : Les méthodes IAD multimodales existantes exigent des modalités complètes à la fois lors de l'entraînement et de l'inférence
Traitement des modalités manquantes : La recherche sur les modalités manquantes est limitée, utilisant principalement des stratégies simples de fusion tardive
Gaspillage d'informations : Impossibilité d'exploiter les informations multimodales de l'entraînement pour améliorer les performances unimodales lors de l'inférence

Contributions Principales

Première proposition d'IAD multimodale incomplète : Selon les auteurs, c'est le premier travail abordant la détection d'anomalies industrielles sur des données multimodales incomplètes
Cadre CMDIAD : Propose un nouveau cadre IAD multimodal basé sur la distillation inter-modale, réalisant l'entraînement multimodal et l'inférence peu modal
Pipeline MTFI : Démontre la faisabilité et l'efficacité du pipeline d'entraînement multimodal et d'inférence peu modal
Analyse de la corrélation modale : Analyse en profondeur les mécanismes de transmission d'informations entre différentes modalités, fournissant des orientations pour la construction future de bases de données

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : Données appariées d'images RGB et de nuages de points 3D lors de l'entraînement ; une seule modalité (RGB ou nuage de points) lors de l'inférence
Sortie : Résultats de détection d'anomalies au niveau de l'image et au niveau des pixels
Objectif : Que les performances d'inférence unimodale dépassent la méthode de base utilisant uniquement cette modalité pour l'entraînement et l'inférence

Architecture du Modèle

1. Module d'Extraction de Caractéristiques

Extraction de caractéristiques RGB : Utilise DINO ViT-B/8 pré-entraîné pour extraire les caractéristiques RGB, avec une dimension de sortie R^(2Hf×2Wf×d1)
Extraction de caractéristiques de nuage de points : Utilise Point-MAE pour extraire les caractéristiques du nuage de points, obtenant une carte de caractéristiques alignée avec RGB grâce à l'échantillonnage FPS et l'interpolation IDW

2. Réseau de Distillation Inter-Modale

Propose trois chemins de distillation :

Feature-to-Feature (F2F) :

H^f_RGB^(i,j) = F2F(R^(i,j)_PC)

Utilise un MLP à trois couches pour établir directement un mappage de l'espace des caractéristiques à l'espace des caractéristiques.

Feature-to-Input (F2I) :

H^f_RGB = ℱ_RGB(H^i_RGB), H^i_RGB = F2I(R_PC)

Génère l'entrée d'une modalité à partir des caractéristiques d'une autre modalité.

Input-to-Feature (I2F) :

H^f_RGB = I2F(I_PC)

Génère directement les caractéristiques de la modalité cible à partir de l'entrée.

3. Construction de la Banque Mémoire

Utilise un algorithme glouton pour la sélection d'ensemble central :

p_{i+1} = arg max_{p_j∈S,i≠j} D_c(p_i, p_j)

Réduit la dimensionnalité par projection aléatoire clairsemée pour améliorer l'efficacité computationnelle.

4. Fusion au Niveau de la Décision

Utilise deux machines à vecteurs de support à une classe pour la classification et la segmentation :

c = C_c(αψ(F_PC, M_PC), βψ(F_RGB, M_RGB))
s = C_s(αφ(F_PC, M_PC), βφ(F_RGB, M_RGB))

Points d'Innovation Technique

Génération d'hallucinations inter-modales : Génère des caractéristiques "hallucinées" de modalités manquantes lors de l'inférence en apprenant des mappages inter-modaux
Stratégie de distillation multi-chemins : Fournit trois méthodes de distillation différentes, équilibrant la complexité computationnelle et les performances
Analyse des performances asymétriques : Analyse en profondeur les différences de performance entre différentes directions de distillation et leurs causes

Configuration Expérimentale

Ensembles de Données

MVTec 3D-AD : Contient 10 classes d'objets, 3-5 types de défauts par classe, avec annotations binaires au niveau des pixels
Eyecandies : Ensemble de données synthétique de détection d'anomalies RGB+3D

Métriques d'Évaluation

I-AUROC : Aire sous la courbe ROC pour la détection d'anomalies au niveau de l'image
P-AUROC : Aire sous la courbe ROC pour la détection d'anomalies au niveau des pixels
AUPRO : Aire moyenne par région chevauchée, réduisant l'impact de la taille des anomalies sur l'évaluation

Méthodes de Comparaison

DualBanksPCs/RGB : Méthode de double banque mémoire utilisant une seule modalité
Shape-guided : Méthode SOTA conçue spécifiquement pour les nuages de points
M3DM : Méthode de banque mémoire multimodale
AST : Réseau maître-élève asymétrique

Détails d'Implémentation

Optimiseur : Adam, taille de lot 32, préchauffage 10 epochs
Taux d'apprentissage : 0,0005 pour F2F et F2I, 0,0003 pour I2F
Nombre d'epochs : 100, arrêt anticipé basé sur l'ensemble de validation
Matériel : NVIDIA RTX A6000, 256 Go de mémoire

Résultats Expérimentaux

Résultats Principaux

Performance du pipeline MTFI (inférence nuage de points) :

La méthode F2F atteint I-AUROC 0,938, AUPRO 0,934 sur MVTec 3D-AD
Par rapport à la ligne de base DualBanksPCs, amélioration de I-AUROC de 7,8%, AUPRO de 2,3%
Dépasse la méthode SOTA Shape-guided (amélioration de I-AUROC de 2,2%)

Tableau de Comparaison des Performances :

Méthode	I-AUROC	AUPRO
Shape-guided	0,916	0,931
DualBanksPCs	0,860	0,911
Ours F2F	0,938	0,934
Ours F2I	0,863	0,912
Ours I2F	0,820	0,942

Phénomène de Performance Asymétrique

Pipeline MTFI (inférence RGB) :

Amélioration seulement légère, la méthode F2F n'améliore I-AUROC que de 0,851 à 0,856
Indique que l'effet de la génération d'hallucinations de nuages de points à partir de RGB est limité

Expériences d'Ablation

Différents extracteurs de caractéristiques : Valide la généralité de la méthode sur ViT-S/8, ViT-B/8-in21k et Point-Bert
Comparaison des métriques de distance : La distance L2 montre les meilleures performances dans la plupart des cas
Proportion d'ensemble central : Une proportion de 10% pour la sélection d'ensemble central atteint le meilleur équilibre de performance

Analyse de Cas

L'analyse de visualisation révèle :

Anomalies de texture : Pour l'anomalie "thread" de Cable Gland, les changements de forme dans le nuage de points sont minimes mais les différences de texture dans RGB sont évidentes
Anomalies de forme : Pour l'anomalie "bent", les informations spatiales sont nécessaires pour le jugement, les images RGB fournissent des informations insuffisantes
Anomalies composites : Les anomalies "crack" de Cookie et "contamination" de Foam nécessitent une collaboration d'informations multimodales

Travaux Connexes

Détection d'Anomalies Industrielles 2D Non Supervisée

Méthodes d'intégration de caractéristiques : Architectures maître-élève, classification à une classe, mappage de distribution de caractéristiques
Méthodes de reconstruction : Autoencodeurs, GAN, modèles de diffusion
Méthodes de banque mémoire : PatchCore et autres sélection et conservation de caractéristiques normales pour la comparaison

Détection d'Anomalies Industrielles 3D et RGB-3D Multimodales

AST : Réseau maître-élève asymétrique évitant que le réseau élève apprenne les anomalies
M3DM : Méthode de banque mémoire multimodale utilisant des extracteurs de caractéristiques pré-entraînés
DADA : Apprentissage de représentations conjointes RGB-3D

Distillation de Connaissances Inter-Modales

Reconnaissance d'actions vidéo : Réseau d'hallucinations inter-modales RGB-D
Segmentation d'images médicales : Stratégies d'apprentissage pour les modalités manquantes
Détection de saillance : Apprentissage de caractéristiques inter-modales

Conclusion et Discussion

Conclusions Principales

Faisabilité du pipeline MTFI : Démontre l'efficacité de l'entraînement multimodal et de l'inférence peu modal
Performance asymétrique : Amélioration significative lors de l'inférence nuage de points vs amélioration mineure lors de l'inférence RGB
Mécanisme de transmission d'informations : Les informations de texture partagées peuvent être transmises entre modalités, mais les informations spatiales sont difficiles à déduire à partir de RGB

Limitations

Dépendance aux pré-entraînements : Dépend d'extracteurs de caractéristiques pré-entraînés sur de grands ensembles de données
Besoins en données : Nécessite une grande quantité de données d'entraînement multimodales alignées
Surcharge computationnelle : L'entraînement en deux étapes augmente la complexité computationnelle
Limitation modale : Actuellement validé uniquement sur les modalités RGB et nuage de points

Directions Futures

Extension à plus de modalités : Ultrasons, infrarouge et autres modalités de détection industrielle
Réduction de la dépendance aux pré-entraînements : Explorer des méthodes ne dépendant pas de pré-entraînements à grande échelle
Déploiement pratique : Collecte et validation de données dans des scénarios industriels réels

Évaluation Approfondie

Avantages

Signification pratique majeure : Résout un vrai problème de douleur de l'industrie
Méthode novatrice : Première application de la distillation inter-modale à l'IAD multimodale incomplète
Expériences complètes : Valide l'efficacité de la méthode sur plusieurs ensembles de données et extracteurs de caractéristiques
Analyse approfondie : Fournit des explications raisonnables pour le phénomène de performance asymétrique
Valeur d'ingénierie élevée : La méthode F2F a une surcharge computationnelle faible, adaptée au déploiement pratique

Insuffisances

Analyse théorique insuffisante : Manque d'analyse théorique de la transmission d'informations inter-modales
Limitation des ensembles de données : Validation principalement sur des données synthétiques et de laboratoire, manque de vérification en environnement industriel réel
Extensibilité modale : La méthode est actuellement limitée à RGB et nuage de points, la capacité d'extension à d'autres modalités est inconnue
Sensibilité aux hyperparamètres : Nécessite l'ajustement de paramètres comme le taux d'apprentissage pour différents réseaux de distillation

Impact

Contribution académique : Fournit une nouvelle direction de recherche pour l'apprentissage multimodal incomplet
Valeur pratique : Fournit une solution plus rentable pour le contrôle qualité industriel
Reproductibilité : Fournit du code open-source, facilitant la reproduction et l'extension
Caractère inspirant : Fournit une référence pour les problèmes multimodaux incomplets dans d'autres domaines

Scénarios d'Application

Contrôle qualité industriel : Particulièrement pour la production de batteries lithium-ion et de matériaux composites de haute valeur
Diagnostic médical : Scénarios avec plusieurs modalités d'imagerie mais contraintes de coûts
Conduite autonome : Scénarios de défaillance de capteurs ou d'optimisation des coûts
Surveillance de sécurité : Scénarios de déploiement de capteurs multimodaux avec considérations de coûts de maintenance

Références

Cet article cite 67 articles connexes, incluant principalement :

Méthodes classiques dans le domaine de la détection d'anomalies industrielles (PatchCore, M3DM, etc.)
Travaux connexes en distillation de connaissances inter-modales
Méthodes fondamentales en traitement de nuages de points 3D et apprentissage multimodal
Articles originaux d'ensembles de données importants comme MVTec 3D-AD

Évaluation Globale : Ceci est un article de haute qualité résolvant un problème industriel réel. Le cadre CMDIAD proposé possède une importance théorique significative et une valeur pratique. Bien qu'il y ait encore de la place pour amélioration dans l'analyse théorique et la validation en scénarios réels, son caractère innovant et sa praticité en font une contribution importante au domaine.