2025-11-12T10:52:10.099968

Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation

Sui, Lichau, Lefèvre et al.
Recent studies of multimodal industrial anomaly detection (IAD) based on 3D point clouds and RGB images have highlighted the importance of exploiting the redundancy and complementarity among modalities for accurate classification and segmentation. However, achieving multimodal IAD in practical production lines remains a work in progress. It is essential to consider the trade-offs between the costs and benefits associated with the introduction of new modalities while ensuring compatibility with current processes. Existing quality control processes combine rapid in-line inspections, such as optical and infrared imaging with high-resolution but time-consuming near-line characterization techniques, including industrial CT and electron microscopy to manually or semi-automatically locate and analyze defects in the production of Li-ion batteries and composite materials. Given the cost and time limitations, only a subset of the samples can be inspected by all in-line and near-line methods, and the remaining samples are only evaluated through one or two forms of in-line inspection. To fully exploit data for deep learning-driven automatic defect detection, the models must have the ability to leverage multimodal training and handle incomplete modalities during inference. In this paper, we propose CMDIAD, a Cross-Modal Distillation framework for IAD to demonstrate the feasibility of a Multi-modal Training, Few-modal Inference (MTFI) pipeline. Our findings show that the MTFI pipeline can more effectively utilize incomplete multimodal information compared to applying only a single modality for training and inference. Moreover, we investigate the reasons behind the asymmetric performance improvement using point clouds or RGB images as the main modality of inference. This provides a foundation for our future multimodal dataset construction with additional modalities from manufacturing scenarios.
academic

Détection d'Anomalies Industrielles Multimodales Incomplètes via Distillation Inter-Modale

Informations Fondamentales

  • ID de l'article : 2405.13571
  • Titre : Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation
  • Auteurs : Wenbo Sui, Daniel Lichau, Josselin Lefèvre, Harold Phelippeau
  • Classification : cs.CV
  • Journal de publication : Information Fusion 126 (2026) 103572
  • Lien de l'article : https://arxiv.org/abs/2405.13571
  • Lien du code : https://github.com/evenrose/CMDIAD

Résumé

Cet article aborde un problème pratique de la détection d'anomalies industrielles : en raison des contraintes de coûts et de temps dans les chaînes de production réelles, il est impossible d'effectuer une détection multimodale complète sur tous les échantillons. Les auteurs proposent le cadre CMDIAD, qui réalise un pipeline d'entraînement multimodal et d'inférence peu modal (MTFI). Grâce à la technique de distillation de connaissances inter-modale, le modèle peut exploiter les données multimodales complètes lors de l'entraînement, tout en n'utilisant que des modalités partielles lors de l'inférence pour obtenir de meilleures performances.

Contexte de Recherche et Motivation

Définition du Problème

Dans la détection d'anomalies industrielles, les méthodes multimodales existantes exigent généralement des informations modales complètes à la fois lors de l'entraînement et de l'inférence. Cependant, dans les environnements de production réels :

  1. Contraintes de coûts : Les technologies de détection haute résolution (comme la tomodensitométrie industrielle, la microscopie électronique) sont coûteuses et chronophages
  2. Limitations pratiques : Seuls certains échantillons peuvent subir une détection multimodale complète, tandis que la plupart ne peuvent être évalués que par 1-2 méthodes de détection rapides en ligne
  3. Utilisation insuffisante des données : Les méthodes existantes ne peuvent pas exploiter pleinement les informations multimodales de la phase d'entraînement pour améliorer les performances d'inférence unimodale

Signification de la Recherche

Ce problème est très important dans les scénarios industriels réels tels que la production de batteries lithium-ion et de matériaux composites. La résolution de ce problème peut :

  • Réduire les coûts du contrôle qualité
  • Améliorer l'efficacité de la détection
  • Exploiter pleinement les données d'entraînement multimodales limitées

Limitations des Méthodes Existantes

  1. Dépendance aux modalités complètes : Les méthodes IAD multimodales existantes exigent des modalités complètes à la fois lors de l'entraînement et de l'inférence
  2. Traitement des modalités manquantes : La recherche sur les modalités manquantes est limitée, utilisant principalement des stratégies simples de fusion tardive
  3. Gaspillage d'informations : Impossibilité d'exploiter les informations multimodales de l'entraînement pour améliorer les performances unimodales lors de l'inférence

Contributions Principales

  1. Première proposition d'IAD multimodale incomplète : Selon les auteurs, c'est le premier travail abordant la détection d'anomalies industrielles sur des données multimodales incomplètes
  2. Cadre CMDIAD : Propose un nouveau cadre IAD multimodal basé sur la distillation inter-modale, réalisant l'entraînement multimodal et l'inférence peu modal
  3. Pipeline MTFI : Démontre la faisabilité et l'efficacité du pipeline d'entraînement multimodal et d'inférence peu modal
  4. Analyse de la corrélation modale : Analyse en profondeur les mécanismes de transmission d'informations entre différentes modalités, fournissant des orientations pour la construction future de bases de données

Explication Détaillée de la Méthode

Définition de la Tâche

  • Entrée : Données appariées d'images RGB et de nuages de points 3D lors de l'entraînement ; une seule modalité (RGB ou nuage de points) lors de l'inférence
  • Sortie : Résultats de détection d'anomalies au niveau de l'image et au niveau des pixels
  • Objectif : Que les performances d'inférence unimodale dépassent la méthode de base utilisant uniquement cette modalité pour l'entraînement et l'inférence

Architecture du Modèle

1. Module d'Extraction de Caractéristiques

  • Extraction de caractéristiques RGB : Utilise DINO ViT-B/8 pré-entraîné pour extraire les caractéristiques RGB, avec une dimension de sortie R^(2Hf×2Wf×d1)
  • Extraction de caractéristiques de nuage de points : Utilise Point-MAE pour extraire les caractéristiques du nuage de points, obtenant une carte de caractéristiques alignée avec RGB grâce à l'échantillonnage FPS et l'interpolation IDW

2. Réseau de Distillation Inter-Modale

Propose trois chemins de distillation :

Feature-to-Feature (F2F) :

H^f_RGB^(i,j) = F2F(R^(i,j)_PC)

Utilise un MLP à trois couches pour établir directement un mappage de l'espace des caractéristiques à l'espace des caractéristiques.

Feature-to-Input (F2I) :

H^f_RGB = ℱ_RGB(H^i_RGB), H^i_RGB = F2I(R_PC)

Génère l'entrée d'une modalité à partir des caractéristiques d'une autre modalité.

Input-to-Feature (I2F) :

H^f_RGB = I2F(I_PC)

Génère directement les caractéristiques de la modalité cible à partir de l'entrée.

3. Construction de la Banque Mémoire

Utilise un algorithme glouton pour la sélection d'ensemble central :

p_{i+1} = arg max_{p_j∈S,i≠j} D_c(p_i, p_j)

Réduit la dimensionnalité par projection aléatoire clairsemée pour améliorer l'efficacité computationnelle.

4. Fusion au Niveau de la Décision

Utilise deux machines à vecteurs de support à une classe pour la classification et la segmentation :

c = C_c(αψ(F_PC, M_PC), βψ(F_RGB, M_RGB))
s = C_s(αφ(F_PC, M_PC), βφ(F_RGB, M_RGB))

Points d'Innovation Technique

  1. Génération d'hallucinations inter-modales : Génère des caractéristiques "hallucinées" de modalités manquantes lors de l'inférence en apprenant des mappages inter-modaux
  2. Stratégie de distillation multi-chemins : Fournit trois méthodes de distillation différentes, équilibrant la complexité computationnelle et les performances
  3. Analyse des performances asymétriques : Analyse en profondeur les différences de performance entre différentes directions de distillation et leurs causes

Configuration Expérimentale

Ensembles de Données

  • MVTec 3D-AD : Contient 10 classes d'objets, 3-5 types de défauts par classe, avec annotations binaires au niveau des pixels
  • Eyecandies : Ensemble de données synthétique de détection d'anomalies RGB+3D

Métriques d'Évaluation

  • I-AUROC : Aire sous la courbe ROC pour la détection d'anomalies au niveau de l'image
  • P-AUROC : Aire sous la courbe ROC pour la détection d'anomalies au niveau des pixels
  • AUPRO : Aire moyenne par région chevauchée, réduisant l'impact de la taille des anomalies sur l'évaluation

Méthodes de Comparaison

  • DualBanksPCs/RGB : Méthode de double banque mémoire utilisant une seule modalité
  • Shape-guided : Méthode SOTA conçue spécifiquement pour les nuages de points
  • M3DM : Méthode de banque mémoire multimodale
  • AST : Réseau maître-élève asymétrique

Détails d'Implémentation

  • Optimiseur : Adam, taille de lot 32, préchauffage 10 epochs
  • Taux d'apprentissage : 0,0005 pour F2F et F2I, 0,0003 pour I2F
  • Nombre d'epochs : 100, arrêt anticipé basé sur l'ensemble de validation
  • Matériel : NVIDIA RTX A6000, 256 Go de mémoire

Résultats Expérimentaux

Résultats Principaux

Performance du pipeline MTFI (inférence nuage de points) :

  • La méthode F2F atteint I-AUROC 0,938, AUPRO 0,934 sur MVTec 3D-AD
  • Par rapport à la ligne de base DualBanksPCs, amélioration de I-AUROC de 7,8%, AUPRO de 2,3%
  • Dépasse la méthode SOTA Shape-guided (amélioration de I-AUROC de 2,2%)

Tableau de Comparaison des Performances :

MéthodeI-AUROCAUPRO
Shape-guided0,9160,931
DualBanksPCs0,8600,911
Ours F2F0,9380,934
Ours F2I0,8630,912
Ours I2F0,8200,942

Phénomène de Performance Asymétrique

Pipeline MTFI (inférence RGB) :

  • Amélioration seulement légère, la méthode F2F n'améliore I-AUROC que de 0,851 à 0,856
  • Indique que l'effet de la génération d'hallucinations de nuages de points à partir de RGB est limité

Expériences d'Ablation

  1. Différents extracteurs de caractéristiques : Valide la généralité de la méthode sur ViT-S/8, ViT-B/8-in21k et Point-Bert
  2. Comparaison des métriques de distance : La distance L2 montre les meilleures performances dans la plupart des cas
  3. Proportion d'ensemble central : Une proportion de 10% pour la sélection d'ensemble central atteint le meilleur équilibre de performance

Analyse de Cas

L'analyse de visualisation révèle :

  1. Anomalies de texture : Pour l'anomalie "thread" de Cable Gland, les changements de forme dans le nuage de points sont minimes mais les différences de texture dans RGB sont évidentes
  2. Anomalies de forme : Pour l'anomalie "bent", les informations spatiales sont nécessaires pour le jugement, les images RGB fournissent des informations insuffisantes
  3. Anomalies composites : Les anomalies "crack" de Cookie et "contamination" de Foam nécessitent une collaboration d'informations multimodales

Travaux Connexes

Détection d'Anomalies Industrielles 2D Non Supervisée

  • Méthodes d'intégration de caractéristiques : Architectures maître-élève, classification à une classe, mappage de distribution de caractéristiques
  • Méthodes de reconstruction : Autoencodeurs, GAN, modèles de diffusion
  • Méthodes de banque mémoire : PatchCore et autres sélection et conservation de caractéristiques normales pour la comparaison

Détection d'Anomalies Industrielles 3D et RGB-3D Multimodales

  • AST : Réseau maître-élève asymétrique évitant que le réseau élève apprenne les anomalies
  • M3DM : Méthode de banque mémoire multimodale utilisant des extracteurs de caractéristiques pré-entraînés
  • DADA : Apprentissage de représentations conjointes RGB-3D

Distillation de Connaissances Inter-Modales

  • Reconnaissance d'actions vidéo : Réseau d'hallucinations inter-modales RGB-D
  • Segmentation d'images médicales : Stratégies d'apprentissage pour les modalités manquantes
  • Détection de saillance : Apprentissage de caractéristiques inter-modales

Conclusion et Discussion

Conclusions Principales

  1. Faisabilité du pipeline MTFI : Démontre l'efficacité de l'entraînement multimodal et de l'inférence peu modal
  2. Performance asymétrique : Amélioration significative lors de l'inférence nuage de points vs amélioration mineure lors de l'inférence RGB
  3. Mécanisme de transmission d'informations : Les informations de texture partagées peuvent être transmises entre modalités, mais les informations spatiales sont difficiles à déduire à partir de RGB

Limitations

  1. Dépendance aux pré-entraînements : Dépend d'extracteurs de caractéristiques pré-entraînés sur de grands ensembles de données
  2. Besoins en données : Nécessite une grande quantité de données d'entraînement multimodales alignées
  3. Surcharge computationnelle : L'entraînement en deux étapes augmente la complexité computationnelle
  4. Limitation modale : Actuellement validé uniquement sur les modalités RGB et nuage de points

Directions Futures

  1. Extension à plus de modalités : Ultrasons, infrarouge et autres modalités de détection industrielle
  2. Réduction de la dépendance aux pré-entraînements : Explorer des méthodes ne dépendant pas de pré-entraînements à grande échelle
  3. Déploiement pratique : Collecte et validation de données dans des scénarios industriels réels

Évaluation Approfondie

Avantages

  1. Signification pratique majeure : Résout un vrai problème de douleur de l'industrie
  2. Méthode novatrice : Première application de la distillation inter-modale à l'IAD multimodale incomplète
  3. Expériences complètes : Valide l'efficacité de la méthode sur plusieurs ensembles de données et extracteurs de caractéristiques
  4. Analyse approfondie : Fournit des explications raisonnables pour le phénomène de performance asymétrique
  5. Valeur d'ingénierie élevée : La méthode F2F a une surcharge computationnelle faible, adaptée au déploiement pratique

Insuffisances

  1. Analyse théorique insuffisante : Manque d'analyse théorique de la transmission d'informations inter-modales
  2. Limitation des ensembles de données : Validation principalement sur des données synthétiques et de laboratoire, manque de vérification en environnement industriel réel
  3. Extensibilité modale : La méthode est actuellement limitée à RGB et nuage de points, la capacité d'extension à d'autres modalités est inconnue
  4. Sensibilité aux hyperparamètres : Nécessite l'ajustement de paramètres comme le taux d'apprentissage pour différents réseaux de distillation

Impact

  1. Contribution académique : Fournit une nouvelle direction de recherche pour l'apprentissage multimodal incomplet
  2. Valeur pratique : Fournit une solution plus rentable pour le contrôle qualité industriel
  3. Reproductibilité : Fournit du code open-source, facilitant la reproduction et l'extension
  4. Caractère inspirant : Fournit une référence pour les problèmes multimodaux incomplets dans d'autres domaines

Scénarios d'Application

  1. Contrôle qualité industriel : Particulièrement pour la production de batteries lithium-ion et de matériaux composites de haute valeur
  2. Diagnostic médical : Scénarios avec plusieurs modalités d'imagerie mais contraintes de coûts
  3. Conduite autonome : Scénarios de défaillance de capteurs ou d'optimisation des coûts
  4. Surveillance de sécurité : Scénarios de déploiement de capteurs multimodaux avec considérations de coûts de maintenance

Références

Cet article cite 67 articles connexes, incluant principalement :

  • Méthodes classiques dans le domaine de la détection d'anomalies industrielles (PatchCore, M3DM, etc.)
  • Travaux connexes en distillation de connaissances inter-modales
  • Méthodes fondamentales en traitement de nuages de points 3D et apprentissage multimodal
  • Articles originaux d'ensembles de données importants comme MVTec 3D-AD

Évaluation Globale : Ceci est un article de haute qualité résolvant un problème industriel réel. Le cadre CMDIAD proposé possède une importance théorique significative et une valeur pratique. Bien qu'il y ait encore de la place pour amélioration dans l'analyse théorique et la validation en scénarios réels, son caractère innovant et sa praticité en font une contribution importante au domaine.