Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation
Sui, Lichau, Lefèvre et al.
Recent studies of multimodal industrial anomaly detection (IAD) based on 3D point clouds and RGB images have highlighted the importance of exploiting the redundancy and complementarity among modalities for accurate classification and segmentation. However, achieving multimodal IAD in practical production lines remains a work in progress. It is essential to consider the trade-offs between the costs and benefits associated with the introduction of new modalities while ensuring compatibility with current processes. Existing quality control processes combine rapid in-line inspections, such as optical and infrared imaging with high-resolution but time-consuming near-line characterization techniques, including industrial CT and electron microscopy to manually or semi-automatically locate and analyze defects in the production of Li-ion batteries and composite materials. Given the cost and time limitations, only a subset of the samples can be inspected by all in-line and near-line methods, and the remaining samples are only evaluated through one or two forms of in-line inspection. To fully exploit data for deep learning-driven automatic defect detection, the models must have the ability to leverage multimodal training and handle incomplete modalities during inference. In this paper, we propose CMDIAD, a Cross-Modal Distillation framework for IAD to demonstrate the feasibility of a Multi-modal Training, Few-modal Inference (MTFI) pipeline. Our findings show that the MTFI pipeline can more effectively utilize incomplete multimodal information compared to applying only a single modality for training and inference. Moreover, we investigate the reasons behind the asymmetric performance improvement using point clouds or RGB images as the main modality of inference. This provides a foundation for our future multimodal dataset construction with additional modalities from manufacturing scenarios.
academic
Détection d'Anomalies Industrielles Multimodales Incomplètes via Distillation Inter-Modale
Cet article aborde un problème pratique de la détection d'anomalies industrielles : en raison des contraintes de coûts et de temps dans les chaînes de production réelles, il est impossible d'effectuer une détection multimodale complète sur tous les échantillons. Les auteurs proposent le cadre CMDIAD, qui réalise un pipeline d'entraînement multimodal et d'inférence peu modal (MTFI). Grâce à la technique de distillation de connaissances inter-modale, le modèle peut exploiter les données multimodales complètes lors de l'entraînement, tout en n'utilisant que des modalités partielles lors de l'inférence pour obtenir de meilleures performances.
Dans la détection d'anomalies industrielles, les méthodes multimodales existantes exigent généralement des informations modales complètes à la fois lors de l'entraînement et de l'inférence. Cependant, dans les environnements de production réels :
Contraintes de coûts : Les technologies de détection haute résolution (comme la tomodensitométrie industrielle, la microscopie électronique) sont coûteuses et chronophages
Limitations pratiques : Seuls certains échantillons peuvent subir une détection multimodale complète, tandis que la plupart ne peuvent être évalués que par 1-2 méthodes de détection rapides en ligne
Utilisation insuffisante des données : Les méthodes existantes ne peuvent pas exploiter pleinement les informations multimodales de la phase d'entraînement pour améliorer les performances d'inférence unimodale
Ce problème est très important dans les scénarios industriels réels tels que la production de batteries lithium-ion et de matériaux composites. La résolution de ce problème peut :
Réduire les coûts du contrôle qualité
Améliorer l'efficacité de la détection
Exploiter pleinement les données d'entraînement multimodales limitées
Dépendance aux modalités complètes : Les méthodes IAD multimodales existantes exigent des modalités complètes à la fois lors de l'entraînement et de l'inférence
Traitement des modalités manquantes : La recherche sur les modalités manquantes est limitée, utilisant principalement des stratégies simples de fusion tardive
Gaspillage d'informations : Impossibilité d'exploiter les informations multimodales de l'entraînement pour améliorer les performances unimodales lors de l'inférence
Première proposition d'IAD multimodale incomplète : Selon les auteurs, c'est le premier travail abordant la détection d'anomalies industrielles sur des données multimodales incomplètes
Cadre CMDIAD : Propose un nouveau cadre IAD multimodal basé sur la distillation inter-modale, réalisant l'entraînement multimodal et l'inférence peu modal
Pipeline MTFI : Démontre la faisabilité et l'efficacité du pipeline d'entraînement multimodal et d'inférence peu modal
Analyse de la corrélation modale : Analyse en profondeur les mécanismes de transmission d'informations entre différentes modalités, fournissant des orientations pour la construction future de bases de données
Entrée : Données appariées d'images RGB et de nuages de points 3D lors de l'entraînement ; une seule modalité (RGB ou nuage de points) lors de l'inférence
Sortie : Résultats de détection d'anomalies au niveau de l'image et au niveau des pixels
Objectif : Que les performances d'inférence unimodale dépassent la méthode de base utilisant uniquement cette modalité pour l'entraînement et l'inférence
Extraction de caractéristiques RGB : Utilise DINO ViT-B/8 pré-entraîné pour extraire les caractéristiques RGB, avec une dimension de sortie R^(2Hf×2Wf×d1)
Extraction de caractéristiques de nuage de points : Utilise Point-MAE pour extraire les caractéristiques du nuage de points, obtenant une carte de caractéristiques alignée avec RGB grâce à l'échantillonnage FPS et l'interpolation IDW
Génération d'hallucinations inter-modales : Génère des caractéristiques "hallucinées" de modalités manquantes lors de l'inférence en apprenant des mappages inter-modaux
Stratégie de distillation multi-chemins : Fournit trois méthodes de distillation différentes, équilibrant la complexité computationnelle et les performances
Analyse des performances asymétriques : Analyse en profondeur les différences de performance entre différentes directions de distillation et leurs causes
Anomalies de texture : Pour l'anomalie "thread" de Cable Gland, les changements de forme dans le nuage de points sont minimes mais les différences de texture dans RGB sont évidentes
Anomalies de forme : Pour l'anomalie "bent", les informations spatiales sont nécessaires pour le jugement, les images RGB fournissent des informations insuffisantes
Anomalies composites : Les anomalies "crack" de Cookie et "contamination" de Foam nécessitent une collaboration d'informations multimodales
Faisabilité du pipeline MTFI : Démontre l'efficacité de l'entraînement multimodal et de l'inférence peu modal
Performance asymétrique : Amélioration significative lors de l'inférence nuage de points vs amélioration mineure lors de l'inférence RGB
Mécanisme de transmission d'informations : Les informations de texture partagées peuvent être transmises entre modalités, mais les informations spatiales sont difficiles à déduire à partir de RGB
Analyse théorique insuffisante : Manque d'analyse théorique de la transmission d'informations inter-modales
Limitation des ensembles de données : Validation principalement sur des données synthétiques et de laboratoire, manque de vérification en environnement industriel réel
Extensibilité modale : La méthode est actuellement limitée à RGB et nuage de points, la capacité d'extension à d'autres modalités est inconnue
Sensibilité aux hyperparamètres : Nécessite l'ajustement de paramètres comme le taux d'apprentissage pour différents réseaux de distillation
Cet article cite 67 articles connexes, incluant principalement :
Méthodes classiques dans le domaine de la détection d'anomalies industrielles (PatchCore, M3DM, etc.)
Travaux connexes en distillation de connaissances inter-modales
Méthodes fondamentales en traitement de nuages de points 3D et apprentissage multimodal
Articles originaux d'ensembles de données importants comme MVTec 3D-AD
Évaluation Globale : Ceci est un article de haute qualité résolvant un problème industriel réel. Le cadre CMDIAD proposé possède une importance théorique significative et une valeur pratique. Bien qu'il y ait encore de la place pour amélioration dans l'analyse théorique et la validation en scénarios réels, son caractère innovant et sa praticité en font une contribution importante au domaine.