Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation
Sui, Lichau, Lefèvre et al.
Recent studies of multimodal industrial anomaly detection (IAD) based on 3D point clouds and RGB images have highlighted the importance of exploiting the redundancy and complementarity among modalities for accurate classification and segmentation. However, achieving multimodal IAD in practical production lines remains a work in progress. It is essential to consider the trade-offs between the costs and benefits associated with the introduction of new modalities while ensuring compatibility with current processes. Existing quality control processes combine rapid in-line inspections, such as optical and infrared imaging with high-resolution but time-consuming near-line characterization techniques, including industrial CT and electron microscopy to manually or semi-automatically locate and analyze defects in the production of Li-ion batteries and composite materials. Given the cost and time limitations, only a subset of the samples can be inspected by all in-line and near-line methods, and the remaining samples are only evaluated through one or two forms of in-line inspection. To fully exploit data for deep learning-driven automatic defect detection, the models must have the ability to leverage multimodal training and handle incomplete modalities during inference. In this paper, we propose CMDIAD, a Cross-Modal Distillation framework for IAD to demonstrate the feasibility of a Multi-modal Training, Few-modal Inference (MTFI) pipeline. Our findings show that the MTFI pipeline can more effectively utilize incomplete multimodal information compared to applying only a single modality for training and inference. Moreover, we investigate the reasons behind the asymmetric performance improvement using point clouds or RGB images as the main modality of inference. This provides a foundation for our future multimodal dataset construction with additional modalities from manufacturing scenarios.
academic
Rilevamento di Anomalie Industriali Multimodali Incomplete mediante Distillazione Cross-Modale
Questo articolo affronta un problema pratico nel rilevamento di anomalie industriali: nelle linee di produzione reali, a causa di vincoli di costo e tempo, non è possibile eseguire rilevamenti multimodali completi su tutti i campioni. Gli autori propongono il framework CMDIAD, che implementa una pipeline di addestramento multimodale e inferenza con poche modalità (MTFI), utilizzando tecniche di distillazione della conoscenza cross-modale. Questo consente al modello di sfruttare dati multimodali completi durante l'addestramento, mentre durante l'inferenza utilizza solo modalità parziali per ottenere prestazioni migliori.
Nel rilevamento di anomalie industriali, i metodi multimodali esistenti richiedono tipicamente informazioni modali complete sia durante l'addestramento che durante l'inferenza. Tuttavia, negli ambienti di produzione reali:
Vincoli di Costo: Le tecniche di rilevamento ad alta risoluzione (come la tomografia computerizzata industriale, la microscopia elettronica) sono costose e richiedono molto tempo
Limitazioni Pratiche: Solo una parte dei campioni può essere sottoposta a rilevamento con tutte le modalità, mentre la maggior parte può essere valutata solo attraverso 1-2 metodi di rilevamento rapidi online
Utilizzo Insufficiente dei Dati: I metodi esistenti non riescono a sfruttare pienamente le informazioni multimodali della fase di addestramento per migliorare le prestazioni di inferenza unimodale
Questo problema è molto importante in scenari industriali reali come la produzione di batterie al litio e materiali compositi. Risolvere questo problema consente di:
Ridurre i costi del controllo qualità
Migliorare l'efficienza del rilevamento
Sfruttare pienamente i dati di addestramento multimodali limitati
Dipendenza da Modalità Complete: I metodi IAD multimodali esistenti richiedono modalità complete sia durante l'addestramento che durante l'inferenza
Scarsa Ricerca sulla Gestione delle Modalità Mancanti: La ricerca sulle modalità mancanti è limitata, principalmente utilizzando semplici strategie di fusione tardiva
Spreco di Informazioni: Impossibilità di utilizzare le informazioni multimodali dell'addestramento per migliorare le prestazioni unimodali dell'inferenza
Prima Proposta di IAD Multimodale Incompleto: Secondo gli autori, questo è il primo lavoro sul rilevamento di anomalie industriali con dati multimodali incompleti
Framework CMDIAD: Propone un nuovo framework IAD multimodale basato su distillazione cross-modale, implementando addestramento multimodale e inferenza con poche modalità
Pipeline MTFI: Dimostra la fattibilità e l'efficacia della pipeline di addestramento multimodale e inferenza con poche modalità
Analisi della Correlazione Modale: Analizza in profondità i meccanismi di trasferimento di informazioni tra diverse modalità, fornendo indicazioni per la costruzione futura di dataset
Input: Durante l'addestramento, dati accoppiati di immagini RGB e nuvole di punti 3D; durante l'inferenza, solo una singola modalità (RGB o nuvola di punti)
Output: Risultati di rilevamento di anomalie a livello di immagine e pixel
Obiettivo: Far sì che le prestazioni di inferenza unimodale superino il metodo baseline che utilizza solo quella modalità per l'addestramento e l'inferenza
Estrazione di Caratteristiche RGB: Utilizza DINO ViT-B/8 pre-addestrato per estrarre caratteristiche RGB, con dimensione di output R^(2Hf×2Wf×d1)
Estrazione di Caratteristiche della Nuvola di Punti: Utilizza Point-MAE per estrarre caratteristiche della nuvola di punti, ottenendo mappe di caratteristiche allineate con RGB attraverso campionamento FPS e interpolazione IDW
Generazione di Allucinazioni Cross-Modali: Attraverso l'apprendimento di mappature cross-modali, genera caratteristiche "allucinatorie" della modalità mancante durante l'inferenza
Strategia di Distillazione Multi-Percorso: Fornisce tre diversi livelli di metodi di distillazione, bilanciando la complessità computazionale e le prestazioni
Analisi delle Prestazioni Asimmetriche: Analizza in profondità le differenze di prestazioni tra diverse direzioni di distillazione e le loro cause
Attraverso l'analisi di visualizzazione si scopre:
Anomalie di Trama: Per l'anomalia "thread" di Cable Gland, i cambiamenti di forma nella nuvola di punti sono minimi ma le differenze di trama in RGB sono evidenti
Anomalie di Forma: Per l'anomalia "bent", sono necessarie informazioni spaziali per il giudizio, le immagini RGB difficilmente forniscono informazioni sufficienti
Anomalie Composite: Le anomalie "crack" di Cookie e "contamination" di Foam richiedono il giudizio cooperativo di informazioni multimodali
Metodi di Embedding di Caratteristiche: Architetture insegnante-studente, classificazione a una classe, mappatura della distribuzione delle caratteristiche
Metodi di Ricostruzione: Autoencoder, GAN, modelli di diffusione
Metodi di Memoria: PatchCore e altri che selezionano e conservano caratteristiche normali per il confronto
Fattibilità della Pipeline MTFI: Dimostra l'efficacia dell'addestramento multimodale e dell'inferenza con poche modalità
Prestazioni Asimmetriche: Miglioramenti significativi nell'inferenza della nuvola di punti vs miglioramenti marginali nell'inferenza RGB
Meccanismo di Trasferimento di Informazioni: Le informazioni di trama condivise possono essere trasferite cross-modali, ma le informazioni spaziali sono difficili da dedurre da RGB
Questo articolo cita 67 articoli correlati, principalmente includendo:
Metodi classici nel campo del rilevamento di anomalie industriali (PatchCore, M3DM, ecc.)
Lavori correlati sulla distillazione della conoscenza cross-modale
Metodi fondamentali nell'elaborazione di nuvole di punti 3D e nell'apprendimento multimodale
Articoli originali di importanti dataset come MVTec 3D-AD
Valutazione Complessiva: Questo è un articolo di alta qualità che risolve problemi industriali reali, e il framework CMDIAD proposto ha un significato teorico e un valore pratico importanti. Sebbene vi sia spazio per miglioramenti nell'analisi teorica e nella verifica in scenari reali, la sua innovazione e praticità lo rendono un contributo importante in questo campo.