2025-11-12T10:52:10.099968

Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation

Sui, Lichau, Lefèvre et al.
Recent studies of multimodal industrial anomaly detection (IAD) based on 3D point clouds and RGB images have highlighted the importance of exploiting the redundancy and complementarity among modalities for accurate classification and segmentation. However, achieving multimodal IAD in practical production lines remains a work in progress. It is essential to consider the trade-offs between the costs and benefits associated with the introduction of new modalities while ensuring compatibility with current processes. Existing quality control processes combine rapid in-line inspections, such as optical and infrared imaging with high-resolution but time-consuming near-line characterization techniques, including industrial CT and electron microscopy to manually or semi-automatically locate and analyze defects in the production of Li-ion batteries and composite materials. Given the cost and time limitations, only a subset of the samples can be inspected by all in-line and near-line methods, and the remaining samples are only evaluated through one or two forms of in-line inspection. To fully exploit data for deep learning-driven automatic defect detection, the models must have the ability to leverage multimodal training and handle incomplete modalities during inference. In this paper, we propose CMDIAD, a Cross-Modal Distillation framework for IAD to demonstrate the feasibility of a Multi-modal Training, Few-modal Inference (MTFI) pipeline. Our findings show that the MTFI pipeline can more effectively utilize incomplete multimodal information compared to applying only a single modality for training and inference. Moreover, we investigate the reasons behind the asymmetric performance improvement using point clouds or RGB images as the main modality of inference. This provides a foundation for our future multimodal dataset construction with additional modalities from manufacturing scenarios.
academic

Rilevamento di Anomalie Industriali Multimodali Incomplete mediante Distillazione Cross-Modale

Informazioni Fondamentali

  • ID Articolo: 2405.13571
  • Titolo: Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation
  • Autori: Wenbo Sui, Daniel Lichau, Josselin Lefèvre, Harold Phelippeau
  • Classificazione: cs.CV
  • Rivista di Pubblicazione: Information Fusion 126 (2026) 103572
  • Link Articolo: https://arxiv.org/abs/2405.13571
  • Link Codice: https://github.com/evenrose/CMDIAD

Riassunto

Questo articolo affronta un problema pratico nel rilevamento di anomalie industriali: nelle linee di produzione reali, a causa di vincoli di costo e tempo, non è possibile eseguire rilevamenti multimodali completi su tutti i campioni. Gli autori propongono il framework CMDIAD, che implementa una pipeline di addestramento multimodale e inferenza con poche modalità (MTFI), utilizzando tecniche di distillazione della conoscenza cross-modale. Questo consente al modello di sfruttare dati multimodali completi durante l'addestramento, mentre durante l'inferenza utilizza solo modalità parziali per ottenere prestazioni migliori.

Contesto di Ricerca e Motivazione

Definizione del Problema

Nel rilevamento di anomalie industriali, i metodi multimodali esistenti richiedono tipicamente informazioni modali complete sia durante l'addestramento che durante l'inferenza. Tuttavia, negli ambienti di produzione reali:

  1. Vincoli di Costo: Le tecniche di rilevamento ad alta risoluzione (come la tomografia computerizzata industriale, la microscopia elettronica) sono costose e richiedono molto tempo
  2. Limitazioni Pratiche: Solo una parte dei campioni può essere sottoposta a rilevamento con tutte le modalità, mentre la maggior parte può essere valutata solo attraverso 1-2 metodi di rilevamento rapidi online
  3. Utilizzo Insufficiente dei Dati: I metodi esistenti non riescono a sfruttare pienamente le informazioni multimodali della fase di addestramento per migliorare le prestazioni di inferenza unimodale

Significato della Ricerca

Questo problema è molto importante in scenari industriali reali come la produzione di batterie al litio e materiali compositi. Risolvere questo problema consente di:

  • Ridurre i costi del controllo qualità
  • Migliorare l'efficienza del rilevamento
  • Sfruttare pienamente i dati di addestramento multimodali limitati

Limitazioni dei Metodi Esistenti

  1. Dipendenza da Modalità Complete: I metodi IAD multimodali esistenti richiedono modalità complete sia durante l'addestramento che durante l'inferenza
  2. Scarsa Ricerca sulla Gestione delle Modalità Mancanti: La ricerca sulle modalità mancanti è limitata, principalmente utilizzando semplici strategie di fusione tardiva
  3. Spreco di Informazioni: Impossibilità di utilizzare le informazioni multimodali dell'addestramento per migliorare le prestazioni unimodali dell'inferenza

Contributi Principali

  1. Prima Proposta di IAD Multimodale Incompleto: Secondo gli autori, questo è il primo lavoro sul rilevamento di anomalie industriali con dati multimodali incompleti
  2. Framework CMDIAD: Propone un nuovo framework IAD multimodale basato su distillazione cross-modale, implementando addestramento multimodale e inferenza con poche modalità
  3. Pipeline MTFI: Dimostra la fattibilità e l'efficacia della pipeline di addestramento multimodale e inferenza con poche modalità
  4. Analisi della Correlazione Modale: Analizza in profondità i meccanismi di trasferimento di informazioni tra diverse modalità, fornendo indicazioni per la costruzione futura di dataset

Spiegazione Dettagliata del Metodo

Definizione del Compito

  • Input: Durante l'addestramento, dati accoppiati di immagini RGB e nuvole di punti 3D; durante l'inferenza, solo una singola modalità (RGB o nuvola di punti)
  • Output: Risultati di rilevamento di anomalie a livello di immagine e pixel
  • Obiettivo: Far sì che le prestazioni di inferenza unimodale superino il metodo baseline che utilizza solo quella modalità per l'addestramento e l'inferenza

Architettura del Modello

1. Modulo di Estrazione delle Caratteristiche

  • Estrazione di Caratteristiche RGB: Utilizza DINO ViT-B/8 pre-addestrato per estrarre caratteristiche RGB, con dimensione di output R^(2Hf×2Wf×d1)
  • Estrazione di Caratteristiche della Nuvola di Punti: Utilizza Point-MAE per estrarre caratteristiche della nuvola di punti, ottenendo mappe di caratteristiche allineate con RGB attraverso campionamento FPS e interpolazione IDW

2. Rete di Distillazione Cross-Modale

Propone tre percorsi di distillazione:

Feature-to-Feature (F2F):

H^f_RGB^(i,j) = F2F(R^(i,j)_PC)

Utilizza un MLP a tre strati per stabilire direttamente la mappatura dallo spazio delle caratteristiche allo spazio delle caratteristiche.

Feature-to-Input (F2I):

H^f_RGB = ℱ_RGB(H^i_RGB), H^i_RGB = F2I(R_PC)

Genera l'input di un'altra modalità dalle caratteristiche di una modalità.

Input-to-Feature (I2F):

H^f_RGB = I2F(I_PC)

Genera direttamente le caratteristiche della modalità target dall'input.

3. Costruzione della Memoria

Utilizza un algoritmo greedy per la selezione del core set:

p_{i+1} = arg max_{p_j∈S,i≠j} D_c(p_i, p_j)

Migliora l'efficienza computazionale attraverso la riduzione della dimensionalità mediante proiezione casuale sparsa.

4. Fusione a Livello Decisionale

Utilizza due macchine a vettori di supporto a una classe per la classificazione e la segmentazione:

c = C_c(αψ(F_PC, M_PC), βψ(F_RGB, M_RGB))
s = C_s(αφ(F_PC, M_PC), βφ(F_RGB, M_RGB))

Punti di Innovazione Tecnica

  1. Generazione di Allucinazioni Cross-Modali: Attraverso l'apprendimento di mappature cross-modali, genera caratteristiche "allucinatorie" della modalità mancante durante l'inferenza
  2. Strategia di Distillazione Multi-Percorso: Fornisce tre diversi livelli di metodi di distillazione, bilanciando la complessità computazionale e le prestazioni
  3. Analisi delle Prestazioni Asimmetriche: Analizza in profondità le differenze di prestazioni tra diverse direzioni di distillazione e le loro cause

Configurazione Sperimentale

Dataset

  • MVTec 3D-AD: Contiene 10 classi di oggetti, 3-5 tipi di difetti per classe, con annotazioni binarie a livello di pixel
  • Eyecandies: Dataset sintetico di rilevamento di anomalie RGB+3D

Metriche di Valutazione

  • I-AUROC: Area sotto la curva ROC per il rilevamento di anomalie a livello di immagine
  • P-AUROC: Area sotto la curva ROC per il rilevamento di anomalie a livello di pixel
  • AUPRO: Area media di sovrapposizione per regione, riducendo l'impatto della dimensione dell'anomalia sulla valutazione

Metodi di Confronto

  • DualBanksPCs/RGB: Metodo a doppia memoria che utilizza solo una singola modalità
  • Shape-guided: Metodo SOTA progettato specificamente per nuvole di punti
  • M3DM: Metodo a memoria multimodale
  • AST: Rete insegnante-studente asimmetrica

Dettagli di Implementazione

  • Ottimizzatore: Adam, dimensione batch 32, riscaldamento 10 epoche
  • Tasso di Apprendimento: 0.0005 per F2F e F2I, 0.0003 per I2F
  • Epoche di Addestramento: 100 epoche, arresto anticipato basato sul validation set
  • Hardware: NVIDIA RTX A6000, memoria 256G

Risultati Sperimentali

Risultati Principali

Prestazioni della Pipeline MTFI (Inferenza Nuvola di Punti):

  • Il metodo F2F raggiunge I-AUROC 0.938, AUPRO 0.934 su MVTec 3D-AD
  • Rispetto al baseline DualBanksPCs, I-AUROC migliora del 7.8%, AUPRO migliora del 2.3%
  • Supera il metodo SOTA Shape-guided (miglioramento I-AUROC del 2.2%)

Tabella di Confronto delle Prestazioni:

MetodoI-AUROCAUPRO
Shape-guided0.9160.931
DualBanksPCs0.8600.911
Ours F2F0.9380.934
Ours F2I0.8630.912
Ours I2F0.8200.942

Fenomeno di Prestazioni Asimmetriche

Pipeline MTFI (Inferenza RGB):

  • Solo miglioramenti marginali, il metodo F2F migliora I-AUROC solo da 0.851 a 0.856
  • Indica che l'effetto della generazione di allucinazioni di nuvole di punti da RGB è limitato

Esperimenti di Ablazione

  1. Diversi Estrattori di Caratteristiche: Verifica la generalità del metodo su ViT-S/8, ViT-B/8-in21k e Point-Bert
  2. Confronto delle Metriche di Distanza: La distanza L2 mostra le migliori prestazioni nella maggior parte dei casi
  3. Proporzione del Core Set: Una proporzione di core set del 10% raggiunge il miglior equilibrio di prestazioni

Analisi dei Casi

Attraverso l'analisi di visualizzazione si scopre:

  1. Anomalie di Trama: Per l'anomalia "thread" di Cable Gland, i cambiamenti di forma nella nuvola di punti sono minimi ma le differenze di trama in RGB sono evidenti
  2. Anomalie di Forma: Per l'anomalia "bent", sono necessarie informazioni spaziali per il giudizio, le immagini RGB difficilmente forniscono informazioni sufficienti
  3. Anomalie Composite: Le anomalie "crack" di Cookie e "contamination" di Foam richiedono il giudizio cooperativo di informazioni multimodali

Lavori Correlati

Rilevamento di Anomalie Industriali 2D Non Supervisionato

  • Metodi di Embedding di Caratteristiche: Architetture insegnante-studente, classificazione a una classe, mappatura della distribuzione delle caratteristiche
  • Metodi di Ricostruzione: Autoencoder, GAN, modelli di diffusione
  • Metodi di Memoria: PatchCore e altri che selezionano e conservano caratteristiche normali per il confronto

Rilevamento di Anomalie Industriali 3D e RGB-3D Multimodali

  • AST: Rete insegnante-studente asimmetrica che evita che la rete studente apprenda anomalie
  • M3DM: Metodo a memoria multimodale, utilizza estrattori di caratteristiche pre-addestrati
  • DADA: Apprende rappresentazioni congiunte RGB-3D

Distillazione della Conoscenza Cross-Modale

  • Riconoscimento di Azioni Video: Rete di allucinazioni cross-modali RGB-D
  • Segmentazione di Immagini Mediche: Strategie di apprendimento per gestire modalità mancanti
  • Rilevamento di Salienze: Apprendimento di caratteristiche cross-modali

Conclusioni e Discussione

Conclusioni Principali

  1. Fattibilità della Pipeline MTFI: Dimostra l'efficacia dell'addestramento multimodale e dell'inferenza con poche modalità
  2. Prestazioni Asimmetriche: Miglioramenti significativi nell'inferenza della nuvola di punti vs miglioramenti marginali nell'inferenza RGB
  3. Meccanismo di Trasferimento di Informazioni: Le informazioni di trama condivise possono essere trasferite cross-modali, ma le informazioni spaziali sono difficili da dedurre da RGB

Limitazioni

  1. Dipendenza da Pre-addestramento: Dipende da estrattori di caratteristiche pre-addestrati su dataset di grandi dimensioni
  2. Requisiti di Dati: Richiede una grande quantità di dati di addestramento multimodali registrati
  3. Overhead Computazionale: L'addestramento in due fasi aumenta la complessità computazionale
  4. Limitazioni Modali: Attualmente verificato solo su modalità RGB e nuvola di punti

Direzioni Future

  1. Estensione a Più Modalità: Ultrasuoni, infrarossi e altre modalità di rilevamento industriale
  2. Riduzione della Dipendenza da Pre-addestramento: Esplorare metodi che non dipendono da pre-addestramento su larga scala
  3. Distribuzione Pratica: Raccolta e validazione di dati in scenari industriali reali

Valutazione Approfondita

Punti di Forza

  1. Significato Pratico Rilevante: Risolve un vero problema critico dell'industria
  2. Metodo Innovativo: Prima applicazione della distillazione cross-modale a IAD multimodale incompleto
  3. Esperimenti Completi: Verifica l'efficacia del metodo su più dataset e estrattori di caratteristiche
  4. Analisi Approfondita: Fornisce spiegazioni ragionevoli per il fenomeno di prestazioni asimmetriche
  5. Alto Valore Ingegneristico: Il metodo F2F ha basso overhead computazionale, adatto per la distribuzione pratica

Insufficienze

  1. Analisi Teorica Insufficiente: Manca l'analisi teorica del trasferimento di informazioni cross-modali
  2. Limitazioni del Dataset: Principalmente verificato su dati sintetici e di laboratorio, manca la verifica in ambienti industriali reali
  3. Estensibilità Modale: Il metodo è attualmente limitato a RGB e nuvola di punti, la capacità di estensione ad altre modalità è sconosciuta
  4. Sensibilità degli Iperparametri: Richiede l'aggiustamento di iperparametri come il tasso di apprendimento per diverse reti di distillazione

Impatto

  1. Contributo Accademico: Fornisce una nuova direzione di ricerca per l'apprendimento multimodale incompleto
  2. Valore Pratico: Fornisce una soluzione più conveniente per il controllo qualità industriale
  3. Riproducibilità: Fornisce codice open-source, facilitando la riproduzione e l'estensione
  4. Ispirazione: Fornisce riferimenti per problemi multimodali incompleti in altri campi

Scenari Applicabili

  1. Controllo Qualità Industriale: Particolarmente nella produzione di batterie al litio e materiali compositi ad alto valore
  2. Diagnostica Medica: Scenari con più modalità di imaging ma vincoli di costo
  3. Guida Autonoma: Scenari di guasto del sensore o ottimizzazione dei costi
  4. Sorveglianza di Sicurezza: Scenari di distribuzione di sensori multimodali ma considerazioni di costi di manutenzione

Bibliografia

Questo articolo cita 67 articoli correlati, principalmente includendo:

  • Metodi classici nel campo del rilevamento di anomalie industriali (PatchCore, M3DM, ecc.)
  • Lavori correlati sulla distillazione della conoscenza cross-modale
  • Metodi fondamentali nell'elaborazione di nuvole di punti 3D e nell'apprendimento multimodale
  • Articoli originali di importanti dataset come MVTec 3D-AD

Valutazione Complessiva: Questo è un articolo di alta qualità che risolve problemi industriali reali, e il framework CMDIAD proposto ha un significato teorico e un valore pratico importanti. Sebbene vi sia spazio per miglioramenti nell'analisi teorica e nella verifica in scenari reali, la sua innovazione e praticità lo rendono un contributo importante in questo campo.