2025-11-12T10:52:10.099968

Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation

Sui, Lichau, LefÃ¨vre et al.

Recent studies of multimodal industrial anomaly detection (IAD) based on 3D point clouds and RGB images have highlighted the importance of exploiting the redundancy and complementarity among modalities for accurate classification and segmentation. However, achieving multimodal IAD in practical production lines remains a work in progress. It is essential to consider the trade-offs between the costs and benefits associated with the introduction of new modalities while ensuring compatibility with current processes. Existing quality control processes combine rapid in-line inspections, such as optical and infrared imaging with high-resolution but time-consuming near-line characterization techniques, including industrial CT and electron microscopy to manually or semi-automatically locate and analyze defects in the production of Li-ion batteries and composite materials. Given the cost and time limitations, only a subset of the samples can be inspected by all in-line and near-line methods, and the remaining samples are only evaluated through one or two forms of in-line inspection. To fully exploit data for deep learning-driven automatic defect detection, the models must have the ability to leverage multimodal training and handle incomplete modalities during inference. In this paper, we propose CMDIAD, a Cross-Modal Distillation framework for IAD to demonstrate the feasibility of a Multi-modal Training, Few-modal Inference (MTFI) pipeline. Our findings show that the MTFI pipeline can more effectively utilize incomplete multimodal information compared to applying only a single modality for training and inference. Moreover, we investigate the reasons behind the asymmetric performance improvement using point clouds or RGB images as the main modality of inference. This provides a foundation for our future multimodal dataset construction with additional modalities from manufacturing scenarios.

academic

Rilevamento di Anomalie Industriali Multimodali Incomplete mediante Distillazione Cross-Modale

Informazioni Fondamentali

ID Articolo: 2405.13571
Titolo: Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation
Autori: Wenbo Sui, Daniel Lichau, Josselin Lefèvre, Harold Phelippeau
Classificazione: cs.CV
Rivista di Pubblicazione: Information Fusion 126 (2026) 103572
Link Articolo: https://arxiv.org/abs/2405.13571
Link Codice: https://github.com/evenrose/CMDIAD

Riassunto

Questo articolo affronta un problema pratico nel rilevamento di anomalie industriali: nelle linee di produzione reali, a causa di vincoli di costo e tempo, non è possibile eseguire rilevamenti multimodali completi su tutti i campioni. Gli autori propongono il framework CMDIAD, che implementa una pipeline di addestramento multimodale e inferenza con poche modalità (MTFI), utilizzando tecniche di distillazione della conoscenza cross-modale. Questo consente al modello di sfruttare dati multimodali completi durante l'addestramento, mentre durante l'inferenza utilizza solo modalità parziali per ottenere prestazioni migliori.

Contesto di Ricerca e Motivazione

Definizione del Problema

Nel rilevamento di anomalie industriali, i metodi multimodali esistenti richiedono tipicamente informazioni modali complete sia durante l'addestramento che durante l'inferenza. Tuttavia, negli ambienti di produzione reali:

Vincoli di Costo: Le tecniche di rilevamento ad alta risoluzione (come la tomografia computerizzata industriale, la microscopia elettronica) sono costose e richiedono molto tempo
Limitazioni Pratiche: Solo una parte dei campioni può essere sottoposta a rilevamento con tutte le modalità, mentre la maggior parte può essere valutata solo attraverso 1-2 metodi di rilevamento rapidi online
Utilizzo Insufficiente dei Dati: I metodi esistenti non riescono a sfruttare pienamente le informazioni multimodali della fase di addestramento per migliorare le prestazioni di inferenza unimodale

Significato della Ricerca

Questo problema è molto importante in scenari industriali reali come la produzione di batterie al litio e materiali compositi. Risolvere questo problema consente di:

Ridurre i costi del controllo qualità
Migliorare l'efficienza del rilevamento
Sfruttare pienamente i dati di addestramento multimodali limitati

Limitazioni dei Metodi Esistenti

Dipendenza da Modalità Complete: I metodi IAD multimodali esistenti richiedono modalità complete sia durante l'addestramento che durante l'inferenza
Scarsa Ricerca sulla Gestione delle Modalità Mancanti: La ricerca sulle modalità mancanti è limitata, principalmente utilizzando semplici strategie di fusione tardiva
Spreco di Informazioni: Impossibilità di utilizzare le informazioni multimodali dell'addestramento per migliorare le prestazioni unimodali dell'inferenza

Contributi Principali

Prima Proposta di IAD Multimodale Incompleto: Secondo gli autori, questo è il primo lavoro sul rilevamento di anomalie industriali con dati multimodali incompleti
Framework CMDIAD: Propone un nuovo framework IAD multimodale basato su distillazione cross-modale, implementando addestramento multimodale e inferenza con poche modalità
Pipeline MTFI: Dimostra la fattibilità e l'efficacia della pipeline di addestramento multimodale e inferenza con poche modalità
Analisi della Correlazione Modale: Analizza in profondità i meccanismi di trasferimento di informazioni tra diverse modalità, fornendo indicazioni per la costruzione futura di dataset

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Durante l'addestramento, dati accoppiati di immagini RGB e nuvole di punti 3D; durante l'inferenza, solo una singola modalità (RGB o nuvola di punti)
Output: Risultati di rilevamento di anomalie a livello di immagine e pixel
Obiettivo: Far sì che le prestazioni di inferenza unimodale superino il metodo baseline che utilizza solo quella modalità per l'addestramento e l'inferenza

Architettura del Modello

1. Modulo di Estrazione delle Caratteristiche

Estrazione di Caratteristiche RGB: Utilizza DINO ViT-B/8 pre-addestrato per estrarre caratteristiche RGB, con dimensione di output R^(2Hf×2Wf×d1)
Estrazione di Caratteristiche della Nuvola di Punti: Utilizza Point-MAE per estrarre caratteristiche della nuvola di punti, ottenendo mappe di caratteristiche allineate con RGB attraverso campionamento FPS e interpolazione IDW

2. Rete di Distillazione Cross-Modale

Propone tre percorsi di distillazione:

Feature-to-Feature (F2F):

H^f_RGB^(i,j) = F2F(R^(i,j)_PC)

Utilizza un MLP a tre strati per stabilire direttamente la mappatura dallo spazio delle caratteristiche allo spazio delle caratteristiche.

Feature-to-Input (F2I):

H^f_RGB = ℱ_RGB(H^i_RGB), H^i_RGB = F2I(R_PC)

Genera l'input di un'altra modalità dalle caratteristiche di una modalità.

Input-to-Feature (I2F):

H^f_RGB = I2F(I_PC)

Genera direttamente le caratteristiche della modalità target dall'input.

3. Costruzione della Memoria

Utilizza un algoritmo greedy per la selezione del core set:

p_{i+1} = arg max_{p_j∈S,i≠j} D_c(p_i, p_j)

Migliora l'efficienza computazionale attraverso la riduzione della dimensionalità mediante proiezione casuale sparsa.

4. Fusione a Livello Decisionale

Utilizza due macchine a vettori di supporto a una classe per la classificazione e la segmentazione:

c = C_c(αψ(F_PC, M_PC), βψ(F_RGB, M_RGB))
s = C_s(αφ(F_PC, M_PC), βφ(F_RGB, M_RGB))

Punti di Innovazione Tecnica

Generazione di Allucinazioni Cross-Modali: Attraverso l'apprendimento di mappature cross-modali, genera caratteristiche "allucinatorie" della modalità mancante durante l'inferenza
Strategia di Distillazione Multi-Percorso: Fornisce tre diversi livelli di metodi di distillazione, bilanciando la complessità computazionale e le prestazioni
Analisi delle Prestazioni Asimmetriche: Analizza in profondità le differenze di prestazioni tra diverse direzioni di distillazione e le loro cause

Configurazione Sperimentale

Dataset

MVTec 3D-AD: Contiene 10 classi di oggetti, 3-5 tipi di difetti per classe, con annotazioni binarie a livello di pixel
Eyecandies: Dataset sintetico di rilevamento di anomalie RGB+3D

Metriche di Valutazione

I-AUROC: Area sotto la curva ROC per il rilevamento di anomalie a livello di immagine
P-AUROC: Area sotto la curva ROC per il rilevamento di anomalie a livello di pixel
AUPRO: Area media di sovrapposizione per regione, riducendo l'impatto della dimensione dell'anomalia sulla valutazione

Metodi di Confronto

DualBanksPCs/RGB: Metodo a doppia memoria che utilizza solo una singola modalità
Shape-guided: Metodo SOTA progettato specificamente per nuvole di punti
M3DM: Metodo a memoria multimodale
AST: Rete insegnante-studente asimmetrica

Dettagli di Implementazione

Ottimizzatore: Adam, dimensione batch 32, riscaldamento 10 epoche
Tasso di Apprendimento: 0.0005 per F2F e F2I, 0.0003 per I2F
Epoche di Addestramento: 100 epoche, arresto anticipato basato sul validation set
Hardware: NVIDIA RTX A6000, memoria 256G

Risultati Sperimentali

Risultati Principali

Prestazioni della Pipeline MTFI (Inferenza Nuvola di Punti):

Il metodo F2F raggiunge I-AUROC 0.938, AUPRO 0.934 su MVTec 3D-AD
Rispetto al baseline DualBanksPCs, I-AUROC migliora del 7.8%, AUPRO migliora del 2.3%
Supera il metodo SOTA Shape-guided (miglioramento I-AUROC del 2.2%)

Tabella di Confronto delle Prestazioni:

Metodo	I-AUROC	AUPRO
Shape-guided	0.916	0.931
DualBanksPCs	0.860	0.911
Ours F2F	0.938	0.934
Ours F2I	0.863	0.912
Ours I2F	0.820	0.942

Fenomeno di Prestazioni Asimmetriche

Pipeline MTFI (Inferenza RGB):

Solo miglioramenti marginali, il metodo F2F migliora I-AUROC solo da 0.851 a 0.856
Indica che l'effetto della generazione di allucinazioni di nuvole di punti da RGB è limitato

Esperimenti di Ablazione

Diversi Estrattori di Caratteristiche: Verifica la generalità del metodo su ViT-S/8, ViT-B/8-in21k e Point-Bert
Confronto delle Metriche di Distanza: La distanza L2 mostra le migliori prestazioni nella maggior parte dei casi
Proporzione del Core Set: Una proporzione di core set del 10% raggiunge il miglior equilibrio di prestazioni

Analisi dei Casi

Attraverso l'analisi di visualizzazione si scopre:

Anomalie di Trama: Per l'anomalia "thread" di Cable Gland, i cambiamenti di forma nella nuvola di punti sono minimi ma le differenze di trama in RGB sono evidenti
Anomalie di Forma: Per l'anomalia "bent", sono necessarie informazioni spaziali per il giudizio, le immagini RGB difficilmente forniscono informazioni sufficienti
Anomalie Composite: Le anomalie "crack" di Cookie e "contamination" di Foam richiedono il giudizio cooperativo di informazioni multimodali

Lavori Correlati

Rilevamento di Anomalie Industriali 2D Non Supervisionato

Metodi di Embedding di Caratteristiche: Architetture insegnante-studente, classificazione a una classe, mappatura della distribuzione delle caratteristiche
Metodi di Ricostruzione: Autoencoder, GAN, modelli di diffusione
Metodi di Memoria: PatchCore e altri che selezionano e conservano caratteristiche normali per il confronto

Rilevamento di Anomalie Industriali 3D e RGB-3D Multimodali

AST: Rete insegnante-studente asimmetrica che evita che la rete studente apprenda anomalie
M3DM: Metodo a memoria multimodale, utilizza estrattori di caratteristiche pre-addestrati
DADA: Apprende rappresentazioni congiunte RGB-3D

Distillazione della Conoscenza Cross-Modale

Riconoscimento di Azioni Video: Rete di allucinazioni cross-modali RGB-D
Segmentazione di Immagini Mediche: Strategie di apprendimento per gestire modalità mancanti
Rilevamento di Salienze: Apprendimento di caratteristiche cross-modali

Conclusioni e Discussione

Conclusioni Principali

Fattibilità della Pipeline MTFI: Dimostra l'efficacia dell'addestramento multimodale e dell'inferenza con poche modalità
Prestazioni Asimmetriche: Miglioramenti significativi nell'inferenza della nuvola di punti vs miglioramenti marginali nell'inferenza RGB
Meccanismo di Trasferimento di Informazioni: Le informazioni di trama condivise possono essere trasferite cross-modali, ma le informazioni spaziali sono difficili da dedurre da RGB

Limitazioni

Dipendenza da Pre-addestramento: Dipende da estrattori di caratteristiche pre-addestrati su dataset di grandi dimensioni
Requisiti di Dati: Richiede una grande quantità di dati di addestramento multimodali registrati
Overhead Computazionale: L'addestramento in due fasi aumenta la complessità computazionale
Limitazioni Modali: Attualmente verificato solo su modalità RGB e nuvola di punti

Direzioni Future

Estensione a Più Modalità: Ultrasuoni, infrarossi e altre modalità di rilevamento industriale
Riduzione della Dipendenza da Pre-addestramento: Esplorare metodi che non dipendono da pre-addestramento su larga scala
Distribuzione Pratica: Raccolta e validazione di dati in scenari industriali reali

Valutazione Approfondita

Punti di Forza

Significato Pratico Rilevante: Risolve un vero problema critico dell'industria
Metodo Innovativo: Prima applicazione della distillazione cross-modale a IAD multimodale incompleto
Esperimenti Completi: Verifica l'efficacia del metodo su più dataset e estrattori di caratteristiche
Analisi Approfondita: Fornisce spiegazioni ragionevoli per il fenomeno di prestazioni asimmetriche
Alto Valore Ingegneristico: Il metodo F2F ha basso overhead computazionale, adatto per la distribuzione pratica

Insufficienze

Analisi Teorica Insufficiente: Manca l'analisi teorica del trasferimento di informazioni cross-modali
Limitazioni del Dataset: Principalmente verificato su dati sintetici e di laboratorio, manca la verifica in ambienti industriali reali
Estensibilità Modale: Il metodo è attualmente limitato a RGB e nuvola di punti, la capacità di estensione ad altre modalità è sconosciuta
Sensibilità degli Iperparametri: Richiede l'aggiustamento di iperparametri come il tasso di apprendimento per diverse reti di distillazione

Impatto

Contributo Accademico: Fornisce una nuova direzione di ricerca per l'apprendimento multimodale incompleto
Valore Pratico: Fornisce una soluzione più conveniente per il controllo qualità industriale
Riproducibilità: Fornisce codice open-source, facilitando la riproduzione e l'estensione
Ispirazione: Fornisce riferimenti per problemi multimodali incompleti in altri campi

Scenari Applicabili

Controllo Qualità Industriale: Particolarmente nella produzione di batterie al litio e materiali compositi ad alto valore
Diagnostica Medica: Scenari con più modalità di imaging ma vincoli di costo
Guida Autonoma: Scenari di guasto del sensore o ottimizzazione dei costi
Sorveglianza di Sicurezza: Scenari di distribuzione di sensori multimodali ma considerazioni di costi di manutenzione

Bibliografia

Questo articolo cita 67 articoli correlati, principalmente includendo:

Metodi classici nel campo del rilevamento di anomalie industriali (PatchCore, M3DM, ecc.)
Lavori correlati sulla distillazione della conoscenza cross-modale
Metodi fondamentali nell'elaborazione di nuvole di punti 3D e nell'apprendimento multimodale
Articoli originali di importanti dataset come MVTec 3D-AD

Valutazione Complessiva: Questo è un articolo di alta qualità che risolve problemi industriali reali, e il framework CMDIAD proposto ha un significato teorico e un valore pratico importanti. Sebbene vi sia spazio per miglioramenti nell'analisi teorica e nella verifica in scenari reali, la sua innovazione e praticità lo rendono un contributo importante in questo campo.