2025-11-12T10:52:10.099968

Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation

Sui, Lichau, LefÃ¨vre et al.

Recent studies of multimodal industrial anomaly detection (IAD) based on 3D point clouds and RGB images have highlighted the importance of exploiting the redundancy and complementarity among modalities for accurate classification and segmentation. However, achieving multimodal IAD in practical production lines remains a work in progress. It is essential to consider the trade-offs between the costs and benefits associated with the introduction of new modalities while ensuring compatibility with current processes. Existing quality control processes combine rapid in-line inspections, such as optical and infrared imaging with high-resolution but time-consuming near-line characterization techniques, including industrial CT and electron microscopy to manually or semi-automatically locate and analyze defects in the production of Li-ion batteries and composite materials. Given the cost and time limitations, only a subset of the samples can be inspected by all in-line and near-line methods, and the remaining samples are only evaluated through one or two forms of in-line inspection. To fully exploit data for deep learning-driven automatic defect detection, the models must have the ability to leverage multimodal training and handle incomplete modalities during inference. In this paper, we propose CMDIAD, a Cross-Modal Distillation framework for IAD to demonstrate the feasibility of a Multi-modal Training, Few-modal Inference (MTFI) pipeline. Our findings show that the MTFI pipeline can more effectively utilize incomplete multimodal information compared to applying only a single modality for training and inference. Moreover, we investigate the reasons behind the asymmetric performance improvement using point clouds or RGB images as the main modality of inference. This provides a foundation for our future multimodal dataset construction with additional modalities from manufacturing scenarios.

academic

Grundinformationen

Paper-ID: 2405.13571
Titel: Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation
Autoren: Wenbo Sui, Daniel Lichau, Josselin Lefèvre, Harold Phelippeau
Klassifizierung: cs.CV
Veröffentlichtes Journal: Information Fusion 126 (2026) 103572
Paper-Link: https://arxiv.org/abs/2405.13571
Code-Link: https://github.com/evenrose/CMDIAD

Zusammenfassung

Dieses Paper adressiert ein praktisches Problem der industriellen Anomalieerkennung: In realen Produktionslinien können aufgrund von Kosten- und Zeitbeschränkungen nicht alle Proben mit vollständiger multimodaler Erfassung untersucht werden. Die Autoren schlagen das CMDIAD-Framework vor, das eine Multimodal-Training-Fewmodal-Inferenz-Pipeline (MTFI) realisiert. Durch Cross-Modal-Wissensdestillation ermöglicht das Modell, während des Trainings vollständige multimodale Daten zu nutzen, während es bei der Inferenz mit nur teilweisen Modalitäten bessere Leistung erreicht.

Forschungshintergrund und Motivation

Problemdefinition

In der industriellen Anomalieerkennung erfordern bestehende multimodale Methoden typischerweise vollständige Modalitätsinformationen sowohl beim Training als auch bei der Inferenz. In realen Produktionsumgebungen jedoch:

Kosteneinschränkungen: Hochauflösende Erfassungstechnologien (wie industrielle CT, Elektronenmikroskopie) sind kostspielig und zeitaufwändig
Praktische Limitierungen: Nur ein Teil der Proben kann mit vollständiger Modalität erfasst werden; die meisten Proben können nur durch 1-2 schnelle Online-Erfassungsmethoden bewertet werden
Unzureichende Datennutzung: Bestehende Methoden können die multimodalen Informationen aus der Trainingsphase nicht vollständig nutzen, um die Unimodal-Inferenzleistung zu verbessern

Forschungsbedeutung

Dieses Problem ist in praktischen Industrieszenarien wie Lithium-Batterie- und Verbundstoffproduktion äußerst wichtig. Die Lösung dieses Problems kann:

Qualitätskontrollkosten senken
Erfassungseffizienz erhöhen
Begrenzte multimodale Trainingsdaten vollständig nutzen

Limitierungen bestehender Methoden

Abhängigkeit von vollständigen Modalitäten: Bestehende multimodale IAD-Methoden erfordern vollständige Modalitäten beim Training und bei der Inferenz
Mangelnde Behandlung fehlender Modalitäten: Forschung zu fehlenden Modalitäten ist selten; hauptsächlich werden einfache Late-Fusion-Strategien verwendet
Informationsverschwendung: Multimodale Informationen aus der Trainingsphase können nicht zur Verbesserung der Unimodal-Inferenzleistung genutzt werden

Kernbeiträge

Erstmalige Formulierung unvollständiger multimodaler IAD: Nach Aussage der Autoren ist dies die erste Arbeit zur industriellen Anomalieerkennung mit unvollständigen multimodalen Daten
CMDIAD-Framework: Ein neuartiges multimodales IAD-Framework basierend auf Cross-Modal-Destillation, das Multimodal-Training und Fewmodal-Inferenz realisiert
MTFI-Pipeline: Nachweis der Machbarkeit und Effektivität der Multimodal-Training-Fewmodal-Inferenz-Pipeline
Analyse der Modalitätskorrelation: Tiefgehende Analyse der Informationsübertragungsmechanismen zwischen verschiedenen Modalitäten zur Anleitung zukünftiger Datensatzkonstruktion

Methodische Details

Aufgabendefinition

Eingabe: RGB-Bilder und 3D-Punktwolken-Paare beim Training; nur eine einzelne Modalität (RGB oder Punktwolke) bei der Inferenz
Ausgabe: Anomalieerkennung auf Bild- und Pixelebene
Ziel: Unimodal-Inferenzleistung soll die Baseline-Methode übertreffen, die nur mit dieser Modalität trainiert und inferiert wird

Modellarchitektur

1. Merkmalextraktionsmodul

RGB-Merkmalsextraktion: Verwendung des vortrainierten DINO ViT-B/8 zur RGB-Merkmalsextraktion mit Ausgabedimension R^(2Hf×2Wf×d1)
Punktwolken-Merkmalsextraktion: Verwendung von Point-MAE zur Punktwolken-Merkmalsextraktion, mit FPS-Sampling und IDW-Interpolation zur Ausrichtung mit RGB-Merkmalen

Drei Destillationspfade werden vorgeschlagen:

Feature-to-Feature (F2F):

H^f_RGB^(i,j) = F2F(R^(i,j)_PC)

Verwendung eines dreischichtigen MLP zur direkten Abbildung vom Merkmalsraum zum Merkmalsraum.

Feature-to-Input (F2I):

H^f_RGB = ℱ_RGB(H^i_RGB), H^i_RGB = F2I(R_PC)

Generierung der Eingabe einer Modalität aus den Merkmalen einer anderen Modalität.

Input-to-Feature (I2F):

H^f_RGB = I2F(I_PC)

Direkte Generierung der Merkmale der Zielmodalität aus der Eingabe.

3. Speicherbankenkonstruktion

Verwendung eines Greedy-Algorithmus zur Kernmengenwahl:

p_{i+1} = arg max_{p_j∈S,i≠j} D_c(p_i, p_j)

Dimensionalitätsreduktion durch dünn besetzte Zufallsprojektion zur Verbesserung der Recheneffizienz.

4. Entscheidungsschicht-Fusion

Verwendung von zwei One-Class Support Vector Machines für Klassifizierung und Segmentierung:

c = C_c(αψ(F_PC, M_PC), βψ(F_RGB, M_RGB))
s = C_s(αφ(F_PC, M_PC), βφ(F_RGB, M_RGB))

Technische Innovationen

Cross-Modal-Halluzinationsgenerierung: Durch Erlernen von Cross-Modal-Abbildungen werden während der Inferenz "halluzinierte" Merkmale der fehlenden Modalität generiert
Multi-Pfad-Destillationsstrategie: Drei verschiedene Destillationsmethoden auf unterschiedlichen Ebenen, die Rechenaufwand und Leistung ausbalancieren
Asymmetrische Leistungsanalyse: Tiefgehende Analyse der Leistungsunterschiede zwischen verschiedenen Destillationsrichtungen und deren Ursachen

Experimentelle Einrichtung

Datensätze

MVTec 3D-AD: Enthält 10 Objektklassen, 3-5 Fehlertypen pro Klasse, mit pixelweiser binärer Annotation
Eyecandies: Synthetischer RGB+3D-Anomalieerkennung-Datensatz

Bewertungsmetriken

I-AUROC: Fläche unter der ROC-Kurve für Anomalieerkennung auf Bildebene
P-AUROC: Fläche unter der ROC-Kurve für Anomalieerkennung auf Pixelebene
AUPRO: Durchschnittliche Überlappungsfläche pro Region, reduziert den Einfluss der Anomaliengröße auf die Bewertung

Vergleichsmethoden

DualBanksPCs/RGB: Dual-Memory-Bank-Methode mit nur einer Modalität
Shape-guided: SOTA-Methode speziell für Punktwolken
M3DM: Multimodale-Memory-Bank-Methode
AST: Asymmetrisches Lehrer-Schüler-Netzwerk

Implementierungsdetails

Optimierer: Adam, Batch-Größe 32, 10 Aufwärmrunden
Lernrate: 0,0005 für F2F und F2I, 0,0003 für I2F
Trainingsrunden: 100 Runden mit Early Stopping basierend auf Validierungssatz
Hardware: NVIDIA RTX A6000, 256GB Speicher

Experimentelle Ergebnisse

Hauptergebnisse

MTFI-Pipeline-Leistung (Punktwolken-Inferenz):

F2F-Methode erreicht I-AUROC 0,938, AUPRO 0,934 auf MVTec 3D-AD
Gegenüber DualBanksPCs-Baseline: I-AUROC-Verbesserung um 7,8%, AUPRO-Verbesserung um 2,3%
Übertrifft SOTA Shape-guided-Methode (I-AUROC-Verbesserung um 2,2%)

Leistungsvergleichstabelle:

Methode	I-AUROC	AUPRO
Shape-guided	0,916	0,931
DualBanksPCs	0,860	0,911
Ours F2F	0,938	0,934
Ours F2I	0,863	0,912
Ours I2F	0,820	0,942

Asymmetrisches Leistungsphänomen

MTFI-Pipeline (RGB-Inferenz):

Nur geringfügige Verbesserung, F2F-Methode verbessert I-AUROC nur von 0,851 auf 0,856
Zeigt, dass die Generierung von Punktwolken-Halluzinationen aus RGB begrenzte Effektivität hat

Ablationsstudien

Verschiedene Merkmalextraktoren: Validierung der Methodenuniversalität auf ViT-S/8, ViT-B/8-in21k und Point-Bert
Vergleich von Distanzmetriken: L2-Distanz zeigt in den meisten Fällen die beste Leistung
Kernmengenverhältnis: 10% Kernmengenwahl erreicht optimale Leistungsbalance

Fallstudien

Durch Visualisierungsanalyse wurden folgende Erkenntnisse gewonnen:

Texturanomalie: Bei "thread"-Anomalien des Cable Gland sind Formveränderungen in der Punktwolke minimal, aber Texturdifferenzen in RGB deutlich
Formanomalie: Bei "bent"-Anomalien ist räumliche Information erforderlich; RGB-Bilder können unzureichende Informationen liefern
Kombinierte Anomalien: "crack"-Anomalien bei Cookie und "contamination"-Anomalien bei Foam erfordern multimodale Informationen zur Beurteilung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

MTFI-Pipeline-Machbarkeit: Nachweis der Effektivität von Multimodal-Training und Fewmodal-Inferenz
Asymmetrische Leistung: Signifikante Verbesserung bei Punktwolken-Inferenz vs. geringfügige Verbesserung bei RGB-Inferenz
Informationsübertragungsmechanismus: Gemeinsame Texturinformationen können modalitätsübergreifend übertragen werden, aber räumliche Informationen sind schwer aus RGB abzuleiten

Limitierungen

Abhängigkeit von Vortraining: Abhängigkeit von Merkmalextraktoren, die auf großen Datensätzen vortrainiert sind
Datenbedarf: Erfordert große Mengen ausgerichteter multimodaler Trainingsdaten
Rechenaufwand: Zweistufiges Training erhöht die Rechenkomplexität
Modalitätsbeschränkung: Derzeit nur auf RGB- und Punktwolken-Modalitäten validiert

Zukünftige Richtungen

Erweiterung auf weitere Modalitäten: Ultraschall, Infrarot und andere industrielle Erfassungsmodalitäten
Reduzierung der Vortrainingsabhängigkeit: Erkundung von Methoden, die nicht auf großflächiges Vortraining angewiesen sind
Praktische Bereitstellung: Datenerfassung und Validierung in echten Industrieszenarien

Tiefgehende Bewertung

Stärken

Große praktische Bedeutung: Löst echte Schmerzpunkte der Industrie
Neuartige Methode: Erstmalige Anwendung von Cross-Modal-Destillation auf unvollständige multimodale IAD
Umfangreiche Experimente: Validierung der Methodeneffektivität auf mehreren Datensätzen und Merkmalextraktoren
Tiefgehende Analyse: Plausible Erklärung für asymmetrische Leistungsphänomene
Hoher Ingenieurwert: F2F-Methode mit geringem Rechenaufwand, geeignet für praktische Bereitstellung

Mängel

Unzureichende theoretische Analyse: Mangel an theoretischer Analyse der Cross-Modal-Informationsübertragung
Datensatzbeschränkung: Hauptsächlich auf synthetischen und Labordaten validiert, Validierung in echten Industrieumgebungen fehlt
Modalitätserweiterbarkeit: Methode derzeit auf RGB und Punktwolken beschränkt; Erweiterungsfähigkeit auf andere Modalitäten unklar
Hyperparameter-Sensitivität: Erfordert Anpassung von Lernraten und anderen Hyperparametern für verschiedene Destillationsnetzwerke

Einflussfähigkeit

Akademischer Beitrag: Bietet neue Forschungsrichtung für unvollständiges multimodales Lernen
Praktischer Wert: Bietet kostengünstigere Lösung für industrielle Qualitätskontrolle
Reproduzierbarkeit: Bereitstellung von Open-Source-Code für einfache Reproduktion und Erweiterung
Inspirationskraft: Bietet Referenz für unvollständige multimodale Probleme in anderen Bereichen

Anwendungsszenarien

Industrielle Qualitätskontrolle: Besonders bei Lithium-Batterie- und Verbundstoffproduktion mit hohem Produktwert
Medizinische Diagnostik: Szenarien mit mehreren Bildgebungsmodalitäten aber Kostenbeschränkungen
Autonomes Fahren: Sensorfehler oder Kostenoptimierungsszenarien
Sicherheitsüberwachung: Multimodale Sensorbereitstellung mit Wartungskostenüberlegungen

Literaturverzeichnis

Dieses Paper zitiert 67 relevante Arbeiten, hauptsächlich umfassend:

Klassische Methoden im Bereich industrielle Anomalieerkennung (PatchCore, M3DM usw.)
Verwandte Arbeiten zur Cross-Modal-Wissensdestillation
Grundlegende Methoden zur 3D-Punktwolkenverarbeitung und multimodalem Lernen
Originalarbeiten wichtiger Datensätze wie MVTec 3D-AD

Gesamtbewertung: Dies ist ein hochqualitatives Paper, das ein praktisches Industrieproblem löst. Das vorgeschlagene CMDIAD-Framework hat bedeutende theoretische Bedeutung und praktischen Wert. Obwohl in theoretischer Analyse und Validierung in echten Szenarien noch Verbesserungspotenzial besteht, machen seine Innovativität und Praktikabilität es zu einem wichtigen Beitrag in diesem Forschungsbereich.

Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation

Grundinformationen

Zusammenfassung

Forschungshintergrund und Motivation

Problemdefinition

Forschungsbedeutung

Limitierungen bestehender Methoden

Kernbeiträge

Methodische Details

Aufgabendefinition

Modellarchitektur

1. Merkmalextraktionsmodul

3. Speicherbankenkonstruktion

4. Entscheidungsschicht-Fusion

Technische Innovationen

Experimentelle Einrichtung

Datensätze

Bewertungsmetriken

Vergleichsmethoden

Implementierungsdetails

Experimentelle Ergebnisse

Hauptergebnisse

Asymmetrisches Leistungsphänomen

Ablationsstudien

Fallstudien

Verwandte Arbeiten

Unüberwachte 2D-Industrielle Anomalieerkennung

3D- und multimodale RGB-3D-Industrielle Anomalieerkennung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Limitierungen

Zukünftige Richtungen

Tiefgehende Bewertung

Stärken

Mängel

Einflussfähigkeit

Anwendungsszenarien

Literaturverzeichnis

Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation

Unvollständige multimodale industrielle Anomalieerkennung durch Cross-Modal Distillation