2025-11-12T10:52:10.099968

Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation

Sui, Lichau, Lefèvre et al.
Recent studies of multimodal industrial anomaly detection (IAD) based on 3D point clouds and RGB images have highlighted the importance of exploiting the redundancy and complementarity among modalities for accurate classification and segmentation. However, achieving multimodal IAD in practical production lines remains a work in progress. It is essential to consider the trade-offs between the costs and benefits associated with the introduction of new modalities while ensuring compatibility with current processes. Existing quality control processes combine rapid in-line inspections, such as optical and infrared imaging with high-resolution but time-consuming near-line characterization techniques, including industrial CT and electron microscopy to manually or semi-automatically locate and analyze defects in the production of Li-ion batteries and composite materials. Given the cost and time limitations, only a subset of the samples can be inspected by all in-line and near-line methods, and the remaining samples are only evaluated through one or two forms of in-line inspection. To fully exploit data for deep learning-driven automatic defect detection, the models must have the ability to leverage multimodal training and handle incomplete modalities during inference. In this paper, we propose CMDIAD, a Cross-Modal Distillation framework for IAD to demonstrate the feasibility of a Multi-modal Training, Few-modal Inference (MTFI) pipeline. Our findings show that the MTFI pipeline can more effectively utilize incomplete multimodal information compared to applying only a single modality for training and inference. Moreover, we investigate the reasons behind the asymmetric performance improvement using point clouds or RGB images as the main modality of inference. This provides a foundation for our future multimodal dataset construction with additional modalities from manufacturing scenarios.
academic

Unvollständige multimodale industrielle Anomalieerkennung durch Cross-Modal Distillation

Grundinformationen

  • Paper-ID: 2405.13571
  • Titel: Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation
  • Autoren: Wenbo Sui, Daniel Lichau, Josselin Lefèvre, Harold Phelippeau
  • Klassifizierung: cs.CV
  • Veröffentlichtes Journal: Information Fusion 126 (2026) 103572
  • Paper-Link: https://arxiv.org/abs/2405.13571
  • Code-Link: https://github.com/evenrose/CMDIAD

Zusammenfassung

Dieses Paper adressiert ein praktisches Problem der industriellen Anomalieerkennung: In realen Produktionslinien können aufgrund von Kosten- und Zeitbeschränkungen nicht alle Proben mit vollständiger multimodaler Erfassung untersucht werden. Die Autoren schlagen das CMDIAD-Framework vor, das eine Multimodal-Training-Fewmodal-Inferenz-Pipeline (MTFI) realisiert. Durch Cross-Modal-Wissensdestillation ermöglicht das Modell, während des Trainings vollständige multimodale Daten zu nutzen, während es bei der Inferenz mit nur teilweisen Modalitäten bessere Leistung erreicht.

Forschungshintergrund und Motivation

Problemdefinition

In der industriellen Anomalieerkennung erfordern bestehende multimodale Methoden typischerweise vollständige Modalitätsinformationen sowohl beim Training als auch bei der Inferenz. In realen Produktionsumgebungen jedoch:

  1. Kosteneinschränkungen: Hochauflösende Erfassungstechnologien (wie industrielle CT, Elektronenmikroskopie) sind kostspielig und zeitaufwändig
  2. Praktische Limitierungen: Nur ein Teil der Proben kann mit vollständiger Modalität erfasst werden; die meisten Proben können nur durch 1-2 schnelle Online-Erfassungsmethoden bewertet werden
  3. Unzureichende Datennutzung: Bestehende Methoden können die multimodalen Informationen aus der Trainingsphase nicht vollständig nutzen, um die Unimodal-Inferenzleistung zu verbessern

Forschungsbedeutung

Dieses Problem ist in praktischen Industrieszenarien wie Lithium-Batterie- und Verbundstoffproduktion äußerst wichtig. Die Lösung dieses Problems kann:

  • Qualitätskontrollkosten senken
  • Erfassungseffizienz erhöhen
  • Begrenzte multimodale Trainingsdaten vollständig nutzen

Limitierungen bestehender Methoden

  1. Abhängigkeit von vollständigen Modalitäten: Bestehende multimodale IAD-Methoden erfordern vollständige Modalitäten beim Training und bei der Inferenz
  2. Mangelnde Behandlung fehlender Modalitäten: Forschung zu fehlenden Modalitäten ist selten; hauptsächlich werden einfache Late-Fusion-Strategien verwendet
  3. Informationsverschwendung: Multimodale Informationen aus der Trainingsphase können nicht zur Verbesserung der Unimodal-Inferenzleistung genutzt werden

Kernbeiträge

  1. Erstmalige Formulierung unvollständiger multimodaler IAD: Nach Aussage der Autoren ist dies die erste Arbeit zur industriellen Anomalieerkennung mit unvollständigen multimodalen Daten
  2. CMDIAD-Framework: Ein neuartiges multimodales IAD-Framework basierend auf Cross-Modal-Destillation, das Multimodal-Training und Fewmodal-Inferenz realisiert
  3. MTFI-Pipeline: Nachweis der Machbarkeit und Effektivität der Multimodal-Training-Fewmodal-Inferenz-Pipeline
  4. Analyse der Modalitätskorrelation: Tiefgehende Analyse der Informationsübertragungsmechanismen zwischen verschiedenen Modalitäten zur Anleitung zukünftiger Datensatzkonstruktion

Methodische Details

Aufgabendefinition

  • Eingabe: RGB-Bilder und 3D-Punktwolken-Paare beim Training; nur eine einzelne Modalität (RGB oder Punktwolke) bei der Inferenz
  • Ausgabe: Anomalieerkennung auf Bild- und Pixelebene
  • Ziel: Unimodal-Inferenzleistung soll die Baseline-Methode übertreffen, die nur mit dieser Modalität trainiert und inferiert wird

Modellarchitektur

1. Merkmalextraktionsmodul

  • RGB-Merkmalsextraktion: Verwendung des vortrainierten DINO ViT-B/8 zur RGB-Merkmalsextraktion mit Ausgabedimension R^(2Hf×2Wf×d1)
  • Punktwolken-Merkmalsextraktion: Verwendung von Point-MAE zur Punktwolken-Merkmalsextraktion, mit FPS-Sampling und IDW-Interpolation zur Ausrichtung mit RGB-Merkmalen

2. Cross-Modal-Destillationsnetzwerk

Drei Destillationspfade werden vorgeschlagen:

Feature-to-Feature (F2F):

H^f_RGB^(i,j) = F2F(R^(i,j)_PC)

Verwendung eines dreischichtigen MLP zur direkten Abbildung vom Merkmalsraum zum Merkmalsraum.

Feature-to-Input (F2I):

H^f_RGB = ℱ_RGB(H^i_RGB), H^i_RGB = F2I(R_PC)

Generierung der Eingabe einer Modalität aus den Merkmalen einer anderen Modalität.

Input-to-Feature (I2F):

H^f_RGB = I2F(I_PC)

Direkte Generierung der Merkmale der Zielmodalität aus der Eingabe.

3. Speicherbankenkonstruktion

Verwendung eines Greedy-Algorithmus zur Kernmengenwahl:

p_{i+1} = arg max_{p_j∈S,i≠j} D_c(p_i, p_j)

Dimensionalitätsreduktion durch dünn besetzte Zufallsprojektion zur Verbesserung der Recheneffizienz.

4. Entscheidungsschicht-Fusion

Verwendung von zwei One-Class Support Vector Machines für Klassifizierung und Segmentierung:

c = C_c(αψ(F_PC, M_PC), βψ(F_RGB, M_RGB))
s = C_s(αφ(F_PC, M_PC), βφ(F_RGB, M_RGB))

Technische Innovationen

  1. Cross-Modal-Halluzinationsgenerierung: Durch Erlernen von Cross-Modal-Abbildungen werden während der Inferenz "halluzinierte" Merkmale der fehlenden Modalität generiert
  2. Multi-Pfad-Destillationsstrategie: Drei verschiedene Destillationsmethoden auf unterschiedlichen Ebenen, die Rechenaufwand und Leistung ausbalancieren
  3. Asymmetrische Leistungsanalyse: Tiefgehende Analyse der Leistungsunterschiede zwischen verschiedenen Destillationsrichtungen und deren Ursachen

Experimentelle Einrichtung

Datensätze

  • MVTec 3D-AD: Enthält 10 Objektklassen, 3-5 Fehlertypen pro Klasse, mit pixelweiser binärer Annotation
  • Eyecandies: Synthetischer RGB+3D-Anomalieerkennung-Datensatz

Bewertungsmetriken

  • I-AUROC: Fläche unter der ROC-Kurve für Anomalieerkennung auf Bildebene
  • P-AUROC: Fläche unter der ROC-Kurve für Anomalieerkennung auf Pixelebene
  • AUPRO: Durchschnittliche Überlappungsfläche pro Region, reduziert den Einfluss der Anomaliengröße auf die Bewertung

Vergleichsmethoden

  • DualBanksPCs/RGB: Dual-Memory-Bank-Methode mit nur einer Modalität
  • Shape-guided: SOTA-Methode speziell für Punktwolken
  • M3DM: Multimodale-Memory-Bank-Methode
  • AST: Asymmetrisches Lehrer-Schüler-Netzwerk

Implementierungsdetails

  • Optimierer: Adam, Batch-Größe 32, 10 Aufwärmrunden
  • Lernrate: 0,0005 für F2F und F2I, 0,0003 für I2F
  • Trainingsrunden: 100 Runden mit Early Stopping basierend auf Validierungssatz
  • Hardware: NVIDIA RTX A6000, 256GB Speicher

Experimentelle Ergebnisse

Hauptergebnisse

MTFI-Pipeline-Leistung (Punktwolken-Inferenz):

  • F2F-Methode erreicht I-AUROC 0,938, AUPRO 0,934 auf MVTec 3D-AD
  • Gegenüber DualBanksPCs-Baseline: I-AUROC-Verbesserung um 7,8%, AUPRO-Verbesserung um 2,3%
  • Übertrifft SOTA Shape-guided-Methode (I-AUROC-Verbesserung um 2,2%)

Leistungsvergleichstabelle:

MethodeI-AUROCAUPRO
Shape-guided0,9160,931
DualBanksPCs0,8600,911
Ours F2F0,9380,934
Ours F2I0,8630,912
Ours I2F0,8200,942

Asymmetrisches Leistungsphänomen

MTFI-Pipeline (RGB-Inferenz):

  • Nur geringfügige Verbesserung, F2F-Methode verbessert I-AUROC nur von 0,851 auf 0,856
  • Zeigt, dass die Generierung von Punktwolken-Halluzinationen aus RGB begrenzte Effektivität hat

Ablationsstudien

  1. Verschiedene Merkmalextraktoren: Validierung der Methodenuniversalität auf ViT-S/8, ViT-B/8-in21k und Point-Bert
  2. Vergleich von Distanzmetriken: L2-Distanz zeigt in den meisten Fällen die beste Leistung
  3. Kernmengenverhältnis: 10% Kernmengenwahl erreicht optimale Leistungsbalance

Fallstudien

Durch Visualisierungsanalyse wurden folgende Erkenntnisse gewonnen:

  1. Texturanomalie: Bei "thread"-Anomalien des Cable Gland sind Formveränderungen in der Punktwolke minimal, aber Texturdifferenzen in RGB deutlich
  2. Formanomalie: Bei "bent"-Anomalien ist räumliche Information erforderlich; RGB-Bilder können unzureichende Informationen liefern
  3. Kombinierte Anomalien: "crack"-Anomalien bei Cookie und "contamination"-Anomalien bei Foam erfordern multimodale Informationen zur Beurteilung

Verwandte Arbeiten

Unüberwachte 2D-Industrielle Anomalieerkennung

  • Merkmaleinbettungsmethoden: Lehrer-Schüler-Architektur, One-Class-Klassifizierung, Merkmalverteilungsabbildung
  • Rekonstruktionsmethoden: Autoencoder, GAN, Diffusionsmodelle
  • Memory-Bank-Methoden: PatchCore und andere Methoden zur Auswahl und Speicherung normaler Merkmale für Vergleich

3D- und multimodale RGB-3D-Industrielle Anomalieerkennung

  • AST: Asymmetrisches Lehrer-Schüler-Netzwerk zur Vermeidung des Lernens von Anomalien durch das Schülernetzwerk
  • M3DM: Multimodale-Memory-Bank-Methode mit vortrainierten Merkmalextraktoren
  • DADA: Erlernung gemeinsamer RGB-3D-Darstellungen

Cross-Modal-Wissensdestillation

  • Video-Aktionserkennung: RGB-D-Cross-Modal-Halluzinationsnetzwerk
  • Medizinische Bildsegmentierung: Lernstrategien zur Behandlung fehlender Modalitäten
  • Salienzdetection: Cross-Modal-Merkmalslernen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. MTFI-Pipeline-Machbarkeit: Nachweis der Effektivität von Multimodal-Training und Fewmodal-Inferenz
  2. Asymmetrische Leistung: Signifikante Verbesserung bei Punktwolken-Inferenz vs. geringfügige Verbesserung bei RGB-Inferenz
  3. Informationsübertragungsmechanismus: Gemeinsame Texturinformationen können modalitätsübergreifend übertragen werden, aber räumliche Informationen sind schwer aus RGB abzuleiten

Limitierungen

  1. Abhängigkeit von Vortraining: Abhängigkeit von Merkmalextraktoren, die auf großen Datensätzen vortrainiert sind
  2. Datenbedarf: Erfordert große Mengen ausgerichteter multimodaler Trainingsdaten
  3. Rechenaufwand: Zweistufiges Training erhöht die Rechenkomplexität
  4. Modalitätsbeschränkung: Derzeit nur auf RGB- und Punktwolken-Modalitäten validiert

Zukünftige Richtungen

  1. Erweiterung auf weitere Modalitäten: Ultraschall, Infrarot und andere industrielle Erfassungsmodalitäten
  2. Reduzierung der Vortrainingsabhängigkeit: Erkundung von Methoden, die nicht auf großflächiges Vortraining angewiesen sind
  3. Praktische Bereitstellung: Datenerfassung und Validierung in echten Industrieszenarien

Tiefgehende Bewertung

Stärken

  1. Große praktische Bedeutung: Löst echte Schmerzpunkte der Industrie
  2. Neuartige Methode: Erstmalige Anwendung von Cross-Modal-Destillation auf unvollständige multimodale IAD
  3. Umfangreiche Experimente: Validierung der Methodeneffektivität auf mehreren Datensätzen und Merkmalextraktoren
  4. Tiefgehende Analyse: Plausible Erklärung für asymmetrische Leistungsphänomene
  5. Hoher Ingenieurwert: F2F-Methode mit geringem Rechenaufwand, geeignet für praktische Bereitstellung

Mängel

  1. Unzureichende theoretische Analyse: Mangel an theoretischer Analyse der Cross-Modal-Informationsübertragung
  2. Datensatzbeschränkung: Hauptsächlich auf synthetischen und Labordaten validiert, Validierung in echten Industrieumgebungen fehlt
  3. Modalitätserweiterbarkeit: Methode derzeit auf RGB und Punktwolken beschränkt; Erweiterungsfähigkeit auf andere Modalitäten unklar
  4. Hyperparameter-Sensitivität: Erfordert Anpassung von Lernraten und anderen Hyperparametern für verschiedene Destillationsnetzwerke

Einflussfähigkeit

  1. Akademischer Beitrag: Bietet neue Forschungsrichtung für unvollständiges multimodales Lernen
  2. Praktischer Wert: Bietet kostengünstigere Lösung für industrielle Qualitätskontrolle
  3. Reproduzierbarkeit: Bereitstellung von Open-Source-Code für einfache Reproduktion und Erweiterung
  4. Inspirationskraft: Bietet Referenz für unvollständige multimodale Probleme in anderen Bereichen

Anwendungsszenarien

  1. Industrielle Qualitätskontrolle: Besonders bei Lithium-Batterie- und Verbundstoffproduktion mit hohem Produktwert
  2. Medizinische Diagnostik: Szenarien mit mehreren Bildgebungsmodalitäten aber Kostenbeschränkungen
  3. Autonomes Fahren: Sensorfehler oder Kostenoptimierungsszenarien
  4. Sicherheitsüberwachung: Multimodale Sensorbereitstellung mit Wartungskostenüberlegungen

Literaturverzeichnis

Dieses Paper zitiert 67 relevante Arbeiten, hauptsächlich umfassend:

  • Klassische Methoden im Bereich industrielle Anomalieerkennung (PatchCore, M3DM usw.)
  • Verwandte Arbeiten zur Cross-Modal-Wissensdestillation
  • Grundlegende Methoden zur 3D-Punktwolkenverarbeitung und multimodalem Lernen
  • Originalarbeiten wichtiger Datensätze wie MVTec 3D-AD

Gesamtbewertung: Dies ist ein hochqualitatives Paper, das ein praktisches Industrieproblem löst. Das vorgeschlagene CMDIAD-Framework hat bedeutende theoretische Bedeutung und praktischen Wert. Obwohl in theoretischer Analyse und Validierung in echten Szenarien noch Verbesserungspotenzial besteht, machen seine Innovativität und Praktikabilität es zu einem wichtigen Beitrag in diesem Forschungsbereich.