Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation
Sui, Lichau, Lefèvre et al.
Recent studies of multimodal industrial anomaly detection (IAD) based on 3D point clouds and RGB images have highlighted the importance of exploiting the redundancy and complementarity among modalities for accurate classification and segmentation. However, achieving multimodal IAD in practical production lines remains a work in progress. It is essential to consider the trade-offs between the costs and benefits associated with the introduction of new modalities while ensuring compatibility with current processes. Existing quality control processes combine rapid in-line inspections, such as optical and infrared imaging with high-resolution but time-consuming near-line characterization techniques, including industrial CT and electron microscopy to manually or semi-automatically locate and analyze defects in the production of Li-ion batteries and composite materials. Given the cost and time limitations, only a subset of the samples can be inspected by all in-line and near-line methods, and the remaining samples are only evaluated through one or two forms of in-line inspection. To fully exploit data for deep learning-driven automatic defect detection, the models must have the ability to leverage multimodal training and handle incomplete modalities during inference. In this paper, we propose CMDIAD, a Cross-Modal Distillation framework for IAD to demonstrate the feasibility of a Multi-modal Training, Few-modal Inference (MTFI) pipeline. Our findings show that the MTFI pipeline can more effectively utilize incomplete multimodal information compared to applying only a single modality for training and inference. Moreover, we investigate the reasons behind the asymmetric performance improvement using point clouds or RGB images as the main modality of inference. This provides a foundation for our future multimodal dataset construction with additional modalities from manufacturing scenarios.
academic
Unvollständige multimodale industrielle Anomalieerkennung durch Cross-Modal Distillation
Dieses Paper adressiert ein praktisches Problem der industriellen Anomalieerkennung: In realen Produktionslinien können aufgrund von Kosten- und Zeitbeschränkungen nicht alle Proben mit vollständiger multimodaler Erfassung untersucht werden. Die Autoren schlagen das CMDIAD-Framework vor, das eine Multimodal-Training-Fewmodal-Inferenz-Pipeline (MTFI) realisiert. Durch Cross-Modal-Wissensdestillation ermöglicht das Modell, während des Trainings vollständige multimodale Daten zu nutzen, während es bei der Inferenz mit nur teilweisen Modalitäten bessere Leistung erreicht.
In der industriellen Anomalieerkennung erfordern bestehende multimodale Methoden typischerweise vollständige Modalitätsinformationen sowohl beim Training als auch bei der Inferenz. In realen Produktionsumgebungen jedoch:
Kosteneinschränkungen: Hochauflösende Erfassungstechnologien (wie industrielle CT, Elektronenmikroskopie) sind kostspielig und zeitaufwändig
Praktische Limitierungen: Nur ein Teil der Proben kann mit vollständiger Modalität erfasst werden; die meisten Proben können nur durch 1-2 schnelle Online-Erfassungsmethoden bewertet werden
Unzureichende Datennutzung: Bestehende Methoden können die multimodalen Informationen aus der Trainingsphase nicht vollständig nutzen, um die Unimodal-Inferenzleistung zu verbessern
Dieses Problem ist in praktischen Industrieszenarien wie Lithium-Batterie- und Verbundstoffproduktion äußerst wichtig. Die Lösung dieses Problems kann:
Abhängigkeit von vollständigen Modalitäten: Bestehende multimodale IAD-Methoden erfordern vollständige Modalitäten beim Training und bei der Inferenz
Mangelnde Behandlung fehlender Modalitäten: Forschung zu fehlenden Modalitäten ist selten; hauptsächlich werden einfache Late-Fusion-Strategien verwendet
Informationsverschwendung: Multimodale Informationen aus der Trainingsphase können nicht zur Verbesserung der Unimodal-Inferenzleistung genutzt werden
Erstmalige Formulierung unvollständiger multimodaler IAD: Nach Aussage der Autoren ist dies die erste Arbeit zur industriellen Anomalieerkennung mit unvollständigen multimodalen Daten
CMDIAD-Framework: Ein neuartiges multimodales IAD-Framework basierend auf Cross-Modal-Destillation, das Multimodal-Training und Fewmodal-Inferenz realisiert
MTFI-Pipeline: Nachweis der Machbarkeit und Effektivität der Multimodal-Training-Fewmodal-Inferenz-Pipeline
Analyse der Modalitätskorrelation: Tiefgehende Analyse der Informationsübertragungsmechanismen zwischen verschiedenen Modalitäten zur Anleitung zukünftiger Datensatzkonstruktion
RGB-Merkmalsextraktion: Verwendung des vortrainierten DINO ViT-B/8 zur RGB-Merkmalsextraktion mit Ausgabedimension R^(2Hf×2Wf×d1)
Punktwolken-Merkmalsextraktion: Verwendung von Point-MAE zur Punktwolken-Merkmalsextraktion, mit FPS-Sampling und IDW-Interpolation zur Ausrichtung mit RGB-Merkmalen
Cross-Modal-Halluzinationsgenerierung: Durch Erlernen von Cross-Modal-Abbildungen werden während der Inferenz "halluzinierte" Merkmale der fehlenden Modalität generiert
Multi-Pfad-Destillationsstrategie: Drei verschiedene Destillationsmethoden auf unterschiedlichen Ebenen, die Rechenaufwand und Leistung ausbalancieren
Asymmetrische Leistungsanalyse: Tiefgehende Analyse der Leistungsunterschiede zwischen verschiedenen Destillationsrichtungen und deren Ursachen
MTFI-Pipeline-Machbarkeit: Nachweis der Effektivität von Multimodal-Training und Fewmodal-Inferenz
Asymmetrische Leistung: Signifikante Verbesserung bei Punktwolken-Inferenz vs. geringfügige Verbesserung bei RGB-Inferenz
Informationsübertragungsmechanismus: Gemeinsame Texturinformationen können modalitätsübergreifend übertragen werden, aber räumliche Informationen sind schwer aus RGB abzuleiten
Dieses Paper zitiert 67 relevante Arbeiten, hauptsächlich umfassend:
Klassische Methoden im Bereich industrielle Anomalieerkennung (PatchCore, M3DM usw.)
Verwandte Arbeiten zur Cross-Modal-Wissensdestillation
Grundlegende Methoden zur 3D-Punktwolkenverarbeitung und multimodalem Lernen
Originalarbeiten wichtiger Datensätze wie MVTec 3D-AD
Gesamtbewertung: Dies ist ein hochqualitatives Paper, das ein praktisches Industrieproblem löst. Das vorgeschlagene CMDIAD-Framework hat bedeutende theoretische Bedeutung und praktischen Wert. Obwohl in theoretischer Analyse und Validierung in echten Szenarien noch Verbesserungspotenzial besteht, machen seine Innovativität und Praktikabilität es zu einem wichtigen Beitrag in diesem Forschungsbereich.