2025-11-12T10:52:10.099968

Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation

Sui, Lichau, LefÃ¨vre et al.

Recent studies of multimodal industrial anomaly detection (IAD) based on 3D point clouds and RGB images have highlighted the importance of exploiting the redundancy and complementarity among modalities for accurate classification and segmentation. However, achieving multimodal IAD in practical production lines remains a work in progress. It is essential to consider the trade-offs between the costs and benefits associated with the introduction of new modalities while ensuring compatibility with current processes. Existing quality control processes combine rapid in-line inspections, such as optical and infrared imaging with high-resolution but time-consuming near-line characterization techniques, including industrial CT and electron microscopy to manually or semi-automatically locate and analyze defects in the production of Li-ion batteries and composite materials. Given the cost and time limitations, only a subset of the samples can be inspected by all in-line and near-line methods, and the remaining samples are only evaluated through one or two forms of in-line inspection. To fully exploit data for deep learning-driven automatic defect detection, the models must have the ability to leverage multimodal training and handle incomplete modalities during inference. In this paper, we propose CMDIAD, a Cross-Modal Distillation framework for IAD to demonstrate the feasibility of a Multi-modal Training, Few-modal Inference (MTFI) pipeline. Our findings show that the MTFI pipeline can more effectively utilize incomplete multimodal information compared to applying only a single modality for training and inference. Moreover, we investigate the reasons behind the asymmetric performance improvement using point clouds or RGB images as the main modality of inference. This provides a foundation for our future multimodal dataset construction with additional modalities from manufacturing scenarios.

academic

अधूरे बहुविध औद्योगिक विसंगति पहचान क्रॉस-मोडल आसवन के माध्यम से

मूल जानकारी

पेपर ID: 2405.13571
शीर्षक: Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation
लेखक: Wenbo Sui, Daniel Lichau, Josselin Lefèvre, Harold Phelippeau
वर्गीकरण: cs.CV
प्रकाशित पत्रिका: Information Fusion 126 (2026) 103572
पेपर लिंक: https://arxiv.org/abs/2405.13571
कोड लिंक: https://github.com/evenrose/CMDIAD

सारांश

यह पेपर औद्योगिक विसंगति पहचान में एक व्यावहारिक समस्या को संबोधित करता है: वास्तविक उत्पादन लाइनों में, लागत और समय की सीमाओं के कारण, सभी नमूनों के लिए पूर्ण बहुविध पहचान संभव नहीं है। लेखकों ने CMDIAD ढांचा प्रस्तावित किया है, जो बहुविध प्रशिक्षण, अल्प-विध अनुमान (MTFI) की पाइपलाइन को लागू करता है। क्रॉस-मोडल ज्ञान आसवन तकनीक के माध्यम से, मॉडल प्रशिक्षण समय में पूर्ण बहुविध डेटा का उपयोग कर सकता है, जबकि अनुमान समय में केवल आंशिक विध का उपयोग करके बेहतर प्रदर्शन प्राप्त कर सकता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

औद्योगिक विसंगति पहचान में, मौजूदा बहुविध विधियां आमतौर पर प्रशिक्षण और अनुमान दोनों समय में पूर्ण विध जानकारी की मांग करती हैं। हालांकि, वास्तविक उत्पादन वातावरण में:

लागत बाधा: उच्च-रिज़ॉल्यूशन पहचान तकनीकें (जैसे औद्योगिक CT, इलेक्ट्रॉन माइक्रोस्कोपी) महंगी और समय-गहन हैं
व्यावहारिकता सीमा: केवल आंशिक नमूने पूर्ण-विध पहचान के लिए उपलब्ध हैं, अधिकांश नमूने केवल 1-2 तेज़ ऑनलाइन पहचान विधियों के माध्यम से मूल्यांकन किए जा सकते हैं
डेटा उपयोग अपर्याप्त: मौजूदा विधियां प्रशिक्षण चरण के बहुविध जानकारी का पूर्ण उपयोग करके एकल-विध अनुमान प्रदर्शन में सुधार नहीं कर सकती हैं

अनुसंधान महत्व

यह समस्या लिथियम बैटरी और समग्र सामग्री उत्पादन जैसे वास्तविक औद्योगिक परिदृश्यों में बहुत महत्वपूर्ण है। इस समस्या को हल करने से:

गुणवत्ता नियंत्रण लागत में कमी
पहचान दक्षता में वृद्धि
सीमित बहुविध प्रशिक्षण डेटा का पूर्ण उपयोग

मौजूदा विधियों की सीमाएं

पूर्ण विध निर्भरता: मौजूदा बहुविध IAD विधियों को प्रशिक्षण और अनुमान दोनों समय में पूर्ण विध की आवश्यकता होती है
लापता विध हैंडलिंग: लापता विध पर अनुसंधान दुर्लभ है, मुख्य रूप से सरल पश्च-संलयन रणनीति का उपयोग करते हैं
सूचना बर्बादी: प्रशिक्षण समय के बहुविध जानकारी का उपयोग करके अनुमान समय के एकल-विध प्रदर्शन में सुधार नहीं कर सकते हैं

मुख्य योगदान

अधूरे बहुविध IAD का प्रथम प्रस्ताव: लेखकों के ज्ञान के अनुसार, यह अधूरे बहुविध डेटा पर औद्योगिक विसंगति पहचान के लिए पहला कार्य है
CMDIAD ढांचा: क्रॉस-मोडल आसवन पर आधारित एक नई बहुविध IAD ढांचा प्रस्तावित किया गया है, जो बहुविध प्रशिक्षण, अल्प-विध अनुमान को लागू करता है
MTFI पाइपलाइन: बहुविध प्रशिक्षण, अल्प-विध अनुमान पाइपलाइन की व्यवहार्यता और प्रभावशीलता को प्रदर्शित किया गया है
विध संबद्धता विश्लेषण: विभिन्न विधों के बीच सूचना स्थानांतरण तंत्र का गहन विश्लेषण, भविष्य के डेटासेट निर्माण के लिए मार्गदर्शन प्रदान करता है

विधि विवरण

कार्य परिभाषा

इनपुट: प्रशिक्षण समय में RGB छवि और 3D बिंदु बादल की युग्मित डेटा; अनुमान समय में केवल एकल विध (RGB या बिंदु बादल)
आउटपुट: छवि-स्तर और पिक्सेल-स्तर की विसंगति पहचान परिणाम
लक्ष्य: एकल-विध अनुमान प्रदर्शन को केवल उस विध का उपयोग करके प्रशिक्षण और अनुमान के आधार विधि से बेहतर बनाना

मॉडल आर्किटेक्चर

1. विशेषता निष्कर्षण मॉड्यूल

RGB विशेषता निष्कर्षण: पूर्व-प्रशिक्षित DINO ViT-B/8 का उपयोग करके RGB विशेषताएं निकाली जाती हैं, आउटपुट आयाम R^(2Hf×2Wf×d1)
बिंदु बादल विशेषता निष्कर्षण: Point-MAE का उपयोग करके बिंदु बादल विशेषताएं निकाली जाती हैं, FPS नमूनाकरण और IDW प्रक्षेप के माध्यम से RGB के साथ संरेखित विशेषता मानचित्र प्राप्त किए जाते हैं

2. क्रॉस-मोडल आसवन नेटवर्क

तीन आसवन पथ प्रस्तावित किए गए हैं:

विशेषता-से-विशेषता (F2F):

H^f_RGB^(i,j) = F2F(R^(i,j)_PC)

विशेषता स्पेस से विशेषता स्पेस तक प्रत्यक्ष मानचित्रण स्थापित करने के लिए तीन-परत MLP का उपयोग किया जाता है।

विशेषता-से-इनपुट (F2I):

H^f_RGB = ℱ_RGB(H^i_RGB), H^i_RGB = F2I(R_PC)

एक विध की विशेषता से दूसरे विध के इनपुट को उत्पन्न किया जाता है।

इनपुट-से-विशेषता (I2F):

H^f_RGB = I2F(I_PC)

इनपुट से सीधे लक्ष्य विध की विशेषता उत्पन्न की जाती है।

3. स्मृति पुस्तकालय निर्माण

लालची एल्गोरिथ्म का उपयोग करके मुख्य सेट चयन:

p_{i+1} = arg max_{p_j∈S,i≠j} D_c(p_i, p_j)

कम्प्यूटेशनल दक्षता में सुधार के लिए विरल यादृच्छिक प्रक्षेप के माध्यम से आयाम में कमी।

4. निर्णय परत संलयन

वर्गीकरण और विभाजन के लिए दो एक-वर्ग समर्थन वेक्टर मशीनों का उपयोग:

c = C_c(αψ(F_PC, M_PC), βψ(F_RGB, M_RGB))
s = C_s(αφ(F_PC, M_PC), βφ(F_RGB, M_RGB))

तकनीकी नवाचार बिंदु

क्रॉस-मोडल भ्रम उत्पादन: क्रॉस-मोडल मानचित्रण सीखने के माध्यम से, अनुमान समय में लापता विध की "भ्रम" विशेषताएं उत्पन्न की जाती हैं
बहु-पथ आसवन रणनीति: तीन विभिन्न स्तरों की आसवन विधियां प्रदान करते हैं, कम्प्यूटेशनल जटिलता और प्रदर्शन को संतुलित करते हैं
असमान प्रदर्शन विश्लेषण: विभिन्न आसवन दिशाओं के प्रदर्शन अंतर और उनके कारणों का गहन विश्लेषण

प्रायोगिक सेटअप

डेटासेट

MVTec 3D-AD: 10 वर्गों की वस्तुएं, प्रत्येक वर्ग में 3-5 दोष प्रकार, पिक्सेल-स्तर बाइनरी एनोटेशन प्रदान करता है
Eyecandies: संश्लेषित RGB+3D विसंगति पहचान डेटासेट

मूल्यांकन मेट्रिक्स

I-AUROC: छवि-स्तर विसंगति पहचान के लिए ROC वक्र के नीचे का क्षेत्र
P-AUROC: पिक्सेल-स्तर विसंगति पहचान के लिए ROC वक्र के नीचे का क्षेत्र
AUPRO: औसत प्रति-क्षेत्र ओवरलैप, विसंगति आकार के मूल्यांकन पर प्रभाव को कम करता है

तुलना विधियां

DualBanksPCs/RGB: केवल एकल विध का उपयोग करने वाली दोहरी स्मृति पुस्तकालय विधि
Shape-guided: बिंदु बादल के लिए विशेष रूप से डिज़ाइन की गई SOTA विधि
M3DM: बहुविध स्मृति पुस्तकालय विधि
AST: असमान शिक्षक-छात्र नेटवर्क

कार्यान्वयन विवरण

अनुकूलक: Adam, बैच आकार 32, 10 राउंड वार्मअप
सीखने की दर: F2F और F2I के लिए 0.0005, I2F के लिए 0.0003
प्रशिक्षण राउंड: 100 राउंड, सत्यापन सेट पर प्रारंभिक रोक
हार्डवेयर: NVIDIA RTX A6000, 256G मेमोरी

प्रायोगिक परिणाम

मुख्य परिणाम

MTFI पाइपलाइन (बिंदु बादल अनुमान) प्रदर्शन:

F2F विधि MVTec 3D-AD पर I-AUROC 0.938, AUPRO 0.934 प्राप्त करती है
DualBanksPCs आधार रेखा की तुलना में, I-AUROC में 7.8% सुधार, AUPRO में 2.3% सुधार
SOTA Shape-guided विधि को पार करता है (I-AUROC में 2.2% सुधार)

प्रदर्शन तुलना तालिका:

विधि	I-AUROC	AUPRO
Shape-guided	0.916	0.931
DualBanksPCs	0.860	0.911
Ours F2F	0.938	0.934
Ours F2I	0.863	0.912
Ours I2F	0.820	0.942

असमान प्रदर्शन घटना

MTFI पाइपलाइन (RGB अनुमान):

केवल मामूली सुधार, F2F विधि I-AUROC केवल 0.851 से 0.856 तक सुधारती है
RGB से बिंदु बादल भ्रम उत्पन्न करने का प्रभाव सीमित है

विलोपन प्रयोग

विभिन्न विशेषता निष्कर्षक: ViT-S/8, ViT-B/8-in21k और Point-Bert पर विधि की सार्वभौमिकता को सत्यापित किया गया है
दूरी मेट्रिक तुलना: L2 दूरी अधिकांश मामलों में सर्वश्रेष्ठ प्रदर्शन करती है
मुख्य सेट अनुपात: 10% मुख्य सेट चयन अनुपात सर्वश्रेष्ठ प्रदर्शन संतुलन प्राप्त करता है

केस विश्लेषण

दृश्य विश्लेषण के माध्यम से पाया गया:

बनावट विसंगति: Cable Gland के "thread" विसंगति के लिए, बिंदु बादल में आकार परिवर्तन न्यूनतम है लेकिन RGB में बनावट अंतर स्पष्ट है
आकार विसंगति: "bent" विसंगति के लिए, निर्णय के लिए स्थानिक जानकारी की आवश्यकता है, RGB छवि पर्याप्त जानकारी प्रदान करने में कठिन है
समग्र विसंगति: Cookie के "crack" और Foam के "contamination" विसंगति को बहुविध जानकारी के सहयोग से निर्णय की आवश्यकता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

MTFI पाइपलाइन व्यवहार्यता: बहुविध प्रशिक्षण, अल्प-विध अनुमान की प्रभावशीलता को प्रदर्शित किया गया है
असमान प्रदर्शन: बिंदु बादल अनुमान समय में महत्वपूर्ण सुधार बनाम RGB अनुमान समय में मामूली सुधार
सूचना स्थानांतरण तंत्र: साझा की गई बनावट जानकारी क्रॉस-मोडल रूप से स्थानांतरित की जा सकती है, लेकिन स्थानिक जानकारी RGB से अनुमान लगाना कठिन है

सीमाएं

पूर्व-प्रशिक्षण निर्भरता: बड़े पैमाने पर डेटासेट पर पूर्व-प्रशिक्षित विशेषता निष्कर्षकों पर निर्भर है
डेटा आवश्यकता: बड़ी मात्रा में संरेखित बहुविध प्रशिक्षण डेटा की आवश्यकता है
कम्प्यूटेशनल ओवरहेड: दो-चरण प्रशिक्षण कम्प्यूटेशनल जटिलता में वृद्धि करता है
विध सीमा: वर्तमान में केवल RGB और बिंदु बादल विध पर सत्यापित

भविष्य की दिशाएं

अधिक विधों तक विस्तार: अल्ट्रासाउंड, अवरक्त आदि औद्योगिक पहचान विध
पूर्व-प्रशिक्षण निर्भरता में कमी: बड़े पैमाने पर पूर्व-प्रशिक्षण पर निर्भर न होने वाली विधियों की खोज
व्यावहारिक तैनाती: वास्तविक औद्योगिक परिदृश्यों में डेटा संग्रह और सत्यापन

गहन मूल्यांकन

लाभ

वास्तविक महत्व: औद्योगिक क्षेत्र की वास्तविक समस्या को हल करता है
विधि नवाचार: पहली बार क्रॉस-मोडल आसवन को अधूरे बहुविध IAD में लागू किया गया है
व्यापक प्रयोग: कई डेटासेट और विशेषता निष्कर्षकों पर विधि की प्रभावशीलता को सत्यापित किया गया है
गहन विश्लेषण: असमान प्रदर्शन घटना के लिए उचित व्याख्या प्रदान की गई है
इंजीनियरिंग मूल्य: F2F विधि कम कम्प्यूटेशनल ओवरहेड के साथ व्यावहारिक तैनाती के लिए उपयुक्त है

कमियां

सैद्धांतिक विश्लेषण अपर्याप्त: क्रॉस-मोडल सूचना स्थानांतरण का सैद्धांतिक विश्लेषण अभाव है
डेटासेट सीमा: मुख्य रूप से संश्लेषित और प्रयोगशाला डेटा पर सत्यापित, वास्तविक औद्योगिक वातावरण में सत्यापन की कमी है
विध विस्तार क्षमता: विधि वर्तमान में RGB और बिंदु बादल तक सीमित है, अन्य विधों तक विस्तार की क्षमता अज्ञात है
हाइपरपैरामीटर संवेदनशीलता: विभिन्न आसवन नेटवर्क के लिए सीखने की दर आदि हाइपरपैरामीटर को समायोजित करने की आवश्यकता है

प्रभाव

शैक्षणिक योगदान: अधूरे बहुविध सीखने के लिए नई अनुसंधान दिशा प्रदान करता है
व्यावहारिक मूल्य: औद्योगिक गुणवत्ता नियंत्रण के लिए अधिक लागत-प्रभावी समाधान प्रदान करता है
पुनरुत्पादनीयता: खुला स्रोत कोड प्रदान करता है, पुनरुत्पादन और विस्तार को सुविधाजनक बनाता है
प्रेरणा: अन्य क्षेत्रों की अधूरे बहुविध समस्याओं के लिए संदर्भ प्रदान करता है

लागू परिदृश्य

औद्योगिक गुणवत्ता नियंत्रण: विशेष रूप से लिथियम बैटरी, समग्र सामग्री आदि उच्च-मूल्य उत्पाद उत्पादन
चिकित्सा निदान: कई इमेजिंग विध लेकिन लागत सीमा वाले परिदृश्य
स्वायत्त ड्राइविंग: सेंसर विफलता या लागत अनुकूलन परिदृश्य
सुरक्षा निगरानी: बहुविध सेंसर तैनाती लेकिन रखरखाव लागत विचार वाले परिदृश्य

संदर्भ

यह पेपर 67 संबंधित संदर्भों का हवाला देता है, मुख्य रूप से:

औद्योगिक विसंगति पहचान क्षेत्र की शास्त्रीय विधियां (PatchCore, M3DM आदि)
क्रॉस-मोडल ज्ञान आसवन से संबंधित कार्य
3D बिंदु बादल प्रसंस्करण और बहुविध सीखने की मूल विधियां
MVTec 3D-AD आदि महत्वपूर्ण डेटासेट के मूल पेपर

समग्र मूल्यांकन: यह वास्तविक औद्योगिक समस्या को हल करने वाला एक उच्च-गुणवत्ता वाला पेपर है। प्रस्तावित CMDIAD ढांचे का महत्वपूर्ण सैद्धांतिक अर्थ और व्यावहारिक मूल्य है। हालांकि सैद्धांतिक विश्लेषण और वास्तविक परिदृश्य सत्यापन में सुधार की गुंजाइश है, लेकिन इसकी नवाचारिता और व्यावहारिकता इसे इस क्षेत्र का एक महत्वपूर्ण योगदान बनाती है।