Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation
Sui, Lichau, Lefèvre et al.
Recent studies of multimodal industrial anomaly detection (IAD) based on 3D point clouds and RGB images have highlighted the importance of exploiting the redundancy and complementarity among modalities for accurate classification and segmentation. However, achieving multimodal IAD in practical production lines remains a work in progress. It is essential to consider the trade-offs between the costs and benefits associated with the introduction of new modalities while ensuring compatibility with current processes. Existing quality control processes combine rapid in-line inspections, such as optical and infrared imaging with high-resolution but time-consuming near-line characterization techniques, including industrial CT and electron microscopy to manually or semi-automatically locate and analyze defects in the production of Li-ion batteries and composite materials. Given the cost and time limitations, only a subset of the samples can be inspected by all in-line and near-line methods, and the remaining samples are only evaluated through one or two forms of in-line inspection. To fully exploit data for deep learning-driven automatic defect detection, the models must have the ability to leverage multimodal training and handle incomplete modalities during inference. In this paper, we propose CMDIAD, a Cross-Modal Distillation framework for IAD to demonstrate the feasibility of a Multi-modal Training, Few-modal Inference (MTFI) pipeline. Our findings show that the MTFI pipeline can more effectively utilize incomplete multimodal information compared to applying only a single modality for training and inference. Moreover, we investigate the reasons behind the asymmetric performance improvement using point clouds or RGB images as the main modality of inference. This provides a foundation for our future multimodal dataset construction with additional modalities from manufacturing scenarios.
academic
كشف الشذوذ الصناعي متعدد الأنماط غير المكتمل عبر تقطير عابر للأنماط
تعالج هذه الورقة مشكلة عملية في كشف الشذوذ الصناعي: في خطوط الإنتاج الفعلية، لا يمكن إجراء كشف متعدد الأنماط كامل لجميع العينات بسبب قيود التكلفة والوقت. يقترح المؤلفون إطار عمل CMDIAD الذي ينفذ خط أنابيب التدريب متعدد الأنماط والاستدلال القليل الأنماط (MTFI)، من خلال تقنيات تقطير المعرفة عابرة الأنماط، مما يمكّن النموذج من الاستفادة من بيانات متعددة الأنماط كاملة أثناء التدريب، بينما يحقق أداء أفضل باستخدام أنماط جزئية فقط أثناء الاستدلال.
في كشف الشذوذ الصناعي، تتطلب الطرق متعددة الأنماط الحالية عادةً معلومات نمطية كاملة أثناء التدريب والاستدلال. ومع ذلك، في بيئات الإنتاج الفعلية:
قيود التكلفة: تقنيات الكشف عالية الدقة (مثل التصوير المقطعي الصناعي والمجهر الإلكتروني) مكلفة وتستغرق وقتاً طويلاً
قيود الجدوى: يمكن إجراء كشف كامل الأنماط فقط على جزء من العينات، بينما يمكن تقييم معظم العينات من خلال طريقة واحدة أو طريقتين سريعة للكشف عبر الإنترنت فقط
استخدام البيانات غير الكافي: لا تستطيع الطرق الحالية الاستفادة الكاملة من معلومات متعددة الأنماط في مرحلة التدريب لتحسين أداء الاستدلال أحادي النمط
اقتراح كشف الشذوذ الصناعي متعدد الأنماط غير المكتمل للمرة الأولى: حسب معرفة المؤلفين، هذا هو أول عمل يتناول كشف الشذوذ الصناعي للبيانات متعددة الأنماط غير المكتملة
إطار عمل CMDIAD: اقتراح إطار عمل جديد لـ IAD متعدد الأنماط قائم على تقطير عابر للأنماط، يحقق التدريب متعدد الأنماط والاستدلال القليل الأنماط
خط أنابيب MTFI: إثبات جدوى وفعالية خط أنابيب التدريب متعدد الأنماط والاستدلال القليل الأنماط
تحليل الارتباط بين الأنماط: تحليل عميق لآليات نقل المعلومات بين الأنماط المختلفة، مما يوفر إرشادات لبناء مجموعات البيانات المستقبلية
تستشهد هذه الورقة بـ 67 مرجعاً ذا صلة، تشمل بشكل أساسي:
الطرق الكلاسيكية في مجال كشف الشذوذ الصناعي (PatchCore, M3DM وغيرها)
الأعمال ذات الصلة بتقطير المعرفة عابر الأنماط
الطرق الأساسية في معالجة سحب النقاط ثلاثية الأبعاد والتعلم متعدد الأنماط
الأوراق الأصلية لمجموعات البيانات المهمة مثل MVTec 3D-AD
التقييم الشامل: هذه ورقة عالية الجودة تحل مشكلة صناعية فعلية، ويتمتع إطار العمل CMDIAD المقترح بأهمية نظرية وقيمة عملية كبيرة. على الرغم من وجود مجال للتحسين في التحليل النظري والتحقق في السيناريوهات الحقيقية، فإن ابتكاريتها وجدواها العملية تجعلها مساهمة مهمة في هذا المجال.