2025-11-12T10:52:10.099968

Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation

Sui, Lichau, LefÃ¨vre et al.

Recent studies of multimodal industrial anomaly detection (IAD) based on 3D point clouds and RGB images have highlighted the importance of exploiting the redundancy and complementarity among modalities for accurate classification and segmentation. However, achieving multimodal IAD in practical production lines remains a work in progress. It is essential to consider the trade-offs between the costs and benefits associated with the introduction of new modalities while ensuring compatibility with current processes. Existing quality control processes combine rapid in-line inspections, such as optical and infrared imaging with high-resolution but time-consuming near-line characterization techniques, including industrial CT and electron microscopy to manually or semi-automatically locate and analyze defects in the production of Li-ion batteries and composite materials. Given the cost and time limitations, only a subset of the samples can be inspected by all in-line and near-line methods, and the remaining samples are only evaluated through one or two forms of in-line inspection. To fully exploit data for deep learning-driven automatic defect detection, the models must have the ability to leverage multimodal training and handle incomplete modalities during inference. In this paper, we propose CMDIAD, a Cross-Modal Distillation framework for IAD to demonstrate the feasibility of a Multi-modal Training, Few-modal Inference (MTFI) pipeline. Our findings show that the MTFI pipeline can more effectively utilize incomplete multimodal information compared to applying only a single modality for training and inference. Moreover, we investigate the reasons behind the asymmetric performance improvement using point clouds or RGB images as the main modality of inference. This provides a foundation for our future multimodal dataset construction with additional modalities from manufacturing scenarios.

academic

كشف الشذوذ الصناعي متعدد الأنماط غير المكتمل عبر تقطير عابر للأنماط

المعلومات الأساسية

معرّف الورقة: 2405.13571
العنوان: Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation
المؤلفون: Wenbo Sui, Daniel Lichau, Josselin Lefèvre, Harold Phelippeau
التصنيف: cs.CV
المجلة المنشورة: Information Fusion 126 (2026) 103572
رابط الورقة: https://arxiv.org/abs/2405.13571
رابط الكود: https://github.com/evenrose/CMDIAD

الملخص

تعالج هذه الورقة مشكلة عملية في كشف الشذوذ الصناعي: في خطوط الإنتاج الفعلية، لا يمكن إجراء كشف متعدد الأنماط كامل لجميع العينات بسبب قيود التكلفة والوقت. يقترح المؤلفون إطار عمل CMDIAD الذي ينفذ خط أنابيب التدريب متعدد الأنماط والاستدلال القليل الأنماط (MTFI)، من خلال تقنيات تقطير المعرفة عابرة الأنماط، مما يمكّن النموذج من الاستفادة من بيانات متعددة الأنماط كاملة أثناء التدريب، بينما يحقق أداء أفضل باستخدام أنماط جزئية فقط أثناء الاستدلال.

الخلفية البحثية والدافع

تعريف المشكلة

في كشف الشذوذ الصناعي، تتطلب الطرق متعددة الأنماط الحالية عادةً معلومات نمطية كاملة أثناء التدريب والاستدلال. ومع ذلك، في بيئات الإنتاج الفعلية:

قيود التكلفة: تقنيات الكشف عالية الدقة (مثل التصوير المقطعي الصناعي والمجهر الإلكتروني) مكلفة وتستغرق وقتاً طويلاً
قيود الجدوى: يمكن إجراء كشف كامل الأنماط فقط على جزء من العينات، بينما يمكن تقييم معظم العينات من خلال طريقة واحدة أو طريقتين سريعة للكشف عبر الإنترنت فقط
استخدام البيانات غير الكافي: لا تستطيع الطرق الحالية الاستفادة الكاملة من معلومات متعددة الأنماط في مرحلة التدريب لتحسين أداء الاستدلال أحادي النمط

الأهمية البحثية

هذه المشكلة مهمة جداً في سيناريوهات صناعية فعلية مثل إنتاج بطاريات الليثيوم والمواد المركبة، وحل هذه المشكلة يمكن أن:

يقلل من تكاليف مراقبة الجودة
يحسن كفاءة الكشف
يستفيد بالكامل من بيانات التدريب متعددة الأنماط المحدودة

قيود الطرق الموجودة

الاعتماد على الأنماط الكاملة: تتطلب طرق IAD متعددة الأنماط الحالية أنماطاً كاملة أثناء التدريب والاستدلال
معالجة الأنماط المفقودة: هناك القليل من الأبحاث حول معالجة الأنماط المفقودة، وتعتمد بشكل أساسي على استراتيجيات الدمج البسيطة اللاحقة
هدر المعلومات: لا يمكن الاستفادة من معلومات متعددة الأنماط أثناء التدريب لتحسين أداء الاستدلال أحادي النمط

المساهمات الأساسية

اقتراح كشف الشذوذ الصناعي متعدد الأنماط غير المكتمل للمرة الأولى: حسب معرفة المؤلفين، هذا هو أول عمل يتناول كشف الشذوذ الصناعي للبيانات متعددة الأنماط غير المكتملة
إطار عمل CMDIAD: اقتراح إطار عمل جديد لـ IAD متعدد الأنماط قائم على تقطير عابر للأنماط، يحقق التدريب متعدد الأنماط والاستدلال القليل الأنماط
خط أنابيب MTFI: إثبات جدوى وفعالية خط أنابيب التدريب متعدد الأنماط والاستدلال القليل الأنماط
تحليل الارتباط بين الأنماط: تحليل عميق لآليات نقل المعلومات بين الأنماط المختلفة، مما يوفر إرشادات لبناء مجموعات البيانات المستقبلية

شرح الطريقة

تعريف المهمة

الإدخال: بيانات مقترنة من صور RGB وسحب نقاط ثلاثية الأبعاد أثناء التدريب؛ نمط واحد فقط (RGB أو سحب نقاط) أثناء الاستدلال
الإخراج: نتائج كشف الشذوذ على مستوى الصورة ومستوى البكسل
الهدف: جعل أداء الاستدلال أحادي النمط تتجاوز طريقة الأساس التي تستخدم هذا النمط فقط للتدريب والاستدلال

معمارية النموذج

1. وحدة استخراج الميزات

استخراج ميزات RGB: استخدام DINO ViT-B/8 المدرب مسبقاً لاستخراج ميزات RGB، مع بُعد الإخراج R^(2Hf×2Wf×d1)
استخراج ميزات سحب النقاط: استخدام Point-MAE لاستخراج ميزات سحب النقاط، والحصول على خريطة ميزات متوافقة مع RGB من خلال أخذ عينات FPS واستيفاء IDW

2. شبكة التقطير عابرة الأنماط

اقتراح ثلاث مسارات تقطير:

من الميزة إلى الميزة (F2F):

H^f_RGB^(i,j) = F2F(R^(i,j)_PC)

استخدام شبكة متعددة الطبقات (MLP) بثلاث طبقات لإنشاء تعيين مباشر من فضاء الميزات إلى فضاء الميزات.

من الميزة إلى الإدخال (F2I):

H^f_RGB = ℱ_RGB(H^i_RGB), H^i_RGB = F2I(R_PC)

توليد إدخال نمط واحد من ميزات نمط آخر.

من الإدخال إلى الميزة (I2F):

H^f_RGB = I2F(I_PC)

توليد ميزات النمط المستهدف مباشرة من الإدخال.

3. بناء مكتبة الذاكرة

استخدام خوارزمية جشعة لاختيار مجموعة النواة:

p_{i+1} = arg max_{p_j∈S,i≠j} D_c(p_i, p_j)

تقليل الأبعاد من خلال الإسقاط العشوائي المتناثر لتحسين الكفاءة الحسابية.

4. دمج طبقة القرار

استخدام آلتي دعم متجهة أحادية الفئة للتصنيف والتقسيم:

c = C_c(αψ(F_PC, M_PC), βψ(F_RGB, M_RGB))
s = C_s(αφ(F_PC, M_PC), βφ(F_RGB, M_RGB))

نقاط الابتكار التقني

توليد الهلوسة عابرة الأنماط: توليد ميزات "هلوسة" للنمط المفقود من خلال تعلم التعيينات عابرة الأنماط
استراتيجية التقطير متعددة المسارات: توفير ثلاث طرق تقطير مختلفة على مستويات مختلفة، مع الموازنة بين التعقيد الحسابي والأداء
تحليل الأداء غير المتماثل: تحليل عميق للاختلافات في الأداء بين اتجاهات التقطير المختلفة وأسبابها

إعداد التجارب

مجموعات البيانات

MVTec 3D-AD: تحتوي على 10 فئات من الأجسام، مع 3-5 أنواع عيوب لكل فئة، وتوفر تعليقات توضيحية ثنائية على مستوى البكسل
Eyecandies: مجموعة بيانات اصطناعية لكشف الشذوذ RGB + 3D

مقاييس التقييم

I-AUROC: المساحة تحت منحنى ROC لكشف الشذوذ على مستوى الصورة
P-AUROC: المساحة تحت منحنى ROC لكشف الشذوذ على مستوى البكسل
AUPRO: متوسط منطقة التداخل لكل منطقة، مما يقلل من تأثير حجم الشذوذ على التقييم

طرق المقارنة

DualBanksPCs/RGB: طريقة مكتبة ذاكرة مزدوجة تستخدم نمطاً واحداً فقط
Shape-guided: طريقة SOTA مصممة خصيصاً لسحب النقاط
M3DM: طريقة مكتبة الذاكرة متعددة الأنماط
AST: شبكة الطالب والمعلم غير المتماثلة

تفاصيل التنفيذ

محسّن: Adam، حجم الدفعة 32، فترة الإحماء 10 جولات
معدل التعلم: 0.0005 لـ F2F و F2I، 0.0003 لـ I2F
عدد الجولات: 100 جولة، مع التوقف المبكر بناءً على مجموعة التحقق
الأجهزة: NVIDIA RTX A6000، ذاكرة 256G

نتائج التجارب

النتائج الرئيسية

أداء خط أنابيب MTFI (استدلال سحب النقاط):

تحقق طريقة F2F I-AUROC بقيمة 0.938 و AUPRO بقيمة 0.934 على MVTec 3D-AD
مقارنة بخط الأساس DualBanksPCs، تحسن I-AUROC بنسبة 7.8%، و AUPRO بنسبة 2.3%
تتجاوز طريقة SOTA للـ Shape-guided (تحسن I-AUROC بنسبة 2.2%)

جدول مقارنة الأداء:

الطريقة	I-AUROC	AUPRO
Shape-guided	0.916	0.931
DualBanksPCs	0.860	0.911
Ours F2F	0.938	0.934
Ours F2I	0.863	0.912
Ours I2F	0.820	0.942

ظاهرة الأداء غير المتماثل

خط أنابيب MTFI (استدلال RGB):

تحسن طفيف فقط، حيث يرتفع I-AUROC من 0.851 إلى 0.856 فقط باستخدام طريقة F2F
يشير إلى أن تأثير توليد هلوسة سحب النقاط من RGB محدود

تجارب الاستئصال

مستخرجات ميزات مختلفة: التحقق من عمومية الطريقة على ViT-S/8 و ViT-B/8-in21k و Point-Bert
مقارنة مقاييس المسافة: يُظهر مسافة L2 أفضل أداء في معظم الحالات
نسبة مجموعة النواة: تحقق نسبة اختيار مجموعة النواة بنسبة 10% أفضل توازن في الأداء

تحليل الحالات

من خلال تحليل التصور، تم اكتشاف:

شذوذ النسيج: بالنسبة لشذوذ "thread" في Cable Gland، التغيير في الشكل في سحب النقاط صغير جداً لكن الفرق في النسيج في RGB واضح
شذوذ الشكل: بالنسبة لشذوذ "bent"، يتطلب معلومات مكانية للحكم، وتجد صور RGB صعوبة في توفير معلومات كافية
شذوذ مركب: شذوذ "crack" في Cookie و "contamination" في Foam يتطلب معلومات متعددة الأنماط للحكم المشترك

الأعمال ذات الصلة

كشف الشذوذ الصناعي ثنائي الأبعاد بدون إشراف

طرق تضمين الميزات: معمارية المعلم والطالب، التصنيف أحادي الفئة، تعيين توزيع الميزات
طرق إعادة البناء: المشفرات التلقائية، GAN، نماذج الانتشار
طرق مكتبة الذاكرة: PatchCore وغيرها التي تختار وتحفظ ميزات عادية للمقارنة

كشف الشذوذ الصناعي ثلاثي الأبعاد ومتعدد الأنماط RGB-3D

AST: شبكة الطالب والمعلم غير المتماثلة لتجنب تعلم الطالب للشذوذ
M3DM: طريقة مكتبة الذاكرة متعددة الأنماط، باستخدام مستخرجات ميزات مدربة مسبقاً
DADA: تعلم التمثيل المشترك RGB-3D

تقطير المعرفة عابر الأنماط

التعرف على الإجراءات في الفيديو: شبكة الهلوسة عابرة الأنماط RGB-D
تقسيم الصور الطبية: استراتيجيات التعلم للتعامل مع الأنماط المفقودة
كشف البروز: تعلم الميزات عابر الأنماط

الاستنتاج والمناقشة

الاستنتاجات الرئيسية

جدوى خط أنابيب MTFI: إثبات فعالية التدريب متعدد الأنماط والاستدلال القليل الأنماط
الأداء غير المتماثل: تحسن كبير في استدلال سحب النقاط مقابل تحسن طفيف في استدلال RGB
آلية نقل المعلومات: يمكن نقل معلومات النسيج المشتركة عبر الأنماط، لكن من الصعب استنتاج المعلومات المكانية من RGB

القيود

الاعتماد على التدريب المسبق: يعتمد على مستخرجات ميزات مدربة مسبقاً على مجموعات بيانات كبيرة
متطلبات البيانات: يتطلب كمية كبيرة من بيانات التدريب متعددة الأنماط المسجلة
الحمل الحسابي: يزيد التدريب على مرحلتين من التعقيد الحسابي
قيود الأنماط: تم التحقق من الطريقة حالياً فقط على أنماط RGB وسحب النقاط

الاتجاهات المستقبلية

التوسع إلى أنماط أكثر: الموجات فوق الصوتية والأشعة تحت الحمراء وغيرها من أنماط الكشف الصناعي
تقليل الاعتماد على التدريب المسبق: استكشاف طرق لا تعتمد على التدريب المسبق على نطاق واسع
النشر الفعلي: جمع والتحقق من البيانات في سيناريوهات صناعية حقيقية

التقييم المتعمق

المزايا

أهمية عملية كبيرة: حل مشكلة حقيقية في الصناعة
طريقة مبتكرة: أول تطبيق لتقطير عابر الأنماط على IAD متعدد الأنماط غير المكتمل
تجارب شاملة: التحقق من فعالية الطريقة على مجموعات بيانات متعددة ومستخرجات ميزات مختلفة
تحليل عميق: توفير تفسيرات معقولة لظاهرة الأداء غير المتماثل
قيمة هندسية عالية: طريقة F2F لها حمل حسابي صغير، مناسبة للنشر الفعلي

أوجه القصور

نقص التحليل النظري: افتقار إلى التحليل النظري لنقل المعلومات عابر الأنماط
قيود مجموعة البيانات: التحقق الرئيسي على بيانات اصطناعية وتجريبية، مع نقص التحقق في بيئات صناعية حقيقية
قابلية توسع الأنماط: الطريقة حالياً محدودة بـ RGB وسحب النقاط، وقدرة التوسع إلى أنماط أخرى غير معروفة
حساسية المعاملات الفائقة: تتطلب تعديل معدل التعلم والمعاملات الأخرى لشبكات تقطير مختلفة

التأثير

المساهمة الأكاديمية: توفير اتجاه بحثي جديد للتعلم متعدد الأنماط غير المكتمل
القيمة العملية: توفير حل أكثر فعالية من حيث التكلفة لمراقبة جودة الإنتاج الصناعي
قابلية إعادة الإنتاج: توفير كود مفتوح المصدر يسهل إعادة الإنتاج والتوسع
الإلهام: توفير مرجع لمشاكل متعددة الأنماط غير المكتملة في مجالات أخرى

السيناريوهات المعمول بها

مراقبة جودة الإنتاج الصناعي: خاصة في إنتاج بطاريات الليثيوم والمواد المركبة ذات القيمة العالية
التشخيص الطبي: سيناريوهات أنماط تصوير متعددة مع قيود التكلفة
السيارات ذاتية القيادة: سيناريوهات فشل المستشعرات أو تحسين التكلفة
المراقبة الأمنية: سيناريوهات نشر أجهزة استشعار متعددة الأنماط مع اعتبارات تكاليف الصيانة

المراجع

تستشهد هذه الورقة بـ 67 مرجعاً ذا صلة، تشمل بشكل أساسي:

الطرق الكلاسيكية في مجال كشف الشذوذ الصناعي (PatchCore, M3DM وغيرها)
الأعمال ذات الصلة بتقطير المعرفة عابر الأنماط
الطرق الأساسية في معالجة سحب النقاط ثلاثية الأبعاد والتعلم متعدد الأنماط
الأوراق الأصلية لمجموعات البيانات المهمة مثل MVTec 3D-AD

التقييم الشامل: هذه ورقة عالية الجودة تحل مشكلة صناعية فعلية، ويتمتع إطار العمل CMDIAD المقترح بأهمية نظرية وقيمة عملية كبيرة. على الرغم من وجود مجال للتحسين في التحليل النظري والتحقق في السيناريوهات الحقيقية، فإن ابتكاريتها وجدواها العملية تجعلها مساهمة مهمة في هذا المجال.