2025-11-12T10:52:10.099968

Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation

Sui, Lichau, LefÃ¨vre et al.

Recent studies of multimodal industrial anomaly detection (IAD) based on 3D point clouds and RGB images have highlighted the importance of exploiting the redundancy and complementarity among modalities for accurate classification and segmentation. However, achieving multimodal IAD in practical production lines remains a work in progress. It is essential to consider the trade-offs between the costs and benefits associated with the introduction of new modalities while ensuring compatibility with current processes. Existing quality control processes combine rapid in-line inspections, such as optical and infrared imaging with high-resolution but time-consuming near-line characterization techniques, including industrial CT and electron microscopy to manually or semi-automatically locate and analyze defects in the production of Li-ion batteries and composite materials. Given the cost and time limitations, only a subset of the samples can be inspected by all in-line and near-line methods, and the remaining samples are only evaluated through one or two forms of in-line inspection. To fully exploit data for deep learning-driven automatic defect detection, the models must have the ability to leverage multimodal training and handle incomplete modalities during inference. In this paper, we propose CMDIAD, a Cross-Modal Distillation framework for IAD to demonstrate the feasibility of a Multi-modal Training, Few-modal Inference (MTFI) pipeline. Our findings show that the MTFI pipeline can more effectively utilize incomplete multimodal information compared to applying only a single modality for training and inference. Moreover, we investigate the reasons behind the asymmetric performance improvement using point clouds or RGB images as the main modality of inference. This provides a foundation for our future multimodal dataset construction with additional modalities from manufacturing scenarios.

academic

অসম্পূর্ণ বহুমাধ্যম শিল্প অসামান্যতা সনাক্তকরণ ক্রস-মোডাল পরিশোধনের মাধ্যমে

মৌলিক তথ্য

পেপার আইডি: 2405.13571
শিরোনাম: অসম্পূর্ণ বহুমাধ্যম শিল্প অসামান্যতা সনাক্তকরণ ক্রস-মোডাল পরিশোধনের মাধ্যমে
লেখক: Wenbo Sui, Daniel Lichau, Josselin Lefèvre, Harold Phelippeau
শ্রেণীবিভাগ: cs.CV
প্রকাশিত জার্নাল: Information Fusion 126 (2026) 103572
পেপার লিঙ্ক: https://arxiv.org/abs/2405.13571
কোড লিঙ্ক: https://github.com/evenrose/CMDIAD

সারসংক্ষেপ

এই পেপারটি শিল্প অসামান্যতা সনাক্তকরণে একটি ব্যবহারিক সমস্যার সমাধান করে: বাস্তব উৎপাদন লাইনে, খরচ এবং সময়ের সীমাবদ্ধতার কারণে সমস্ত নমুনার জন্য সম্পূর্ণ বহুমাধ্যম সনাক্তকরণ সম্ভব নয়। লেখকরা CMDIAD কাঠামো প্রস্তাব করেছেন, যা বহুমাধ্যম প্রশিক্ষণ, স্বল্প-মাধ্যম অনুমান (MTFI) পাইপলাইন বাস্তবায়ন করে। ক্রস-মোডাল জ্ঞান পরিশোধন প্রযুক্তির মাধ্যমে, মডেলটি প্রশিক্ষণের সময় সম্পূর্ণ বহুমাধ্যম ডেটা ব্যবহার করতে পারে, অথচ অনুমানের সময় শুধুমাত্র আংশিক মাধ্যম ব্যবহার করে আরও ভাল কর্মক্ষমতা অর্জন করতে পারে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

শিল্প অসামান্যতা সনাক্তকরণে, বিদ্যমান বহুমাধ্যম পদ্ধতিগুলি সাধারণত প্রশিক্ষণ এবং অনুমান উভয় সময়ে সম্পূর্ণ মাধ্যম তথ্য প্রয়োজন। তবে বাস্তব উৎপাদন পরিবেশে:

খরচ সীমাবদ্ধতা: উচ্চ-রেজোলিউশন সনাক্তকরণ প্রযুক্তি (যেমন শিল্প CT, ইলেকট্রন মাইক্রোস্কোপ) ব্যয়বহুল এবং সময়সাপেক্ষ
ব্যবহারিকতা সীমাবদ্ধতা: শুধুমাত্র আংশিক নমুনা সম্পূর্ণ মাধ্যম সনাক্তকরণের জন্য উপযুক্ত, বেশিরভাগ নমুনা শুধুমাত্র ১-২টি দ্রুত অনলাইন সনাক্তকরণ পদ্ধতির মাধ্যমে মূল্যায়ন করা যায়
ডেটা ব্যবহার অপর্যাপ্ত: বিদ্যমান পদ্ধতিগুলি প্রশিক্ষণ পর্যায়ে বহুমাধ্যম তথ্য একক-মাধ্যম অনুমান কর্মক্ষমতা উন্নত করতে সম্পূর্ণভাবে ব্যবহার করতে পারে না

গবেষণার গুরুত্ব

এই সমস্যাটি লিথিয়াম ব্যাটারি এবং যৌগিক উপকরণ উৎপাদনের মতো বাস্তব শিল্প পরিস্থিতিতে অত্যন্ত গুরুত্বপূর্ণ, এই সমস্যার সমাধান নিম্নলিখিত সুবিধা প্রদান করতে পারে:

গুণমান নিয়ন্ত্রণ খরচ হ্রাস
সনাক্তকরণ দক্ষতা বৃদ্ধি
সীমিত বহুমাধ্যম প্রশিক্ষণ ডেটার সম্পূর্ণ ব্যবহার

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

সম্পূর্ণ মাধ্যম নির্ভরতা: বিদ্যমান বহুমাধ্যম IAD পদ্ধতিগুলি প্রশিক্ষণ এবং অনুমান উভয় সময়ে সম্পূর্ণ মাধ্যম প্রয়োজন
অনুপস্থিত মাধ্যম পরিচালনা: অনুপস্থিত মাধ্যমের গবেষণা খুবই সীমিত, প্রধানত সহজ পরবর্তী-সংমিশ্রণ কৌশল ব্যবহার করে
তথ্য অপচয়: প্রশিক্ষণের সময় বহুমাধ্যম তথ্য অনুমানের সময় একক-মাধ্যম কর্মক্ষমতা উন্নত করতে ব্যবহার করা যায় না

মূল অবদান

প্রথমবারের মতো অসম্পূর্ণ বহুমাধ্যম IAD প্রস্তাব: লেখকদের জ্ঞান অনুযায়ী, এটি অসম্পূর্ণ বহুমাধ্যম ডেটায় শিল্প অসামান্যতা সনাক্তকরণের প্রথম কাজ
CMDIAD কাঠামো: ক্রস-মোডাল পরিশোধনের উপর ভিত্তি করে একটি উদ্ভাবনী বহুমাধ্যম IAD কাঠামো প্রস্তাব করা হয়েছে, যা বহুমাধ্যম প্রশিক্ষণ, স্বল্প-মাধ্যম অনুমান বাস্তবায়ন করে
MTFI পাইপলাইন: বহুমাধ্যম প্রশিক্ষণ, স্বল্প-মাধ্যম অনুমান পাইপলাইনের সম্ভাব্যতা এবং কার্যকারিতা প্রমাণ করা হয়েছে
মাধ্যম সম্পর্কিততা বিশ্লেষণ: বিভিন্ন মাধ্যমের মধ্যে তথ্য স্থানান্তর প্রক্রিয়া গভীরভাবে বিশ্লেষণ করা হয়েছে, ভবিষ্যত ডেটাসেট নির্মাণের জন্য নির্দেশনা প্রদান করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট: প্রশিক্ষণের সময় RGB ছবি এবং 3D পয়েন্ট ক্লাউডের যুগ্ম ডেটা; অনুমানের সময় শুধুমাত্র একক মাধ্যম (RGB বা পয়েন্ট ক্লাউড)
আউটপুট: ছবি-স্তর এবং পিক্সেল-স্তরের অসামান্যতা সনাক্তকরণ ফলাফল
লক্ষ্য: একক-মাধ্যম অনুমান কর্মক্ষমতা শুধুমাত্র সেই মাধ্যম ব্যবহার করে প্রশিক্ষণ এবং অনুমানের ভিত্তি পদ্ধতি অতিক্রম করা

মডেল আর্কিটেকচার

1. বৈশিষ্ট্য নিষ্কাশন মডিউল

RGB বৈশিষ্ট্য নিষ্কাশন: প্রাক-প্রশিক্ষিত DINO ViT-B/8 ব্যবহার করে RGB বৈশিষ্ট্য নিষ্কাশন করা হয়, আউটপুট মাত্রা R^(2Hf×2Wf×d1)
পয়েন্ট ক্লাউড বৈশিষ্ট্য নিষ্কাশন: Point-MAE ব্যবহার করে পয়েন্ট ক্লাউড বৈশিষ্ট্য নিষ্কাশন করা হয়, FPS নমুনা এবং IDW ইন্টারপোলেশনের মাধ্যমে RGB-সারিবদ্ধ বৈশিষ্ট্য ম্যাপ প্রাপ্ত করা হয়

2. ক্রস-মোডাল পরিশোধন নেটওয়ার্ক

তিনটি পরিশোধন পথ প্রস্তাব করা হয়েছে:

বৈশিষ্ট্য-থেকে-বৈশিষ্ট্য (F2F):

H^f_RGB^(i,j) = F2F(R^(i,j)_PC)

বৈশিষ্ট্য স্থান থেকে বৈশিষ্ট্য স্থানে সরাসরি ম্যাপিং স্থাপনের জন্য তিন-স্তরীয় MLP ব্যবহার করা হয়।

বৈশিষ্ট্য-থেকে-ইনপুট (F2I):

H^f_RGB = ℱ_RGB(H^i_RGB), H^i_RGB = F2I(R_PC)

একটি মাধ্যমের বৈশিষ্ট্য থেকে অন্য মাধ্যমের ইনপুট উৎপন্ন করা হয়।

ইনপুট-থেকে-বৈশিষ্ট্য (I2F):

H^f_RGB = I2F(I_PC)

ইনপুট থেকে সরাসরি লক্ষ্য মাধ্যমের বৈশিষ্ট্য উৎপন্ন করা হয়।

3. স্মৃতি লাইব্রেরি নির্মাণ

লোভী অ্যালগরিদম ব্যবহার করে মূল সেট নির্বাচন করা হয়:

p_{i+1} = arg max_{p_j∈S,i≠j} D_c(p_i, p_j)

গণনামূলক দক্ষতা বৃদ্ধির জন্য বিরল র্যান্ডম প্রজেকশনের মাধ্যমে মাত্রা হ্রাস করা হয়।

4. সিদ্ধান্ত স্তর সংমিশ্রণ

শ্রেণীবিভাগ এবং বিভাজনের জন্য দুটি একক-শ্রেণী সমর্থন ভেক্টর মেশিন ব্যবহার করা হয়:

c = C_c(αψ(F_PC, M_PC), βψ(F_RGB, M_RGB))
s = C_s(αφ(F_PC, M_PC), βφ(F_RGB, M_RGB))

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

ক্রস-মোডাল হ্যালুসিনেশন উৎপাদন: ক্রস-মোডাল ম্যাপিং শিখে, অনুমানের সময় অনুপস্থিত মাধ্যমের "হ্যালুসিনেশন" বৈশিষ্ট্য উৎপন্ন করা হয়
বহু-পথ পরিশোধন কৌশল: তিনটি ভিন্ন স্তরের পরিশোধন পদ্ধতি প্রদান করা হয়, গণনামূলক জটিলতা এবং কর্মক্ষমতার ভারসাম্য রক্ষা করে
অ-প্রতিসম কর্মক্ষমতা বিশ্লেষণ: বিভিন্ন পরিশোধন দিকের কর্মক্ষমতা পার্থক্য এবং এর কারণ গভীরভাবে বিশ্লেষণ করা হয়েছে

পরীক্ষামূলক সেটআপ

ডেটাসেট

MVTec 3D-AD: ১০টি বস্তু শ্রেণী অন্তর্ভুক্ত করে, প্রতিটি শ্রেণীতে ৩-৫ ধরনের ত্রুটি, পিক্সেল-স্তরের বাইনারি মন্তব্য প্রদান করে
Eyecandies: সংশ্লেষিত RGB+3D অসামান্যতা সনাক্তকরণ ডেটাসেট

মূল্যায়ন মেট্রিক্স

I-AUROC: ছবি-স্তরের অসামান্যতা সনাক্তকরণের ROC বক্ররেখার অধীন এলাকা
P-AUROC: পিক্সেল-স্তরের অসামান্যতা সনাক্তকরণের ROC বক্ররেখার অধীন এলাকা
AUPRO: গড় প্রতি-অঞ্চল ওভারল্যাপ এলাকা, অসামান্যতা আকারের মূল্যায়নে প্রভাব হ্রাস করে

তুলনামূলক পদ্ধতি

DualBanksPCs/RGB: শুধুমাত্র একক মাধ্যম ব্যবহার করে দ্বৈত-স্মৃতি লাইব্রেরি পদ্ধতি
Shape-guided: পয়েন্ট ক্লাউডের জন্য বিশেষভাবে ডিজাইন করা SOTA পদ্ধতি
M3DM: বহুমাধ্যম স্মৃতি লাইব্রেরি পদ্ধতি
AST: অ-প্রতিসম শিক্ষক-শিক্ষার্থী নেটওয়ার্ক

বাস্তবায়ন বিবরণ

অপটিমাইজার: Adam, ব্যাচ আকার 32, ১০ রাউন্ড প্রি-ওয়ার্মিং
শেখার হার: F2F এবং F2I এর জন্য 0.0005, I2F এর জন্য 0.0003
প্রশিক্ষণ রাউন্ড: ১০০ রাউন্ড, যাচাইকরণ সেটের উপর ভিত্তি করে প্রাথমিক থামা
হার্ডওয়্যার: NVIDIA RTX A6000, 256G মেমরি

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

MTFI পাইপলাইন (পয়েন্ট ক্লাউড অনুমান) কর্মক্ষমতা:

F2F পদ্ধতি MVTec 3D-AD-তে I-AUROC 0.938, AUPRO 0.934 অর্জন করে
DualBanksPCs ভিত্তির তুলনায়, I-AUROC 7.8% উন্নতি, AUPRO 2.3% উন্নতি
SOTA এর Shape-guided পদ্ধতি অতিক্রম করে (I-AUROC 2.2% উন্নতি)

কর্মক্ষমতা তুলনা সারণী:

পদ্ধতি	I-AUROC	AUPRO
Shape-guided	0.916	0.931
DualBanksPCs	0.860	0.911
Ours F2F	0.938	0.934
Ours F2I	0.863	0.912
Ours I2F	0.820	0.942

অ-প্রতিসম কর্মক্ষমতা ঘটনা

MTFI পাইপলাইন (RGB অনুমান):

শুধুমাত্র সামান্য উন্নতি, F2F পদ্ধতি I-AUROC মাত্র 0.851 থেকে 0.856 এ উন্নীত হয়
RGB থেকে পয়েন্ট ক্লাউড হ্যালুসিনেশন উৎপাদনের প্রভাব সীমিত তা নির্দেশ করে

অপসারণ পরীক্ষা

বিভিন্ন বৈশিষ্ট্য নিষ্কাশক: ViT-S/8, ViT-B/8-in21k এবং Point-Bert-এ পদ্ধতির সর্বজনীনতা যাচাই করা হয়েছে
দূরত্ব মেট্রিক তুলনা: L2 দূরত্ব বেশিরভাগ ক্ষেত্রে সর্বোত্তম কর্মক্ষমতা প্রদর্শন করে
মূল সেট অনুপাত: 10% মূল সেট নির্বাচন অনুপাত সর্বোত্তম কর্মক্ষমতা ভারসাম্য অর্জন করে

কেস বিশ্লেষণ

ভিজ্যুয়ালাইজেশন বিশ্লেষণের মাধ্যমে আবিষ্কৃত:

টেক্সচার অসামান্যতা: Cable Gland এর "thread" অসামান্যতার জন্য, পয়েন্ট ক্লাউডে আকৃতি পরিবর্তন ন্যূনতম কিন্তু RGB-তে টেক্সচার পার্থক্য স্পষ্ট
আকৃতি অসামান্যতা: "bent" অসামান্যতার জন্য, স্থানিক তথ্য প্রয়োজন, RGB ছবি যথেষ্ট তথ্য প্রদান করতে পারে না
যৌগিক অসামান্যতা: Cookie এর "crack" এবং Foam এর "contamination" অসামান্যতা বহুমাধ্যম তথ্য সহযোগিতামূলক বিচার প্রয়োজন

সিদ্ধান্ত এবং আলোচনা

প্রধান সিদ্ধান্ত

MTFI পাইপলাইন সম্ভাব্যতা: বহুমাধ্যম প্রশিক্ষণ, স্বল্প-মাধ্যম অনুমানের কার্যকারিতা প্রমাণিত হয়েছে
অ-প্রতিসম কর্মক্ষমতা: পয়েন্ট ক্লাউড অনুমানে উল্লেখযোগ্য উন্নতি বনাম RGB অনুমানে সামান্য উন্নতি
তথ্য স্থানান্তর প্রক্রিয়া: ভাগ করা টেক্সচার তথ্য ক্রস-মোডালভাবে স্থানান্তরিত হতে পারে, কিন্তু স্থানিক তথ্য RGB থেকে অনুমান করা কঠিন

সীমাবদ্ধতা

প্রাক-প্রশিক্ষণ নির্ভরতা: বড় আকারের ডেটাসেটে প্রাক-প্রশিক্ষিত বৈশিষ্ট্য নিষ্কাশকের উপর নির্ভর করে
ডেটা প্রয়োজনীয়তা: প্রচুর সংযুক্ত বহুমাধ্যম প্রশিক্ষণ ডেটা প্রয়োজন
গণনামূলক ওভারহেড: দুই-পর্যায়ের প্রশিক্ষণ গণনামূলক জটিলতা বৃদ্ধি করে
মাধ্যম সীমাবদ্ধতা: বর্তমানে শুধুমাত্র RGB এবং পয়েন্ট ক্লাউড মাধ্যমে যাচাই করা হয়েছে

ভবিষ্যত দিকনির্দেশনা

আরও মাধ্যমে সম্প্রসারণ: আল্ট্রাসাউন্ড, অবরক্ত ইত্যাদি শিল্প সনাক্তকরণ মাধ্যম
প্রাক-প্রশিক্ষণ নির্ভরতা হ্রাস: বড় আকারের প্রাক-প্রশিক্ষণের উপর নির্ভর না করে পদ্ধতি অন্বেষণ করা
বাস্তব স্থাপনা: বাস্তব শিল্প পরিস্থিতিতে ডেটা সংগ্রহ এবং যাচাইকরণ

গভীর মূল্যায়ন

সুবিধা

বাস্তব তাৎপর্য উল্লেখযোগ্য: শিল্পের প্রকৃত ব্যথার পয়েন্ট সমস্যা সমাধান করে
পদ্ধতি উদ্ভাবনী: প্রথমবারের মতো ক্রস-মোডাল পরিশোধন অসম্পূর্ণ বহুমাধ্যম IAD-তে প্রয়োগ করা হয়েছে
পরীক্ষা ব্যাপক: একাধিক ডেটাসেট এবং বৈশিষ্ট্য নিষ্কাশকে পদ্ধতির কার্যকারিতা যাচাই করা হয়েছে
বিশ্লেষণ গভীর: অ-প্রতিসম কর্মক্ষমতা ঘটনার যুক্তিসঙ্গত ব্যাখ্যা প্রদান করা হয়েছে
প্রকৌশল মূল্য উচ্চ: F2F পদ্ধতি গণনামূলক ওভারহেড কম, বাস্তব স্থাপনার জন্য উপযুক্ত

অপূর্ণতা

তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: ক্রস-মোডাল তথ্য স্থানান্তরের তাত্ত্বিক বিশ্লেষণ অভাব
ডেটাসেট সীমাবদ্ধতা: প্রধানত সংশ্লেষিত এবং পরীক্ষাগার ডেটায় যাচাই করা হয়েছে, বাস্তব শিল্প পরিবেশ যাচাইকরণ অভাব
মাধ্যম সম্প্রসারণযোগ্যতা: পদ্ধতি বর্তমানে RGB এবং পয়েন্ট ক্লাউডে সীমাবদ্ধ, অন্যান্য মাধ্যমে সম্প্রসারণের ক্ষমতা অজানা
হাইপারপ্যারামিটার সংবেদনশীলতা: বিভিন্ন পরিশোধন নেটওয়ার্কের জন্য শেখার হার ইত্যাদি সামঞ্জস্য প্রয়োজন

প্রভাব

একাডেমিক অবদান: অসম্পূর্ণ বহুমাধ্যম শেখার জন্য নতুন গবেষণা দিকনির্দেশনা প্রদান করে
ব্যবহারিক মূল্য: শিল্প গুণমান নিয়ন্ত্রণের জন্য খরচ-কার্যকর সমাধান প্রদান করে
পুনরুৎপাদনযোগ্যতা: খোলা উৎস কোড প্রদান করে, পুনরুৎপাদন এবং সম্প্রসারণ সহজতর করে
অনুপ্রেরণামূলক: অন্যান্য ক্ষেত্রের অসম্পূর্ণ বহুমাধ্যম সমস্যার জন্য রেফারেন্স প্রদান করে

প্রযোজ্য পরিস্থিতি

শিল্প গুণমান নিয়ন্ত্রণ: বিশেষত লিথিয়াম ব্যাটারি, যৌগিক উপকরণ ইত্যাদি উচ্চ-মূল্যের পণ্য উৎপাদন
চিকিৎসা নির্ণয়: একাধিক ইমেজিং মাধ্যম কিন্তু খরচ সীমাবদ্ধতার পরিস্থিতি
স্বয়ংচালিত গাড়ি: সেন্সর ব্যর্থতা বা খরচ অপটিমাইজেশন পরিস্থিতি
নিরাপত্তা পর্যবেক্ষণ: বহুমাধ্যম সেন্সর স্থাপনা কিন্তু রক্ষণাবেক্ষণ খরচ বিবেচনার পরিস্থিতি

সংদর্ভ

এই পেপারটি 67টি সম্পর্কিত সংদর্ভ উদ্ধৃত করে, প্রধানত অন্তর্ভুক্ত করে:

শিল্প অসামান্যতা সনাক্তকরণ ক্ষেত্রের ক্লাসিক পদ্ধতি (PatchCore, M3DM ইত্যাদি)
ক্রস-মোডাল জ্ঞান পরিশোধনের সম্পর্কিত কাজ
3D পয়েন্ট ক্লাউড প্রক্রিয়াকরণ এবং বহুমাধ্যম শেখার মৌলিক পদ্ধতি
MVTec 3D-AD ইত্যাদি গুরুত্বপূর্ণ ডেটাসেটের মূল পেপার

সামগ্রিক মূল্যায়ন: এটি বাস্তব শিল্প সমস্যা সমাধানের একটি উচ্চ-মানের পেপার, প্রস্তাবিত CMDIAD কাঠামো উল্লেখযোগ্য তাত্ত্বিক তাৎপর্য এবং ব্যবহারিক মূল্য রাখে। যদিও তাত্ত্বিক বিশ্লেষণ এবং বাস্তব পরিস্থিতি যাচাইকরণে উন্নতির অবকাশ রয়েছে, তবে এর উদ্ভাবনী এবং ব্যবহারিক বৈশিষ্ট্য এটিকে এই ক্ষেত্রের একটি গুরুত্বপূর্ণ অবদান করে তোলে।