Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts
Hou, Xu, Li et al.
Recently, the powerful generalization ability exhibited by foundation models has brought forth new solutions for zero-shot anomaly segmentation tasks. However, guiding these foundation models correctly to address downstream tasks remains a challenge. This paper proposes a novel two-stage framework, for zero-shot anomaly segmentation tasks in industrial anomaly detection. This framework excellently leverages the powerful anomaly localization capability of CLIP and the boundary perception ability of SAM.(1) To mitigate SAM's inclination towards object segmentation, we propose the Co-Feature Point Prompt Generation (PPG) module. This module collaboratively utilizes CLIP and SAM to generate positive and negative point prompts, guiding SAM to focus on segmenting anomalous regions rather than the entire object. (2) To further optimize SAM's segmentation results and mitigate rough boundaries and isolated noise, we introduce the Cascaded Prompts for SAM (CPS) module. This module employs hybrid prompts cascaded with a lightweight decoder of SAM, achieving precise segmentation of anomalous regions. Across multiple datasets, consistent experimental validation demonstrates that our approach achieves state-of-the-art zero-shot anomaly segmentation results. Particularly noteworthy is our performance on the Visa dataset, where we outperform the state-of-the-art methods by 10.3\% and 7.7\% in terms of {$F_1$-max} and AP metrics, respectively.
academic
शून्य-शॉट विसंगति पहचान को बढ़ाना: कैस्केडेड प्रॉम्प्ट्स के साथ CLIP-SAM सहयोग
यह पेपर औद्योगिक विसंगति पहचान में शून्य-शॉट विसंगति विभाजन कार्य के लिए एक नवीन दो-चरणीय ढांचा प्रस्तावित करता है। यह ढांचा CLIP की शक्तिशाली विसंगति स्थानीयकरण क्षमता और SAM की सीमा-जागरूक क्षमता का पूर्ण लाभ उठाता है। Co-Feature Point Prompt Generation (PPG) मॉड्यूल और Cascaded Prompts for SAM (CPS) मॉड्यूल के माध्यम से, यह विधि कई डेटासेट पर अत्याधुनिक शून्य-शॉट विसंगति विभाजन परिणाम प्राप्त करती है, विशेष रूप से VisA डेटासेट पर, F1-max और AP संकेतक क्रमशः मौजूदा सर्वश्रेष्ठ विधि से 10.3% और 7.7% अधिक हैं।
यह पेपर मुख्य रूप से शून्य-शॉट विसंगति विभाजन (Zero-Shot Anomaly Segmentation, ZSAS) कार्य को हल करता है, विशेष रूप से औद्योगिक विसंगति पहचान परिदृश्य में, जहां विसंगति नमूना प्रशिक्षण डेटा के बिना छवि में विसंगति क्षेत्रों को सटीक रूप से स्थानीयकृत और विभाजित करने की आवश्यकता होती है।
आधार मॉडल (CLIP और SAM) की शक्तिशाली सामान्यीकरण क्षमता के आधार पर, एक प्रभावी सहयोग ढांचा डिजाइन करें जो CLIP की विसंगति स्थानीयकरण क्षमता और SAM की सटीक विभाजन क्षमता को पूर्ण रूप से विकसित करे, उच्च-गुणवत्ता वाले शून्य-शॉट विसंगति विभाजन को प्राप्त करें।
नवीन CLIP-SAM सहयोग ढांचा प्रस्तावित किया: एक दो-चरणीय शून्य-शॉट विसंगति विभाजन ढांचा डिजाइन किया गया जो CLIP की विसंगति स्थानीयकरण क्षमता और SAM की सीमा-जागरूक क्षमता को प्रभावी ढंग से जोड़ता है
Co-Feature Point Prompt Generation (PPG) मॉड्यूल: CLIP और SAM को सहयोग से उपयोग करके सकारात्मक और नकारात्मक बिंदु प्रॉम्प्ट्स उत्पन्न करता है, SAM को पूरी वस्तु के बजाय विसंगति क्षेत्र को विभाजित करने पर ध्यान केंद्रित करने के लिए निर्देशित करता है
Cascaded Prompts for SAM (CPS) मॉड्यूल: नवीन रूप से कैस्केडेड मिश्रित प्रॉम्प्ट तंत्र को पेश करता है, SAM के विभाजन परिणामों को आगे अनुकूलित करता है, कठोर सीमाओं और अलग-थलग शोर को समाप्त करता है
अत्याधुनिक प्रदर्शन प्राप्त किया: कई डेटासेट पर उल्लेखनीय प्रदर्शन सुधार प्राप्त किए, विशेष रूप से VisA डेटासेट पर F1-max और AP संकेतक क्रमशः 10.3% और 7.7% में सुधार
शून्य-शॉट विसंगति विभाजन कार्य को इस प्रकार परिभाषित किया जाता है: एक परीक्षण छवि दी गई है, विसंगति नमूना प्रशिक्षण डेटा के बिना, छवि में विसंगति क्षेत्रों को सटीक रूप से पहचानें और विभाजित करें, पिक्सेल-स्तरीय विसंगति मास्क आउटपुट करें।
जहां Sa चरम विसंगति क्षेत्र है, Mapa CLIP द्वारा उत्पन्न विसंगति मानचित्र है, Ra दोनों का प्रतिच्छेदन है, Ph शीर्ष-k विसंगति बिंदु हैं जो सकारात्मक बिंदु प्रॉम्प्ट्स के रूप में चुने गए हैं।
नकारात्मक बिंदु स्थानीयकरण:
Na = dilate(Sa) - Sa (3)
F = EncI(img) (4)
Fa = F ⊗ Sa, Fn = F ⊗ Na (5)
Maps = Similarity(Fa, Fn) (6)
Pl = Lowestk(Maps) (7)
विस्तार फ़ंक्शन के माध्यम से विसंगति क्षेत्र के आसपास का क्षेत्र Na प्राप्त करें, SAM छवि एनकोडर का उपयोग करके विशेषताएं F निकालें, विसंगति क्षेत्र और आसपास के क्षेत्र की विशेषताओं की कोसाइन समानता की गणना करें, सबसे कम समानता वाले k पिक्सल को नकारात्मक बिंदु प्रॉम्प्ट्स के रूप में चुनें।
सहयोगी विशेषता उपयोग: मौजूदा विधियों के क्रमिक प्रसंस्करण के विपरीत, PPG मॉड्यूल बिंदु प्रॉम्प्ट्स उत्पन्न करने के लिए CLIP और SAM की विशेषताओं का एक साथ उपयोग करता है
बुद्धिमान नकारात्मक बिंदु चयन: विस्तार फ़ंक्शन और विशेषता समानता गणना के माध्यम से, अधिक प्रभावी नकारात्मक बिंदु प्रॉम्प्ट्स चुनें, SAM को पूरी वस्तु को विभाजित करने से रोकें
क्रमिक बाधा वृद्धि: CPS मॉड्यूल तीन-स्तरीय कैस्केडेड के माध्यम से SAM पर बाधाओं को क्रमिक रूप से बढ़ाता है, सटीक विभाजन प्राप्त करता है
हल्के वजन डिजाइन: केवल SAM के हल्के वजन डिकोडर का उपयोग करके पुनरावृत्तीय अनुकूलन करता है, अतिरिक्त कम्प्यूटेशनल ओवरहेड केवल 100 मिलीसेकंड है
लेखक विभिन्न मॉडल के लाभों को कुशलतापूर्वक और हल्के वजन से एकीकृत करने के तरीकों की खोज जारी रखने का उल्लेख करते हैं, विसंगति विभाजन क्षमता को बढ़ाने के लिए।
पेपर ने 40 संबंधित संदर्भों का हवाला दिया है, जो आधार मॉडल, विसंगति पहचान, कंप्यूटर दृष्टि और अन्य क्षेत्रों के महत्वपूर्ण कार्यों को कवर करता है, साहित्य समीक्षा काफी व्यापक है।
समग्र मूल्यांकन: यह पेपर प्रस्तावित CLIP-SAM सहयोग ढांचा तकनीकी रूप से नवीन है, प्रायोगिक परिणाम प्रभावशाली हैं। हालांकि कम्प्यूटेशनल दक्षता और कुछ संकेतकों पर सुधार की गुंजाइश है, लेकिन समग्र रूप से शून्य-शॉट विसंगति पहचान क्षेत्र में महत्वपूर्ण योगदान दिया गया है, उच्च शैक्षणिक और व्यावहारिक मूल्य है।