2025-11-12T14:13:10.569513

Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts

Hou, Xu, Li et al.

Recently, the powerful generalization ability exhibited by foundation models has brought forth new solutions for zero-shot anomaly segmentation tasks. However, guiding these foundation models correctly to address downstream tasks remains a challenge. This paper proposes a novel two-stage framework, for zero-shot anomaly segmentation tasks in industrial anomaly detection. This framework excellently leverages the powerful anomaly localization capability of CLIP and the boundary perception ability of SAM.(1) To mitigate SAM's inclination towards object segmentation, we propose the Co-Feature Point Prompt Generation (PPG) module. This module collaboratively utilizes CLIP and SAM to generate positive and negative point prompts, guiding SAM to focus on segmenting anomalous regions rather than the entire object. (2) To further optimize SAM's segmentation results and mitigate rough boundaries and isolated noise, we introduce the Cascaded Prompts for SAM (CPS) module. This module employs hybrid prompts cascaded with a lightweight decoder of SAM, achieving precise segmentation of anomalous regions. Across multiple datasets, consistent experimental validation demonstrates that our approach achieves state-of-the-art zero-shot anomaly segmentation results. Particularly noteworthy is our performance on the Visa dataset, where we outperform the state-of-the-art methods by 10.3\% and 7.7\% in terms of {$F_1$-max} and AP metrics, respectively.

academic

शून्य-शॉट विसंगति पहचान को बढ़ाना: कैस्केडेड प्रॉम्प्ट्स के साथ CLIP-SAM सहयोग

मूल जानकारी

पेपर ID: 2510.11028
शीर्षक: Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts
लेखक: Yanning Hou, Ke Xu, Junfa Li, Yanran Ruan, Jianfeng Qiu (आनहुई विश्वविद्यालय कृत्रिम बुद्धिमत्ता संस्थान)
वर्गीकरण: cs.CV (कंप्यूटर दृष्टि)
प्रकाशन तिथि: 13 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.11028v1

सारांश

यह पेपर औद्योगिक विसंगति पहचान में शून्य-शॉट विसंगति विभाजन कार्य के लिए एक नवीन दो-चरणीय ढांचा प्रस्तावित करता है। यह ढांचा CLIP की शक्तिशाली विसंगति स्थानीयकरण क्षमता और SAM की सीमा-जागरूक क्षमता का पूर्ण लाभ उठाता है। Co-Feature Point Prompt Generation (PPG) मॉड्यूल और Cascaded Prompts for SAM (CPS) मॉड्यूल के माध्यम से, यह विधि कई डेटासेट पर अत्याधुनिक शून्य-शॉट विसंगति विभाजन परिणाम प्राप्त करती है, विशेष रूप से VisA डेटासेट पर, F1-max और AP संकेतक क्रमशः मौजूदा सर्वश्रेष्ठ विधि से 10.3% और 7.7% अधिक हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

1. समाधान की जाने वाली समस्या

यह पेपर मुख्य रूप से शून्य-शॉट विसंगति विभाजन (Zero-Shot Anomaly Segmentation, ZSAS) कार्य को हल करता है, विशेष रूप से औद्योगिक विसंगति पहचान परिदृश्य में, जहां विसंगति नमूना प्रशिक्षण डेटा के बिना छवि में विसंगति क्षेत्रों को सटीक रूप से स्थानीयकृत और विभाजित करने की आवश्यकता होती है।

2. समस्या की महत्ता

डेटा की कमी: औद्योगिक परिदृश्य में विसंगति नमूने दुर्लभ हैं, पारंपरिक विधियों को बड़ी मात्रा में एनोटेट किए गए डेटा की आवश्यकता होती है
विसंगति प्रकार की विविधता: वास्तविक अनुप्रयोग में विसंगति प्रकार विविध होते हैं, पूर्वनिर्धारित करना कठिन है
औद्योगिक आवश्यकता: औद्योगिक क्षेत्र लाखों उत्पाद श्रेणियों को संभालता है, पारंपरिक पर्यवेक्षित शिक्षण विधि अव्यावहारिक है

3. मौजूदा विधियों की सीमाएं

CLIP-आधारित विधि: हालांकि विसंगति को प्रभावी ढंग से स्थानीयकृत कर सकते हैं, लेकिन सीमा-जागरूक क्षमता कमजोर है, विभाजन परिणाम कठोर हैं
SAM-आधारित विधि: शक्तिशाली सीमा-जागरूक क्षमता है, लेकिन स्थानीयकरण क्षमता सीमित है, पूरी वस्तु को विभाजित करने के लिए प्रवण है न कि विसंगति क्षेत्र को
मौजूदा CLIP&SAM सहयोग विधि: दोनों मॉडल के व्यक्तिगत लाभों का पूर्ण उपयोग नहीं करते हैं, प्रॉम्प्ट रणनीति बहुत कठोर है

4. अनुसंधान प्रेरणा

आधार मॉडल (CLIP और SAM) की शक्तिशाली सामान्यीकरण क्षमता के आधार पर, एक प्रभावी सहयोग ढांचा डिजाइन करें जो CLIP की विसंगति स्थानीयकरण क्षमता और SAM की सटीक विभाजन क्षमता को पूर्ण रूप से विकसित करे, उच्च-गुणवत्ता वाले शून्य-शॉट विसंगति विभाजन को प्राप्त करें।

मुख्य योगदान

नवीन CLIP-SAM सहयोग ढांचा प्रस्तावित किया: एक दो-चरणीय शून्य-शॉट विसंगति विभाजन ढांचा डिजाइन किया गया जो CLIP की विसंगति स्थानीयकरण क्षमता और SAM की सीमा-जागरूक क्षमता को प्रभावी ढंग से जोड़ता है
Co-Feature Point Prompt Generation (PPG) मॉड्यूल: CLIP और SAM को सहयोग से उपयोग करके सकारात्मक और नकारात्मक बिंदु प्रॉम्प्ट्स उत्पन्न करता है, SAM को पूरी वस्तु के बजाय विसंगति क्षेत्र को विभाजित करने पर ध्यान केंद्रित करने के लिए निर्देशित करता है
Cascaded Prompts for SAM (CPS) मॉड्यूल: नवीन रूप से कैस्केडेड मिश्रित प्रॉम्प्ट तंत्र को पेश करता है, SAM के विभाजन परिणामों को आगे अनुकूलित करता है, कठोर सीमाओं और अलग-थलग शोर को समाप्त करता है
अत्याधुनिक प्रदर्शन प्राप्त किया: कई डेटासेट पर उल्लेखनीय प्रदर्शन सुधार प्राप्त किए, विशेष रूप से VisA डेटासेट पर F1-max और AP संकेतक क्रमशः 10.3% और 7.7% में सुधार

विधि विवरण

कार्य परिभाषा

शून्य-शॉट विसंगति विभाजन कार्य को इस प्रकार परिभाषित किया जाता है: एक परीक्षण छवि दी गई है, विसंगति नमूना प्रशिक्षण डेटा के बिना, छवि में विसंगति क्षेत्रों को सटीक रूप से पहचानें और विभाजित करें, पिक्सेल-स्तरीय विसंगति मास्क आउटपुट करें।

मॉडल आर्किटेक्चर

समग्र आर्किटेक्चर

यह ढांचा दो-चरणीय डिजाइन अपनाता है:

पहला चरण: PPG मॉड्यूल प्रारंभिक बिंदु प्रॉम्प्ट्स उत्पन्न करता है
दूसरा चरण: CPS मॉड्यूल कैस्केडेड प्रॉम्प्ट्स के माध्यम से विभाजन परिणामों को अनुकूलित करता है

PPG मॉड्यूल विस्तृत डिजाइन

सकारात्मक बिंदु स्थानीयकरण:

Ra = Sa ⊗ Mapa                    (1)
Ph = Topk(Ra)                     (2)

जहां Sa चरम विसंगति क्षेत्र है, Mapa CLIP द्वारा उत्पन्न विसंगति मानचित्र है, Ra दोनों का प्रतिच्छेदन है, Ph शीर्ष-k विसंगति बिंदु हैं जो सकारात्मक बिंदु प्रॉम्प्ट्स के रूप में चुने गए हैं।

नकारात्मक बिंदु स्थानीयकरण:

Na = dilate(Sa) - Sa              (3)
F = EncI(img)                     (4)
Fa = F ⊗ Sa, Fn = F ⊗ Na         (5)
Maps = Similarity(Fa, Fn)         (6)
Pl = Lowestk(Maps)                (7)

विस्तार फ़ंक्शन के माध्यम से विसंगति क्षेत्र के आसपास का क्षेत्र Na प्राप्त करें, SAM छवि एनकोडर का उपयोग करके विशेषताएं F निकालें, विसंगति क्षेत्र और आसपास के क्षेत्र की विशेषताओं की कोसाइन समानता की गणना करें, सबसे कम समानता वाले k पिक्सल को नकारात्मक बिंदु प्रॉम्प्ट्स के रूप में चुनें।

CPS मॉड्यूल विस्तृत डिजाइन

तीन-स्तरीय कैस्केडेड संरचना:

केवल बिंदु प्रॉम्प्ट:

P = Contact(Ph, Pl)               (8)
M1, logit1 = Decm(F, P)           (9)

बिंदु+logit प्रॉम्प्ट:

M2, logit2 = Decm(F, Contact(P, logit1))    (10)

बिंदु+बाउंडिंग बॉक्स+logit प्रॉम्प्ट:

box = Flocation(M2)               (11)
M3 = Decm(F, Contact(P, box, logit2))       (12)

तकनीकी नवाचार बिंदु

सहयोगी विशेषता उपयोग: मौजूदा विधियों के क्रमिक प्रसंस्करण के विपरीत, PPG मॉड्यूल बिंदु प्रॉम्प्ट्स उत्पन्न करने के लिए CLIP और SAM की विशेषताओं का एक साथ उपयोग करता है
बुद्धिमान नकारात्मक बिंदु चयन: विस्तार फ़ंक्शन और विशेषता समानता गणना के माध्यम से, अधिक प्रभावी नकारात्मक बिंदु प्रॉम्प्ट्स चुनें, SAM को पूरी वस्तु को विभाजित करने से रोकें
क्रमिक बाधा वृद्धि: CPS मॉड्यूल तीन-स्तरीय कैस्केडेड के माध्यम से SAM पर बाधाओं को क्रमिक रूप से बढ़ाता है, सटीक विभाजन प्राप्त करता है
हल्के वजन डिजाइन: केवल SAM के हल्के वजन डिकोडर का उपयोग करके पुनरावृत्तीय अनुकूलन करता है, अतिरिक्त कम्प्यूटेशनल ओवरहेड केवल 100 मिलीसेकंड है

प्रायोगिक सेटअप

डेटासेट

MVTec-AD: उच्च-रिज़ॉल्यूशन औद्योगिक वस्तु छवियां शामिल हैं, पूर्ण पिक्सेल-स्तरीय एनोटेशन के साथ
VisA: औद्योगिक विसंगति पहचान डेटासेट, कई विसंगति प्रकार शामिल हैं

मूल्यांकन संकेतक

AUROC: विभिन्न थ्रेशोल्ड स्तरों पर वर्गों को अलग करने की मॉडल की क्षमता को दर्शाता है
F1-max: इष्टतम थ्रेशोल्ड पर सटीकता और रिकॉल का हार्मोनिक माध्य
AP (Average Precision): विभिन्न रिकॉल स्तरों पर सटीकता

तुलना विधियां

CLIP-आधारित विधि: WinCLIP, APRIL-GAN, SDP, SDP+, AnomalyCLIP
SAM-आधारित विधि: SAA, SAA+
CLIP&SAM सहयोग विधि: ClipSAM

कार्यान्वयन विवरण

CLIP मॉडल: पूर्व-प्रशिक्षित ViT-L-14-336 मॉडल
SAM मॉडल: ViT-H पूर्व-प्रशिक्षित मॉडल
अनुकूलक: Adam, सीखने की दर 1e-3
प्रशिक्षण सेटअप: VisA डेटासेट 3 epoch, MVTec-AD डेटासेट 15 epoch
हार्डवेयर: NVIDIA GeForce RTX 3090, बैच आकार 16

प्रायोगिक परिणाम

मुख्य परिणाम

विधि श्रेणी	विधि	MVTec-AD			VisA
		AUROC	F1-max	AP	AUROC	F1-max	AP
CLIP-आधारित	WinCLIP	85.1	31.7	-	79.6	14.8	-
	APRIL-GAN	87.6	43.3	40.8	94.2	32.3	25.7
	AnomalyCLIP	91.1	39.1	34.5	95.5	28.3	21.3
SAM-आधारित	SAA+	73.2	37.8	28.8	74.0	27.1	22.4
CLIP&SAM	ClipSAM	92.3	47.8	45.9	95.6	33.1	26.0
यह पेपर	हमारा	89.5	48.8	46.4	94.8	36.5	28.0

मुख्य निष्कर्ष:

F1-max और AP संकेतकों पर मौजूदा विधियों को व्यापक रूप से पार करता है
VisA डेटासेट पर F1-max में 10.3% सुधार, AP में 7.7% सुधार
MVTec-AD डेटासेट पर F1-max में 2.1% सुधार, AP में 1.1% सुधार
AUROC संकेतक सर्वश्रेष्ठ विधि से थोड़ा कम है, यह SAM विभाजन परिणामों पर निर्भरता के कारण है

विलोपन प्रयोग

विस्तार फ़ंक्शन पैरामीटर प्रभाव

विभिन्न कर्नेल आकार और आकार के प्रदर्शन पर प्रभाव का परीक्षण किया गया:

आकार	आकार	AUROC	F1-max	AP
दीर्घवृत्त	(25,25)	89.5	48.8	46.4
आयत	(20,20)	89.5	47.7	45.6
क्रॉस	(25,25)	89.2	46.5	44.1

निष्कर्ष: दीर्घवृत्त कर्नेल (25,25) सर्वश्रेष्ठ प्रदर्शन प्राप्त करता है।

कैस्केडेड चरण प्रभाव

कैस्केडेड चरण	AUROC	F1-max	AP
केवल बिंदु प्रॉम्प्ट	88.7	42.5	39.2
बिंदु+logit1	88.1	46.8	44.8
बिंदु+box+logit2	89.5	48.8	46.4

मुख्य निष्कर्ष:

दूसरा कैस्केडेड F1-max में 4.3% वृद्धि, AP में 5.6% वृद्धि
तीसरा कैस्केडेड F1-max में 2% और AP में 1.6% की आगे की वृद्धि

केस विश्लेषण

दृश्य परिणाम दिखाते हैं:

CLIP-आधारित विधि विसंगति को सटीक रूप से स्थानीयकृत कर सकते हैं लेकिन सीमाएं धुंधली हैं
SAM-आधारित विधि सीमाएं स्पष्ट हैं लेकिन स्थानीयकरण अनुचित है
यह पेपर की विधि सटीक स्थानीयकरण और स्पष्ट सीमाओं को एक साथ प्राप्त करती है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

प्रस्तावित CLIP-SAM सहयोग ढांचा दोनों आधार मॉडल के लाभों को प्रभावी ढंग से जोड़ता है
PPG और CPS मॉड्यूल शून्य-शॉट विसंगति विभाजन प्रदर्शन में महत्वपूर्ण सुधार करते हैं
कई डेटासेट पर अत्याधुनिक प्रदर्शन स्तर प्राप्त किया गया है

सीमाएं

अनुमान गति: दो मॉडल का उपयोग अनुमान समय को धीमा करता है
AUROC प्रदर्शन: AUROC संकेतक पर कुछ विधियों से थोड़ा कम है
कम्प्यूटेशनल संसाधन: बड़ी कम्प्यूटेशनल संसाधनों की आवश्यकता है

भविष्य की दिशा

लेखक विभिन्न मॉडल के लाभों को कुशलतापूर्वक और हल्के वजन से एकीकृत करने के तरीकों की खोज जारी रखने का उल्लेख करते हैं, विसंगति विभाजन क्षमता को बढ़ाने के लिए।

गहन मूल्यांकन

लाभ

विधि नवाचार मजबूत है: PPG और CPS मॉड्यूल डिजाइन चतुर हैं, मौजूदा विधियों की सीमाओं को प्रभावी ढंग से हल करते हैं
प्रयोग व्यापक हैं: कई डेटासेट पर व्यापक तुलना और विलोपन प्रयोग किए गए हैं
प्रदर्शन सुधार महत्वपूर्ण है: मुख्य संकेतकों पर बड़ी वृद्धि प्राप्त की गई है
तकनीकी विवरण स्पष्ट हैं: विधि विवरण विस्तृत हैं, सूत्र व्युत्पत्ति स्पष्ट है

कमियां

कम्प्यूटेशनल दक्षता समस्या: हालांकि लेखक अतिरिक्त ओवरहेड केवल 100 मिलीसेकंड का दावा करते हैं, लेकिन समग्र अनुमान समय अभी भी लंबा है
AUROC प्रदर्शन में गिरावट: महत्वपूर्ण AUROC संकेतक पर प्रदर्शन में कुछ गिरावट है, आगे अनुकूलन की आवश्यकता है
सामान्यीकरण क्षमता मूल्यांकन: केवल दो डेटासेट पर मूल्यांकन किया गया है, सामान्यीकरण क्षमता को व्यापक सत्यापन की आवश्यकता है

प्रभाव

शैक्षणिक योगदान: शून्य-शॉट विसंगति पहचान क्षेत्र के लिए नई सोच और विधि प्रदान करता है
व्यावहारिक मूल्य: औद्योगिक विसंगति पहचान में महत्वपूर्ण अनुप्रयोग मूल्य है
पुनरुत्पादनीयता: विधि विवरण विस्तृत हैं, कार्यान्वयन विवरण स्पष्ट हैं, पुनरुत्पादन के लिए सुविधाजनक है

लागू परिदृश्य

औद्योगिक गुणवत्ता निरीक्षण
चिकित्सा छवि विसंगति पहचान
सुरक्षा निगरानी विसंगति घटना पहचान
अन्य शून्य-शॉट विसंगति विभाजन की आवश्यकता वाले अनुप्रयोग परिदृश्य

संदर्भ

पेपर ने 40 संबंधित संदर्भों का हवाला दिया है, जो आधार मॉडल, विसंगति पहचान, कंप्यूटर दृष्टि और अन्य क्षेत्रों के महत्वपूर्ण कार्यों को कवर करता है, साहित्य समीक्षा काफी व्यापक है।

समग्र मूल्यांकन: यह पेपर प्रस्तावित CLIP-SAM सहयोग ढांचा तकनीकी रूप से नवीन है, प्रायोगिक परिणाम प्रभावशाली हैं। हालांकि कम्प्यूटेशनल दक्षता और कुछ संकेतकों पर सुधार की गुंजाइश है, लेकिन समग्र रूप से शून्य-शॉट विसंगति पहचान क्षेत्र में महत्वपूर्ण योगदान दिया गया है, उच्च शैक्षणिक और व्यावहारिक मूल्य है।