Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts
Hou, Xu, Li et al.
Recently, the powerful generalization ability exhibited by foundation models has brought forth new solutions for zero-shot anomaly segmentation tasks. However, guiding these foundation models correctly to address downstream tasks remains a challenge. This paper proposes a novel two-stage framework, for zero-shot anomaly segmentation tasks in industrial anomaly detection. This framework excellently leverages the powerful anomaly localization capability of CLIP and the boundary perception ability of SAM.(1) To mitigate SAM's inclination towards object segmentation, we propose the Co-Feature Point Prompt Generation (PPG) module. This module collaboratively utilizes CLIP and SAM to generate positive and negative point prompts, guiding SAM to focus on segmenting anomalous regions rather than the entire object. (2) To further optimize SAM's segmentation results and mitigate rough boundaries and isolated noise, we introduce the Cascaded Prompts for SAM (CPS) module. This module employs hybrid prompts cascaded with a lightweight decoder of SAM, achieving precise segmentation of anomalous regions. Across multiple datasets, consistent experimental validation demonstrates that our approach achieves state-of-the-art zero-shot anomaly segmentation results. Particularly noteworthy is our performance on the Visa dataset, where we outperform the state-of-the-art methods by 10.3\% and 7.7\% in terms of {$F_1$-max} and AP metrics, respectively.
academic
تعزيز كشف الشذوذ بدون عينات: التعاون بين CLIP و SAM مع المطالبات المتسلسلة
تقترح هذه الورقة إطار عمل جديد ذو مرحلتين لمهمة تقسيم الشذوذ بدون عينات في كشف الشذوذ الصناعي. يستفيد الإطار بشكل كامل من القدرة القوية لـ CLIP على تحديد موقع الشذوذ وقدرة SAM على الوعي بالحدود. من خلال وحدة Co-Feature Point Prompt Generation (PPG) ووحدة Cascaded Prompts for SAM (CPS)، حقق المنهج نتائج تقسيم شذوذ بدون عينات متقدمة على عدة مجموعات بيانات، خاصة على مجموعة بيانات VisA، حيث تحسنت مؤشرات F1-max و AP بنسبة 10.3% و 7.7% على التوالي مقارنة بأفضل الطرق الموجودة.
تعالج هذه الورقة بشكل أساسي مهمة تقسيم الشذوذ بدون عينات (Zero-Shot Anomaly Segmentation, ZSAS)، خاصة في السيناريوهات الصناعية، حيث يكون من الضروري تحديد موقع وتقسيم مناطق الشذوذ في الصور بدون بيانات تدريب عينات شاذة.
بناءً على القدرة القوية على التعميم للنماذج الأساسية (CLIP و SAM)، يتم تصميم إطار عمل تعاوني فعال لاستخلاص الفائدة الكاملة من قدرة CLIP على تحديد موقع الشذوذ وقدرة SAM على التقسيم الدقيق، لتحقيق تقسيم شذوذ بدون عينات عالي الجودة.
اقتراح إطار عمل تعاوني جديد بين CLIP و SAM: تصميم إطار عمل تقسيم شذوذ بدون عينات ذو مرحلتين يجمع بفعالية بين قدرة CLIP على تحديد موقع الشذوذ وقدرة SAM على الوعي بالحدود
وحدة Co-Feature Point Prompt Generation (PPG): توليد مطالبات نقاط موجبة وسالبة من خلال الاستفادة التعاونية من CLIP و SAM، لتوجيه SAM للتركيز على تقسيم مناطق الشذوذ بدلاً من الكائن بأكمله
وحدة Cascaded Prompts for SAM (CPS): إدخال آلية مطالبات مختلطة متسلسلة بطريقة مبتكرة، لتحسين نتائج التقسيم من قبل SAM بشكل إضافي، والقضاء على الحدود الخشنة والضوضاء المعزولة
تحقيق أداء متقدم: تحقيق تحسينات أداء كبيرة على عدة مجموعات بيانات، خاصة على مجموعة بيانات VisA حيث تحسنت مؤشرات F1-max و AP بنسبة 10.3% و 7.7% على التوالي
يتم تعريف مهمة تقسيم الشذوذ بدون عينات على أنها: بالنظر إلى صورة اختبار، تحديد وتقسيم مناطق الشذوذ في الصورة بدقة بدون بيانات تدريب عينات شاذة، وإخراج قناع شذوذ على مستوى البكسل.
حيث Sa هي منطقة الشذوذ القصوى، و Mapa هي خريطة الشذوذ التي ينتجها CLIP، و Ra هي تقاطع الاثنين، و Ph هي أفضل k نقطة شذوذ مختارة كمطالبات نقاط موجبة.
تحديد موقع النقاط السالبة:
Na = dilate(Sa) - Sa (3)
F = EncI(img) (4)
Fa = F ⊗ Sa, Fn = F ⊗ Na (5)
Maps = Similarity(Fa, Fn) (6)
Pl = Lowestk(Maps) (7)
الحصول على المنطقة المحيطة بمنطقة الشذوذ Na من خلال دالة التمدد، واستخراج الميزات F باستخدام مشفر الصور من SAM، وحساب تشابه جيب التمام بين ميزات منطقة الشذوذ والمنطقة المحيطة، واختيار k بكسل بأقل تشابه كمطالبات نقاط سالبة.
تستشهد الورقة بـ 40 مرجعاً ذا صلة، تغطي نماذج أساسية وكشف شذوذ ورؤية حاسوب وعدة مجالات أخرى مهمة، مع مراجعة أدبيات شاملة نسبياً.
التقييم الإجمالي: إطار العمل التعاوني المقترح بين CLIP و SAM يتمتع بابتكار تقني، والنتائج التجريبية مثيرة للإعجاب. على الرغم من وجود مجال للتحسين في كفاءة الحوسبة وبعض المؤشرات، إلا أن الورقة بشكل عام قدمت مساهمة مهمة لمجال كشف الشذوذ بدون عينات، مع قيمة أكاديمية وعملية عالية.