2025-11-12T14:13:10.569513

Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts

Hou, Xu, Li et al.

Recently, the powerful generalization ability exhibited by foundation models has brought forth new solutions for zero-shot anomaly segmentation tasks. However, guiding these foundation models correctly to address downstream tasks remains a challenge. This paper proposes a novel two-stage framework, for zero-shot anomaly segmentation tasks in industrial anomaly detection. This framework excellently leverages the powerful anomaly localization capability of CLIP and the boundary perception ability of SAM.(1) To mitigate SAM's inclination towards object segmentation, we propose the Co-Feature Point Prompt Generation (PPG) module. This module collaboratively utilizes CLIP and SAM to generate positive and negative point prompts, guiding SAM to focus on segmenting anomalous regions rather than the entire object. (2) To further optimize SAM's segmentation results and mitigate rough boundaries and isolated noise, we introduce the Cascaded Prompts for SAM (CPS) module. This module employs hybrid prompts cascaded with a lightweight decoder of SAM, achieving precise segmentation of anomalous regions. Across multiple datasets, consistent experimental validation demonstrates that our approach achieves state-of-the-art zero-shot anomaly segmentation results. Particularly noteworthy is our performance on the Visa dataset, where we outperform the state-of-the-art methods by 10.3\% and 7.7\% in terms of {$F_1$-max} and AP metrics, respectively.

academic

تعزيز كشف الشذوذ بدون عينات: التعاون بين CLIP و SAM مع المطالبات المتسلسلة

المعلومات الأساسية

معرّف الورقة: 2510.11028
العنوان: تعزيز كشف الشذوذ بدون عينات: التعاون بين CLIP و SAM مع المطالبات المتسلسلة
المؤلفون: Yanning Hou, Ke Xu, Junfa Li, Yanran Ruan, Jianfeng Qiu (كلية الذكاء الاصطناعي، جامعة أنهوي)
التصنيف: cs.CV (رؤية الحاسوب)
تاريخ النشر: 13 أكتوبر 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2510.11028v1

الملخص

تقترح هذه الورقة إطار عمل جديد ذو مرحلتين لمهمة تقسيم الشذوذ بدون عينات في كشف الشذوذ الصناعي. يستفيد الإطار بشكل كامل من القدرة القوية لـ CLIP على تحديد موقع الشذوذ وقدرة SAM على الوعي بالحدود. من خلال وحدة Co-Feature Point Prompt Generation (PPG) ووحدة Cascaded Prompts for SAM (CPS)، حقق المنهج نتائج تقسيم شذوذ بدون عينات متقدمة على عدة مجموعات بيانات، خاصة على مجموعة بيانات VisA، حيث تحسنت مؤشرات F1-max و AP بنسبة 10.3% و 7.7% على التوالي مقارنة بأفضل الطرق الموجودة.

خلفية البحث والدافع

1. المشكلة المراد حلها

تعالج هذه الورقة بشكل أساسي مهمة تقسيم الشذوذ بدون عينات (Zero-Shot Anomaly Segmentation, ZSAS)، خاصة في السيناريوهات الصناعية، حيث يكون من الضروري تحديد موقع وتقسيم مناطق الشذوذ في الصور بدون بيانات تدريب عينات شاذة.

2. أهمية المشكلة

ندرة البيانات: عينات الشذوذ نادرة في السيناريوهات الصناعية، والطرق التقليدية تتطلب كميات كبيرة من البيانات المشروحة
تنوع أنواع الشذوذ: أنواع الشذوذ في التطبيقات الفعلية متنوعة ومتغيرة، مما يصعب تعريفها مسبقاً
الاحتياجات الصناعية: تتعامل الصناعة مع ملايين فئات المنتجات، مما يجعل طرق التعلم الخاضع للإشراف التقليدية غير عملية

3. قيود الطرق الموجودة

طرق قائمة على CLIP: على الرغم من أنها قادرة على تحديد موقع الشذوذ بفعالية، إلا أن قدرتها على الوعي بالحدود ضعيفة، مما يؤدي إلى نتائج تقسيم خشنة
طرق قائمة على SAM: تتمتع بقدرة قوية على الوعي بالحدود، لكن قدرتها على التحديد محدودة، وغالباً ما تقسم الكائن بأكمله بدلاً من منطقة الشذوذ
طرق التعاون الحالية بين CLIP و SAM: لا تستفيد بشكل كامل من المزايا المتبادلة للنموذجين، واستراتيجيات المطالبات جامدة جداً

4. دافع البحث

بناءً على القدرة القوية على التعميم للنماذج الأساسية (CLIP و SAM)، يتم تصميم إطار عمل تعاوني فعال لاستخلاص الفائدة الكاملة من قدرة CLIP على تحديد موقع الشذوذ وقدرة SAM على التقسيم الدقيق، لتحقيق تقسيم شذوذ بدون عينات عالي الجودة.

المساهمات الأساسية

اقتراح إطار عمل تعاوني جديد بين CLIP و SAM: تصميم إطار عمل تقسيم شذوذ بدون عينات ذو مرحلتين يجمع بفعالية بين قدرة CLIP على تحديد موقع الشذوذ وقدرة SAM على الوعي بالحدود
وحدة Co-Feature Point Prompt Generation (PPG): توليد مطالبات نقاط موجبة وسالبة من خلال الاستفادة التعاونية من CLIP و SAM، لتوجيه SAM للتركيز على تقسيم مناطق الشذوذ بدلاً من الكائن بأكمله
وحدة Cascaded Prompts for SAM (CPS): إدخال آلية مطالبات مختلطة متسلسلة بطريقة مبتكرة، لتحسين نتائج التقسيم من قبل SAM بشكل إضافي، والقضاء على الحدود الخشنة والضوضاء المعزولة
تحقيق أداء متقدم: تحقيق تحسينات أداء كبيرة على عدة مجموعات بيانات، خاصة على مجموعة بيانات VisA حيث تحسنت مؤشرات F1-max و AP بنسبة 10.3% و 7.7% على التوالي

شرح تفصيلي للطريقة

تعريف المهمة

يتم تعريف مهمة تقسيم الشذوذ بدون عينات على أنها: بالنظر إلى صورة اختبار، تحديد وتقسيم مناطق الشذوذ في الصورة بدقة بدون بيانات تدريب عينات شاذة، وإخراج قناع شذوذ على مستوى البكسل.

معمارية النموذج

المعمارية الكلية

يعتمد الإطار على تصميم ذو مرحلتين:

المرحلة الأولى: وحدة PPG تولد مطالبات نقاط أولية
المرحلة الثانية: وحدة CPS تحسن نتائج التقسيم من خلال مطالبات متسلسلة

تصميم وحدة PPG بالتفصيل

تحديد موقع النقاط الموجبة:

Ra = Sa ⊗ Mapa                    (1)
Ph = Topk(Ra)                     (2)

حيث Sa هي منطقة الشذوذ القصوى، و Mapa هي خريطة الشذوذ التي ينتجها CLIP، و Ra هي تقاطع الاثنين، و Ph هي أفضل k نقطة شذوذ مختارة كمطالبات نقاط موجبة.

تحديد موقع النقاط السالبة:

Na = dilate(Sa) - Sa              (3)
F = EncI(img)                     (4)
Fa = F ⊗ Sa, Fn = F ⊗ Na         (5)
Maps = Similarity(Fa, Fn)         (6)
Pl = Lowestk(Maps)                (7)

الحصول على المنطقة المحيطة بمنطقة الشذوذ Na من خلال دالة التمدد، واستخراج الميزات F باستخدام مشفر الصور من SAM، وحساب تشابه جيب التمام بين ميزات منطقة الشذوذ والمنطقة المحيطة، واختيار k بكسل بأقل تشابه كمطالبات نقاط سالبة.

تصميم وحدة CPS بالتفصيل

هيكل متسلسل ثلاثي المستويات:

مطالبات نقاط فقط:

P = Contact(Ph, Pl)               (8)
M1, logit1 = Decm(F, P)           (9)

مطالبات نقاط + logit:

M2, logit2 = Decm(F, Contact(P, logit1))    (10)

مطالبات نقاط + صندوق محيط + logit:

box = Flocation(M2)               (11)
M3 = Decm(F, Contact(P, box, logit2))       (12)

نقاط الابتكار التقني

الاستفادة من الميزات التعاونية: بخلاف الطرق الموجودة التي تعالج بشكل متسلسل، تستفيد وحدة PPG في نفس الوقت من ميزات CLIP و SAM لتوليد مطالبات النقاط
اختيار ذكي للنقاط السالبة: من خلال دالة التمدد وحساب تشابه الميزات، اختيار مطالبات نقاط سالبة أكثر فعالية، وتجنب تقسيم SAM للكائن بأكمله
تعزيز التقييد التدريجي: تعزز وحدة CPS القيود على SAM بشكل تدريجي من خلال ثلاث مستويات متسلسلة، لتحقيق تقسيم دقيق
تصميم خفيف الوزن: استخدام فقط مفكك SAM الخفيف الوزن لتحسين تكراري، مع تكلفة حسابية إضافية تبلغ 100 ميلي ثانية فقط

إعدادات التجربة

مجموعات البيانات

MVTec-AD: تحتوي على صور كائنات صناعية عالية الدقة، مع تشريح كامل على مستوى البكسل
VisA: مجموعة بيانات كشف الشذوذ الصناعي، تحتوي على أنواع شذوذ متعددة

مؤشرات التقييم

AUROC: يعكس قدرة النموذج على التمييز بين الفئات عند مستويات عتبة مختلفة
F1-max: المتوسط التوافقي للدقة والاستدعاء عند العتبة المثلى
AP (متوسط الدقة): الدقة عند مستويات استدعاء مختلفة

طرق المقارنة

طرق قائمة على CLIP: WinCLIP, APRIL-GAN, SDP, SDP+, AnomalyCLIP
طرق قائمة على SAM: SAA, SAA+
طرق التعاون بين CLIP و SAM: ClipSAM

تفاصيل التنفيذ

نموذج CLIP: نموذج ViT-L-14-336 المدرب مسبقاً
نموذج SAM: نموذج ViT-H المدرب مسبقاً
المحسّن: Adam، معدل التعلم 1e-3
إعدادات التدريب: 3 حقب لمجموعة بيانات VisA، 15 حقة لمجموعة بيانات MVTec-AD
الأجهزة: NVIDIA GeForce RTX 3090، حجم الدفعة 16

نتائج التجربة

النتائج الرئيسية

فئة الطريقة	الطريقة	MVTec-AD			VisA
		AUROC	F1-max	AP	AUROC	F1-max	AP
قائمة على CLIP	WinCLIP	85.1	31.7	-	79.6	14.8	-
	APRIL-GAN	87.6	43.3	40.8	94.2	32.3	25.7
	AnomalyCLIP	91.1	39.1	34.5	95.5	28.3	21.3
قائمة على SAM	SAA+	73.2	37.8	28.8	74.0	27.1	22.4
CLIP و SAM	ClipSAM	92.3	47.8	45.9	95.6	33.1	26.0
هذه الورقة	الطريقة المقترحة	89.5	48.8	46.4	94.8	36.5	28.0

الاكتشافات الرئيسية:

تفوق شامل على الطرق الموجودة في مؤشرات F1-max و AP
تحسن F1-max بنسبة 10.3% و AP بنسبة 7.7% على مجموعة بيانات VisA
تحسن F1-max بنسبة 2.1% و AP بنسبة 1.1% على مجموعة بيانات MVTec-AD
مؤشر AUROC أقل قليلاً من أفضل الطرق، وهذا يرجع إلى الاعتماد على نتائج تقسيم SAM مما يؤدي إلى توسع منطقة الشذوذ

تجارب الاستئصال

تأثير معاملات دالة التمدد

اختبار تأثير أشكال وأحجام نوى مختلفة على الأداء:

الشكل	الحجم	AUROC	F1-max	AP
بيضاوي	(25,25)	89.5	48.8	46.4
مستطيل	(20,20)	89.5	47.7	45.6
صليب	(25,25)	89.2	46.5	44.1

الاستنتاج: النواة البيضاوية (25,25) حققت أفضل أداء.

تأثير خطوات التسلسل

مرحلة التسلسل	AUROC	F1-max	AP
مطالبات نقاط فقط	88.7	42.5	39.2
نقاط + logit1	88.1	46.8	44.8
نقاط + صندوق + logit2	89.5	48.8	46.4

الاكتشافات الرئيسية:

المرحلة الثانية تزيد F1-max بنسبة 4.3% و AP بنسبة 5.6%
المرحلة الثالثة تحسن F1-max بنسبة إضافية 2% و AP بنسبة 1.6%

تحليل الحالات

تظهر النتائج المرئية:

طرق قائمة على CLIP تحدد موقع الشذوذ بدقة لكن بحدود غامضة
طرق قائمة على SAM لها حدود واضحة لكن تحديد موقع غير دقيق
الطريقة المقترحة تحقق تحديد موقع دقيق وحدود واضحة في نفس الوقت

الأعمال ذات الصلة

النماذج الأساسية

CLIP: أول نموذج تم تدريبه مسبقاً على أزواج صور-نصوص على نطاق الويب، مع قدرة محاذاة متعددة الأنماط قوية
SAM: يوضح قدرة قوية على تقسيم الكائنات في العالم المفتوح، ويمكنه تحقيق تقسيم عالي الجودة باستخدام مطالبات متنوعة

طرق تقسيم الشذوذ بدون عينات

طرق قائمة على CLIP: الاستفادة من تقنيات النوافذ المنزلقة وميزات متعددة الطبقات، لكن قدرة الوعي بالحدود محدودة
طرق قائمة على SAM: قدرة قوية على الوعي بالحدود، لكن قدرة التحديد محدودة
طرق التعاون بين CLIP و SAM: الطرق الموجودة لا تستفيد بشكل كامل من المزايا المتبادلة للنموذجين

مزايا هذه الورقة

مقارنة بالأعمال الموجودة، تحقق هذه الورقة استفادة أفضل من مزايا النموذجين الأساسيين من خلال الاستفادة من الميزات التعاونية وآلية المطالبات المتسلسلة.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

إطار العمل التعاوني المقترح بين CLIP و SAM يجمع بفعالية بين مزايا النموذجين الأساسيين
وحدات PPG و CPS تحسن بشكل كبير أداء تقسيم الشذوذ بدون عينات
تحقيق أداء متقدمة على مستوى الفن على عدة مجموعات بيانات

القيود

سرعة الاستدلال: استخدام نموذجين يؤدي إلى وقت استدلال أطول
أداء AUROC: أداء أقل قليلاً من بعض الطرق في مؤشر AUROC
موارد الحوسبة: تتطلب موارد حوسبة كبيرة

الاتجاهات المستقبلية

يذكر المؤلفون أنهم سيستمرون في استكشاف كيفية دمج مزايا النماذج المختلفة بكفاءة وخفة لتحسين قدرة تقسيم الشذوذ.

التقييم المتعمق

المزايا

ابتكار الطريقة قوي: تصميم وحدات PPG و CPS ذكي، يحل بفعالية قيود الطرق الموجودة
تجارب شاملة: إجراء مقارنات واستئصال شامل على عدة مجموعات بيانات
تحسن الأداء كبير: تحقيق تحسينات كبيرة في المؤشرات الرئيسية
وضوح التفاصيل التقنية: وصف الطريقة مفصل، واشتقاق الصيغ واضح

أوجه القصور

مشكلة كفاءة الحوسبة: على الرغم من أن المؤلفين يؤكدون أن التكلفة الإضافية 100 ميلي ثانية فقط، إلا أن وقت الاستدلال الكلي لا يزال طويلاً
انخفاض أداء AUROC: انخفاض الأداء في مؤشر AUROC المهم، يحتاج إلى تحسين إضافي
تقييم القدرة على التعميم: التقييم على مجموعتي بيانات فقط، القدرة على التعميم تحتاج إلى التحقق على نطاق أوسع

التأثير

المساهمة الأكاديمية: توفير أفكار وطرق جديدة لمجال كشف الشذوذ بدون عينات
القيمة العملية: لها قيمة تطبيقية مهمة في كشف الشذوذ الصناعي
إمكانية إعادة الإنتاج: وصف الطريقة مفصل، تفاصيل التنفيذ واضحة، يسهل إعادة الإنتاج

السيناريوهات المناسبة

فحص الجودة الصناعي
كشف الشذوذ في الصور الطبية
كشف الأحداث الشاذة في المراقبة الأمنية
سيناريوهات تطبيقية أخرى تتطلب تقسيم شذوذ بدون عينات

المراجع

تستشهد الورقة بـ 40 مرجعاً ذا صلة، تغطي نماذج أساسية وكشف شذوذ ورؤية حاسوب وعدة مجالات أخرى مهمة، مع مراجعة أدبيات شاملة نسبياً.

التقييم الإجمالي: إطار العمل التعاوني المقترح بين CLIP و SAM يتمتع بابتكار تقني، والنتائج التجريبية مثيرة للإعجاب. على الرغم من وجود مجال للتحسين في كفاءة الحوسبة وبعض المؤشرات، إلا أن الورقة بشكل عام قدمت مساهمة مهمة لمجال كشف الشذوذ بدون عينات، مع قيمة أكاديمية وعملية عالية.