2025-11-12T14:13:10.569513

Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts

Hou, Xu, Li et al.

Recently, the powerful generalization ability exhibited by foundation models has brought forth new solutions for zero-shot anomaly segmentation tasks. However, guiding these foundation models correctly to address downstream tasks remains a challenge. This paper proposes a novel two-stage framework, for zero-shot anomaly segmentation tasks in industrial anomaly detection. This framework excellently leverages the powerful anomaly localization capability of CLIP and the boundary perception ability of SAM.(1) To mitigate SAM's inclination towards object segmentation, we propose the Co-Feature Point Prompt Generation (PPG) module. This module collaboratively utilizes CLIP and SAM to generate positive and negative point prompts, guiding SAM to focus on segmenting anomalous regions rather than the entire object. (2) To further optimize SAM's segmentation results and mitigate rough boundaries and isolated noise, we introduce the Cascaded Prompts for SAM (CPS) module. This module employs hybrid prompts cascaded with a lightweight decoder of SAM, achieving precise segmentation of anomalous regions. Across multiple datasets, consistent experimental validation demonstrates that our approach achieves state-of-the-art zero-shot anomaly segmentation results. Particularly noteworthy is our performance on the Visa dataset, where we outperform the state-of-the-art methods by 10.3\% and 7.7\% in terms of {$F_1$-max} and AP metrics, respectively.

academic

제로샷 이상 탐지 강화: 계단식 프롬프트를 활용한 CLIP-SAM 협업

기본 정보

논문 ID: 2510.11028
제목: Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts
저자: Yanning Hou, Ke Xu, Junfa Li, Yanran Ruan, Jianfeng Qiu (안후이 대학교 인공지능 학원)
분류: cs.CV (컴퓨터 비전)
발표 시간: 2025년 10월 13일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.11028v1

초록

본 논문은 산업 이상 탐지에서 제로샷 이상 분할 작업을 위한 새로운 2단계 프레임워크를 제안한다. 이 프레임워크는 CLIP의 강력한 이상 위치 파악 능력과 SAM의 경계 인식 능력을 충분히 활용한다. Co-Feature Point Prompt Generation (PPG) 모듈과 Cascaded Prompts for SAM (CPS) 모듈을 통해, 본 방법은 여러 데이터셋에서 최첨단 제로샷 이상 분할 결과를 달성했으며, 특히 VisA 데이터셋에서 F1-max와 AP 지표가 기존 최고 방법 대비 각각 10.3%와 7.7% 향상되었다.

연구 배경 및 동기

1. 해결해야 할 문제

본 논문은 주로 제로샷 이상 분할(Zero-Shot Anomaly Segmentation, ZSAS) 작업을 해결하며, 특히 산업 이상 탐지 시나리오에서 이상 샘플 훈련 데이터 없이 이미지의 이상 영역을 정확하게 위치 파악하고 분할해야 한다.

2. 문제의 중요성

데이터 부족성: 산업 시나리오에서 이상 샘플이 드물고, 전통적 방법은 대량의 주석 데이터 필요
이상 유형의 다양성: 실제 응용에서 이상 유형이 다양하여 사전 정의가 어려움
산업 수요: 산업계는 수백만 개의 제품 카테고리를 처리하므로 전통적 지도 학습 방법은 비현실적

3. 기존 방법의 한계

CLIP 기반 방법: 이상을 효과적으로 위치 파악할 수 있지만 경계 인식 능력이 부족하여 분할 결과가 거칠음
SAM 기반 방법: 강력한 경계 인식 능력을 가지지만 위치 파악 능력이 제한적이어서 이상 영역이 아닌 전체 객체를 분할하기 쉬움
기존 CLIP&SAM 협업 방법: 두 모델의 각각의 장점을 충분히 활용하지 못하고 프롬프트 전략이 경직되어 있음

4. 연구 동기

기초 모델(CLIP과 SAM)의 강력한 일반화 능력을 기반으로, CLIP의 이상 위치 파악 능력과 SAM의 정확한 분할 능력을 충분히 발휘하는 효과적인 협업 프레임워크를 설계하여 고품질의 제로샷 이상 분할을 실현한다.

핵심 기여

새로운 CLIP-SAM 협업 프레임워크 제안: CLIP의 이상 위치 파악 능력과 SAM의 경계 인식 능력을 효과적으로 결합한 2단계 제로샷 이상 분할 프레임워크 설계
Co-Feature Point Prompt Generation (PPG) 모듈: CLIP과 SAM을 협업적으로 활용하여 양성 및 음성 포인트 프롬프트를 생성하여 SAM이 전체 객체가 아닌 이상 영역 분할에 집중하도록 유도
Cascaded Prompts for SAM (CPS) 모듈: 혁신적으로 계단식 혼합 프롬프트 메커니즘을 도입하여 SAM의 분할 결과를 추가로 최적화하고 거친 경계와 고립된 노이즈 제거
최첨단 성능 달성: 여러 데이터셋에서 현저한 성능 향상을 달성했으며, 특히 VisA 데이터셋에서 F1-max와 AP 지표가 각각 10.3%와 7.7% 향상

방법 상세 설명

작업 정의

제로샷 이상 분할 작업은 다음과 같이 정의된다: 이상 샘플 훈련 데이터 없이 테스트 이미지가 주어졌을 때, 이미지의 이상 영역을 정확하게 식별하고 분할하여 픽셀 수준의 이상 마스크를 출력한다.

모델 아키텍처

전체 아키텍처

본 프레임워크는 2단계 설계를 채택한다:

1단계: PPG 모듈이 초기 포인트 프롬프트 생성
2단계: CPS 모듈이 계단식 프롬프트를 통해 분할 결과 최적화

PPG 모듈 상세 설계

양성 포인트 위치 파악:

Ra = Sa ⊗ Mapa                    (1)
Ph = Topk(Ra)                     (2)

여기서 Sa는 극단적 이상 영역, Mapa는 CLIP이 생성한 이상 맵, Ra는 둘의 교집합, Ph는 선택된 상위 k개 이상 포인트로서의 양성 포인트 프롬프트이다.

음성 포인트 위치 파악:

Na = dilate(Sa) - Sa              (3)
F = EncI(img)                     (4)
Fa = F ⊗ Sa, Fn = F ⊗ Na         (5)
Maps = Similarity(Fa, Fn)         (6)
Pl = Lowestk(Maps)                (7)

팽창 함수를 통해 이상 영역 주변 영역 Na를 획득하고, SAM 이미지 인코더를 이용하여 특징 F를 추출한 후, 이상 영역과 주변 영역 특징의 코사인 유사도를 계산하여 유사도가 가장 낮은 k개 픽셀을 음성 포인트 프롬프트로 선택한다.

CPS 모듈 상세 설계

3단계 계단식 구조:

포인트 프롬프트만 사용:

P = Contact(Ph, Pl)               (8)
M1, logit1 = Decm(F, P)           (9)

포인트 + logit 프롬프트:

M2, logit2 = Decm(F, Contact(P, logit1))    (10)

포인트 + 바운딩박스 + logit 프롬프트:

box = Flocation(M2)               (11)
M3 = Decm(F, Contact(P, box, logit2))       (12)

기술 혁신점

협업 특징 활용: 기존 방법의 순차 처리와 달리, PPG 모듈은 CLIP과 SAM의 특징을 동시에 활용하여 포인트 프롬프트 생성
지능형 음성 포인트 선택: 팽창 함수와 특징 유사도 계산을 통해 더 효과적인 음성 포인트 프롬프트를 선택하여 SAM이 전체 객체를 분할하는 것을 방지
점진적 제약 강화: CPS 모듈은 3단계 계단식을 통해 SAM에 대한 제약을 단계적으로 강화하여 정확한 분할 실현
경량 설계: SAM의 경량 디코더만 사용하여 반복적 최적화를 수행하며, 추가 계산 오버헤드는 100밀리초에 불과함

실험 설정

데이터셋

MVTec-AD: 고해상도 산업 객체 이미지를 포함하며 완전한 픽셀 수준 주석 보유
VisA: 산업 이상 탐지 데이터셋으로 다양한 이상 유형 포함

평가 지표

AUROC: 다양한 임계값 수준에서 클래스를 구분하는 모델의 능력 반영
F1-max: 최적 임계값에서 정밀도와 재현율의 조화 평균
AP (Average Precision): 다양한 재현율 수준에서의 정밀도

비교 방법

CLIP 기반 방법: WinCLIP, APRIL-GAN, SDP, SDP+, AnomalyCLIP
SAM 기반 방법: SAA, SAA+
CLIP&SAM 협업 방법: ClipSAM

구현 세부사항

CLIP 모델: 사전훈련된 ViT-L-14-336 모델
SAM 모델: ViT-H 사전훈련 모델
최적화기: Adam, 학습률 1e-3
훈련 설정: VisA 데이터셋 3 에포크, MVTec-AD 데이터셋 15 에포크
하드웨어: NVIDIA GeForce RTX 3090, 배치 크기 16

실험 결과

주요 결과

방법 카테고리	방법	MVTec-AD			VisA
		AUROC	F1-max	AP	AUROC	F1-max	AP
CLIP 기반	WinCLIP	85.1	31.7	-	79.6	14.8	-
	APRIL-GAN	87.6	43.3	40.8	94.2	32.3	25.7
	AnomalyCLIP	91.1	39.1	34.5	95.5	28.3	21.3
SAM 기반	SAA+	73.2	37.8	28.8	74.0	27.1	22.4
CLIP&SAM	ClipSAM	92.3	47.8	45.9	95.6	33.1	26.0
본 논문	제안 방법	89.5	48.8	46.4	94.8	36.5	28.0

주요 발견:

F1-max와 AP 지표에서 기존 방법을 전면적으로 초월
VisA 데이터셋에서 F1-max 10.3% 향상, AP 7.7% 향상
MVTec-AD 데이터셋에서 F1-max 2.1% 향상, AP 1.1% 향상
AUROC 지표는 최고 방법보다 약간 낮은데, 이는 SAM 분할 결과에 의존하여 이상 영역이 확장되기 때문

소거 실험

팽창 함수 매개변수 영향

다양한 커널 형태와 크기가 성능에 미치는 영향을 테스트:

형태	크기	AUROC	F1-max	AP
타원	(25,25)	89.5	48.8	46.4
직사각형	(20,20)	89.5	47.7	45.6
십자	(25,25)	89.2	46.5	44.1

결론: 타원형 커널(25,25)이 최고 성능 달성.

계단식 단계 효과

계단식 단계	AUROC	F1-max	AP
포인트 프롬프트만	88.7	42.5	39.2
포인트 + logit1	88.1	46.8	44.8
포인트 + 박스 + logit2	89.5	48.8	46.4

주요 발견:

2단계 계단식이 F1-max 4.3%, AP 5.6% 증가
3단계 계단식이 F1-max 2%, AP 1.6% 추가 향상

사례 분석

시각화 결과는 다음을 보여준다:

CLIP 기반 방법은 이상을 정확하게 위치 파악하지만 경계가 모호함
SAM 기반 방법은 경계가 명확하지만 위치 파악이 부정확함
본 논문의 방법은 정확한 위치 파악과 명확한 경계를 동시에 실현

결론 및 논의

주요 결론

제안된 CLIP-SAM 협업 프레임워크는 두 기초 모델의 장점을 효과적으로 결합
PPG와 CPS 모듈은 제로샷 이상 분할 성능을 현저히 향상
여러 데이터셋에서 최첨단 성능 수준 달성

한계

추론 속도: 두 모델 사용으로 인한 느린 추론 시간
AUROC 성능: AUROC 지표에서 일부 방법보다 약간 낮은 성능
계산 자원: 상당한 계산 자원 필요

향후 방향

저자는 다양한 모델의 장점을 효율적이고 경량으로 통합하여 이상 분할 능력을 향상시키는 방법을 계속 탐색할 것으로 언급했다.

심층 평가

장점

방법의 혁신성이 강함: PPG와 CPS 모듈 설계가 정교하며 기존 방법의 한계를 효과적으로 해결
실험이 충분함: 여러 데이터셋에서 포괄적인 비교 및 소거 실험 수행
성능 향상이 현저함: 주요 지표에서 대폭적인 향상 달성
기술 세부사항이 명확함: 방법 설명이 상세하고 공식 유도가 명확함

부족한 점

계산 효율성 문제: 저자가 추가 오버헤드가 100밀리초에 불과하다고 주장하지만 전체 추론 시간은 여전히 길음
AUROC 성능 저하: 중요한 AUROC 지표에서 성능이 저하되어 추가 최적화 필요
일반화 능력 평가: 두 데이터셋에서만 평가되어 일반화 능력의 광범위한 검증 필요

영향력

학술 기여: 제로샷 이상 탐지 분야에 새로운 사고방식과 방법 제공
실용적 가치: 산업 이상 탐지에 중요한 응용 가치 보유
재현성: 방법 설명이 상세하고 구현 세부사항이 명확하여 재현 용이

적용 시나리오

산업 품질 검사
의료 이미지 이상 탐지
보안 감시 이상 사건 탐지
제로샷 이상 분할이 필요한 기타 응용 시나리오

참고문헌

논문은 기초 모델, 이상 탐지, 컴퓨터 비전 등 다양한 분야의 중요 연구를 포함한 40편의 관련 문헌을 인용하고 있으며, 문헌 검토가 비교적 포괄적이다.

종합 평가: 본 논문이 제안한 CLIP-SAM 협업 프레임워크는 기술적으로 혁신성을 가지고 있으며 실험 결과가 인상적이다. 계산 효율성과 일부 지표에서 개선 여지가 있지만, 전반적으로 제로샷 이상 탐지 분야에 중요한 기여를 하였으며 높은 학술적 가치와 실용적 가치를 가진다.