2025-11-12T14:13:10.569513

Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts

Hou, Xu, Li et al.

Recently, the powerful generalization ability exhibited by foundation models has brought forth new solutions for zero-shot anomaly segmentation tasks. However, guiding these foundation models correctly to address downstream tasks remains a challenge. This paper proposes a novel two-stage framework, for zero-shot anomaly segmentation tasks in industrial anomaly detection. This framework excellently leverages the powerful anomaly localization capability of CLIP and the boundary perception ability of SAM.(1) To mitigate SAM's inclination towards object segmentation, we propose the Co-Feature Point Prompt Generation (PPG) module. This module collaboratively utilizes CLIP and SAM to generate positive and negative point prompts, guiding SAM to focus on segmenting anomalous regions rather than the entire object. (2) To further optimize SAM's segmentation results and mitigate rough boundaries and isolated noise, we introduce the Cascaded Prompts for SAM (CPS) module. This module employs hybrid prompts cascaded with a lightweight decoder of SAM, achieving precise segmentation of anomalous regions. Across multiple datasets, consistent experimental validation demonstrates that our approach achieves state-of-the-art zero-shot anomaly segmentation results. Particularly noteworthy is our performance on the Visa dataset, where we outperform the state-of-the-art methods by 10.3\% and 7.7\% in terms of {$F_1$-max} and AP metrics, respectively.

academic

ゼロショット異常検出の強化：カスケード型プロンプトを用いたCLIP-SAM協働

基本情報

論文ID: 2510.11028
タイトル: Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts
著者: Yanning Hou, Ke Xu, Junfa Li, Yanran Ruan, Jianfeng Qiu（安徽大学人工知能学院）
分類: cs.CV（コンピュータビジョン）
発表日: 2025年10月13日（arXivプレプリント）
論文リンク: https://arxiv.org/abs/2510.11028v1

要約

本論文は、産業異常検出におけるゼロショット異常セグメンテーション課題に対する新規な二段階フレームワークを提案している。本フレームワークはCLIPの強力な異常定位能力とSAMの境界認識能力を十分に活用している。Co-Feature Point Prompt Generation（PPG）モジュールとCascaded Prompts for SAM（CPS）モジュールを通じて、複数のデータセットで最先端のゼロショット異常セグメンテーション結果を実現し、特にVisAデータセットではF1-maxおよびAP指標が既存の最良手法と比べてそれぞれ10.3%および7.7%向上している。

研究背景と動機

1. 解決すべき問題

本論文は主にゼロショット異常セグメンテーション（Zero-Shot Anomaly Segmentation, ZSAS）課題を解決するもので、特に産業異常検出シナリオにおいて、異常サンプルの訓練データなしに、画像内の異常領域を正確に定位およびセグメント化する必要がある。

2. 問題の重要性

データ稀少性：産業シナリオでは異常サンプルが稀少であり、従来の手法は大量の注釈付きデータを必要とする
異常タイプの多様性：実際の応用では異常タイプが多様に変化し、事前定義が困難である
産業ニーズ：産業界は数百万の製品カテゴリを処理する必要があり、従来の教師あり学習手法は非現実的である

3. 既存手法の限界

CLIPベースの手法：異常の効果的な定位は可能だが、境界認識能力が低く、セグメンテーション結果が粗い
SAMベースの手法：強力な境界認識能力を持つが、定位能力が限定的であり、異常領域ではなくオブジェクト全体をセグメント化しやすい
既存のCLIP&SAM協働手法：両モデルの各々の利点を十分に活用しておらず、プロンプト戦略が過度に固定化されている

4. 研究動機

基礎モデル（CLIPおよびSAM）の強力な汎化能力に基づき、CLIPの異常定位能力とSAMの精密セグメンテーション能力を十分に発揮する効果的な協働フレームワークを設計し、高品質なゼロショット異常セグメンテーションを実現する。

核心的貢献

新規なCLIP-SAM協働フレームワークの提案：CLIPの異常定位能力とSAMの境界認識能力を効果的に結合した二段階のゼロショット異常セグメンテーションフレームワークを設計
Co-Feature Point Prompt Generation（PPG）モジュール：CLIPとSAMを協働的に利用して正負点プロンプトを生成し、SAMがオブジェクト全体ではなく異常領域のセグメンテーションに専念するよう誘導
Cascaded Prompts for SAM（CPS）モジュール：革新的にカスケード型混合プロンプト機構を導入し、SAMのセグメンテーション結果をさらに最適化し、粗い境界と孤立したノイズを除去
最先端性能の達成：複数のデータセットで顕著な性能向上を実現し、特にVisAデータセットではF1-maxおよびAP指標がそれぞれ10.3%および7.7%向上

方法の詳細説明

課題定義

ゼロショット異常セグメンテーション課題は以下のように定義される：与えられたテスト画像に対して、異常サンプルの訓練データなしに、画像内の異常領域を正確に識別およびセグメント化し、ピクセルレベルの異常マスクを出力する。

モデルアーキテクチャ

全体アーキテクチャ

本フレームワークは二段階設計を採用している：

第一段階：PPGモジュールが初期点プロンプトを生成
第二段階：CPSモジュールがカスケード型プロンプトを通じてセグメンテーション結果を最適化

PPGモジュールの詳細設計

正点の定位：

Ra = Sa ⊗ Mapa                    (1)
Ph = Topk(Ra)                     (2)

ここでSaは極端な異常領域、MapaはCLIPが生成した異常マップ、Raは両者の交集合、Phは選択されたtop-k異常点を正点プロンプトとして表す。

負点の定位：

Na = dilate(Sa) - Sa              (3)
F = EncI(img)                     (4)
Fa = F ⊗ Sa, Fn = F ⊗ Na         (5)
Maps = Similarity(Fa, Fn)         (6)
Pl = Lowestk(Maps)                (7)

膨張関数を通じて異常領域周辺領域Naを取得し、SAM画像エンコーダを利用して特徴Fを抽出し、異常領域と周辺領域特徴のコサイン類似度を計算し、類似度が最も低いk個のピクセルを負点プロンプトとして選択する。

CPSモジュールの詳細設計

三段階カスケード構造：

点プロンプトのみ：

P = Contact(Ph, Pl)               (8)
M1, logit1 = Decm(F, P)           (9)

点+logitプロンプト：

M2, logit2 = Decm(F, Contact(P, logit1))    (10)

点+バウンディングボックス+logitプロンプト：

box = Flocation(M2)               (11)
M3 = Decm(F, Contact(P, box, logit2))       (12)

技術的革新点

協働的特徴利用：既存手法の直列処理と異なり、PPGモジュールはCLIPとSAMの特徴を同時に利用して点プロンプトを生成
インテリジェントな負点選択：膨張関数と特徴類似度計算を通じて、より効果的な負点プロンプトを選択し、SAMがオブジェクト全体をセグメント化することを回避
段階的制約強化：CPSモジュールは三段階カスケードを通じてSAMへの制約を段階的に強化し、精密なセグメンテーションを実現
軽量設計：SAMの軽量デコーダのみを使用して反復最適化を行い、追加計算オーバーヘッドはわずか100ミリ秒

実験設定

データセット

MVTec-AD：高解像度産業オブジェクト画像を含み、完全なピクセルレベルの注釈を備えている
VisA：産業異常検出データセット、複数の異常タイプを含む

評価指標

AUROC：異なる閾値レベルでクラスを区別するモデルの能力を反映
F1-max：最適閾値下での適合率と再現率の調和平均
AP（Average Precision）：異なる再現率レベルでの適合度

比較手法

CLIPベース手法：WinCLIP、APRIL-GAN、SDP、SDP+、AnomalyCLIP
SAMベース手法：SAA、SAA+
CLIP&SAM協働手法：ClipSAM

実装詳細

CLIPモデル：事前訓練済みViT-L-14-336モデル
SAMモデル：ViT-H事前訓練モデル
オプティマイザ：Adam、学習率1e-3
訓練設定：VisAデータセット3エポック、MVTec-ADデータセット15エポック
ハードウェア：NVIDIA GeForce RTX 3090、バッチサイズ16

実験結果

主要結果

手法カテゴリ	手法	MVTec-AD			VisA
		AUROC	F1-max	AP	AUROC	F1-max	AP
CLIPベース	WinCLIP	85.1	31.7	-	79.6	14.8	-
	APRIL-GAN	87.6	43.3	40.8	94.2	32.3	25.7
	AnomalyCLIP	91.1	39.1	34.5	95.5	28.3	21.3
SAMベース	SAA+	73.2	37.8	28.8	74.0	27.1	22.4
CLIP&SAM	ClipSAM	92.3	47.8	45.9	95.6	33.1	26.0
本論文	提案手法	89.5	48.8	46.4	94.8	36.5	28.0