2025-11-12T14:13:10.569513

Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts

Hou, Xu, Li et al.
Recently, the powerful generalization ability exhibited by foundation models has brought forth new solutions for zero-shot anomaly segmentation tasks. However, guiding these foundation models correctly to address downstream tasks remains a challenge. This paper proposes a novel two-stage framework, for zero-shot anomaly segmentation tasks in industrial anomaly detection. This framework excellently leverages the powerful anomaly localization capability of CLIP and the boundary perception ability of SAM.(1) To mitigate SAM's inclination towards object segmentation, we propose the Co-Feature Point Prompt Generation (PPG) module. This module collaboratively utilizes CLIP and SAM to generate positive and negative point prompts, guiding SAM to focus on segmenting anomalous regions rather than the entire object. (2) To further optimize SAM's segmentation results and mitigate rough boundaries and isolated noise, we introduce the Cascaded Prompts for SAM (CPS) module. This module employs hybrid prompts cascaded with a lightweight decoder of SAM, achieving precise segmentation of anomalous regions. Across multiple datasets, consistent experimental validation demonstrates that our approach achieves state-of-the-art zero-shot anomaly segmentation results. Particularly noteworthy is our performance on the Visa dataset, where we outperform the state-of-the-art methods by 10.3\% and 7.7\% in terms of {$F_1$-max} and AP metrics, respectively.
academic

ゼロショット異常検出の強化:カスケード型プロンプトを用いたCLIP-SAM協働

基本情報

  • 論文ID: 2510.11028
  • タイトル: Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts
  • 著者: Yanning Hou, Ke Xu, Junfa Li, Yanran Ruan, Jianfeng Qiu(安徽大学人工知能学院)
  • 分類: cs.CV(コンピュータビジョン)
  • 発表日: 2025年10月13日(arXivプレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.11028v1

要約

本論文は、産業異常検出におけるゼロショット異常セグメンテーション課題に対する新規な二段階フレームワークを提案している。本フレームワークはCLIPの強力な異常定位能力とSAMの境界認識能力を十分に活用している。Co-Feature Point Prompt Generation(PPG)モジュールとCascaded Prompts for SAM(CPS)モジュールを通じて、複数のデータセットで最先端のゼロショット異常セグメンテーション結果を実現し、特にVisAデータセットではF1-maxおよびAP指標が既存の最良手法と比べてそれぞれ10.3%および7.7%向上している。

研究背景と動機

1. 解決すべき問題

本論文は主にゼロショット異常セグメンテーション(Zero-Shot Anomaly Segmentation, ZSAS)課題を解決するもので、特に産業異常検出シナリオにおいて、異常サンプルの訓練データなしに、画像内の異常領域を正確に定位およびセグメント化する必要がある。

2. 問題の重要性

  • データ稀少性:産業シナリオでは異常サンプルが稀少であり、従来の手法は大量の注釈付きデータを必要とする
  • 異常タイプの多様性:実際の応用では異常タイプが多様に変化し、事前定義が困難である
  • 産業ニーズ:産業界は数百万の製品カテゴリを処理する必要があり、従来の教師あり学習手法は非現実的である

3. 既存手法の限界

  • CLIPベースの手法:異常の効果的な定位は可能だが、境界認識能力が低く、セグメンテーション結果が粗い
  • SAMベースの手法:強力な境界認識能力を持つが、定位能力が限定的であり、異常領域ではなくオブジェクト全体をセグメント化しやすい
  • 既存のCLIP&SAM協働手法:両モデルの各々の利点を十分に活用しておらず、プロンプト戦略が過度に固定化されている

4. 研究動機

基礎モデル(CLIPおよびSAM)の強力な汎化能力に基づき、CLIPの異常定位能力とSAMの精密セグメンテーション能力を十分に発揮する効果的な協働フレームワークを設計し、高品質なゼロショット異常セグメンテーションを実現する。

核心的貢献

  1. 新規なCLIP-SAM協働フレームワークの提案:CLIPの異常定位能力とSAMの境界認識能力を効果的に結合した二段階のゼロショット異常セグメンテーションフレームワークを設計
  2. Co-Feature Point Prompt Generation(PPG)モジュール:CLIPとSAMを協働的に利用して正負点プロンプトを生成し、SAMがオブジェクト全体ではなく異常領域のセグメンテーションに専念するよう誘導
  3. Cascaded Prompts for SAM(CPS)モジュール:革新的にカスケード型混合プロンプト機構を導入し、SAMのセグメンテーション結果をさらに最適化し、粗い境界と孤立したノイズを除去
  4. 最先端性能の達成:複数のデータセットで顕著な性能向上を実現し、特にVisAデータセットではF1-maxおよびAP指標がそれぞれ10.3%および7.7%向上

方法の詳細説明

課題定義

ゼロショット異常セグメンテーション課題は以下のように定義される:与えられたテスト画像に対して、異常サンプルの訓練データなしに、画像内の異常領域を正確に識別およびセグメント化し、ピクセルレベルの異常マスクを出力する。

モデルアーキテクチャ

全体アーキテクチャ

本フレームワークは二段階設計を採用している:

  1. 第一段階:PPGモジュールが初期点プロンプトを生成
  2. 第二段階:CPSモジュールがカスケード型プロンプトを通じてセグメンテーション結果を最適化

PPGモジュールの詳細設計

正点の定位

Ra = Sa ⊗ Mapa                    (1)
Ph = Topk(Ra)                     (2)

ここでSaは極端な異常領域、MapaはCLIPが生成した異常マップ、Raは両者の交集合、Phは選択されたtop-k異常点を正点プロンプトとして表す。

負点の定位

Na = dilate(Sa) - Sa              (3)
F = EncI(img)                     (4)
Fa = F ⊗ Sa, Fn = F ⊗ Na         (5)
Maps = Similarity(Fa, Fn)         (6)
Pl = Lowestk(Maps)                (7)

膨張関数を通じて異常領域周辺領域Naを取得し、SAM画像エンコーダを利用して特徴Fを抽出し、異常領域と周辺領域特徴のコサイン類似度を計算し、類似度が最も低いk個のピクセルを負点プロンプトとして選択する。

CPSモジュールの詳細設計

三段階カスケード構造

  1. 点プロンプトのみ
P = Contact(Ph, Pl)               (8)
M1, logit1 = Decm(F, P)           (9)
  1. 点+logitプロンプト
M2, logit2 = Decm(F, Contact(P, logit1))    (10)
  1. 点+バウンディングボックス+logitプロンプト
box = Flocation(M2)               (11)
M3 = Decm(F, Contact(P, box, logit2))       (12)

技術的革新点

  1. 協働的特徴利用:既存手法の直列処理と異なり、PPGモジュールはCLIPとSAMの特徴を同時に利用して点プロンプトを生成
  2. インテリジェントな負点選択:膨張関数と特徴類似度計算を通じて、より効果的な負点プロンプトを選択し、SAMがオブジェクト全体をセグメント化することを回避
  3. 段階的制約強化:CPSモジュールは三段階カスケードを通じてSAMへの制約を段階的に強化し、精密なセグメンテーションを実現
  4. 軽量設計:SAMの軽量デコーダのみを使用して反復最適化を行い、追加計算オーバーヘッドはわずか100ミリ秒

実験設定

データセット

  • MVTec-AD:高解像度産業オブジェクト画像を含み、完全なピクセルレベルの注釈を備えている
  • VisA:産業異常検出データセット、複数の異常タイプを含む

評価指標

  • AUROC:異なる閾値レベルでクラスを区別するモデルの能力を反映
  • F1-max:最適閾値下での適合率と再現率の調和平均
  • AP(Average Precision):異なる再現率レベルでの適合度

比較手法

  • CLIPベース手法:WinCLIP、APRIL-GAN、SDP、SDP+、AnomalyCLIP
  • SAMベース手法:SAA、SAA+
  • CLIP&SAM協働手法:ClipSAM

実装詳細

  • CLIPモデル:事前訓練済みViT-L-14-336モデル
  • SAMモデル:ViT-H事前訓練モデル
  • オプティマイザ:Adam、学習率1e-3
  • 訓練設定:VisAデータセット3エポック、MVTec-ADデータセット15エポック
  • ハードウェア:NVIDIA GeForce RTX 3090、バッチサイズ16

実験結果

主要結果

手法カテゴリ手法MVTec-ADVisA
AUROCF1-maxAPAUROCF1-maxAP
CLIPベースWinCLIP85.131.7-79.614.8-
APRIL-GAN87.643.340.894.232.325.7
AnomalyCLIP91.139.134.595.528.321.3
SAMベースSAA+73.237.828.874.027.122.4
CLIP&SAMClipSAM92.347.845.995.633.126.0
本論文提案手法89.548.846.494.836.528.0

主要な知見

  • F1-maxおよびAP指標で既存手法を全面的に上回る
  • VisAデータセットではF1-maxが10.3%、APが7.7%向上
  • MVTec-ADデータセットではF1-maxが2.1%、APが1.1%向上
  • AUROC指標は最良手法よりやや低い。これはSAMセグメンテーション結果に依存することで異常領域が拡張されるためである

アブレーション実験

膨張関数パラメータの影響

異なるカーネル形状とサイズが性能に与える影響をテスト:

形状サイズAUROCF1-maxAP
楕円(25,25)89.548.846.4
矩形(20,20)89.547.745.6
十字(25,25)89.246.544.1

結論:楕円形カーネル(25,25)が最良の性能を達成。

カスケード段階の効果

カスケード段階AUROCF1-maxAP
点プロンプトのみ88.742.539.2
点+logit188.146.844.8
点+box+logit289.548.846.4

主要な知見

  • 第二段階でF1-maxが4.3%、APが5.6%向上
  • 第三段階でさらにF1-maxが2%、APが1.6%向上

ケース分析

可視化結果は以下を示している:

  • CLIPベース手法は異常を正確に定位するが境界が曖昧
  • SAMベース手法は境界が明確だが定位が不正確
  • 本論文の手法は正確な定位と明確な境界を同時に実現

関連研究

基礎モデル

  • CLIP:ネットワーク規模の画像テキストペアで事前訓練された最初のモデル、強力なマルチモーダル対齢能力を持つ
  • SAM:強力なオープンワールドオブジェクトセグメンテーション能力を示し、様々なプロンプトを利用して高品質なセグメンテーションを実現できる

ゼロショット異常セグメンテーション手法

  1. CLIPベース手法:スライディングウィンドウ、多層特徴などの技術を利用するが、境界認識能力が限定的
  2. SAMベース手法:強力な境界認識能力を持つが、定位能力が制限される
  3. CLIP&SAM協働手法:既存手法は両モデルの相補的な利点を十分に活用していない

本論文の利点

協働的特徴利用とカスケード型プロンプト機構を通じて、既存研究と比べて両基礎モデルの利点をより良く発揮している。

結論と考察

主要な結論

  1. 提案されたCLIP-SAM協働フレームワークは両基礎モデルの利点を効果的に結合している
  2. PPGおよびCPSモジュールはゼロショット異常セグメンテーション性能を顕著に向上させる
  3. 複数のデータセットで最先端の性能レベルを達成している

限界

  1. 推論速度:二つのモデルの使用により推論時間が長くなる
  2. AUROC性能:AUROC指標では一部の手法よりやや劣る
  3. 計算リソース:相当な計算リソースが必要である

今後の方向性

著者は異なるモデルの利点を効率的かつ軽量に統合し、異常セグメンテーション能力を向上させる方法の探索を継続することを述べている。

深層的評価

利点

  1. 手法の革新性が強い:PPGおよびCPSモジュールの設計は巧妙で、既存手法の限界を効果的に解決している
  2. 実験が充分:複数のデータセットで包括的な比較およびアブレーション実験を実施
  3. 性能向上が顕著:主要指標で大幅な向上を達成
  4. 技術詳細が明確:手法の説明が詳細で、公式の導出が明確

不足点

  1. 計算効率の問題:著者は追加オーバーヘッドがわずか100ミリ秒と主張しているが、全体的な推論時間はまだ長い
  2. AUROC性能の低下:重要なAUROC指標で性能が低下しており、さらなる最適化が必要
  3. 汎化能力の評価:二つのデータセットのみでの評価であり、汎化能力のより広範な検証が必要

影響力

  1. 学術的貢献:ゼロショット異常検出分野に新しい思考と手法を提供
  2. 実用的価値:産業異常検出において重要な応用価値を持つ
  3. 再現性:手法の説明が詳細で実装詳細が明確であり、再現が容易

適用シナリオ

  • 産業品質検査
  • 医学画像異常検出
  • セキュリティ監視異常事象検出
  • ゼロショット異常セグメンテーションが必要なその他の応用シナリオ

参考文献

本論文は基礎モデル、異常検出、コンピュータビジョンなど複数の分野の重要な研究を網羅した40篇の関連文献を引用しており、文献レビューは比較的包括的である。


総合評価:本論文が提案するCLIP-SAM協働フレームワークは技術的に革新的であり、実験結果は印象的である。計算効率と一部の指標にはまだ改善の余地があるが、全体的にはゼロショット異常検出分野に重要な貢献をしており、高い学術的価値と実用的価値を持つ。