2025-11-12T14:13:10.569513

Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts

Hou, Xu, Li et al.
Recently, the powerful generalization ability exhibited by foundation models has brought forth new solutions for zero-shot anomaly segmentation tasks. However, guiding these foundation models correctly to address downstream tasks remains a challenge. This paper proposes a novel two-stage framework, for zero-shot anomaly segmentation tasks in industrial anomaly detection. This framework excellently leverages the powerful anomaly localization capability of CLIP and the boundary perception ability of SAM.(1) To mitigate SAM's inclination towards object segmentation, we propose the Co-Feature Point Prompt Generation (PPG) module. This module collaboratively utilizes CLIP and SAM to generate positive and negative point prompts, guiding SAM to focus on segmenting anomalous regions rather than the entire object. (2) To further optimize SAM's segmentation results and mitigate rough boundaries and isolated noise, we introduce the Cascaded Prompts for SAM (CPS) module. This module employs hybrid prompts cascaded with a lightweight decoder of SAM, achieving precise segmentation of anomalous regions. Across multiple datasets, consistent experimental validation demonstrates that our approach achieves state-of-the-art zero-shot anomaly segmentation results. Particularly noteworthy is our performance on the Visa dataset, where we outperform the state-of-the-art methods by 10.3\% and 7.7\% in terms of {$F_1$-max} and AP metrics, respectively.
academic

Miglioramento della Rilevazione di Anomalie Zero-Shot: Collaborazione CLIP-SAM con Prompt a Cascata

Informazioni Fondamentali

  • ID Articolo: 2510.11028
  • Titolo: Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts
  • Autori: Yanning Hou, Ke Xu, Junfa Li, Yanran Ruan, Jianfeng Qiu (Scuola di Intelligenza Artificiale, Università di Anhui)
  • Classificazione: cs.CV (Visione Artificiale)
  • Data di Pubblicazione: 13 ottobre 2025 (preprint arXiv)
  • Link dell'Articolo: https://arxiv.org/abs/2510.11028v1

Riassunto

Questo articolo propone un innovativo framework a due stadi per il compito di segmentazione di anomalie zero-shot nella rilevazione di anomalie industriali. Il framework sfrutta pienamente la potente capacità di localizzazione delle anomalie di CLIP e la capacità di percezione dei bordi di SAM. Attraverso il modulo Co-Feature Point Prompt Generation (PPG) e il modulo Cascaded Prompts for SAM (CPS), il metodo raggiunge risultati all'avanguardia nella segmentazione di anomalie zero-shot su molteplici dataset, in particolare sul dataset VisA, dove gli indicatori F1-max e AP superano i metodi migliori esistenti rispettivamente del 10,3% e del 7,7%.

Contesto di Ricerca e Motivazione

1. Problema da Risolvere

Questo articolo affronta principalmente il compito di segmentazione di anomalie zero-shot (Zero-Shot Anomaly Segmentation, ZSAS), in particolare negli scenari di rilevazione di anomalie industriali, dove è necessario localizzare e segmentare accuratamente le regioni anomale nelle immagini senza dati di addestramento su campioni anomali.

2. Importanza del Problema

  • Scarsità di Dati: I campioni anomali sono rari negli scenari industriali, e i metodi tradizionali richiedono grandi quantità di dati annotati
  • Diversità dei Tipi di Anomalie: Le anomalie variano notevolmente nelle applicazioni pratiche, difficili da definire preventivamente
  • Esigenze Industriali: L'industria gestisce milioni di categorie di prodotti, rendendo impraticabili i metodi di apprendimento supervisionato tradizionali

3. Limitazioni dei Metodi Esistenti

  • Metodi Basati su CLIP: Sebbene possano localizzare efficacemente le anomalie, hanno scarsa capacità di percezione dei bordi e risultati di segmentazione grossolani
  • Metodi Basati su SAM: Possiedono potente capacità di percezione dei bordi, ma capacità di localizzazione limitata, tendendo a segmentare l'intero oggetto anziché l'area anomala
  • Metodi di Collaborazione CLIP&SAM Esistenti: Non sfruttano pienamente i vantaggi reciproci dei due modelli, con strategie di prompt eccessivamente rigide

4. Motivazione della Ricerca

Basandosi sulla potente capacità di generalizzazione dei modelli fondamentali (CLIP e SAM), progettare un framework di collaborazione efficace che sfrutti pienamente la capacità di localizzazione delle anomalie di CLIP e la capacità di segmentazione precisa di SAM, realizzando una segmentazione di anomalie zero-shot di alta qualità.

Contributi Principali

  1. Framework di Collaborazione CLIP-SAM Innovativo: Progettazione di un framework di segmentazione di anomalie zero-shot a due stadi che combina efficacemente la capacità di localizzazione delle anomalie di CLIP e la capacità di percezione dei bordi di SAM
  2. Modulo Co-Feature Point Prompt Generation (PPG): Generazione di prompt di punti positivi e negativi sfruttando collaborativamente CLIP e SAM, guidando SAM a concentrarsi sulla segmentazione delle aree anomale anziché dell'intero oggetto
  3. Modulo Cascaded Prompts for SAM (CPS): Introduzione innovativa di un meccanismo di prompt misto a cascata, ottimizzando ulteriormente i risultati di segmentazione di SAM, eliminando bordi grossolani e rumore isolato
  4. Raggiungimento di Prestazioni all'Avanguardia: Ottenimento di miglioramenti significativi delle prestazioni su molteplici dataset, in particolare sul dataset VisA con miglioramenti di F1-max e AP rispettivamente del 10,3% e del 7,7%

Spiegazione Dettagliata del Metodo

Definizione del Compito

Il compito di segmentazione di anomalie zero-shot è definito come: data un'immagine di test, localizzare e segmentare accuratamente le regioni anomale nell'immagine senza dati di addestramento su campioni anomali, producendo una maschera di anomalia a livello di pixel.

Architettura del Modello

Architettura Complessiva

Il framework adotta un design a due stadi:

  1. Primo Stadio: Il modulo PPG genera prompt di punti iniziali
  2. Secondo Stadio: Il modulo CPS ottimizza i risultati di segmentazione attraverso prompt a cascata

Progettazione Dettagliata del Modulo PPG

Localizzazione dei Punti Positivi:

Ra = Sa ⊗ Mapa                    (1)
Ph = Topk(Ra)                     (2)

Dove Sa è la regione di anomalia estrema, Mapa è la mappa di anomalia generata da CLIP, Ra è l'intersezione dei due, Ph sono i top-k punti anomali selezionati come prompt di punti positivi.

Localizzazione dei Punti Negativi:

Na = dilate(Sa) - Sa              (3)
F = EncI(img)                     (4)
Fa = F ⊗ Sa, Fn = F ⊗ Na         (5)
Maps = Similarity(Fa, Fn)         (6)
Pl = Lowestk(Maps)                (7)

Ottenimento della regione attorno all'area anomala Na attraverso la funzione di dilatazione, estrazione delle caratteristiche F utilizzando l'encoder di immagini di SAM, calcolo della similarità del coseno tra le caratteristiche della regione anomala e della regione circostante, selezione dei k pixel con similarità più bassa come prompt di punti negativi.

Progettazione Dettagliata del Modulo CPS

Struttura a Tre Livelli a Cascata:

  1. Solo Prompt di Punti:
P = Contact(Ph, Pl)               (8)
M1, logit1 = Decm(F, P)           (9)
  1. Prompt di Punti + Logit:
M2, logit2 = Decm(F, Contact(P, logit1))    (10)
  1. Prompt di Punti + Bounding Box + Logit:
box = Flocation(M2)               (11)
M3 = Decm(F, Contact(P, box, logit2))       (12)

Punti di Innovazione Tecnica

  1. Sfruttamento Collaborativo delle Caratteristiche: A differenza dei metodi esistenti che elaborano in serie, il modulo PPG sfrutta simultaneamente le caratteristiche di CLIP e SAM per la generazione di prompt di punti
  2. Selezione Intelligente dei Punti Negativi: Attraverso la funzione di dilatazione e il calcolo della similarità delle caratteristiche, selezione di prompt di punti negativi più efficaci, evitando che SAM segmenti l'intero oggetto
  3. Rafforzamento Progressivo dei Vincoli: Il modulo CPS rafforza progressivamente i vincoli su SAM attraverso tre livelli a cascata, realizzando una segmentazione precisa
  4. Progettazione Leggera: Utilizzo solo del decoder leggero di SAM per l'ottimizzazione iterativa, con overhead computazionale aggiuntivo di soli 100 millisecondi

Configurazione Sperimentale

Dataset

  • MVTec-AD: Contiene immagini di oggetti industriali ad alta risoluzione con annotazioni complete a livello di pixel
  • VisA: Dataset di rilevazione di anomalie industriali contenente molteplici tipi di anomalie

Metriche di Valutazione

  • AUROC: Riflette la capacità del modello di distinguere le classi a diversi livelli di soglia
  • F1-max: Media armonica di precisione e richiamo alla soglia ottimale
  • AP (Average Precision): Precisione a diversi livelli di richiamo

Metodi di Confronto

  • Metodi Basati su CLIP: WinCLIP, APRIL-GAN, SDP, SDP+, AnomalyCLIP
  • Metodi Basati su SAM: SAA, SAA+
  • Metodi di Collaborazione CLIP&SAM: ClipSAM

Dettagli di Implementazione

  • Modello CLIP: Modello ViT-L-14-336 pre-addestrato
  • Modello SAM: Modello ViT-H pre-addestrato
  • Ottimizzatore: Adam, tasso di apprendimento 1e-3
  • Configurazione di Addestramento: 3 epoch per dataset VisA, 15 epoch per dataset MVTec-AD
  • Hardware: NVIDIA GeForce RTX 3090, dimensione batch 16

Risultati Sperimentali

Risultati Principali

Categoria di MetodoMetodoMVTec-ADVisA
AUROCF1-maxAPAUROCF1-maxAP
Basato su CLIPWinCLIP85,131,7-79,614,8-
APRIL-GAN87,643,340,894,232,325,7
AnomalyCLIP91,139,134,595,528,321,3
Basato su SAMSAA+73,237,828,874,027,122,4
CLIP&SAMClipSAM92,347,845,995,633,126,0
Questo ArticoloNostro89,548,846,494,836,528,0

Scoperte Chiave:

  • Superamento completo dei metodi esistenti negli indicatori F1-max e AP
  • Miglioramento di F1-max del 10,3% e AP del 7,7% sul dataset VisA
  • Miglioramento di F1-max del 2,1% e AP dell'1,1% sul dataset MVTec-AD
  • L'indicatore AUROC leggermente inferiore al miglior metodo è dovuto all'espansione della regione anomala causata dalla dipendenza dai risultati di segmentazione di SAM

Esperimenti di Ablazione

Impatto dei Parametri della Funzione di Dilatazione

Test dell'impatto di diverse forme e dimensioni di kernel sulle prestazioni:

FormaDimensioneAUROCF1-maxAP
Ellisse(25,25)89,548,846,4
Rettangolo(20,20)89,547,745,6
Croce(25,25)89,246,544,1

Conclusione: Il kernel ellittico (25,25) raggiunge le migliori prestazioni.

Effetto dei Passaggi a Cascata

Stadio a CascataAUROCF1-maxAP
Solo prompt di punti88,742,539,2
Punti + logit188,146,844,8
Punti + box + logit289,548,846,4

Scoperte Chiave:

  • Il secondo livello a cascata aumenta F1-max del 4,3% e AP del 5,6%
  • Il terzo livello a cascata migliora ulteriormente F1-max del 2% e AP dell'1,6%

Analisi dei Casi

I risultati di visualizzazione mostrano:

  • I metodi basati su CLIP localizzano accuratamente le anomalie ma con bordi sfocati
  • I metodi basati su SAM hanno bordi nitidi ma localizzazione imprecisa
  • Il nostro metodo realizza simultaneamente localizzazione accurata e bordi nitidi

Lavori Correlati

Modelli Fondamentali

  • CLIP: Primo modello pre-addestrato su coppie immagine-testo a scala web, con potente capacità di allineamento multimodale
  • SAM: Dimostra potente capacità di segmentazione di oggetti nel mondo aperto, in grado di realizzare segmentazione di alta qualità utilizzando vari prompt

Metodi di Segmentazione di Anomalie Zero-Shot

  1. Metodi Basati su CLIP: Utilizzo di tecniche come finestre scorrevoli e caratteristiche multistrato, ma con capacità di percezione dei bordi limitata
  2. Metodi Basati su SAM: Possiedono potente capacità di percezione dei bordi, ma capacità di localizzazione limitata
  3. Metodi di Collaborazione CLIP&SAM: I metodi esistenti non sfruttano pienamente i vantaggi complementari dei due modelli

Vantaggi di Questo Articolo

Rispetto ai lavori esistenti, questo articolo sfrutta meglio i vantaggi dei due modelli fondamentali attraverso lo sfruttamento collaborativo delle caratteristiche e il meccanismo di prompt a cascata.

Conclusioni e Discussione

Conclusioni Principali

  1. Il framework di collaborazione CLIP-SAM proposto combina efficacemente i vantaggi dei due modelli fondamentali
  2. I moduli PPG e CPS migliorano significativamente le prestazioni di segmentazione di anomalie zero-shot
  3. Raggiungimento di prestazioni all'avanguardia su molteplici dataset

Limitazioni

  1. Velocità di Inferenza: L'utilizzo di due modelli comporta tempi di inferenza più lunghi
  2. Prestazioni AUROC: Leggermente inferiori a alcuni metodi nell'indicatore AUROC
  3. Risorse Computazionali: Richiede risorse computazionali considerevoli

Direzioni Future

Gli autori menzionano l'intenzione di continuare l'esplorazione su come integrare efficientemente e leggermente i vantaggi di diversi modelli per migliorare la capacità di segmentazione di anomalie.

Valutazione Approfondita

Punti di Forza

  1. Forte Innovazione del Metodo: La progettazione dei moduli PPG e CPS è ingegnosa, risolvendo efficacemente le limitazioni dei metodi esistenti
  2. Esperimenti Completi: Confronti e esperimenti di ablazione completi su molteplici dataset
  3. Miglioramenti Significativi delle Prestazioni: Miglioramenti sostanziali negli indicatori chiave
  4. Dettagli Tecnici Chiari: Descrizione dettagliata del metodo, derivazioni formali chiare

Insufficienze

  1. Problema di Efficienza Computazionale: Sebbene gli autori affermino che l'overhead aggiuntivo sia di soli 100 millisecondi, il tempo di inferenza complessivo rimane lungo
  2. Calo delle Prestazioni AUROC: Calo di prestazioni nell'importante indicatore AUROC, richiedendo ulteriore ottimizzazione
  3. Valutazione della Capacità di Generalizzazione: Valutazione su soli due dataset, la capacità di generalizzazione richiede verifica più ampia

Impatto

  1. Contributo Accademico: Fornisce nuove prospettive e metodi per il campo della rilevazione di anomalie zero-shot
  2. Valore Pratico: Possiede importante valore applicativo nella rilevazione di anomalie industriali
  3. Riproducibilità: Descrizione dettagliata del metodo, dettagli di implementazione chiari, facilitando la riproduzione

Scenari Applicabili

  • Ispezione della qualità industriale
  • Rilevazione di anomalie in immagini mediche
  • Rilevazione di eventi anomali nella sorveglianza di sicurezza
  • Altri scenari applicativi che richiedono segmentazione di anomalie zero-shot

Bibliografia

L'articolo cita 40 articoli correlati, coprendo importanti lavori in molteplici campi come modelli fondamentali, rilevazione di anomalie e visione artificiale, con una revisione della letteratura relativamente completa.


Valutazione Complessiva: Il framework di collaborazione CLIP-SAM proposto in questo articolo è innovativo dal punto di vista tecnico, con risultati sperimentali impressionanti. Sebbene vi sia ancora spazio per miglioramenti in termini di efficienza computazionale e alcuni indicatori, nel complesso fornisce contributi importanti al campo della rilevazione di anomalie zero-shot, con notevole valore accademico e pratico.