2025-11-12T14:13:10.569513

Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts

Hou, Xu, Li et al.

Recently, the powerful generalization ability exhibited by foundation models has brought forth new solutions for zero-shot anomaly segmentation tasks. However, guiding these foundation models correctly to address downstream tasks remains a challenge. This paper proposes a novel two-stage framework, for zero-shot anomaly segmentation tasks in industrial anomaly detection. This framework excellently leverages the powerful anomaly localization capability of CLIP and the boundary perception ability of SAM.(1) To mitigate SAM's inclination towards object segmentation, we propose the Co-Feature Point Prompt Generation (PPG) module. This module collaboratively utilizes CLIP and SAM to generate positive and negative point prompts, guiding SAM to focus on segmenting anomalous regions rather than the entire object. (2) To further optimize SAM's segmentation results and mitigate rough boundaries and isolated noise, we introduce the Cascaded Prompts for SAM (CPS) module. This module employs hybrid prompts cascaded with a lightweight decoder of SAM, achieving precise segmentation of anomalous regions. Across multiple datasets, consistent experimental validation demonstrates that our approach achieves state-of-the-art zero-shot anomaly segmentation results. Particularly noteworthy is our performance on the Visa dataset, where we outperform the state-of-the-art methods by 10.3\% and 7.7\% in terms of {$F_1$-max} and AP metrics, respectively.

academic

Miglioramento della Rilevazione di Anomalie Zero-Shot: Collaborazione CLIP-SAM con Prompt a Cascata

Informazioni Fondamentali

ID Articolo: 2510.11028
Titolo: Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts
Autori: Yanning Hou, Ke Xu, Junfa Li, Yanran Ruan, Jianfeng Qiu (Scuola di Intelligenza Artificiale, Università di Anhui)
Classificazione: cs.CV (Visione Artificiale)
Data di Pubblicazione: 13 ottobre 2025 (preprint arXiv)
Link dell'Articolo: https://arxiv.org/abs/2510.11028v1

Riassunto

Questo articolo propone un innovativo framework a due stadi per il compito di segmentazione di anomalie zero-shot nella rilevazione di anomalie industriali. Il framework sfrutta pienamente la potente capacità di localizzazione delle anomalie di CLIP e la capacità di percezione dei bordi di SAM. Attraverso il modulo Co-Feature Point Prompt Generation (PPG) e il modulo Cascaded Prompts for SAM (CPS), il metodo raggiunge risultati all'avanguardia nella segmentazione di anomalie zero-shot su molteplici dataset, in particolare sul dataset VisA, dove gli indicatori F1-max e AP superano i metodi migliori esistenti rispettivamente del 10,3% e del 7,7%.

Contesto di Ricerca e Motivazione

1. Problema da Risolvere

Questo articolo affronta principalmente il compito di segmentazione di anomalie zero-shot (Zero-Shot Anomaly Segmentation, ZSAS), in particolare negli scenari di rilevazione di anomalie industriali, dove è necessario localizzare e segmentare accuratamente le regioni anomale nelle immagini senza dati di addestramento su campioni anomali.

2. Importanza del Problema

Scarsità di Dati: I campioni anomali sono rari negli scenari industriali, e i metodi tradizionali richiedono grandi quantità di dati annotati
Diversità dei Tipi di Anomalie: Le anomalie variano notevolmente nelle applicazioni pratiche, difficili da definire preventivamente
Esigenze Industriali: L'industria gestisce milioni di categorie di prodotti, rendendo impraticabili i metodi di apprendimento supervisionato tradizionali

3. Limitazioni dei Metodi Esistenti

Metodi Basati su CLIP: Sebbene possano localizzare efficacemente le anomalie, hanno scarsa capacità di percezione dei bordi e risultati di segmentazione grossolani
Metodi Basati su SAM: Possiedono potente capacità di percezione dei bordi, ma capacità di localizzazione limitata, tendendo a segmentare l'intero oggetto anziché l'area anomala
Metodi di Collaborazione CLIP&SAM Esistenti: Non sfruttano pienamente i vantaggi reciproci dei due modelli, con strategie di prompt eccessivamente rigide

4. Motivazione della Ricerca

Basandosi sulla potente capacità di generalizzazione dei modelli fondamentali (CLIP e SAM), progettare un framework di collaborazione efficace che sfrutti pienamente la capacità di localizzazione delle anomalie di CLIP e la capacità di segmentazione precisa di SAM, realizzando una segmentazione di anomalie zero-shot di alta qualità.

Contributi Principali

Framework di Collaborazione CLIP-SAM Innovativo: Progettazione di un framework di segmentazione di anomalie zero-shot a due stadi che combina efficacemente la capacità di localizzazione delle anomalie di CLIP e la capacità di percezione dei bordi di SAM
Modulo Co-Feature Point Prompt Generation (PPG): Generazione di prompt di punti positivi e negativi sfruttando collaborativamente CLIP e SAM, guidando SAM a concentrarsi sulla segmentazione delle aree anomale anziché dell'intero oggetto
Modulo Cascaded Prompts for SAM (CPS): Introduzione innovativa di un meccanismo di prompt misto a cascata, ottimizzando ulteriormente i risultati di segmentazione di SAM, eliminando bordi grossolani e rumore isolato
Raggiungimento di Prestazioni all'Avanguardia: Ottenimento di miglioramenti significativi delle prestazioni su molteplici dataset, in particolare sul dataset VisA con miglioramenti di F1-max e AP rispettivamente del 10,3% e del 7,7%

Spiegazione Dettagliata del Metodo

Definizione del Compito

Il compito di segmentazione di anomalie zero-shot è definito come: data un'immagine di test, localizzare e segmentare accuratamente le regioni anomale nell'immagine senza dati di addestramento su campioni anomali, producendo una maschera di anomalia a livello di pixel.

Architettura del Modello

Architettura Complessiva

Il framework adotta un design a due stadi:

Primo Stadio: Il modulo PPG genera prompt di punti iniziali
Secondo Stadio: Il modulo CPS ottimizza i risultati di segmentazione attraverso prompt a cascata

Progettazione Dettagliata del Modulo PPG

Localizzazione dei Punti Positivi:

Ra = Sa ⊗ Mapa                    (1)
Ph = Topk(Ra)                     (2)

Dove Sa è la regione di anomalia estrema, Mapa è la mappa di anomalia generata da CLIP, Ra è l'intersezione dei due, Ph sono i top-k punti anomali selezionati come prompt di punti positivi.

Localizzazione dei Punti Negativi:

Na = dilate(Sa) - Sa              (3)
F = EncI(img)                     (4)
Fa = F ⊗ Sa, Fn = F ⊗ Na         (5)
Maps = Similarity(Fa, Fn)         (6)
Pl = Lowestk(Maps)                (7)

Ottenimento della regione attorno all'area anomala Na attraverso la funzione di dilatazione, estrazione delle caratteristiche F utilizzando l'encoder di immagini di SAM, calcolo della similarità del coseno tra le caratteristiche della regione anomala e della regione circostante, selezione dei k pixel con similarità più bassa come prompt di punti negativi.

Progettazione Dettagliata del Modulo CPS

Struttura a Tre Livelli a Cascata:

Solo Prompt di Punti:

P = Contact(Ph, Pl)               (8)
M1, logit1 = Decm(F, P)           (9)

Prompt di Punti + Logit:

M2, logit2 = Decm(F, Contact(P, logit1))    (10)

Prompt di Punti + Bounding Box + Logit:

box = Flocation(M2)               (11)
M3 = Decm(F, Contact(P, box, logit2))       (12)

Punti di Innovazione Tecnica

Sfruttamento Collaborativo delle Caratteristiche: A differenza dei metodi esistenti che elaborano in serie, il modulo PPG sfrutta simultaneamente le caratteristiche di CLIP e SAM per la generazione di prompt di punti
Selezione Intelligente dei Punti Negativi: Attraverso la funzione di dilatazione e il calcolo della similarità delle caratteristiche, selezione di prompt di punti negativi più efficaci, evitando che SAM segmenti l'intero oggetto
Rafforzamento Progressivo dei Vincoli: Il modulo CPS rafforza progressivamente i vincoli su SAM attraverso tre livelli a cascata, realizzando una segmentazione precisa
Progettazione Leggera: Utilizzo solo del decoder leggero di SAM per l'ottimizzazione iterativa, con overhead computazionale aggiuntivo di soli 100 millisecondi

Configurazione Sperimentale

Dataset

MVTec-AD: Contiene immagini di oggetti industriali ad alta risoluzione con annotazioni complete a livello di pixel
VisA: Dataset di rilevazione di anomalie industriali contenente molteplici tipi di anomalie

Metriche di Valutazione

AUROC: Riflette la capacità del modello di distinguere le classi a diversi livelli di soglia
F1-max: Media armonica di precisione e richiamo alla soglia ottimale
AP (Average Precision): Precisione a diversi livelli di richiamo

Metodi di Confronto

Metodi Basati su CLIP: WinCLIP, APRIL-GAN, SDP, SDP+, AnomalyCLIP
Metodi Basati su SAM: SAA, SAA+
Metodi di Collaborazione CLIP&SAM: ClipSAM

Dettagli di Implementazione

Modello CLIP: Modello ViT-L-14-336 pre-addestrato
Modello SAM: Modello ViT-H pre-addestrato
Ottimizzatore: Adam, tasso di apprendimento 1e-3
Configurazione di Addestramento: 3 epoch per dataset VisA, 15 epoch per dataset MVTec-AD
Hardware: NVIDIA GeForce RTX 3090, dimensione batch 16

Risultati Sperimentali

Risultati Principali

Categoria di Metodo	Metodo	MVTec-AD			VisA
		AUROC	F1-max	AP	AUROC	F1-max	AP
Basato su CLIP	WinCLIP	85,1	31,7	-	79,6	14,8	-
	APRIL-GAN	87,6	43,3	40,8	94,2	32,3	25,7
	AnomalyCLIP	91,1	39,1	34,5	95,5	28,3	21,3
Basato su SAM	SAA+	73,2	37,8	28,8	74,0	27,1	22,4
CLIP&SAM	ClipSAM	92,3	47,8	45,9	95,6	33,1	26,0
Questo Articolo	Nostro	89,5	48,8	46,4	94,8	36,5	28,0

Scoperte Chiave:

Superamento completo dei metodi esistenti negli indicatori F1-max e AP
Miglioramento di F1-max del 10,3% e AP del 7,7% sul dataset VisA
Miglioramento di F1-max del 2,1% e AP dell'1,1% sul dataset MVTec-AD
L'indicatore AUROC leggermente inferiore al miglior metodo è dovuto all'espansione della regione anomala causata dalla dipendenza dai risultati di segmentazione di SAM

Esperimenti di Ablazione

Impatto dei Parametri della Funzione di Dilatazione

Test dell'impatto di diverse forme e dimensioni di kernel sulle prestazioni:

Forma	Dimensione	AUROC	F1-max	AP
Ellisse	(25,25)	89,5	48,8	46,4
Rettangolo	(20,20)	89,5	47,7	45,6
Croce	(25,25)	89,2	46,5	44,1

Conclusione: Il kernel ellittico (25,25) raggiunge le migliori prestazioni.

Effetto dei Passaggi a Cascata

Stadio a Cascata	AUROC	F1-max	AP
Solo prompt di punti	88,7	42,5	39,2
Punti + logit1	88,1	46,8	44,8
Punti + box + logit2	89,5	48,8	46,4

Scoperte Chiave:

Il secondo livello a cascata aumenta F1-max del 4,3% e AP del 5,6%
Il terzo livello a cascata migliora ulteriormente F1-max del 2% e AP dell'1,6%

Analisi dei Casi

I risultati di visualizzazione mostrano:

I metodi basati su CLIP localizzano accuratamente le anomalie ma con bordi sfocati
I metodi basati su SAM hanno bordi nitidi ma localizzazione imprecisa
Il nostro metodo realizza simultaneamente localizzazione accurata e bordi nitidi

Lavori Correlati

Modelli Fondamentali

CLIP: Primo modello pre-addestrato su coppie immagine-testo a scala web, con potente capacità di allineamento multimodale
SAM: Dimostra potente capacità di segmentazione di oggetti nel mondo aperto, in grado di realizzare segmentazione di alta qualità utilizzando vari prompt

Metodi di Segmentazione di Anomalie Zero-Shot

Metodi Basati su CLIP: Utilizzo di tecniche come finestre scorrevoli e caratteristiche multistrato, ma con capacità di percezione dei bordi limitata
Metodi Basati su SAM: Possiedono potente capacità di percezione dei bordi, ma capacità di localizzazione limitata
Metodi di Collaborazione CLIP&SAM: I metodi esistenti non sfruttano pienamente i vantaggi complementari dei due modelli

Vantaggi di Questo Articolo

Rispetto ai lavori esistenti, questo articolo sfrutta meglio i vantaggi dei due modelli fondamentali attraverso lo sfruttamento collaborativo delle caratteristiche e il meccanismo di prompt a cascata.

Conclusioni e Discussione

Conclusioni Principali

Il framework di collaborazione CLIP-SAM proposto combina efficacemente i vantaggi dei due modelli fondamentali
I moduli PPG e CPS migliorano significativamente le prestazioni di segmentazione di anomalie zero-shot
Raggiungimento di prestazioni all'avanguardia su molteplici dataset

Limitazioni

Velocità di Inferenza: L'utilizzo di due modelli comporta tempi di inferenza più lunghi
Prestazioni AUROC: Leggermente inferiori a alcuni metodi nell'indicatore AUROC
Risorse Computazionali: Richiede risorse computazionali considerevoli

Direzioni Future

Gli autori menzionano l'intenzione di continuare l'esplorazione su come integrare efficientemente e leggermente i vantaggi di diversi modelli per migliorare la capacità di segmentazione di anomalie.

Valutazione Approfondita

Punti di Forza

Forte Innovazione del Metodo: La progettazione dei moduli PPG e CPS è ingegnosa, risolvendo efficacemente le limitazioni dei metodi esistenti
Esperimenti Completi: Confronti e esperimenti di ablazione completi su molteplici dataset
Miglioramenti Significativi delle Prestazioni: Miglioramenti sostanziali negli indicatori chiave
Dettagli Tecnici Chiari: Descrizione dettagliata del metodo, derivazioni formali chiare

Insufficienze

Problema di Efficienza Computazionale: Sebbene gli autori affermino che l'overhead aggiuntivo sia di soli 100 millisecondi, il tempo di inferenza complessivo rimane lungo
Calo delle Prestazioni AUROC: Calo di prestazioni nell'importante indicatore AUROC, richiedendo ulteriore ottimizzazione
Valutazione della Capacità di Generalizzazione: Valutazione su soli due dataset, la capacità di generalizzazione richiede verifica più ampia

Impatto

Contributo Accademico: Fornisce nuove prospettive e metodi per il campo della rilevazione di anomalie zero-shot
Valore Pratico: Possiede importante valore applicativo nella rilevazione di anomalie industriali
Riproducibilità: Descrizione dettagliata del metodo, dettagli di implementazione chiari, facilitando la riproduzione

Scenari Applicabili

Ispezione della qualità industriale
Rilevazione di anomalie in immagini mediche
Rilevazione di eventi anomali nella sorveglianza di sicurezza
Altri scenari applicativi che richiedono segmentazione di anomalie zero-shot

Bibliografia

L'articolo cita 40 articoli correlati, coprendo importanti lavori in molteplici campi come modelli fondamentali, rilevazione di anomalie e visione artificiale, con una revisione della letteratura relativamente completa.

Valutazione Complessiva: Il framework di collaborazione CLIP-SAM proposto in questo articolo è innovativo dal punto di vista tecnico, con risultati sperimentali impressionanti. Sebbene vi sia ancora spazio per miglioramenti in termini di efficienza computazionale e alcuni indicatori, nel complesso fornisce contributi importanti al campo della rilevazione di anomalie zero-shot, con notevole valore accademico e pratico.