Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts
Hou, Xu, Li et al.
Recently, the powerful generalization ability exhibited by foundation models has brought forth new solutions for zero-shot anomaly segmentation tasks. However, guiding these foundation models correctly to address downstream tasks remains a challenge. This paper proposes a novel two-stage framework, for zero-shot anomaly segmentation tasks in industrial anomaly detection. This framework excellently leverages the powerful anomaly localization capability of CLIP and the boundary perception ability of SAM.(1) To mitigate SAM's inclination towards object segmentation, we propose the Co-Feature Point Prompt Generation (PPG) module. This module collaboratively utilizes CLIP and SAM to generate positive and negative point prompts, guiding SAM to focus on segmenting anomalous regions rather than the entire object. (2) To further optimize SAM's segmentation results and mitigate rough boundaries and isolated noise, we introduce the Cascaded Prompts for SAM (CPS) module. This module employs hybrid prompts cascaded with a lightweight decoder of SAM, achieving precise segmentation of anomalous regions. Across multiple datasets, consistent experimental validation demonstrates that our approach achieves state-of-the-art zero-shot anomaly segmentation results. Particularly noteworthy is our performance on the Visa dataset, where we outperform the state-of-the-art methods by 10.3\% and 7.7\% in terms of {$F_1$-max} and AP metrics, respectively.
academic
Miglioramento della Rilevazione di Anomalie Zero-Shot: Collaborazione CLIP-SAM con Prompt a Cascata
Questo articolo propone un innovativo framework a due stadi per il compito di segmentazione di anomalie zero-shot nella rilevazione di anomalie industriali. Il framework sfrutta pienamente la potente capacità di localizzazione delle anomalie di CLIP e la capacità di percezione dei bordi di SAM. Attraverso il modulo Co-Feature Point Prompt Generation (PPG) e il modulo Cascaded Prompts for SAM (CPS), il metodo raggiunge risultati all'avanguardia nella segmentazione di anomalie zero-shot su molteplici dataset, in particolare sul dataset VisA, dove gli indicatori F1-max e AP superano i metodi migliori esistenti rispettivamente del 10,3% e del 7,7%.
Questo articolo affronta principalmente il compito di segmentazione di anomalie zero-shot (Zero-Shot Anomaly Segmentation, ZSAS), in particolare negli scenari di rilevazione di anomalie industriali, dove è necessario localizzare e segmentare accuratamente le regioni anomale nelle immagini senza dati di addestramento su campioni anomali.
Scarsità di Dati: I campioni anomali sono rari negli scenari industriali, e i metodi tradizionali richiedono grandi quantità di dati annotati
Diversità dei Tipi di Anomalie: Le anomalie variano notevolmente nelle applicazioni pratiche, difficili da definire preventivamente
Esigenze Industriali: L'industria gestisce milioni di categorie di prodotti, rendendo impraticabili i metodi di apprendimento supervisionato tradizionali
Metodi Basati su CLIP: Sebbene possano localizzare efficacemente le anomalie, hanno scarsa capacità di percezione dei bordi e risultati di segmentazione grossolani
Metodi Basati su SAM: Possiedono potente capacità di percezione dei bordi, ma capacità di localizzazione limitata, tendendo a segmentare l'intero oggetto anziché l'area anomala
Metodi di Collaborazione CLIP&SAM Esistenti: Non sfruttano pienamente i vantaggi reciproci dei due modelli, con strategie di prompt eccessivamente rigide
Basandosi sulla potente capacità di generalizzazione dei modelli fondamentali (CLIP e SAM), progettare un framework di collaborazione efficace che sfrutti pienamente la capacità di localizzazione delle anomalie di CLIP e la capacità di segmentazione precisa di SAM, realizzando una segmentazione di anomalie zero-shot di alta qualità.
Framework di Collaborazione CLIP-SAM Innovativo: Progettazione di un framework di segmentazione di anomalie zero-shot a due stadi che combina efficacemente la capacità di localizzazione delle anomalie di CLIP e la capacità di percezione dei bordi di SAM
Modulo Co-Feature Point Prompt Generation (PPG): Generazione di prompt di punti positivi e negativi sfruttando collaborativamente CLIP e SAM, guidando SAM a concentrarsi sulla segmentazione delle aree anomale anziché dell'intero oggetto
Modulo Cascaded Prompts for SAM (CPS): Introduzione innovativa di un meccanismo di prompt misto a cascata, ottimizzando ulteriormente i risultati di segmentazione di SAM, eliminando bordi grossolani e rumore isolato
Raggiungimento di Prestazioni all'Avanguardia: Ottenimento di miglioramenti significativi delle prestazioni su molteplici dataset, in particolare sul dataset VisA con miglioramenti di F1-max e AP rispettivamente del 10,3% e del 7,7%
Il compito di segmentazione di anomalie zero-shot è definito come: data un'immagine di test, localizzare e segmentare accuratamente le regioni anomale nell'immagine senza dati di addestramento su campioni anomali, producendo una maschera di anomalia a livello di pixel.
Dove Sa è la regione di anomalia estrema, Mapa è la mappa di anomalia generata da CLIP, Ra è l'intersezione dei due, Ph sono i top-k punti anomali selezionati come prompt di punti positivi.
Localizzazione dei Punti Negativi:
Na = dilate(Sa) - Sa (3)
F = EncI(img) (4)
Fa = F ⊗ Sa, Fn = F ⊗ Na (5)
Maps = Similarity(Fa, Fn) (6)
Pl = Lowestk(Maps) (7)
Ottenimento della regione attorno all'area anomala Na attraverso la funzione di dilatazione, estrazione delle caratteristiche F utilizzando l'encoder di immagini di SAM, calcolo della similarità del coseno tra le caratteristiche della regione anomala e della regione circostante, selezione dei k pixel con similarità più bassa come prompt di punti negativi.
Sfruttamento Collaborativo delle Caratteristiche: A differenza dei metodi esistenti che elaborano in serie, il modulo PPG sfrutta simultaneamente le caratteristiche di CLIP e SAM per la generazione di prompt di punti
Selezione Intelligente dei Punti Negativi: Attraverso la funzione di dilatazione e il calcolo della similarità delle caratteristiche, selezione di prompt di punti negativi più efficaci, evitando che SAM segmenti l'intero oggetto
Rafforzamento Progressivo dei Vincoli: Il modulo CPS rafforza progressivamente i vincoli su SAM attraverso tre livelli a cascata, realizzando una segmentazione precisa
Progettazione Leggera: Utilizzo solo del decoder leggero di SAM per l'ottimizzazione iterativa, con overhead computazionale aggiuntivo di soli 100 millisecondi
Superamento completo dei metodi esistenti negli indicatori F1-max e AP
Miglioramento di F1-max del 10,3% e AP del 7,7% sul dataset VisA
Miglioramento di F1-max del 2,1% e AP dell'1,1% sul dataset MVTec-AD
L'indicatore AUROC leggermente inferiore al miglior metodo è dovuto all'espansione della regione anomala causata dalla dipendenza dai risultati di segmentazione di SAM
CLIP: Primo modello pre-addestrato su coppie immagine-testo a scala web, con potente capacità di allineamento multimodale
SAM: Dimostra potente capacità di segmentazione di oggetti nel mondo aperto, in grado di realizzare segmentazione di alta qualità utilizzando vari prompt
Rispetto ai lavori esistenti, questo articolo sfrutta meglio i vantaggi dei due modelli fondamentali attraverso lo sfruttamento collaborativo delle caratteristiche e il meccanismo di prompt a cascata.
Gli autori menzionano l'intenzione di continuare l'esplorazione su come integrare efficientemente e leggermente i vantaggi di diversi modelli per migliorare la capacità di segmentazione di anomalie.
Problema di Efficienza Computazionale: Sebbene gli autori affermino che l'overhead aggiuntivo sia di soli 100 millisecondi, il tempo di inferenza complessivo rimane lungo
Calo delle Prestazioni AUROC: Calo di prestazioni nell'importante indicatore AUROC, richiedendo ulteriore ottimizzazione
Valutazione della Capacità di Generalizzazione: Valutazione su soli due dataset, la capacità di generalizzazione richiede verifica più ampia
L'articolo cita 40 articoli correlati, coprendo importanti lavori in molteplici campi come modelli fondamentali, rilevazione di anomalie e visione artificiale, con una revisione della letteratura relativamente completa.
Valutazione Complessiva: Il framework di collaborazione CLIP-SAM proposto in questo articolo è innovativo dal punto di vista tecnico, con risultati sperimentali impressionanti. Sebbene vi sia ancora spazio per miglioramenti in termini di efficienza computazionale e alcuni indicatori, nel complesso fornisce contributi importanti al campo della rilevazione di anomalie zero-shot, con notevole valore accademico e pratico.