Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts
Hou, Xu, Li et al.
Recently, the powerful generalization ability exhibited by foundation models has brought forth new solutions for zero-shot anomaly segmentation tasks. However, guiding these foundation models correctly to address downstream tasks remains a challenge. This paper proposes a novel two-stage framework, for zero-shot anomaly segmentation tasks in industrial anomaly detection. This framework excellently leverages the powerful anomaly localization capability of CLIP and the boundary perception ability of SAM.(1) To mitigate SAM's inclination towards object segmentation, we propose the Co-Feature Point Prompt Generation (PPG) module. This module collaboratively utilizes CLIP and SAM to generate positive and negative point prompts, guiding SAM to focus on segmenting anomalous regions rather than the entire object. (2) To further optimize SAM's segmentation results and mitigate rough boundaries and isolated noise, we introduce the Cascaded Prompts for SAM (CPS) module. This module employs hybrid prompts cascaded with a lightweight decoder of SAM, achieving precise segmentation of anomalous regions. Across multiple datasets, consistent experimental validation demonstrates that our approach achieves state-of-the-art zero-shot anomaly segmentation results. Particularly noteworthy is our performance on the Visa dataset, where we outperform the state-of-the-art methods by 10.3\% and 7.7\% in terms of {$F_1$-max} and AP metrics, respectively.
academic
Verbesserung der Zero-Shot-Anomalieerkennung: CLIP-SAM-Zusammenarbeit mit kaskadierten Prompts
In diesem Artikel wird ein neuartiges zweistufiges Framework für die Zero-Shot-Anomaliensegmentierungsaufgabe in der industriellen Anomalieerkennung vorgeschlagen. Das Framework nutzt die starken Anomalienlokalisierungsfähigkeiten von CLIP und die Grenzerkennungsfähigkeiten von SAM vollständig aus. Durch das Co-Feature Point Prompt Generation (PPG)-Modul und das Cascaded Prompts for SAM (CPS)-Modul erreicht die Methode hochmoderne Zero-Shot-Anomaliensegmentierungsergebnisse auf mehreren Datensätzen, insbesondere auf dem VisA-Datensatz, wo F1-max und AP-Metriken um 10,3% bzw. 7,7% gegenüber bestehenden Methoden verbessert werden.
Dieser Artikel befasst sich hauptsächlich mit der Zero-Shot-Anomaliensegmentierungsaufgabe (ZSAS), insbesondere in industriellen Anomalieerkennung-Szenarien, wo anomale Regionen in Bildern genau lokalisiert und segmentiert werden müssen, ohne dass Trainingsdaten für anomale Proben vorhanden sind.
CLIP-basierte Methoden: Obwohl sie Anomalien effektiv lokalisieren können, ist ihre Grenzerkennungsfähigkeit schwach und die Segmentierungsergebnisse sind grob
SAM-basierte Methoden: Verfügen über starke Grenzerkennungsfähigkeiten, aber begrenzte Lokalisierungsfähigkeiten und neigen dazu, das gesamte Objekt statt der Anomaliebereiche zu segmentieren
Bestehende CLIP & SAM-Zusammenarbeitsmethoden: Nutzen die jeweiligen Vorteile der beiden Modelle nicht vollständig aus, Prompt-Strategien sind zu starr
Basierend auf den starken Verallgemeinerungsfähigkeiten grundlegender Modelle (CLIP und SAM) wird ein effektives Zusammenarbeitungsframework entworfen, das die Anomalienlokalisierungsfähigkeit von CLIP und die präzise Segmentierungsfähigkeit von SAM vollständig nutzt, um hochwertige Zero-Shot-Anomaliensegmentierung zu erreichen.
Vorschlag eines neuartigen CLIP-SAM-Zusammenarbeitungsframeworks: Entwurf eines zweistufigen Zero-Shot-Anomaliensegmentierungsframeworks, das die Anomalienlokalisierungsfähigkeit von CLIP und die Grenzerkennungsfähigkeit von SAM effektiv kombiniert
Co-Feature Point Prompt Generation (PPG)-Modul: Generiert positive und negative Punkt-Prompts durch kooperative Nutzung von CLIP und SAM, um SAM auf die Segmentierung von Anomaliebereichen statt des gesamten Objekts zu lenken
Cascaded Prompts for SAM (CPS)-Modul: Führt innovativ einen kaskadierten Hybrid-Prompt-Mechanismus ein, um die Segmentierungsergebnisse von SAM weiter zu optimieren und grobe Grenzen sowie isolierte Rauscheffekte zu beseitigen
Erreichung hochmoderner Leistung: Erreicht signifikante Leistungsverbesserungen auf mehreren Datensätzen, insbesondere auf dem VisA-Datensatz mit F1-max und AP-Verbesserungen von 10,3% bzw. 7,7%
Die Zero-Shot-Anomaliensegmentierungsaufgabe wird definiert als: Gegeben ein Testbild müssen anomale Regionen im Bild genau identifiziert und segmentiert werden, ohne dass Trainingsdaten für anomale Proben vorhanden sind, und es wird eine pixelweise Anomaliemaske ausgegeben.
Wobei Sa die extremen Anomaliebereiche darstellt, Mapa die von CLIP generierte Anomalienkarte ist, Ra die Schnittmenge der beiden ist und Ph die ausgewählten Top-k-Anomaliepunkte als positive Punkt-Prompts sind.
Negative Punkt-Lokalisierung:
Na = dilate(Sa) - Sa (3)
F = EncI(img) (4)
Fa = F ⊗ Sa, Fn = F ⊗ Na (5)
Maps = Similarity(Fa, Fn) (6)
Pl = Lowestk(Maps) (7)
Die Dilatationsfunktion wird verwendet, um die Bereiche um die Anomaliebereiche Na zu erhalten, der SAM-Bildencoder extrahiert Merkmale F, die Kosinus-Ähnlichkeit zwischen den Merkmalen der Anomaliebereiche und der umgebenden Bereiche wird berechnet, und die k Pixel mit der niedrigsten Ähnlichkeit werden als negative Punkt-Prompts ausgewählt.
Kooperative Merkmalsnutzung: Im Gegensatz zu bestehenden Methoden der seriellen Verarbeitung nutzt das PPG-Modul gleichzeitig Merkmale von CLIP und SAM zur Generierung von Punkt-Prompts
Intelligente negative Punkt-Auswahl: Durch Dilatationsfunktion und Merkmalsähnlichkeitsberechnung werden effektivere negative Punkt-Prompts ausgewählt, um zu vermeiden, dass SAM das gesamte Objekt segmentiert
Progressive Constraint-Verstärkung: Das CPS-Modul verstärkt die Einschränkungen für SAM schrittweise durch dreistufige Kaskadierung, um präzise Segmentierung zu erreichen
Leichtgewichtiges Design: Verwendet nur den leichtgewichtigen Decoder von SAM für iterative Optimierung, zusätzliche Rechenzeit beträgt nur 100 Millisekunden
Im Vergleich zu bestehenden Arbeiten nutzt diese Arbeit durch kooperative Merkmalsnutzung und kaskadierte Prompt-Mechanismen die Vorteile der beiden grundlegenden Modelle besser.
Die Autoren erwähnen, dass sie weiterhin erforschen werden, wie die Vorteile verschiedener Modelle effizient und leichtgewichtig integriert werden können, um die Anomaliensegmentierungsfähigkeiten zu verbessern.
Recheneffizienzproblem: Obwohl die Autoren behaupten, dass zusätzliche Kosten nur 100 Millisekunden betragen, ist die Gesamtinferenzzeit immer noch lang
AUROC-Leistungsrückgang: Leistungsrückgang bei der wichtigen AUROC-Metrik, weitere Optimierung erforderlich
Bewertung der Verallgemeinerungsfähigkeit: Nur auf zwei Datensätzen evaluiert, Verallgemeinerungsfähigkeit bedarf weiterer Validierung
Das Papier zitiert 40 verwandte Literaturquellen, die wichtige Arbeiten in mehreren Bereichen wie grundlegende Modelle, Anomalieerkennung und Computervision abdecken. Die Literaturübersicht ist relativ umfassend.
Gesamtbewertung: Das in diesem Artikel vorgeschlagene CLIP-SAM-Zusammenarbeitungsframework ist technisch innovativ und die experimentellen Ergebnisse sind beeindruckend. Obwohl es noch Verbesserungsspielraum bei Recheneffizienz und einigen Metriken gibt, leistet es insgesamt einen wichtigen Beitrag zum Feld der Zero-Shot-Anomalieerkennung und hat hohen akademischen und praktischen Wert.