2025-11-12T14:13:10.569513

Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts

Hou, Xu, Li et al.
Recently, the powerful generalization ability exhibited by foundation models has brought forth new solutions for zero-shot anomaly segmentation tasks. However, guiding these foundation models correctly to address downstream tasks remains a challenge. This paper proposes a novel two-stage framework, for zero-shot anomaly segmentation tasks in industrial anomaly detection. This framework excellently leverages the powerful anomaly localization capability of CLIP and the boundary perception ability of SAM.(1) To mitigate SAM's inclination towards object segmentation, we propose the Co-Feature Point Prompt Generation (PPG) module. This module collaboratively utilizes CLIP and SAM to generate positive and negative point prompts, guiding SAM to focus on segmenting anomalous regions rather than the entire object. (2) To further optimize SAM's segmentation results and mitigate rough boundaries and isolated noise, we introduce the Cascaded Prompts for SAM (CPS) module. This module employs hybrid prompts cascaded with a lightweight decoder of SAM, achieving precise segmentation of anomalous regions. Across multiple datasets, consistent experimental validation demonstrates that our approach achieves state-of-the-art zero-shot anomaly segmentation results. Particularly noteworthy is our performance on the Visa dataset, where we outperform the state-of-the-art methods by 10.3\% and 7.7\% in terms of {$F_1$-max} and AP metrics, respectively.
academic

Verbesserung der Zero-Shot-Anomalieerkennung: CLIP-SAM-Zusammenarbeit mit kaskadierten Prompts

Grundinformationen

  • Paper-ID: 2510.11028
  • Titel: Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts
  • Autoren: Yanning Hou, Ke Xu, Junfa Li, Yanran Ruan, Jianfeng Qiu (School of Artificial Intelligence, Anhui University)
  • Klassifizierung: cs.CV (Computervision)
  • Veröffentlichungsdatum: 13. Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.11028v1

Zusammenfassung

In diesem Artikel wird ein neuartiges zweistufiges Framework für die Zero-Shot-Anomaliensegmentierungsaufgabe in der industriellen Anomalieerkennung vorgeschlagen. Das Framework nutzt die starken Anomalienlokalisierungsfähigkeiten von CLIP und die Grenzerkennungsfähigkeiten von SAM vollständig aus. Durch das Co-Feature Point Prompt Generation (PPG)-Modul und das Cascaded Prompts for SAM (CPS)-Modul erreicht die Methode hochmoderne Zero-Shot-Anomaliensegmentierungsergebnisse auf mehreren Datensätzen, insbesondere auf dem VisA-Datensatz, wo F1-max und AP-Metriken um 10,3% bzw. 7,7% gegenüber bestehenden Methoden verbessert werden.

Forschungshintergrund und Motivation

1. Zu lösende Probleme

Dieser Artikel befasst sich hauptsächlich mit der Zero-Shot-Anomaliensegmentierungsaufgabe (ZSAS), insbesondere in industriellen Anomalieerkennung-Szenarien, wo anomale Regionen in Bildern genau lokalisiert und segmentiert werden müssen, ohne dass Trainingsdaten für anomale Proben vorhanden sind.

2. Bedeutung des Problems

  • Datenmangel: Anomale Proben sind in industriellen Szenarien selten, traditionelle Methoden erfordern große Mengen annotierter Daten
  • Vielfalt der Anomalietypen: Anomalietypen in praktischen Anwendungen sind vielfältig und schwer vorab zu definieren
  • Industrielle Anforderungen: Die Industrie verarbeitet Millionen von Produktkategorien, traditionelle überwachte Lernmethoden sind nicht praktikabel

3. Einschränkungen bestehender Methoden

  • CLIP-basierte Methoden: Obwohl sie Anomalien effektiv lokalisieren können, ist ihre Grenzerkennungsfähigkeit schwach und die Segmentierungsergebnisse sind grob
  • SAM-basierte Methoden: Verfügen über starke Grenzerkennungsfähigkeiten, aber begrenzte Lokalisierungsfähigkeiten und neigen dazu, das gesamte Objekt statt der Anomaliebereiche zu segmentieren
  • Bestehende CLIP & SAM-Zusammenarbeitsmethoden: Nutzen die jeweiligen Vorteile der beiden Modelle nicht vollständig aus, Prompt-Strategien sind zu starr

4. Forschungsmotivation

Basierend auf den starken Verallgemeinerungsfähigkeiten grundlegender Modelle (CLIP und SAM) wird ein effektives Zusammenarbeitungsframework entworfen, das die Anomalienlokalisierungsfähigkeit von CLIP und die präzise Segmentierungsfähigkeit von SAM vollständig nutzt, um hochwertige Zero-Shot-Anomaliensegmentierung zu erreichen.

Kernbeiträge

  1. Vorschlag eines neuartigen CLIP-SAM-Zusammenarbeitungsframeworks: Entwurf eines zweistufigen Zero-Shot-Anomaliensegmentierungsframeworks, das die Anomalienlokalisierungsfähigkeit von CLIP und die Grenzerkennungsfähigkeit von SAM effektiv kombiniert
  2. Co-Feature Point Prompt Generation (PPG)-Modul: Generiert positive und negative Punkt-Prompts durch kooperative Nutzung von CLIP und SAM, um SAM auf die Segmentierung von Anomaliebereichen statt des gesamten Objekts zu lenken
  3. Cascaded Prompts for SAM (CPS)-Modul: Führt innovativ einen kaskadierten Hybrid-Prompt-Mechanismus ein, um die Segmentierungsergebnisse von SAM weiter zu optimieren und grobe Grenzen sowie isolierte Rauscheffekte zu beseitigen
  4. Erreichung hochmoderner Leistung: Erreicht signifikante Leistungsverbesserungen auf mehreren Datensätzen, insbesondere auf dem VisA-Datensatz mit F1-max und AP-Verbesserungen von 10,3% bzw. 7,7%

Methodische Details

Aufgabendefinition

Die Zero-Shot-Anomaliensegmentierungsaufgabe wird definiert als: Gegeben ein Testbild müssen anomale Regionen im Bild genau identifiziert und segmentiert werden, ohne dass Trainingsdaten für anomale Proben vorhanden sind, und es wird eine pixelweise Anomaliemaske ausgegeben.

Modellarchitektur

Gesamtarchitektur

Das Framework verwendet ein zweistufiges Design:

  1. Erste Stufe: PPG-Modul generiert initiale Punkt-Prompts
  2. Zweite Stufe: CPS-Modul optimiert Segmentierungsergebnisse durch kaskadierte Prompts

Detailliertes Design des PPG-Moduls

Positive Punkt-Lokalisierung:

Ra = Sa ⊗ Mapa                    (1)
Ph = Topk(Ra)                     (2)

Wobei Sa die extremen Anomaliebereiche darstellt, Mapa die von CLIP generierte Anomalienkarte ist, Ra die Schnittmenge der beiden ist und Ph die ausgewählten Top-k-Anomaliepunkte als positive Punkt-Prompts sind.

Negative Punkt-Lokalisierung:

Na = dilate(Sa) - Sa              (3)
F = EncI(img)                     (4)
Fa = F ⊗ Sa, Fn = F ⊗ Na         (5)
Maps = Similarity(Fa, Fn)         (6)
Pl = Lowestk(Maps)                (7)

Die Dilatationsfunktion wird verwendet, um die Bereiche um die Anomaliebereiche Na zu erhalten, der SAM-Bildencoder extrahiert Merkmale F, die Kosinus-Ähnlichkeit zwischen den Merkmalen der Anomaliebereiche und der umgebenden Bereiche wird berechnet, und die k Pixel mit der niedrigsten Ähnlichkeit werden als negative Punkt-Prompts ausgewählt.

Detailliertes Design des CPS-Moduls

Dreistufige Kaskadenstruktur:

  1. Nur Punkt-Prompts:
P = Contact(Ph, Pl)               (8)
M1, logit1 = Decm(F, P)           (9)
  1. Punkt + Logit-Prompts:
M2, logit2 = Decm(F, Contact(P, logit1))    (10)
  1. Punkt + Begrenzungsrahmen + Logit-Prompts:
box = Flocation(M2)               (11)
M3 = Decm(F, Contact(P, box, logit2))       (12)

Technische Innovationspunkte

  1. Kooperative Merkmalsnutzung: Im Gegensatz zu bestehenden Methoden der seriellen Verarbeitung nutzt das PPG-Modul gleichzeitig Merkmale von CLIP und SAM zur Generierung von Punkt-Prompts
  2. Intelligente negative Punkt-Auswahl: Durch Dilatationsfunktion und Merkmalsähnlichkeitsberechnung werden effektivere negative Punkt-Prompts ausgewählt, um zu vermeiden, dass SAM das gesamte Objekt segmentiert
  3. Progressive Constraint-Verstärkung: Das CPS-Modul verstärkt die Einschränkungen für SAM schrittweise durch dreistufige Kaskadierung, um präzise Segmentierung zu erreichen
  4. Leichtgewichtiges Design: Verwendet nur den leichtgewichtigen Decoder von SAM für iterative Optimierung, zusätzliche Rechenzeit beträgt nur 100 Millisekunden

Experimentelle Einrichtung

Datensätze

  • MVTec-AD: Enthält hochauflösende industrielle Objektbilder mit vollständigen pixelweisen Annotationen
  • VisA: Industrieller Anomalieerkennung-Datensatz mit verschiedenen Anomalietypen

Bewertungsmetriken

  • AUROC: Spiegelt die Fähigkeit des Modells wider, Klassen bei verschiedenen Schwellenwertebenen zu unterscheiden
  • F1-max: Harmonisches Mittel von Präzision und Recall bei optimalem Schwellenwert
  • AP (Average Precision): Präzision bei verschiedenen Recall-Ebenen

Vergleichsmethoden

  • CLIP-basierte Methoden: WinCLIP, APRIL-GAN, SDP, SDP+, AnomalyCLIP
  • SAM-basierte Methoden: SAA, SAA+
  • CLIP & SAM-Zusammenarbeitsmethoden: ClipSAM

Implementierungsdetails

  • CLIP-Modell: Vortrainiertes ViT-L-14-336-Modell
  • SAM-Modell: ViT-H-Vortrainingsmodell
  • Optimierer: Adam, Lernrate 1e-3
  • Trainingseinstellungen: 3 Epochen für VisA-Datensatz, 15 Epochen für MVTec-AD-Datensatz
  • Hardware: NVIDIA GeForce RTX 3090, Batch-Größe 16

Experimentelle Ergebnisse

Hauptergebnisse

MethodenkategorieMethodeMVTec-ADVisA
AUROCF1-maxAPAUROCF1-maxAP
CLIP-basiertWinCLIP85,131,7-79,614,8-
APRIL-GAN87,643,340,894,232,325,7
AnomalyCLIP91,139,134,595,528,321,3
SAM-basiertSAA+73,237,828,874,027,122,4
CLIP & SAMClipSAM92,347,845,995,633,126,0
Diese ArbeitUnsere Methode89,548,846,494,836,528,0

Wichtigste Erkenntnisse:

  • Umfassende Überlegenheit gegenüber bestehenden Methoden bei F1-max und AP-Metriken
  • F1-max-Verbesserung von 10,3% und AP-Verbesserung von 7,7% auf dem VisA-Datensatz
  • F1-max-Verbesserung von 2,1% und AP-Verbesserung von 1,1% auf dem MVTec-AD-Datensatz
  • Leicht niedrigere AUROC-Metriken als beste Methoden, was auf die Abhängigkeit von SAM-Segmentierungsergebnissen zurückzuführen ist

Ablationsstudien

Auswirkungen der Dilatationsfunktionsparameter

Test der Auswirkungen verschiedener Kernformen und -größen auf die Leistung:

FormGrößeAUROCF1-maxAP
Ellipse(25,25)89,548,846,4
Rechteck(20,20)89,547,745,6
Kreuz(25,25)89,246,544,1

Schlussfolgerung: Der elliptische Kern (25,25) erreicht die beste Leistung.

Effekt der Kaskadenschritte

KaskadenstufeAUROCF1-maxAP
Nur Punkt-Prompts88,742,539,2
Punkt + Logit188,146,844,8
Punkt + Box + Logit289,548,846,4

Wichtigste Erkenntnisse:

  • Die zweite Kaskade erhöht F1-max um 4,3% und AP um 5,6%
  • Die dritte Kaskade verbessert F1-max um weitere 2% und AP um 1,6%

Fallstudienanalyse

Visualisierungsergebnisse zeigen:

  • CLIP-basierte Methoden lokalisieren Anomalien genau, aber mit unscharfen Grenzen
  • SAM-basierte Methoden haben klare Grenzen, aber ungenaue Lokalisierung
  • Diese Methode erreicht gleichzeitig genaue Lokalisierung und klare Grenzen

Verwandte Arbeiten

Grundlegende Modelle

  • CLIP: Erstes Modell, das auf netzwerkgroßen Bild-Text-Paaren vortrainiert wurde, mit starken multimodalen Ausrichtungsfähigkeiten
  • SAM: Zeigt starke Open-World-Objektsegmentierungsfähigkeiten und kann hochwertige Segmentierung mit verschiedenen Prompts erreichen

Zero-Shot-Anomaliensegmentierungsmethoden

  1. CLIP-basierte Methoden: Nutzen Schiebefenster, Multi-Layer-Merkmale usw., aber mit begrenzten Grenzerkennungsfähigkeiten
  2. SAM-basierte Methoden: Verfügen über starke Grenzerkennungsfähigkeiten, aber begrenzte Lokalisierungsfähigkeiten
  3. CLIP & SAM-Zusammenarbeitsmethoden: Bestehende Methoden nutzen die komplementären Vorteile der beiden Modelle nicht vollständig

Vorteile dieser Arbeit

Im Vergleich zu bestehenden Arbeiten nutzt diese Arbeit durch kooperative Merkmalsnutzung und kaskadierte Prompt-Mechanismen die Vorteile der beiden grundlegenden Modelle besser.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Das vorgeschlagene CLIP-SAM-Zusammenarbeitungsframework kombiniert effektiv die Vorteile der beiden grundlegenden Modelle
  2. Die PPG- und CPS-Module verbessern die Zero-Shot-Anomaliensegmentierungsleistung erheblich
  3. Hochmoderne Leistungsniveaus werden auf mehreren Datensätzen erreicht

Einschränkungen

  1. Inferenzgeschwindigkeit: Die Verwendung von zwei Modellen führt zu längeren Inferenzzeiten
  2. AUROC-Leistung: Leicht unterlegen gegenüber einigen Methoden bei der AUROC-Metrik
  3. Rechenressourcen: Erfordert erhebliche Rechenressourcen

Zukünftige Richtungen

Die Autoren erwähnen, dass sie weiterhin erforschen werden, wie die Vorteile verschiedener Modelle effizient und leichtgewichtig integriert werden können, um die Anomaliensegmentierungsfähigkeiten zu verbessern.

Tiefgreifende Bewertung

Stärken

  1. Starke methodische Innovation: Die PPG- und CPS-Module sind sorgfältig gestaltet und lösen effektiv die Einschränkungen bestehender Methoden
  2. Umfassende Experimente: Umfassende Vergleichs- und Ablationsstudien auf mehreren Datensätzen
  3. Signifikante Leistungsverbesserungen: Große Verbesserungen bei Schlüsselmetriken
  4. Klare technische Details: Detaillierte Methodenbeschreibung und klare Formelableitungen

Mängel

  1. Recheneffizienzproblem: Obwohl die Autoren behaupten, dass zusätzliche Kosten nur 100 Millisekunden betragen, ist die Gesamtinferenzzeit immer noch lang
  2. AUROC-Leistungsrückgang: Leistungsrückgang bei der wichtigen AUROC-Metrik, weitere Optimierung erforderlich
  3. Bewertung der Verallgemeinerungsfähigkeit: Nur auf zwei Datensätzen evaluiert, Verallgemeinerungsfähigkeit bedarf weiterer Validierung

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Ideen und Methoden für das Feld der Zero-Shot-Anomalieerkennung
  2. Praktischer Wert: Wichtige Anwendungswert in der industriellen Anomalieerkennung
  3. Reproduzierbarkeit: Detaillierte Methodenbeschreibung und klare Implementierungsdetails erleichtern die Reproduktion

Anwendungsszenarien

  • Industrielle Qualitätskontrolle
  • Anomalieerkennung in medizinischen Bildern
  • Anomalieerkennung von Sicherheitsüberwachungsereignissen
  • Andere Anwendungsszenarien, die Zero-Shot-Anomaliensegmentierung erfordern

Literaturverzeichnis

Das Papier zitiert 40 verwandte Literaturquellen, die wichtige Arbeiten in mehreren Bereichen wie grundlegende Modelle, Anomalieerkennung und Computervision abdecken. Die Literaturübersicht ist relativ umfassend.


Gesamtbewertung: Das in diesem Artikel vorgeschlagene CLIP-SAM-Zusammenarbeitungsframework ist technisch innovativ und die experimentellen Ergebnisse sind beeindruckend. Obwohl es noch Verbesserungsspielraum bei Recheneffizienz und einigen Metriken gibt, leistet es insgesamt einen wichtigen Beitrag zum Feld der Zero-Shot-Anomalieerkennung und hat hohen akademischen und praktischen Wert.