2025-11-12T14:13:10.569513

Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts

Hou, Xu, Li et al.

Recently, the powerful generalization ability exhibited by foundation models has brought forth new solutions for zero-shot anomaly segmentation tasks. However, guiding these foundation models correctly to address downstream tasks remains a challenge. This paper proposes a novel two-stage framework, for zero-shot anomaly segmentation tasks in industrial anomaly detection. This framework excellently leverages the powerful anomaly localization capability of CLIP and the boundary perception ability of SAM.(1) To mitigate SAM's inclination towards object segmentation, we propose the Co-Feature Point Prompt Generation (PPG) module. This module collaboratively utilizes CLIP and SAM to generate positive and negative point prompts, guiding SAM to focus on segmenting anomalous regions rather than the entire object. (2) To further optimize SAM's segmentation results and mitigate rough boundaries and isolated noise, we introduce the Cascaded Prompts for SAM (CPS) module. This module employs hybrid prompts cascaded with a lightweight decoder of SAM, achieving precise segmentation of anomalous regions. Across multiple datasets, consistent experimental validation demonstrates that our approach achieves state-of-the-art zero-shot anomaly segmentation results. Particularly noteworthy is our performance on the Visa dataset, where we outperform the state-of-the-art methods by 10.3\% and 7.7\% in terms of {$F_1$-max} and AP metrics, respectively.

academic

Amélioration de la Détection d'Anomalies en Zéro-Shot : Collaboration CLIP-SAM avec Invites en Cascade

Informations Fondamentales

ID de l'article : 2510.11028
Titre : Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts
Auteurs : Yanning Hou, Ke Xu, Junfa Li, Yanran Ruan, Jianfeng Qiu (École d'Intelligence Artificielle, Université d'Anhui)
Classification : cs.CV (Vision par Ordinateur)
Date de Publication : 13 octobre 2025 (Prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.11028v1

Résumé

Cet article propose un cadre novateur en deux étapes pour la tâche de segmentation d'anomalies en zéro-shot dans la détection d'anomalies industrielles. Le cadre exploite pleinement la puissante capacité de localisation d'anomalies de CLIP et la capacité de perception des contours de SAM. Grâce aux modules Co-Feature Point Prompt Generation (PPG) et Cascaded Prompts for SAM (CPS), cette méthode réalise des résultats de segmentation d'anomalies en zéro-shot de pointe sur plusieurs ensembles de données, en particulier sur l'ensemble de données VisA, où les métriques F1-max et AP surpassent respectivement les meilleures méthodes existantes de 10,3 % et 7,7 %.

Contexte de Recherche et Motivation

1. Problème à Résoudre

Cet article aborde principalement la tâche de segmentation d'anomalies en zéro-shot (Zero-Shot Anomaly Segmentation, ZSAS), en particulier dans les scénarios de détection d'anomalies industrielles, où il est nécessaire de localiser et de segmenter avec précision les régions anormales dans les images sans données d'entraînement sur les échantillons d'anomalies.

2. Importance du Problème

Rareté des données : Les échantillons d'anomalies sont rares dans les scénarios industriels, et les méthodes traditionnelles nécessitent une grande quantité de données annotées
Diversité des types d'anomalies : Les types d'anomalies varient considérablement dans les applications pratiques, ce qui rend difficile leur prédéfinition
Besoins industriels : L'industrie traite des millions de catégories de produits, ce qui rend les méthodes d'apprentissage supervisé traditionnel impraticables

3. Limitations des Méthodes Existantes

Méthodes basées sur CLIP : Bien qu'elles puissent localiser efficacement les anomalies, elles ont une faible capacité de perception des contours et produisent des résultats de segmentation grossiers
Méthodes basées sur SAM : Possèdent une puissante capacité de perception des contours, mais une capacité de localisation limitée, tendant à segmenter l'objet entier plutôt que la région anormale
Méthodes de collaboration CLIP et SAM existantes : N'exploitent pas pleinement les avantages respectifs des deux modèles, avec des stratégies d'invites trop rigides

4. Motivation de la Recherche

Basée sur la puissante capacité de généralisation des modèles fondamentaux (CLIP et SAM), concevoir un cadre de collaboration efficace qui exploite pleinement la capacité de localisation d'anomalies de CLIP et la capacité de segmentation précise de SAM pour réaliser une segmentation d'anomalies en zéro-shot de haute qualité.

Contributions Principales

Proposition d'un cadre de collaboration CLIP-SAM novateur : Conception d'un cadre de segmentation d'anomalies en zéro-shot en deux étapes qui combine efficacement la capacité de localisation d'anomalies de CLIP et la capacité de perception des contours de SAM
Module Co-Feature Point Prompt Generation (PPG) : Génération d'invites de points positifs et négatifs en exploitant collaborativement CLIP et SAM, guidant SAM pour se concentrer sur la segmentation des régions anormales plutôt que sur l'objet entier
Module Cascaded Prompts for SAM (CPS) : Introduction innovante d'un mécanisme d'invites mixtes en cascade, optimisant davantage les résultats de segmentation de SAM, éliminant les contours grossiers et le bruit isolé
Réalisation de performances de pointe : Obtention d'améliorations significatives de performance sur plusieurs ensembles de données, en particulier sur l'ensemble de données VisA où les métriques F1-max et AP sont respectivement améliorées de 10,3 % et 7,7 %

Explication Détaillée de la Méthode

Définition de la Tâche

La tâche de segmentation d'anomalies en zéro-shot est définie comme suit : étant donné une image de test, identifier et segmenter avec précision les régions anormales dans l'image sans données d'entraînement sur les échantillons d'anomalies, en produisant un masque d'anomalies au niveau des pixels.

Architecture du Modèle

Architecture Globale

Le cadre adopte une conception en deux étapes :

Première étape : Le module PPG génère les invites de points initiaux
Deuxième étape : Le module CPS optimise les résultats de segmentation par des invites en cascade

Conception Détaillée du Module PPG

Localisation des Points Positifs :

Ra = Sa ⊗ Mapa                    (1)
Ph = Topk(Ra)                     (2)

Où Sa est la région d'anomalie extrême, Mapa est la carte d'anomalies générée par CLIP, Ra est l'intersection des deux, et Ph sont les k points d'anomalies supérieurs sélectionnés comme invites de points positifs.

Localisation des Points Négatifs :

Na = dilate(Sa) - Sa              (3)
F = EncI(img)                     (4)
Fa = F ⊗ Sa, Fn = F ⊗ Na         (5)
Maps = Similarity(Fa, Fn)         (6)
Pl = Lowestk(Maps)                (7)

Obtention de la région autour de la région d'anomalie Na par la fonction de dilatation, extraction des caractéristiques F à l'aide de l'encodeur d'images SAM, calcul de la similarité cosinus entre les caractéristiques de la région d'anomalie et de la région environnante, sélection des k pixels avec la similarité la plus faible comme invites de points négatifs.

Conception Détaillée du Module CPS

Structure en Trois Niveaux en Cascade :

Invites de Points Uniquement :

P = Contact(Ph, Pl)               (8)
M1, logit1 = Decm(F, P)           (9)

Invites de Points + Logit :

M2, logit2 = Decm(F, Contact(P, logit1))    (10)

Invites de Points + Boîte Englobante + Logit :

box = Flocation(M2)               (11)
M3 = Decm(F, Contact(P, box, logit2))       (12)

Points Techniques Innovants

Exploitation Collaborative des Caractéristiques : Contrairement aux méthodes existantes de traitement en série, le module PPG exploite simultanément les caractéristiques de CLIP et SAM pour la génération d'invites de points
Sélection Intelligente des Points Négatifs : Par la fonction de dilatation et le calcul de similarité des caractéristiques, sélection d'invites de points négatifs plus efficaces, évitant que SAM ne segmente l'objet entier
Renforcement Progressif des Contraintes : Le module CPS renforce progressivement les contraintes sur SAM par trois niveaux en cascade, réalisant une segmentation précise
Conception Légère : Utilisation uniquement du décodeur léger de SAM pour l'optimisation itérative, avec un surcoût de calcul supplémentaire de seulement 100 millisecondes

Configuration Expérimentale

Ensembles de Données

MVTec-AD : Contient des images d'objets industriels haute résolution avec des annotations complètes au niveau des pixels
VisA : Ensemble de données de détection d'anomalies industrielles contenant plusieurs types d'anomalies

Métriques d'Évaluation

AUROC : Reflète la capacité du modèle à distinguer les classes à différents niveaux de seuil
F1-max : Moyenne harmonique de la précision et du rappel au seuil optimal
AP (Average Precision) : Précision à différents niveaux de rappel

Méthodes de Comparaison

Méthodes basées sur CLIP : WinCLIP, APRIL-GAN, SDP, SDP+, AnomalyCLIP
Méthodes basées sur SAM : SAA, SAA+
Méthodes de collaboration CLIP et SAM : ClipSAM

Détails d'Implémentation

Modèle CLIP : Modèle préentraîné ViT-L-14-336
Modèle SAM : Modèle préentraîné ViT-H
Optimiseur : Adam, taux d'apprentissage 1e-3
Configuration d'entraînement : 3 epochs pour l'ensemble de données VisA, 15 epochs pour l'ensemble de données MVTec-AD
Matériel : NVIDIA GeForce RTX 3090, taille de batch 16

Résultats Expérimentaux

Résultats Principaux

Catégorie de Méthode	Méthode	MVTec-AD			VisA
		AUROC	F1-max	AP	AUROC	F1-max	AP
Basée sur CLIP	WinCLIP	85,1	31,7	-	79,6	14,8	-
	APRIL-GAN	87,6	43,3	40,8	94,2	32,3	25,7
	AnomalyCLIP	91,1	39,1	34,5	95,5	28,3	21,3
Basée sur SAM	SAA+	73,2	37,8	28,8	74,0	27,1	22,4
CLIP et SAM	ClipSAM	92,3	47,8	45,9	95,6	33,1	26,0
Cet Article	Notre Méthode	89,5	48,8	46,4	94,8	36,5	28,0

Découvertes Clés :

Surpasse complètement les méthodes existantes sur les métriques F1-max et AP
Amélioration de 10,3 % pour F1-max et 7,7 % pour AP sur l'ensemble de données VisA
Amélioration de 2,1 % pour F1-max et 1,1 % pour AP sur l'ensemble de données MVTec-AD
La métrique AUROC est légèrement inférieure aux meilleures méthodes, ce qui est dû à l'extension des régions d'anomalies résultant de la dépendance aux résultats de segmentation de SAM

Études d'Ablation

Impact des Paramètres de la Fonction de Dilatation

Test de l'impact de différentes formes et tailles de noyau sur la performance :

Forme	Taille	AUROC	F1-max	AP
Ellipse	(25,25)	89,5	48,8	46,4
Rectangle	(20,20)	89,5	47,7	45,6
Croix	(25,25)	89,2	46,5	44,1

Conclusion : Le noyau elliptique (25,25) réalise la meilleure performance.

Effet des Étapes en Cascade

Étape en Cascade	AUROC	F1-max	AP
Points Uniquement	88,7	42,5	39,2
Points + logit1	88,1	46,8	44,8
Points + box + logit2	89,5	48,8	46,4

Découvertes Clés :

Le deuxième niveau en cascade augmente F1-max de 4,3 % et AP de 5,6 %
Le troisième niveau en cascade améliore davantage F1-max de 2 % et AP de 1,6 %

Analyse de Cas

Les résultats de visualisation montrent :

Les méthodes basées sur CLIP localisent avec précision les anomalies mais avec des contours flous
Les méthodes basées sur SAM ont des contours clairs mais une localisation imprécise
Notre méthode réalise simultanément une localisation précise et des contours clairs

Travaux Connexes

Modèles Fondamentaux

CLIP : Premier modèle préentraîné sur des paires image-texte à l'échelle du web, possédant une puissante capacité d'alignement multimodal
SAM : Démontre une puissante capacité de segmentation d'objets en monde ouvert, capable de réaliser une segmentation de haute qualité en utilisant diverses invites

Méthodes de Segmentation d'Anomalies en Zéro-Shot

Méthodes basées sur CLIP : Utilisation de fenêtres glissantes, caractéristiques multi-couches, etc., mais avec une capacité limitée de perception des contours
Méthodes basées sur SAM : Possèdent une puissante capacité de perception des contours, mais une capacité de localisation limitée
Méthodes de collaboration CLIP et SAM : Les méthodes existantes n'exploitent pas pleinement les avantages complémentaires des deux modèles

Avantages de Cet Article

Comparé aux travaux existants, cet article exploite mieux les avantages des deux modèles fondamentaux grâce à l'exploitation collaborative des caractéristiques et au mécanisme d'invites en cascade.

Conclusion et Discussion

Conclusions Principales

Le cadre de collaboration CLIP-SAM proposé combine efficacement les avantages des deux modèles fondamentaux
Les modules PPG et CPS améliorent significativement la performance de segmentation d'anomalies en zéro-shot
La méthode atteint des performances de pointe sur plusieurs ensembles de données

Limitations

Vitesse d'inférence : L'utilisation de deux modèles entraîne un temps d'inférence plus long
Performance AUROC : Légèrement inférieure à certaines méthodes sur la métrique AUROC
Ressources de Calcul : Nécessite des ressources de calcul importantes

Directions Futures

Les auteurs mentionnent qu'ils continueront à explorer comment intégrer efficacement et légèrement les avantages de différents modèles pour améliorer la capacité de segmentation d'anomalies.

Évaluation Approfondie

Points Forts

Forte Innovativité Méthodologique : Les modules PPG et CPS sont conçus intelligemment et résolvent efficacement les limitations des méthodes existantes
Expérimentation Complète : Comparaisons et études d'ablation complètes sur plusieurs ensembles de données
Améliorations Significatives de Performance : Améliorations substantielles sur les métriques clés
Détails Techniques Clairs : Description détaillée de la méthode, dérivations de formules claires

Insuffisances

Problème d'Efficacité de Calcul : Bien que les auteurs affirment que le surcoût supplémentaire n'est que de 100 millisecondes, le temps d'inférence global reste relativement long
Baisse de Performance AUROC : La performance diminue sur la métrique AUROC importante, nécessitant une optimisation supplémentaire
Évaluation de la Capacité de Généralisation : Évaluation sur seulement deux ensembles de données, la capacité de généralisation nécessite une vérification plus large

Impact

Contribution Académique : Fournit de nouvelles idées et méthodes au domaine de la détection d'anomalies en zéro-shot
Valeur Pratique : Possède une valeur d'application importante dans la détection d'anomalies industrielles
Reproductibilité : Description détaillée de la méthode, détails d'implémentation clairs, facilitant la reproduction

Scénarios d'Application

Contrôle qualité industriel
Détection d'anomalies en imagerie médicale
Détection d'événements anormaux en surveillance de sécurité
Autres scénarios d'application nécessitant une segmentation d'anomalies en zéro-shot

Références Bibliographiques

L'article cite 40 articles connexes, couvrant les modèles fondamentaux, la détection d'anomalies, la vision par ordinateur et d'autres domaines importants, avec une synthèse bibliographique relativement complète.

Évaluation Globale : Le cadre de collaboration CLIP-SAM proposé dans cet article est techniquement innovant, et les résultats expérimentaux sont impressionnants. Bien qu'il y ait encore de la place pour l'amélioration en termes d'efficacité de calcul et de certaines métriques, dans l'ensemble, il apporte une contribution importante au domaine de la détection d'anomalies en zéro-shot, avec une valeur académique et pratique considérable.