Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts
Hou, Xu, Li et al.
Recently, the powerful generalization ability exhibited by foundation models has brought forth new solutions for zero-shot anomaly segmentation tasks. However, guiding these foundation models correctly to address downstream tasks remains a challenge. This paper proposes a novel two-stage framework, for zero-shot anomaly segmentation tasks in industrial anomaly detection. This framework excellently leverages the powerful anomaly localization capability of CLIP and the boundary perception ability of SAM.(1) To mitigate SAM's inclination towards object segmentation, we propose the Co-Feature Point Prompt Generation (PPG) module. This module collaboratively utilizes CLIP and SAM to generate positive and negative point prompts, guiding SAM to focus on segmenting anomalous regions rather than the entire object. (2) To further optimize SAM's segmentation results and mitigate rough boundaries and isolated noise, we introduce the Cascaded Prompts for SAM (CPS) module. This module employs hybrid prompts cascaded with a lightweight decoder of SAM, achieving precise segmentation of anomalous regions. Across multiple datasets, consistent experimental validation demonstrates that our approach achieves state-of-the-art zero-shot anomaly segmentation results. Particularly noteworthy is our performance on the Visa dataset, where we outperform the state-of-the-art methods by 10.3\% and 7.7\% in terms of {$F_1$-max} and AP metrics, respectively.
academic
Amélioration de la Détection d'Anomalies en Zéro-Shot : Collaboration CLIP-SAM avec Invites en Cascade
Cet article propose un cadre novateur en deux étapes pour la tâche de segmentation d'anomalies en zéro-shot dans la détection d'anomalies industrielles. Le cadre exploite pleinement la puissante capacité de localisation d'anomalies de CLIP et la capacité de perception des contours de SAM. Grâce aux modules Co-Feature Point Prompt Generation (PPG) et Cascaded Prompts for SAM (CPS), cette méthode réalise des résultats de segmentation d'anomalies en zéro-shot de pointe sur plusieurs ensembles de données, en particulier sur l'ensemble de données VisA, où les métriques F1-max et AP surpassent respectivement les meilleures méthodes existantes de 10,3 % et 7,7 %.
Cet article aborde principalement la tâche de segmentation d'anomalies en zéro-shot (Zero-Shot Anomaly Segmentation, ZSAS), en particulier dans les scénarios de détection d'anomalies industrielles, où il est nécessaire de localiser et de segmenter avec précision les régions anormales dans les images sans données d'entraînement sur les échantillons d'anomalies.
Rareté des données : Les échantillons d'anomalies sont rares dans les scénarios industriels, et les méthodes traditionnelles nécessitent une grande quantité de données annotées
Diversité des types d'anomalies : Les types d'anomalies varient considérablement dans les applications pratiques, ce qui rend difficile leur prédéfinition
Besoins industriels : L'industrie traite des millions de catégories de produits, ce qui rend les méthodes d'apprentissage supervisé traditionnel impraticables
Méthodes basées sur CLIP : Bien qu'elles puissent localiser efficacement les anomalies, elles ont une faible capacité de perception des contours et produisent des résultats de segmentation grossiers
Méthodes basées sur SAM : Possèdent une puissante capacité de perception des contours, mais une capacité de localisation limitée, tendant à segmenter l'objet entier plutôt que la région anormale
Méthodes de collaboration CLIP et SAM existantes : N'exploitent pas pleinement les avantages respectifs des deux modèles, avec des stratégies d'invites trop rigides
Basée sur la puissante capacité de généralisation des modèles fondamentaux (CLIP et SAM), concevoir un cadre de collaboration efficace qui exploite pleinement la capacité de localisation d'anomalies de CLIP et la capacité de segmentation précise de SAM pour réaliser une segmentation d'anomalies en zéro-shot de haute qualité.
Proposition d'un cadre de collaboration CLIP-SAM novateur : Conception d'un cadre de segmentation d'anomalies en zéro-shot en deux étapes qui combine efficacement la capacité de localisation d'anomalies de CLIP et la capacité de perception des contours de SAM
Module Co-Feature Point Prompt Generation (PPG) : Génération d'invites de points positifs et négatifs en exploitant collaborativement CLIP et SAM, guidant SAM pour se concentrer sur la segmentation des régions anormales plutôt que sur l'objet entier
Module Cascaded Prompts for SAM (CPS) : Introduction innovante d'un mécanisme d'invites mixtes en cascade, optimisant davantage les résultats de segmentation de SAM, éliminant les contours grossiers et le bruit isolé
Réalisation de performances de pointe : Obtention d'améliorations significatives de performance sur plusieurs ensembles de données, en particulier sur l'ensemble de données VisA où les métriques F1-max et AP sont respectivement améliorées de 10,3 % et 7,7 %
La tâche de segmentation d'anomalies en zéro-shot est définie comme suit : étant donné une image de test, identifier et segmenter avec précision les régions anormales dans l'image sans données d'entraînement sur les échantillons d'anomalies, en produisant un masque d'anomalies au niveau des pixels.
Où Sa est la région d'anomalie extrême, Mapa est la carte d'anomalies générée par CLIP, Ra est l'intersection des deux, et Ph sont les k points d'anomalies supérieurs sélectionnés comme invites de points positifs.
Localisation des Points Négatifs :
Na = dilate(Sa) - Sa (3)
F = EncI(img) (4)
Fa = F ⊗ Sa, Fn = F ⊗ Na (5)
Maps = Similarity(Fa, Fn) (6)
Pl = Lowestk(Maps) (7)
Obtention de la région autour de la région d'anomalie Na par la fonction de dilatation, extraction des caractéristiques F à l'aide de l'encodeur d'images SAM, calcul de la similarité cosinus entre les caractéristiques de la région d'anomalie et de la région environnante, sélection des k pixels avec la similarité la plus faible comme invites de points négatifs.
Exploitation Collaborative des Caractéristiques : Contrairement aux méthodes existantes de traitement en série, le module PPG exploite simultanément les caractéristiques de CLIP et SAM pour la génération d'invites de points
Sélection Intelligente des Points Négatifs : Par la fonction de dilatation et le calcul de similarité des caractéristiques, sélection d'invites de points négatifs plus efficaces, évitant que SAM ne segmente l'objet entier
Renforcement Progressif des Contraintes : Le module CPS renforce progressivement les contraintes sur SAM par trois niveaux en cascade, réalisant une segmentation précise
Conception Légère : Utilisation uniquement du décodeur léger de SAM pour l'optimisation itérative, avec un surcoût de calcul supplémentaire de seulement 100 millisecondes
Surpasse complètement les méthodes existantes sur les métriques F1-max et AP
Amélioration de 10,3 % pour F1-max et 7,7 % pour AP sur l'ensemble de données VisA
Amélioration de 2,1 % pour F1-max et 1,1 % pour AP sur l'ensemble de données MVTec-AD
La métrique AUROC est légèrement inférieure aux meilleures méthodes, ce qui est dû à l'extension des régions d'anomalies résultant de la dépendance aux résultats de segmentation de SAM
CLIP : Premier modèle préentraîné sur des paires image-texte à l'échelle du web, possédant une puissante capacité d'alignement multimodal
SAM : Démontre une puissante capacité de segmentation d'objets en monde ouvert, capable de réaliser une segmentation de haute qualité en utilisant diverses invites
Méthodes basées sur CLIP : Utilisation de fenêtres glissantes, caractéristiques multi-couches, etc., mais avec une capacité limitée de perception des contours
Méthodes basées sur SAM : Possèdent une puissante capacité de perception des contours, mais une capacité de localisation limitée
Méthodes de collaboration CLIP et SAM : Les méthodes existantes n'exploitent pas pleinement les avantages complémentaires des deux modèles
Comparé aux travaux existants, cet article exploite mieux les avantages des deux modèles fondamentaux grâce à l'exploitation collaborative des caractéristiques et au mécanisme d'invites en cascade.
Les auteurs mentionnent qu'ils continueront à explorer comment intégrer efficacement et légèrement les avantages de différents modèles pour améliorer la capacité de segmentation d'anomalies.
Forte Innovativité Méthodologique : Les modules PPG et CPS sont conçus intelligemment et résolvent efficacement les limitations des méthodes existantes
Expérimentation Complète : Comparaisons et études d'ablation complètes sur plusieurs ensembles de données
Améliorations Significatives de Performance : Améliorations substantielles sur les métriques clés
Détails Techniques Clairs : Description détaillée de la méthode, dérivations de formules claires
Problème d'Efficacité de Calcul : Bien que les auteurs affirment que le surcoût supplémentaire n'est que de 100 millisecondes, le temps d'inférence global reste relativement long
Baisse de Performance AUROC : La performance diminue sur la métrique AUROC importante, nécessitant une optimisation supplémentaire
Évaluation de la Capacité de Généralisation : Évaluation sur seulement deux ensembles de données, la capacité de généralisation nécessite une vérification plus large
L'article cite 40 articles connexes, couvrant les modèles fondamentaux, la détection d'anomalies, la vision par ordinateur et d'autres domaines importants, avec une synthèse bibliographique relativement complète.
Évaluation Globale : Le cadre de collaboration CLIP-SAM proposé dans cet article est techniquement innovant, et les résultats expérimentaux sont impressionnants. Bien qu'il y ait encore de la place pour l'amélioration en termes d'efficacité de calcul et de certaines métriques, dans l'ensemble, il apporte une contribution importante au domaine de la détection d'anomalies en zéro-shot, avec une valeur académique et pratique considérable.