2025-11-12T14:13:10.569513

Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts

Hou, Xu, Li et al.
Recently, the powerful generalization ability exhibited by foundation models has brought forth new solutions for zero-shot anomaly segmentation tasks. However, guiding these foundation models correctly to address downstream tasks remains a challenge. This paper proposes a novel two-stage framework, for zero-shot anomaly segmentation tasks in industrial anomaly detection. This framework excellently leverages the powerful anomaly localization capability of CLIP and the boundary perception ability of SAM.(1) To mitigate SAM's inclination towards object segmentation, we propose the Co-Feature Point Prompt Generation (PPG) module. This module collaboratively utilizes CLIP and SAM to generate positive and negative point prompts, guiding SAM to focus on segmenting anomalous regions rather than the entire object. (2) To further optimize SAM's segmentation results and mitigate rough boundaries and isolated noise, we introduce the Cascaded Prompts for SAM (CPS) module. This module employs hybrid prompts cascaded with a lightweight decoder of SAM, achieving precise segmentation of anomalous regions. Across multiple datasets, consistent experimental validation demonstrates that our approach achieves state-of-the-art zero-shot anomaly segmentation results. Particularly noteworthy is our performance on the Visa dataset, where we outperform the state-of-the-art methods by 10.3\% and 7.7\% in terms of {$F_1$-max} and AP metrics, respectively.
academic

Amélioration de la Détection d'Anomalies en Zéro-Shot : Collaboration CLIP-SAM avec Invites en Cascade

Informations Fondamentales

  • ID de l'article : 2510.11028
  • Titre : Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts
  • Auteurs : Yanning Hou, Ke Xu, Junfa Li, Yanran Ruan, Jianfeng Qiu (École d'Intelligence Artificielle, Université d'Anhui)
  • Classification : cs.CV (Vision par Ordinateur)
  • Date de Publication : 13 octobre 2025 (Prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.11028v1

Résumé

Cet article propose un cadre novateur en deux étapes pour la tâche de segmentation d'anomalies en zéro-shot dans la détection d'anomalies industrielles. Le cadre exploite pleinement la puissante capacité de localisation d'anomalies de CLIP et la capacité de perception des contours de SAM. Grâce aux modules Co-Feature Point Prompt Generation (PPG) et Cascaded Prompts for SAM (CPS), cette méthode réalise des résultats de segmentation d'anomalies en zéro-shot de pointe sur plusieurs ensembles de données, en particulier sur l'ensemble de données VisA, où les métriques F1-max et AP surpassent respectivement les meilleures méthodes existantes de 10,3 % et 7,7 %.

Contexte de Recherche et Motivation

1. Problème à Résoudre

Cet article aborde principalement la tâche de segmentation d'anomalies en zéro-shot (Zero-Shot Anomaly Segmentation, ZSAS), en particulier dans les scénarios de détection d'anomalies industrielles, où il est nécessaire de localiser et de segmenter avec précision les régions anormales dans les images sans données d'entraînement sur les échantillons d'anomalies.

2. Importance du Problème

  • Rareté des données : Les échantillons d'anomalies sont rares dans les scénarios industriels, et les méthodes traditionnelles nécessitent une grande quantité de données annotées
  • Diversité des types d'anomalies : Les types d'anomalies varient considérablement dans les applications pratiques, ce qui rend difficile leur prédéfinition
  • Besoins industriels : L'industrie traite des millions de catégories de produits, ce qui rend les méthodes d'apprentissage supervisé traditionnel impraticables

3. Limitations des Méthodes Existantes

  • Méthodes basées sur CLIP : Bien qu'elles puissent localiser efficacement les anomalies, elles ont une faible capacité de perception des contours et produisent des résultats de segmentation grossiers
  • Méthodes basées sur SAM : Possèdent une puissante capacité de perception des contours, mais une capacité de localisation limitée, tendant à segmenter l'objet entier plutôt que la région anormale
  • Méthodes de collaboration CLIP et SAM existantes : N'exploitent pas pleinement les avantages respectifs des deux modèles, avec des stratégies d'invites trop rigides

4. Motivation de la Recherche

Basée sur la puissante capacité de généralisation des modèles fondamentaux (CLIP et SAM), concevoir un cadre de collaboration efficace qui exploite pleinement la capacité de localisation d'anomalies de CLIP et la capacité de segmentation précise de SAM pour réaliser une segmentation d'anomalies en zéro-shot de haute qualité.

Contributions Principales

  1. Proposition d'un cadre de collaboration CLIP-SAM novateur : Conception d'un cadre de segmentation d'anomalies en zéro-shot en deux étapes qui combine efficacement la capacité de localisation d'anomalies de CLIP et la capacité de perception des contours de SAM
  2. Module Co-Feature Point Prompt Generation (PPG) : Génération d'invites de points positifs et négatifs en exploitant collaborativement CLIP et SAM, guidant SAM pour se concentrer sur la segmentation des régions anormales plutôt que sur l'objet entier
  3. Module Cascaded Prompts for SAM (CPS) : Introduction innovante d'un mécanisme d'invites mixtes en cascade, optimisant davantage les résultats de segmentation de SAM, éliminant les contours grossiers et le bruit isolé
  4. Réalisation de performances de pointe : Obtention d'améliorations significatives de performance sur plusieurs ensembles de données, en particulier sur l'ensemble de données VisA où les métriques F1-max et AP sont respectivement améliorées de 10,3 % et 7,7 %

Explication Détaillée de la Méthode

Définition de la Tâche

La tâche de segmentation d'anomalies en zéro-shot est définie comme suit : étant donné une image de test, identifier et segmenter avec précision les régions anormales dans l'image sans données d'entraînement sur les échantillons d'anomalies, en produisant un masque d'anomalies au niveau des pixels.

Architecture du Modèle

Architecture Globale

Le cadre adopte une conception en deux étapes :

  1. Première étape : Le module PPG génère les invites de points initiaux
  2. Deuxième étape : Le module CPS optimise les résultats de segmentation par des invites en cascade

Conception Détaillée du Module PPG

Localisation des Points Positifs :

Ra = Sa ⊗ Mapa                    (1)
Ph = Topk(Ra)                     (2)

Où Sa est la région d'anomalie extrême, Mapa est la carte d'anomalies générée par CLIP, Ra est l'intersection des deux, et Ph sont les k points d'anomalies supérieurs sélectionnés comme invites de points positifs.

Localisation des Points Négatifs :

Na = dilate(Sa) - Sa              (3)
F = EncI(img)                     (4)
Fa = F ⊗ Sa, Fn = F ⊗ Na         (5)
Maps = Similarity(Fa, Fn)         (6)
Pl = Lowestk(Maps)                (7)

Obtention de la région autour de la région d'anomalie Na par la fonction de dilatation, extraction des caractéristiques F à l'aide de l'encodeur d'images SAM, calcul de la similarité cosinus entre les caractéristiques de la région d'anomalie et de la région environnante, sélection des k pixels avec la similarité la plus faible comme invites de points négatifs.

Conception Détaillée du Module CPS

Structure en Trois Niveaux en Cascade :

  1. Invites de Points Uniquement :
P = Contact(Ph, Pl)               (8)
M1, logit1 = Decm(F, P)           (9)
  1. Invites de Points + Logit :
M2, logit2 = Decm(F, Contact(P, logit1))    (10)
  1. Invites de Points + Boîte Englobante + Logit :
box = Flocation(M2)               (11)
M3 = Decm(F, Contact(P, box, logit2))       (12)

Points Techniques Innovants

  1. Exploitation Collaborative des Caractéristiques : Contrairement aux méthodes existantes de traitement en série, le module PPG exploite simultanément les caractéristiques de CLIP et SAM pour la génération d'invites de points
  2. Sélection Intelligente des Points Négatifs : Par la fonction de dilatation et le calcul de similarité des caractéristiques, sélection d'invites de points négatifs plus efficaces, évitant que SAM ne segmente l'objet entier
  3. Renforcement Progressif des Contraintes : Le module CPS renforce progressivement les contraintes sur SAM par trois niveaux en cascade, réalisant une segmentation précise
  4. Conception Légère : Utilisation uniquement du décodeur léger de SAM pour l'optimisation itérative, avec un surcoût de calcul supplémentaire de seulement 100 millisecondes

Configuration Expérimentale

Ensembles de Données

  • MVTec-AD : Contient des images d'objets industriels haute résolution avec des annotations complètes au niveau des pixels
  • VisA : Ensemble de données de détection d'anomalies industrielles contenant plusieurs types d'anomalies

Métriques d'Évaluation

  • AUROC : Reflète la capacité du modèle à distinguer les classes à différents niveaux de seuil
  • F1-max : Moyenne harmonique de la précision et du rappel au seuil optimal
  • AP (Average Precision) : Précision à différents niveaux de rappel

Méthodes de Comparaison

  • Méthodes basées sur CLIP : WinCLIP, APRIL-GAN, SDP, SDP+, AnomalyCLIP
  • Méthodes basées sur SAM : SAA, SAA+
  • Méthodes de collaboration CLIP et SAM : ClipSAM

Détails d'Implémentation

  • Modèle CLIP : Modèle préentraîné ViT-L-14-336
  • Modèle SAM : Modèle préentraîné ViT-H
  • Optimiseur : Adam, taux d'apprentissage 1e-3
  • Configuration d'entraînement : 3 epochs pour l'ensemble de données VisA, 15 epochs pour l'ensemble de données MVTec-AD
  • Matériel : NVIDIA GeForce RTX 3090, taille de batch 16

Résultats Expérimentaux

Résultats Principaux

Catégorie de MéthodeMéthodeMVTec-ADVisA
AUROCF1-maxAPAUROCF1-maxAP
Basée sur CLIPWinCLIP85,131,7-79,614,8-
APRIL-GAN87,643,340,894,232,325,7
AnomalyCLIP91,139,134,595,528,321,3
Basée sur SAMSAA+73,237,828,874,027,122,4
CLIP et SAMClipSAM92,347,845,995,633,126,0
Cet ArticleNotre Méthode89,548,846,494,836,528,0

Découvertes Clés :

  • Surpasse complètement les méthodes existantes sur les métriques F1-max et AP
  • Amélioration de 10,3 % pour F1-max et 7,7 % pour AP sur l'ensemble de données VisA
  • Amélioration de 2,1 % pour F1-max et 1,1 % pour AP sur l'ensemble de données MVTec-AD
  • La métrique AUROC est légèrement inférieure aux meilleures méthodes, ce qui est dû à l'extension des régions d'anomalies résultant de la dépendance aux résultats de segmentation de SAM

Études d'Ablation

Impact des Paramètres de la Fonction de Dilatation

Test de l'impact de différentes formes et tailles de noyau sur la performance :

FormeTailleAUROCF1-maxAP
Ellipse(25,25)89,548,846,4
Rectangle(20,20)89,547,745,6
Croix(25,25)89,246,544,1

Conclusion : Le noyau elliptique (25,25) réalise la meilleure performance.

Effet des Étapes en Cascade

Étape en CascadeAUROCF1-maxAP
Points Uniquement88,742,539,2
Points + logit188,146,844,8
Points + box + logit289,548,846,4

Découvertes Clés :

  • Le deuxième niveau en cascade augmente F1-max de 4,3 % et AP de 5,6 %
  • Le troisième niveau en cascade améliore davantage F1-max de 2 % et AP de 1,6 %

Analyse de Cas

Les résultats de visualisation montrent :

  • Les méthodes basées sur CLIP localisent avec précision les anomalies mais avec des contours flous
  • Les méthodes basées sur SAM ont des contours clairs mais une localisation imprécise
  • Notre méthode réalise simultanément une localisation précise et des contours clairs

Travaux Connexes

Modèles Fondamentaux

  • CLIP : Premier modèle préentraîné sur des paires image-texte à l'échelle du web, possédant une puissante capacité d'alignement multimodal
  • SAM : Démontre une puissante capacité de segmentation d'objets en monde ouvert, capable de réaliser une segmentation de haute qualité en utilisant diverses invites

Méthodes de Segmentation d'Anomalies en Zéro-Shot

  1. Méthodes basées sur CLIP : Utilisation de fenêtres glissantes, caractéristiques multi-couches, etc., mais avec une capacité limitée de perception des contours
  2. Méthodes basées sur SAM : Possèdent une puissante capacité de perception des contours, mais une capacité de localisation limitée
  3. Méthodes de collaboration CLIP et SAM : Les méthodes existantes n'exploitent pas pleinement les avantages complémentaires des deux modèles

Avantages de Cet Article

Comparé aux travaux existants, cet article exploite mieux les avantages des deux modèles fondamentaux grâce à l'exploitation collaborative des caractéristiques et au mécanisme d'invites en cascade.

Conclusion et Discussion

Conclusions Principales

  1. Le cadre de collaboration CLIP-SAM proposé combine efficacement les avantages des deux modèles fondamentaux
  2. Les modules PPG et CPS améliorent significativement la performance de segmentation d'anomalies en zéro-shot
  3. La méthode atteint des performances de pointe sur plusieurs ensembles de données

Limitations

  1. Vitesse d'inférence : L'utilisation de deux modèles entraîne un temps d'inférence plus long
  2. Performance AUROC : Légèrement inférieure à certaines méthodes sur la métrique AUROC
  3. Ressources de Calcul : Nécessite des ressources de calcul importantes

Directions Futures

Les auteurs mentionnent qu'ils continueront à explorer comment intégrer efficacement et légèrement les avantages de différents modèles pour améliorer la capacité de segmentation d'anomalies.

Évaluation Approfondie

Points Forts

  1. Forte Innovativité Méthodologique : Les modules PPG et CPS sont conçus intelligemment et résolvent efficacement les limitations des méthodes existantes
  2. Expérimentation Complète : Comparaisons et études d'ablation complètes sur plusieurs ensembles de données
  3. Améliorations Significatives de Performance : Améliorations substantielles sur les métriques clés
  4. Détails Techniques Clairs : Description détaillée de la méthode, dérivations de formules claires

Insuffisances

  1. Problème d'Efficacité de Calcul : Bien que les auteurs affirment que le surcoût supplémentaire n'est que de 100 millisecondes, le temps d'inférence global reste relativement long
  2. Baisse de Performance AUROC : La performance diminue sur la métrique AUROC importante, nécessitant une optimisation supplémentaire
  3. Évaluation de la Capacité de Généralisation : Évaluation sur seulement deux ensembles de données, la capacité de généralisation nécessite une vérification plus large

Impact

  1. Contribution Académique : Fournit de nouvelles idées et méthodes au domaine de la détection d'anomalies en zéro-shot
  2. Valeur Pratique : Possède une valeur d'application importante dans la détection d'anomalies industrielles
  3. Reproductibilité : Description détaillée de la méthode, détails d'implémentation clairs, facilitant la reproduction

Scénarios d'Application

  • Contrôle qualité industriel
  • Détection d'anomalies en imagerie médicale
  • Détection d'événements anormaux en surveillance de sécurité
  • Autres scénarios d'application nécessitant une segmentation d'anomalies en zéro-shot

Références Bibliographiques

L'article cite 40 articles connexes, couvrant les modèles fondamentaux, la détection d'anomalies, la vision par ordinateur et d'autres domaines importants, avec une synthèse bibliographique relativement complète.


Évaluation Globale : Le cadre de collaboration CLIP-SAM proposé dans cet article est techniquement innovant, et les résultats expérimentaux sont impressionnants. Bien qu'il y ait encore de la place pour l'amélioration en termes d'efficacité de calcul et de certaines métriques, dans l'ensemble, il apporte une contribution importante au domaine de la détection d'anomalies en zéro-shot, avec une valeur académique et pratique considérable.