2025-11-12T14:13:10.569513

Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts

Hou, Xu, Li et al.
Recently, the powerful generalization ability exhibited by foundation models has brought forth new solutions for zero-shot anomaly segmentation tasks. However, guiding these foundation models correctly to address downstream tasks remains a challenge. This paper proposes a novel two-stage framework, for zero-shot anomaly segmentation tasks in industrial anomaly detection. This framework excellently leverages the powerful anomaly localization capability of CLIP and the boundary perception ability of SAM.(1) To mitigate SAM's inclination towards object segmentation, we propose the Co-Feature Point Prompt Generation (PPG) module. This module collaboratively utilizes CLIP and SAM to generate positive and negative point prompts, guiding SAM to focus on segmenting anomalous regions rather than the entire object. (2) To further optimize SAM's segmentation results and mitigate rough boundaries and isolated noise, we introduce the Cascaded Prompts for SAM (CPS) module. This module employs hybrid prompts cascaded with a lightweight decoder of SAM, achieving precise segmentation of anomalous regions. Across multiple datasets, consistent experimental validation demonstrates that our approach achieves state-of-the-art zero-shot anomaly segmentation results. Particularly noteworthy is our performance on the Visa dataset, where we outperform the state-of-the-art methods by 10.3\% and 7.7\% in terms of {$F_1$-max} and AP metrics, respectively.
academic

Mejoramiento de la Detección de Anomalías Zero-Shot: Colaboración CLIP-SAM con Indicaciones en Cascada

Información Básica

  • ID del Artículo: 2510.11028
  • Título: Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts
  • Autores: Yanning Hou, Ke Xu, Junfa Li, Yanran Ruan, Jianfeng Qiu (Escuela de Inteligencia Artificial, Universidad de Anhui)
  • Clasificación: cs.CV (Visión por Computadora)
  • Fecha de Publicación: 13 de octubre de 2025 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.11028v1

Resumen

Este artículo propone un marco novedoso de dos etapas para la tarea de segmentación de anomalías zero-shot en la detección de anomalías industriales. El marco aprovecha plenamente la capacidad de localización de anomalías de CLIP y la capacidad de percepción de límites de SAM. Mediante el módulo de Generación de Indicaciones de Puntos de Características Colaborativas (PPG) y el módulo de Indicaciones en Cascada para SAM (CPS), el método logra resultados de segmentación de anomalías zero-shot de última generación en múltiples conjuntos de datos, particularmente en el conjunto de datos VisA, donde los indicadores F1-max y AP mejoran en 10.3% y 7.7% respectivamente en comparación con los mejores métodos existentes.

Antecedentes de Investigación y Motivación

1. Problema a Resolver

Este artículo aborda principalmente la tarea de segmentación de anomalías zero-shot (ZSAS), especialmente en escenarios de detección de anomalías industriales, donde es necesario localizar y segmentar con precisión las regiones anómalas en imágenes sin datos de entrenamiento de muestras anómalas.

2. Importancia del Problema

  • Escasez de Datos: Las muestras anómalas son escasas en escenarios industriales, y los métodos tradicionales requieren grandes cantidades de datos anotados
  • Diversidad de Tipos de Anomalías: Los tipos de anomalías varían ampliamente en aplicaciones prácticas, lo que dificulta su definición previa
  • Demanda Industrial: La industria procesa millones de categorías de productos, haciendo que los métodos de aprendizaje supervisado tradicionales sean impracticables

3. Limitaciones de Métodos Existentes

  • Métodos Basados en CLIP: Aunque pueden localizar anomalías de manera efectiva, tienen una capacidad deficiente de percepción de límites, resultando en segmentaciones ásperas
  • Métodos Basados en SAM: Poseen una capacidad potente de percepción de límites, pero capacidad limitada de localización, tendiendo a segmentar objetos completos en lugar de regiones anómalas
  • Métodos Existentes de Colaboración CLIP y SAM: No aprovechan plenamente las ventajas individuales de ambos modelos, con estrategias de indicaciones demasiado rígidas

4. Motivación de la Investigación

Basándose en la capacidad de generalización potente de los modelos fundamentales (CLIP y SAM), diseñar un marco de colaboración efectivo que aproveche plenamente la capacidad de localización de anomalías de CLIP y la capacidad de segmentación precisa de SAM, logrando segmentación de anomalías zero-shot de alta calidad.

Contribuciones Principales

  1. Propone un Marco de Colaboración CLIP-SAM Novedoso: Diseña un marco de segmentación de anomalías zero-shot de dos etapas que combina efectivamente la capacidad de localización de anomalías de CLIP y la capacidad de percepción de límites de SAM
  2. Módulo de Generación de Indicaciones de Puntos de Características Colaborativas (PPG): Genera indicaciones de puntos positivos y negativos utilizando colaborativamente CLIP y SAM, guiando a SAM para enfocarse en segmentar regiones anómalas en lugar de objetos completos
  3. Módulo de Indicaciones en Cascada para SAM (CPS): Introduce innovadoramente un mecanismo de indicaciones mixtas en cascada, optimizando aún más los resultados de segmentación de SAM, eliminando límites ásperos y ruido aislado
  4. Logra Rendimiento de Última Generación: Obtiene mejoras significativas de rendimiento en múltiples conjuntos de datos, particularmente en el conjunto de datos VisA donde F1-max y AP mejoran en 10.3% y 7.7% respectivamente

Explicación Detallada del Método

Definición de la Tarea

La tarea de segmentación de anomalías zero-shot se define como: dada una imagen de prueba, localizar e identificar con precisión las regiones anómalas en la imagen sin datos de entrenamiento de muestras anómalas, produciendo una máscara de anomalía a nivel de píxeles.

Arquitectura del Modelo

Arquitectura General

El marco adopta un diseño de dos etapas:

  1. Primera Etapa: El módulo PPG genera indicaciones de puntos iniciales
  2. Segunda Etapa: El módulo CPS optimiza los resultados de segmentación mediante indicaciones en cascada

Diseño Detallado del Módulo PPG

Localización de Puntos Positivos:

Ra = Sa ⊗ Mapa                    (1)
Ph = Topk(Ra)                     (2)

Donde Sa es la región de anomalía extrema, Mapa es el mapa de anomalía generado por CLIP, Ra es la intersección de ambos, y Ph son los k puntos anómalos principales seleccionados como indicaciones de puntos positivos.

Localización de Puntos Negativos:

Na = dilate(Sa) - Sa              (3)
F = EncI(img)                     (4)
Fa = F ⊗ Sa, Fn = F ⊗ Na         (5)
Maps = Similarity(Fa, Fn)         (6)
Pl = Lowestk(Maps)                (7)

Se obtiene la región alrededor del área anómala Na mediante la función de dilatación, se extraen características F utilizando el codificador de imágenes de SAM, se calcula la similitud del coseno entre las características de la región anómala y la región circundante, y se seleccionan los k píxeles con similitud más baja como indicaciones de puntos negativos.

Diseño Detallado del Módulo CPS

Estructura de Tres Niveles en Cascada:

  1. Solo Indicaciones de Puntos:
P = Contact(Ph, Pl)               (8)
M1, logit1 = Decm(F, P)           (9)
  1. Indicaciones de Puntos + Logit:
M2, logit2 = Decm(F, Contact(P, logit1))    (10)
  1. Indicaciones de Puntos + Cuadro Delimitador + Logit:
box = Flocation(M2)               (11)
M3 = Decm(F, Contact(P, box, logit2))       (12)

Puntos de Innovación Técnica

  1. Utilización de Características Colaborativas: A diferencia de los métodos existentes de procesamiento en serie, el módulo PPG utiliza simultáneamente características de CLIP y SAM para generar indicaciones de puntos
  2. Selección Inteligente de Puntos Negativos: Mediante la función de dilatación y el cálculo de similitud de características, se seleccionan indicaciones de puntos negativos más efectivas, evitando que SAM segmente objetos completos
  3. Mejora Progresiva de Restricciones: El módulo CPS fortalece progresivamente las restricciones en SAM a través de tres niveles en cascada, logrando segmentación precisa
  4. Diseño Ligero: Utiliza solo el decodificador ligero de SAM para optimización iterativa, con sobrecarga computacional adicional de solo 100 milisegundos

Configuración Experimental

Conjuntos de Datos

  • MVTec-AD: Contiene imágenes de objetos industriales de alta resolución con anotaciones completas a nivel de píxeles
  • VisA: Conjunto de datos de detección de anomalías industriales que incluye múltiples tipos de anomalías

Métricas de Evaluación

  • AUROC: Refleja la capacidad del modelo para distinguir categorías en diferentes niveles de umbral
  • F1-max: Media armónica de precisión y recuperación en el umbral óptimo
  • AP (Precisión Promedio): Precisión en diferentes niveles de recuperación

Métodos de Comparación

  • Métodos Basados en CLIP: WinCLIP, APRIL-GAN, SDP, SDP+, AnomalyCLIP
  • Métodos Basados en SAM: SAA, SAA+
  • Métodos de Colaboración CLIP y SAM: ClipSAM

Detalles de Implementación

  • Modelo CLIP: Modelo preentrenado ViT-L-14-336
  • Modelo SAM: Modelo preentrenado ViT-H
  • Optimizador: Adam, tasa de aprendizaje 1e-3
  • Configuración de Entrenamiento: 3 épocas para conjunto de datos VisA, 15 épocas para conjunto de datos MVTec-AD
  • Hardware: NVIDIA GeForce RTX 3090, tamaño de lote 16

Resultados Experimentales

Resultados Principales

Categoría de MétodoMétodoMVTec-ADVisA
AUROCF1-maxAPAUROCF1-maxAP
Basado en CLIPWinCLIP85.131.7-79.614.8-
APRIL-GAN87.643.340.894.232.325.7
AnomalyCLIP91.139.134.595.528.321.3
Basado en SAMSAA+73.237.828.874.027.122.4
CLIP y SAMClipSAM92.347.845.995.633.126.0
Este TrabajoNuestro Método89.548.846.494.836.528.0

Hallazgos Clave:

  • Supera integralmente los métodos existentes en los indicadores F1-max y AP
  • En el conjunto de datos VisA, F1-max mejora en 10.3%, AP mejora en 7.7%
  • En el conjunto de datos MVTec-AD, F1-max mejora en 2.1%, AP mejora en 1.1%
  • El indicador AUROC es ligeramente inferior al mejor método, debido a la expansión de regiones anómalas causada por la dependencia de los resultados de segmentación de SAM

Experimentos de Ablación

Impacto de Parámetros de Función de Dilatación

Se probaron los efectos de diferentes formas y tamaños de núcleo en el rendimiento:

FormaTamañoAUROCF1-maxAP
Elipse(25,25)89.548.846.4
Rectángulo(20,20)89.547.745.6
Cruz(25,25)89.246.544.1

Conclusión: El núcleo elíptico (25,25) logra el mejor rendimiento.

Efecto de Pasos en Cascada

Etapa en CascadaAUROCF1-maxAP
Solo indicaciones de puntos88.742.539.2
Puntos + logit188.146.844.8
Puntos + cuadro + logit289.548.846.4

Hallazgos Clave:

  • El segundo nivel en cascada aumenta F1-max en 4.3%, AP en 5.6%
  • El tercer nivel en cascada mejora aún más F1-max en 2%, AP en 1.6%

Análisis de Casos

Los resultados visualizados muestran:

  • Los métodos basados en CLIP localizan anomalías con precisión pero con límites borrosos
  • Los métodos basados en SAM tienen límites claros pero localización imprecisa
  • Este método logra simultáneamente localización precisa y límites claros

Trabajo Relacionado

Modelos Fundamentales

  • CLIP: Primer modelo preentrenado en pares imagen-texto a escala de red, con capacidad potente de alineación multimodal
  • SAM: Demuestra capacidad potente de segmentación de objetos en mundo abierto, logrando segmentación de alta calidad utilizando diversas indicaciones

Métodos de Segmentación de Anomalías Zero-Shot

  1. Métodos Basados en CLIP: Utilizan técnicas de ventana deslizante, características multicapa, etc., pero con capacidad limitada de percepción de límites
  2. Métodos Basados en SAM: Poseen capacidad potente de percepción de límites, pero capacidad limitada de localización
  3. Métodos de Colaboración CLIP y SAM: Los métodos existentes no aprovechan plenamente las ventajas complementarias de ambos modelos

Ventajas de Este Trabajo

En comparación con trabajos existentes, este artículo aprovecha mejor las ventajas de ambos modelos fundamentales mediante utilización de características colaborativas y mecanismo de indicaciones en cascada.

Conclusiones y Discusión

Conclusiones Principales

  1. El marco de colaboración CLIP-SAM propuesto combina efectivamente las ventajas de ambos modelos fundamentales
  2. Los módulos PPG y CPS mejoran significativamente el rendimiento de segmentación de anomalías zero-shot
  3. Se logra rendimiento de última generación en múltiples conjuntos de datos

Limitaciones

  1. Velocidad de Inferencia: El uso de dos modelos resulta en tiempo de inferencia más lento
  2. Rendimiento AUROC: El rendimiento en el indicador AUROC es ligeramente inferior a algunos métodos
  3. Recursos Computacionales: Requiere recursos computacionales significativos

Direcciones Futuras

Los autores mencionan que continuarán explorando cómo integrar eficientemente y de manera ligera las ventajas de diferentes modelos para mejorar la capacidad de segmentación de anomalías.

Evaluación Profunda

Fortalezas

  1. Innovación Metodológica Fuerte: Los módulos PPG y CPS están diseñados ingeniosamente, resolviendo efectivamente las limitaciones de métodos existentes
  2. Experimentos Completos: Se realizan comparaciones y experimentos de ablación exhaustivos en múltiples conjuntos de datos
  3. Mejora Significativa de Rendimiento: Se logran mejoras sustanciales en indicadores clave
  4. Detalles Técnicos Claros: La descripción del método es detallada, las derivaciones de fórmulas son claras

Deficiencias

  1. Problema de Eficiencia Computacional: Aunque los autores afirman que la sobrecarga adicional es solo 100 milisegundos, el tiempo de inferencia general sigue siendo largo
  2. Disminución de Rendimiento AUROC: El rendimiento en el indicador importante AUROC disminuye, requiriendo optimización adicional
  3. Evaluación de Capacidad de Generalización: Solo se evalúa en dos conjuntos de datos, la capacidad de generalización requiere verificación más amplia

Impacto

  1. Contribución Académica: Proporciona nuevas ideas y métodos para el campo de detección de anomalías zero-shot
  2. Valor Práctico: Tiene valor de aplicación importante en detección de anomalías industriales
  3. Reproducibilidad: La descripción del método es detallada, los detalles de implementación son claros, facilitando la reproducción

Escenarios Aplicables

  • Inspección de calidad industrial
  • Detección de anomalías en imágenes médicas
  • Detección de eventos anómalos en vigilancia de seguridad
  • Otros escenarios de aplicación que requieren segmentación de anomalías zero-shot

Referencias

El artículo cita 40 referencias relacionadas, cubriendo trabajos importantes en múltiples campos incluyendo modelos fundamentales, detección de anomalías y visión por computadora, con una revisión de literatura relativamente completa.


Evaluación General: El marco de colaboración CLIP-SAM propuesto en este artículo es técnicamente innovador, con resultados experimentales impresionantes. Aunque hay espacio para mejora en eficiencia computacional e indicadores parciales, en general hace contribuciones importantes al campo de detección de anomalías zero-shot, con valor académico y práctico considerable.