Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts
Hou, Xu, Li et al.
Recently, the powerful generalization ability exhibited by foundation models has brought forth new solutions for zero-shot anomaly segmentation tasks. However, guiding these foundation models correctly to address downstream tasks remains a challenge. This paper proposes a novel two-stage framework, for zero-shot anomaly segmentation tasks in industrial anomaly detection. This framework excellently leverages the powerful anomaly localization capability of CLIP and the boundary perception ability of SAM.(1) To mitigate SAM's inclination towards object segmentation, we propose the Co-Feature Point Prompt Generation (PPG) module. This module collaboratively utilizes CLIP and SAM to generate positive and negative point prompts, guiding SAM to focus on segmenting anomalous regions rather than the entire object. (2) To further optimize SAM's segmentation results and mitigate rough boundaries and isolated noise, we introduce the Cascaded Prompts for SAM (CPS) module. This module employs hybrid prompts cascaded with a lightweight decoder of SAM, achieving precise segmentation of anomalous regions. Across multiple datasets, consistent experimental validation demonstrates that our approach achieves state-of-the-art zero-shot anomaly segmentation results. Particularly noteworthy is our performance on the Visa dataset, where we outperform the state-of-the-art methods by 10.3\% and 7.7\% in terms of {$F_1$-max} and AP metrics, respectively.
academic
Mejoramiento de la Detección de Anomalías Zero-Shot: Colaboración CLIP-SAM con Indicaciones en Cascada
Este artículo propone un marco novedoso de dos etapas para la tarea de segmentación de anomalías zero-shot en la detección de anomalías industriales. El marco aprovecha plenamente la capacidad de localización de anomalías de CLIP y la capacidad de percepción de límites de SAM. Mediante el módulo de Generación de Indicaciones de Puntos de Características Colaborativas (PPG) y el módulo de Indicaciones en Cascada para SAM (CPS), el método logra resultados de segmentación de anomalías zero-shot de última generación en múltiples conjuntos de datos, particularmente en el conjunto de datos VisA, donde los indicadores F1-max y AP mejoran en 10.3% y 7.7% respectivamente en comparación con los mejores métodos existentes.
Este artículo aborda principalmente la tarea de segmentación de anomalías zero-shot (ZSAS), especialmente en escenarios de detección de anomalías industriales, donde es necesario localizar y segmentar con precisión las regiones anómalas en imágenes sin datos de entrenamiento de muestras anómalas.
Escasez de Datos: Las muestras anómalas son escasas en escenarios industriales, y los métodos tradicionales requieren grandes cantidades de datos anotados
Diversidad de Tipos de Anomalías: Los tipos de anomalías varían ampliamente en aplicaciones prácticas, lo que dificulta su definición previa
Demanda Industrial: La industria procesa millones de categorías de productos, haciendo que los métodos de aprendizaje supervisado tradicionales sean impracticables
Métodos Basados en CLIP: Aunque pueden localizar anomalías de manera efectiva, tienen una capacidad deficiente de percepción de límites, resultando en segmentaciones ásperas
Métodos Basados en SAM: Poseen una capacidad potente de percepción de límites, pero capacidad limitada de localización, tendiendo a segmentar objetos completos en lugar de regiones anómalas
Métodos Existentes de Colaboración CLIP y SAM: No aprovechan plenamente las ventajas individuales de ambos modelos, con estrategias de indicaciones demasiado rígidas
Basándose en la capacidad de generalización potente de los modelos fundamentales (CLIP y SAM), diseñar un marco de colaboración efectivo que aproveche plenamente la capacidad de localización de anomalías de CLIP y la capacidad de segmentación precisa de SAM, logrando segmentación de anomalías zero-shot de alta calidad.
Propone un Marco de Colaboración CLIP-SAM Novedoso: Diseña un marco de segmentación de anomalías zero-shot de dos etapas que combina efectivamente la capacidad de localización de anomalías de CLIP y la capacidad de percepción de límites de SAM
Módulo de Generación de Indicaciones de Puntos de Características Colaborativas (PPG): Genera indicaciones de puntos positivos y negativos utilizando colaborativamente CLIP y SAM, guiando a SAM para enfocarse en segmentar regiones anómalas en lugar de objetos completos
Módulo de Indicaciones en Cascada para SAM (CPS): Introduce innovadoramente un mecanismo de indicaciones mixtas en cascada, optimizando aún más los resultados de segmentación de SAM, eliminando límites ásperos y ruido aislado
Logra Rendimiento de Última Generación: Obtiene mejoras significativas de rendimiento en múltiples conjuntos de datos, particularmente en el conjunto de datos VisA donde F1-max y AP mejoran en 10.3% y 7.7% respectivamente
La tarea de segmentación de anomalías zero-shot se define como: dada una imagen de prueba, localizar e identificar con precisión las regiones anómalas en la imagen sin datos de entrenamiento de muestras anómalas, produciendo una máscara de anomalía a nivel de píxeles.
Donde Sa es la región de anomalía extrema, Mapa es el mapa de anomalía generado por CLIP, Ra es la intersección de ambos, y Ph son los k puntos anómalos principales seleccionados como indicaciones de puntos positivos.
Localización de Puntos Negativos:
Na = dilate(Sa) - Sa (3)
F = EncI(img) (4)
Fa = F ⊗ Sa, Fn = F ⊗ Na (5)
Maps = Similarity(Fa, Fn) (6)
Pl = Lowestk(Maps) (7)
Se obtiene la región alrededor del área anómala Na mediante la función de dilatación, se extraen características F utilizando el codificador de imágenes de SAM, se calcula la similitud del coseno entre las características de la región anómala y la región circundante, y se seleccionan los k píxeles con similitud más baja como indicaciones de puntos negativos.
Utilización de Características Colaborativas: A diferencia de los métodos existentes de procesamiento en serie, el módulo PPG utiliza simultáneamente características de CLIP y SAM para generar indicaciones de puntos
Selección Inteligente de Puntos Negativos: Mediante la función de dilatación y el cálculo de similitud de características, se seleccionan indicaciones de puntos negativos más efectivas, evitando que SAM segmente objetos completos
Mejora Progresiva de Restricciones: El módulo CPS fortalece progresivamente las restricciones en SAM a través de tres niveles en cascada, logrando segmentación precisa
Diseño Ligero: Utiliza solo el decodificador ligero de SAM para optimización iterativa, con sobrecarga computacional adicional de solo 100 milisegundos
Supera integralmente los métodos existentes en los indicadores F1-max y AP
En el conjunto de datos VisA, F1-max mejora en 10.3%, AP mejora en 7.7%
En el conjunto de datos MVTec-AD, F1-max mejora en 2.1%, AP mejora en 1.1%
El indicador AUROC es ligeramente inferior al mejor método, debido a la expansión de regiones anómalas causada por la dependencia de los resultados de segmentación de SAM
Métodos Basados en CLIP: Utilizan técnicas de ventana deslizante, características multicapa, etc., pero con capacidad limitada de percepción de límites
Métodos Basados en SAM: Poseen capacidad potente de percepción de límites, pero capacidad limitada de localización
Métodos de Colaboración CLIP y SAM: Los métodos existentes no aprovechan plenamente las ventajas complementarias de ambos modelos
En comparación con trabajos existentes, este artículo aprovecha mejor las ventajas de ambos modelos fundamentales mediante utilización de características colaborativas y mecanismo de indicaciones en cascada.
Los autores mencionan que continuarán explorando cómo integrar eficientemente y de manera ligera las ventajas de diferentes modelos para mejorar la capacidad de segmentación de anomalías.
Problema de Eficiencia Computacional: Aunque los autores afirman que la sobrecarga adicional es solo 100 milisegundos, el tiempo de inferencia general sigue siendo largo
Disminución de Rendimiento AUROC: El rendimiento en el indicador importante AUROC disminuye, requiriendo optimización adicional
Evaluación de Capacidad de Generalización: Solo se evalúa en dos conjuntos de datos, la capacidad de generalización requiere verificación más amplia
El artículo cita 40 referencias relacionadas, cubriendo trabajos importantes en múltiples campos incluyendo modelos fundamentales, detección de anomalías y visión por computadora, con una revisión de literatura relativamente completa.
Evaluación General: El marco de colaboración CLIP-SAM propuesto en este artículo es técnicamente innovador, con resultados experimentales impresionantes. Aunque hay espacio para mejora en eficiencia computacional e indicadores parciales, en general hace contribuciones importantes al campo de detección de anomalías zero-shot, con valor académico y práctico considerable.