Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts
Hou, Xu, Li et al.
Recently, the powerful generalization ability exhibited by foundation models has brought forth new solutions for zero-shot anomaly segmentation tasks. However, guiding these foundation models correctly to address downstream tasks remains a challenge. This paper proposes a novel two-stage framework, for zero-shot anomaly segmentation tasks in industrial anomaly detection. This framework excellently leverages the powerful anomaly localization capability of CLIP and the boundary perception ability of SAM.(1) To mitigate SAM's inclination towards object segmentation, we propose the Co-Feature Point Prompt Generation (PPG) module. This module collaboratively utilizes CLIP and SAM to generate positive and negative point prompts, guiding SAM to focus on segmenting anomalous regions rather than the entire object. (2) To further optimize SAM's segmentation results and mitigate rough boundaries and isolated noise, we introduce the Cascaded Prompts for SAM (CPS) module. This module employs hybrid prompts cascaded with a lightweight decoder of SAM, achieving precise segmentation of anomalous regions. Across multiple datasets, consistent experimental validation demonstrates that our approach achieves state-of-the-art zero-shot anomaly segmentation results. Particularly noteworthy is our performance on the Visa dataset, where we outperform the state-of-the-art methods by 10.3\% and 7.7\% in terms of {$F_1$-max} and AP metrics, respectively.
academic
Улучшение обнаружения аномалий с нулевым обучением: сотрудничество CLIP-SAM с каскадными подсказками
В данной работе предложена новая двухэтапная структура для задачи сегментации аномалий с нулевым обучением в промышленном обнаружении аномалий. Структура полностью использует мощные возможности локализации аномалий CLIP и способность восприятия границ SAM. Благодаря модулям Co-Feature Point Prompt Generation (PPG) и Cascaded Prompts for SAM (CPS), метод достигает передовых результатов сегментации аномалий с нулевым обучением на нескольких наборах данных, в частности на наборе данных VisA, где показатели F1-max и AP улучшены на 10,3% и 7,7% соответственно по сравнению с существующими лучшими методами.
Данная работа решает задачу сегментации аномалий с нулевым обучением (Zero-Shot Anomaly Segmentation, ZSAS), в частности в сценариях промышленного обнаружения аномалий, где требуется точно локализовать и сегментировать области аномалий в изображениях без обучающих данных на примерах аномалий.
Методы на основе CLIP: хотя и эффективно локализуют аномалии, имеют слабые способности восприятия границ и грубые результаты сегментации
Методы на основе SAM: обладают мощными способностями восприятия границ, но ограниченными способностями локализации, часто сегментируют весь объект вместо области аномалии
Существующие методы сотрудничества CLIP и SAM: недостаточно используют взаимные преимущества двух моделей, стратегии подсказок слишком жесткие
На основе мощных способностей обобщения фундаментальных моделей (CLIP и SAM) разработать эффективную структуру сотрудничества, которая полностью использует способность локализации аномалий CLIP и точную способность сегментации SAM для достижения высококачественной сегментации аномалий с нулевым обучением.
Предложена новая структура сотрудничества CLIP-SAM: разработана двухэтапная структура сегментации аномалий с нулевым обучением, эффективно сочетающая способность локализации аномалий CLIP и способность восприятия границ SAM
Модуль Co-Feature Point Prompt Generation (PPG): совместное использование CLIP и SAM для генерации положительных и отрицательных подсказок точек, направляющих SAM на сегментацию области аномалии, а не всего объекта
Модуль Cascaded Prompts for SAM (CPS): инновационное введение механизма каскадных смешанных подсказок для дальнейшей оптимизации результатов сегментации SAM, устранение грубых границ и изолированного шума
Достижение передовой производительности: значительное повышение производительности на нескольких наборах данных, в частности на наборе данных VisA F1-max и AP улучшены на 10,3% и 7,7% соответственно
Задача сегментации аномалий с нулевым обучением определяется как: при наличии тестового изображения, без обучающих данных на примерах аномалий, точно идентифицировать и сегментировать области аномалий в изображении, выводя маску аномалии на уровне пикселей.
где Sa — область экстремальной аномалии, Mapa — карта аномалии, сгенерированная CLIP, Ra — пересечение двух, Ph — выбранные top-k точек аномалии в качестве положительных подсказок.
Локализация отрицательных точек:
Na = dilate(Sa) - Sa (3)
F = EncI(img) (4)
Fa = F ⊗ Sa, Fn = F ⊗ Na (5)
Maps = Similarity(Fa, Fn) (6)
Pl = Lowestk(Maps) (7)
Получение области вокруг области аномалии Na через функцию расширения, извлечение признаков F с помощью кодировщика изображений SAM, вычисление косинусного сходства признаков области аномалии и окружающей области, выбор k пикселей с наименьшим сходством в качестве отрицательных подсказок.
Совместное использование признаков: в отличие от последовательной обработки существующих методов, модуль PPG одновременно использует признаки CLIP и SAM для генерации подсказок точек
Интеллектуальный выбор отрицательных точек: через функцию расширения и вычисление сходства признаков выбираются более эффективные отрицательные подсказки, избегая сегментации всего объекта SAM
Прогрессивное усиление ограничений: модуль CPS постепенно усиливает ограничения на SAM через трёхуровневый каскад для достижения точной сегментации
Облегчённый дизайн: использование только облегчённого декодера SAM для итеративной оптимизации с дополнительными вычислительными затратами всего 100 миллисекунд
CLIP: первая модель, предварительно обученная на парах изображений и текста в масштабе сети, с мощной способностью мультимодального выравнивания
SAM: демонстрирует мощную способность сегментации объектов в открытом мире, способна достигать высококачественной сегментации с использованием различных подсказок
По сравнению с существующими работами, данная работа лучше использует преимущества двух фундаментальных моделей через совместное использование признаков и механизм каскадных подсказок.
Авторы упоминают, что будут продолжать исследовать, как эффективно и легко интегрировать преимущества различных моделей для повышения способности сегментации аномалий.
Проблемы вычислительной эффективности: хотя авторы утверждают, что дополнительные затраты составляют всего 100 миллисекунд, общее время вывода остаётся длительным
Снижение производительности AUROC: производительность по важной метрике AUROC снизилась, требуется дальнейшая оптимизация
Оценка способности обобщения: оценка проведена только на двух наборах данных, способность обобщения требует более широкой проверки
Статья цитирует 40 связанных работ, охватывающих фундаментальные модели, обнаружение аномалий, компьютерное зрение и другие области, обзор литературы достаточно полный.
Общая оценка: Предложенная в данной работе структура сотрудничества CLIP-SAM технически инновационна, результаты экспериментов впечатляющи. Хотя есть место для улучшения в вычислительной эффективности и некоторых метриках, в целом работа вносит важный вклад в область обнаружения аномалий с нулевым обучением, обладает высокой академической и практической ценностью.