2025-11-12T14:13:10.569513

Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts

Hou, Xu, Li et al.

Recently, the powerful generalization ability exhibited by foundation models has brought forth new solutions for zero-shot anomaly segmentation tasks. However, guiding these foundation models correctly to address downstream tasks remains a challenge. This paper proposes a novel two-stage framework, for zero-shot anomaly segmentation tasks in industrial anomaly detection. This framework excellently leverages the powerful anomaly localization capability of CLIP and the boundary perception ability of SAM.(1) To mitigate SAM's inclination towards object segmentation, we propose the Co-Feature Point Prompt Generation (PPG) module. This module collaboratively utilizes CLIP and SAM to generate positive and negative point prompts, guiding SAM to focus on segmenting anomalous regions rather than the entire object. (2) To further optimize SAM's segmentation results and mitigate rough boundaries and isolated noise, we introduce the Cascaded Prompts for SAM (CPS) module. This module employs hybrid prompts cascaded with a lightweight decoder of SAM, achieving precise segmentation of anomalous regions. Across multiple datasets, consistent experimental validation demonstrates that our approach achieves state-of-the-art zero-shot anomaly segmentation results. Particularly noteworthy is our performance on the Visa dataset, where we outperform the state-of-the-art methods by 10.3\% and 7.7\% in terms of {$F_1$-max} and AP metrics, respectively.

academic

Улучшение обнаружения аномалий с нулевым обучением: сотрудничество CLIP-SAM с каскадными подсказками

Основная информация

ID статьи: 2510.11028
Название: Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts
Авторы: Yanning Hou, Ke Xu, Junfa Li, Yanran Ruan, Jianfeng Qiu (Школа искусственного интеллекта Университета Аньхой)
Категория: cs.CV (компьютерное зрение)
Дата публикации: 13 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.11028v1

Аннотация

В данной работе предложена новая двухэтапная структура для задачи сегментации аномалий с нулевым обучением в промышленном обнаружении аномалий. Структура полностью использует мощные возможности локализации аномалий CLIP и способность восприятия границ SAM. Благодаря модулям Co-Feature Point Prompt Generation (PPG) и Cascaded Prompts for SAM (CPS), метод достигает передовых результатов сегментации аномалий с нулевым обучением на нескольких наборах данных, в частности на наборе данных VisA, где показатели F1-max и AP улучшены на 10,3% и 7,7% соответственно по сравнению с существующими лучшими методами.

Исследовательский контекст и мотивация

1. Решаемая проблема

Данная работа решает задачу сегментации аномалий с нулевым обучением (Zero-Shot Anomaly Segmentation, ZSAS), в частности в сценариях промышленного обнаружения аномалий, где требуется точно локализовать и сегментировать области аномалий в изображениях без обучающих данных на примерах аномалий.

2. Значимость проблемы

Дефицит данных: образцы аномалий редки в промышленных сценариях, традиционные методы требуют большого количества аннотированных данных
Разнообразие типов аномалий: типы аномалий в практических приложениях варьируются, что затрудняет их предварительное определение
Промышленные требования: промышленность обрабатывает миллионы категорий продуктов, традиционные методы контролируемого обучения непрактичны

3. Ограничения существующих методов

Методы на основе CLIP: хотя и эффективно локализуют аномалии, имеют слабые способности восприятия границ и грубые результаты сегментации
Методы на основе SAM: обладают мощными способностями восприятия границ, но ограниченными способностями локализации, часто сегментируют весь объект вместо области аномалии
Существующие методы сотрудничества CLIP и SAM: недостаточно используют взаимные преимущества двух моделей, стратегии подсказок слишком жесткие

4. Исследовательская мотивация

На основе мощных способностей обобщения фундаментальных моделей (CLIP и SAM) разработать эффективную структуру сотрудничества, которая полностью использует способность локализации аномалий CLIP и точную способность сегментации SAM для достижения высококачественной сегментации аномалий с нулевым обучением.

Основные вклады

Предложена новая структура сотрудничества CLIP-SAM: разработана двухэтапная структура сегментации аномалий с нулевым обучением, эффективно сочетающая способность локализации аномалий CLIP и способность восприятия границ SAM
Модуль Co-Feature Point Prompt Generation (PPG): совместное использование CLIP и SAM для генерации положительных и отрицательных подсказок точек, направляющих SAM на сегментацию области аномалии, а не всего объекта
Модуль Cascaded Prompts for SAM (CPS): инновационное введение механизма каскадных смешанных подсказок для дальнейшей оптимизации результатов сегментации SAM, устранение грубых границ и изолированного шума
Достижение передовой производительности: значительное повышение производительности на нескольких наборах данных, в частности на наборе данных VisA F1-max и AP улучшены на 10,3% и 7,7% соответственно

Подробное описание метода

Определение задачи

Задача сегментации аномалий с нулевым обучением определяется как: при наличии тестового изображения, без обучающих данных на примерах аномалий, точно идентифицировать и сегментировать области аномалий в изображении, выводя маску аномалии на уровне пикселей.

Архитектура модели

Общая архитектура

Структура использует двухэтапный дизайн:

Первый этап: модуль PPG генерирует начальные подсказки точек
Второй этап: модуль CPS оптимизирует результаты сегментации через каскадные подсказки

Подробный дизайн модуля PPG

Локализация положительных точек:

Ra = Sa ⊗ Mapa                    (1)
Ph = Topk(Ra)                     (2)

где Sa — область экстремальной аномалии, Mapa — карта аномалии, сгенерированная CLIP, Ra — пересечение двух, Ph — выбранные top-k точек аномалии в качестве положительных подсказок.

Локализация отрицательных точек:

Na = dilate(Sa) - Sa              (3)
F = EncI(img)                     (4)
Fa = F ⊗ Sa, Fn = F ⊗ Na         (5)
Maps = Similarity(Fa, Fn)         (6)
Pl = Lowestk(Maps)                (7)

Получение области вокруг области аномалии Na через функцию расширения, извлечение признаков F с помощью кодировщика изображений SAM, вычисление косинусного сходства признаков области аномалии и окружающей области, выбор k пикселей с наименьшим сходством в качестве отрицательных подсказок.

Подробный дизайн модуля CPS

Трёхуровневая каскадная структура:

Только подсказки точек:

P = Contact(Ph, Pl)               (8)
M1, logit1 = Decm(F, P)           (9)

Подсказки точек + logit:

M2, logit2 = Decm(F, Contact(P, logit1))    (10)

Подсказки точек + ограничивающий прямоугольник + logit:

box = Flocation(M2)               (11)
M3 = Decm(F, Contact(P, box, logit2))       (12)

Технические инновации

Совместное использование признаков: в отличие от последовательной обработки существующих методов, модуль PPG одновременно использует признаки CLIP и SAM для генерации подсказок точек
Интеллектуальный выбор отрицательных точек: через функцию расширения и вычисление сходства признаков выбираются более эффективные отрицательные подсказки, избегая сегментации всего объекта SAM
Прогрессивное усиление ограничений: модуль CPS постепенно усиливает ограничения на SAM через трёхуровневый каскад для достижения точной сегментации
Облегчённый дизайн: использование только облегчённого декодера SAM для итеративной оптимизации с дополнительными вычислительными затратами всего 100 миллисекунд

Экспериментальная установка

Наборы данных

MVTec-AD: содержит высокоразрешённые изображения промышленных объектов с полными аннотациями на уровне пикселей
VisA: набор данных промышленного обнаружения аномалий, содержащий различные типы аномалий

Метрики оценки

AUROC: отражает способность модели различать классы при различных пороговых значениях
F1-max: гармоническое среднее точности и полноты при оптимальном пороге
AP (Average Precision): точность при различных уровнях полноты

Методы сравнения

Методы на основе CLIP: WinCLIP, APRIL-GAN, SDP, SDP+, AnomalyCLIP
Методы на основе SAM: SAA, SAA+
Методы сотрудничества CLIP и SAM: ClipSAM

Детали реализации

Модель CLIP: предварительно обученная модель ViT-L-14-336
Модель SAM: предварительно обученная модель ViT-H
Оптимизатор: Adam, скорость обучения 1e-3
Параметры обучения: 3 эпохи для набора данных VisA, 15 эпох для набора данных MVTec-AD
Оборудование: NVIDIA GeForce RTX 3090, размер пакета 16

Результаты экспериментов

Основные результаты

Категория метода	Метод	MVTec-AD			VisA
		AUROC	F1-max	AP	AUROC	F1-max	AP
На основе CLIP	WinCLIP	85,1	31,7	—	79,6	14,8	—
	APRIL-GAN	87,6	43,3	40,8	94,2	32,3	25,7
	AnomalyCLIP	91,1	39,1	34,5	95,5	28,3	21,3
На основе SAM	SAA+	73,2	37,8	28,8	74,0	27,1	22,4
Сотрудничество CLIP и SAM	ClipSAM	92,3	47,8	45,9	95,6	33,1	26,0
Данная работа	Наш метод	89,5	48,8	46,4	94,8	36,5	28,0

Ключевые выводы:

Полное превосходство над существующими методами по метрикам F1-max и AP
Улучшение F1-max на 10,3% и AP на 7,7% на наборе данных VisA
Улучшение F1-max на 2,1% и AP на 1,1% на наборе данных MVTec-AD
Метрика AUROC немного ниже лучших методов из-за расширения области аномалии в результате сегментации SAM

Абляционные исследования

Влияние параметров функции расширения

Тестирование влияния различных форм и размеров ядра на производительность:

Форма	Размер	AUROC	F1-max	AP
Эллипс	(25,25)	89,5	48,8	46,4
Прямоугольник	(20,20)	89,5	47,7	45,6
Крест	(25,25)	89,2	46,5	44,1

Вывод: эллиптическое ядро размером (25,25) достигает лучшей производительности.

Эффект каскадных этапов

Каскадный этап	AUROC	F1-max	AP
Только подсказки точек	88,7	42,5	39,2
Подсказки точек + logit1	88,1	46,8	44,8
Подсказки точек + box + logit2	89,5	48,8	46,4

Ключевые выводы:

Второй каскад увеличивает F1-max на 4,3%, AP на 5,6%
Третий каскад дополнительно улучшает F1-max на 2%, AP на 1,6%

Анализ примеров

Результаты визуализации показывают:

Методы на основе CLIP точно локализуют аномалии, но границы размыты
Методы на основе SAM имеют чёткие границы, но неточную локализацию
Предложенный метод одновременно достигает точной локализации и чётких границ

Связанные работы

Фундаментальные модели

CLIP: первая модель, предварительно обученная на парах изображений и текста в масштабе сети, с мощной способностью мультимодального выравнивания
SAM: демонстрирует мощную способность сегментации объектов в открытом мире, способна достигать высококачественной сегментации с использованием различных подсказок

Методы сегментации аномалий с нулевым обучением

Методы на основе CLIP: использование скользящего окна, многоуровневых признаков и других методов, но с ограниченной способностью восприятия границ
Методы на основе SAM: мощная способность восприятия границ, но ограниченная способность локализации
Методы сотрудничества CLIP и SAM: существующие работы недостаточно используют взаимные преимущества двух фундаментальных моделей

Преимущества данной работы

По сравнению с существующими работами, данная работа лучше использует преимущества двух фундаментальных моделей через совместное использование признаков и механизм каскадных подсказок.

Заключение и обсуждение

Основные выводы

Предложенная структура сотрудничества CLIP-SAM эффективно сочетает преимущества двух фундаментальных моделей
Модули PPG и CPS значительно улучшают производительность сегментации аномалий с нулевым обучением
Достигнута передовая производительность на нескольких наборах данных

Ограничения

Скорость вывода: использование двух моделей приводит к более медленному времени вывода
Производительность AUROC: производительность по метрике AUROC немного ниже некоторых методов
Вычислительные ресурсы: требуются значительные вычислительные ресурсы

Будущие направления

Авторы упоминают, что будут продолжать исследовать, как эффективно и легко интегрировать преимущества различных моделей для повышения способности сегментации аномалий.

Глубокая оценка

Преимущества

Высокая инновационность метода: модули PPG и CPS хитроумно разработаны, эффективно решают ограничения существующих методов
Полные эксперименты: проведены всесторонние сравнительные и абляционные исследования на нескольких наборах данных
Значительное улучшение производительности: достигнуто значительное улучшение по ключевым метрикам
Ясные технические детали: подробное описание метода, чёткие математические выводы

Недостатки

Проблемы вычислительной эффективности: хотя авторы утверждают, что дополнительные затраты составляют всего 100 миллисекунд, общее время вывода остаётся длительным
Снижение производительности AUROC: производительность по важной метрике AUROC снизилась, требуется дальнейшая оптимизация
Оценка способности обобщения: оценка проведена только на двух наборах данных, способность обобщения требует более широкой проверки

Влияние

Академический вклад: предоставляет новые идеи и методы для области обнаружения аномалий с нулевым обучением
Практическая ценность: имеет важное прикладное значение в промышленном обнаружении аномалий
Воспроизводимость: подробное описание метода, ясные детали реализации, удобно для воспроизведения

Применимые сценарии

Промышленная проверка качества
Обнаружение аномалий в медицинских изображениях
Обнаружение аномальных событий в системах безопасности и видеонаблюдения
Другие приложения, требующие сегментации аномалий с нулевым обучением

Список литературы

Статья цитирует 40 связанных работ, охватывающих фундаментальные модели, обнаружение аномалий, компьютерное зрение и другие области, обзор литературы достаточно полный.

Общая оценка: Предложенная в данной работе структура сотрудничества CLIP-SAM технически инновационна, результаты экспериментов впечатляющи. Хотя есть место для улучшения в вычислительной эффективности и некоторых метриках, в целом работа вносит важный вклад в область обнаружения аномалий с нулевым обучением, обладает высокой академической и практической ценностью.