2025-11-10T02:42:11.024249

Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation

Park, Lee, Seong et al.
We propose Foreground-Covering Prototype Generation and Matching to resolve Few-Shot Segmentation (FSS), which aims to segment target regions in unlabeled query images based on labeled support images. Unlike previous research, which typically estimates target regions in the query using support prototypes and query pixels, we utilize the relationship between support and query prototypes. To achieve this, we utilize two complementary features: SAM Image Encoder features for pixel aggregation and ResNet features for class consistency. Specifically, we construct support and query prototypes with SAM features and distinguish query prototypes of target regions based on ResNet features. For the query prototype construction, we begin by roughly guiding foreground regions within SAM features using the conventional pseudo-mask, then employ iterative cross-attention to aggregate foreground features into learnable tokens. Here, we discover that the cross-attention weights can effectively alternate the conventional pseudo-mask. Therefore, we use the attention-based pseudo-mask to guide ResNet features to focus on the foreground, then infuse the guided ResNet feature into the learnable tokens to generate class-consistent query prototypes. The generation of the support prototype is conducted symmetrically to that of the query one, with the pseudo-mask replaced by the ground-truth mask. Finally, we compare these query prototypes with support ones to generate prompts, which subsequently produce object masks through the SAM Mask Decoder. Our state-of-the-art performances on various datasets validate the effectiveness of the proposed method for FSS. Our official code is available at https://github.com/SuhoPark0706/FCP
academic

Генерация и сопоставление прототипов с покрытием переднего плана для сегментации с малым числом примеров с помощью SAM

Основная информация

  • ID статьи: 2501.00752
  • Название: Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation
  • Авторы: Suho Park*, SuBeen Lee*, Hyun Seok Seong, Jaejoon Yoo, Jae-Pil Heo† (Университет Сунгюнкван)
  • Категория: cs.CV (компьютерное зрение)
  • Дата подачи: 1 января 2025 г. на arXiv
  • Ссылка на статью: https://arxiv.org/abs/2501.00752
  • Ссылка на код: https://github.com/SuhoPark0706/FCP

Аннотация

В данной работе предложен метод генерации и сопоставления прототипов с покрытием переднего плана (FCP) для решения задачи сегментации с малым числом примеров (FSS). В отличие от предыдущих исследований, которые обычно используют поддерживающие прототипы и пиксели запроса для оценки целевой области, данный метод использует отношения между поддерживающими и запрашиваемыми прототипами. Метод объединяет две взаимодополняющие характеристики: признаки кодировщика изображений SAM для пиксельной агрегации и признаки ResNet для согласованности класса. Путем построения поддерживающих и запрашиваемых прототипов и различения запрашиваемых прототипов целевой области на основе признаков ResNet, а затем генерирования маски объекта через декодер маски SAM, метод достигает передовых результатов на нескольких наборах данных.

Исследовательский контекст и мотивация

Определение проблемы

Сегментация с малым числом примеров (Few-Shot Segmentation, FSS) направлена на сегментацию целевых областей в немаркированных изображениях запроса на основе небольшого количества помеченных поддерживающих изображений. Это важная задача в компьютерном зрении, поскольку традиционные методы семантической сегментации требуют больших объемов помеченных данных, тогда как FSS может значительно снизить нагрузку на ручное аннотирование.

Ограничения существующих методов

  1. Ограничения SAM: Несмотря на отличные результаты модели Segment Anything Model (SAM) в задачах сегментации, ей не хватает согласованности класса между изображениями, и она не может классифицировать области переднего плана в изображении запроса на основе поддерживающего изображения.
  2. Недостатки VRP-SAM:
    • Отношение сопоставления прототип-пиксель субоптимально, что может привести к недостаточной информации переднего плана в визуальных подсказках или включению элементов фона
    • Низкое качество псевдомасок на основе простого сходства пиксель-пиксель
    • Сложность в выборочном усилении пиксельных значений переднего плана запроса, что может размыть различие между пикселями переднего и фонового плана

Исследовательская мотивация

Авторы обнаружили, что признаки кодировщика изображений SAM превосходны при пиксельной агрегации, тогда как признаки ResNet сильнее в согласованности класса. На основе этого наблюдения предложена стратегия сопоставления прототип-прототип для генерирования более надежных визуальных подсказок.

Основные вклады

  1. Предложен метод генерации и сопоставления прототипов с покрытием переднего плана: Построение прототипов поддерживающих и запрашиваемых изображений, генерирование визуальных подсказок путем сравнения между прототипами и создание маски объекта запрашиваемого изображения через декодер маски SAM.
  2. Стратегия двойного слияния признаков: Эффективное использование превосходной способности агрегации признаков кодировщика изображений SAM и согласованности класса признаков ResNet для генерирования прототипов, сосредоточенных на переднем плане.
  3. Псевдомаска, управляемая вниманием: Предложена псевдомаска на основе внимания, которая эффективно заменяет традиционную псевдомаску путем использования признаков кодировщика изображений SAM.
  4. Достижение передовых результатов: Валидация эффективности сопоставления прототип-прототип на нескольких наборах данных с достижением новых передовых результатов.

Подробное описание метода

Определение задачи

FSS использует метаобучение с двумя независимыми наборами данных: обучающим набором D_train и тестовым набором D_test, содержащими непересекающиеся классы C_base и C_novel. Каждый эпизод включает:

  • Поддерживающий набор: K помеченных изображений S = {(I_Si, M_Si)}^K_
  • Запрашиваемый набор: одно немаркированное изображение Q = (I_Q, M_Q)

Цель состоит в предсказании запрашиваемой маски M_pred на основе поддерживающего набора и запрашиваемого изображения.

Архитектура модели

1. Генерация поддерживающего прототипа

Процесс генерации поддерживающего прототипа включает два основных этапа:

Агрегация признаков переднего плана:

Ḡ_S = ConvG(Concat(G_S, M_S, MP(G_S, M_S)))  (1)

Использование маски ground truth M_S для направления признаков SAM G_S, затем агрегирование информации переднего плана через T-1 шагов итеративного кросс-внимания:

P^t_S = MaskedCrossAttn(P^{t-1}_S, Ḡ_S, Ḡ_S; M_S)  (2)

Внедрение согласованности класса:

F̄_S = ConvG(Concat(F_S, M_S, MP(F_S, M_S)))  (3)
P^T_S = MaskedCrossAttn(P^{T-1}_S, Ḡ_S, F̄_S; M_S)  (4)

2. Генерация запрашиваемого прототипа

Генерация запрашиваемого прототипа сталкивается с проблемой отсутствия маски ground truth и использует следующую стратегию:

Вычисление традиционной псевдомаски:

M^pseudo_{h,w} = \max_{1≤h'≤H,1≤w'≤W} M^S_{h',w'}(F^Q_{h,w} · F^S_{h',w'})  (5)

Агрегация признаков SAM:

Ḡ_Q = ConvG(Concat(G_Q, M^pseudo, MP(G_S, M_S)))  (6)
P^t_Q = CrossAttn(P^{t-1}_Q, Ḡ_Q, Ḡ_Q)  (7)

Псевдомаска, управляемая вниманием:

M^{attn}_{t,h,w} = \max_{1≤n≤N} A^Q_{t,n,h,w}  (8)

Направляющая потеря:

L_{guide} = \frac{1}{T-1} \sum^{T-1}_{t=1} L_{BCE}(M^{attn}_t, M_Q) + L_{DL}(M^{attn}_t, M_Q)  (9)

Слияние признаков ResNet:

F̄_Q = ConvF(Concat(F_Q, M^{attn}_{T-1}, MP(F_S, M_S)))  (10)
P^T_Q = CrossAttn(P^{T-1}_Q, Ḡ_Q, F̄_Q)  (11)

3. Сопоставление прототип-прототип

Генерирование визуальной подсказки через кросс-внимание:

V = CrossAttn(P^T_S, P^T_Q, P^T_Q)  (12)

Функция потерь

Общая потеря включает три компонента:

L_{total} = L_{prompt} + λ_{ortho}L_{ortho} + λ_{guide}L_{guide}  (15)
  • Потеря подсказки: L_prompt = L_BCE(M_pred, M_Q) + L_DL(M_pred, M_Q)
  • Ортогональная потеря: обеспечение того, чтобы разные прототипы кодировали разную информацию
  • Направляющая потеря: направление внимания на область переднего плана

Экспериментальная установка

Наборы данных

  • PASCAL-5i: 20 классов из PASCAL VOC 2012 и SDS, разделенные на 4 fold, каждый fold содержит 15 базовых классов и 5 новых классов
  • COCO-20i: 80 классов из набора данных COCO, разделенные на 4 fold, каждый fold содержит 60 базовых классов и 20 новых классов

Метрики оценки

Использование среднего индекса пересечения над объединением (mean Intersection over Union, mIoU) для оценки производительности с случайной выборкой 1000 пар поддержка-запрос для тестирования на новых классах.

Детали реализации

  • Оптимизатор: AdamW с косинусным退火 расписанием
  • PASCAL-5i: 100 эпох, скорость обучения 2e-4
  • COCO-20i: 50 эпох, скорость обучения 1e-4
  • Размер пакета: 8
  • Количество обучаемых токенов: 50
  • Количество слоев агрегации: T=3
  • Коэффициенты потерь: λ_ortho=0.05, λ_guide=0.5

Результаты экспериментов

Основные результаты

Результаты экспериментов на наборах данных PASCAL-5i и COCO-20i показывают, что метод достигает передовых результатов во всех условиях:

Набор данных PASCAL-5i (ResNet-50):

  • 1-shot: 73.2% mIoU (улучшение на 1.4% по сравнению с VRP-SAM 71.8%)
  • 5-shot: 74.0% mIoU (улучшение на 2.6% по сравнению с VRP-SAM 71.4%)

Набор данных COCO-20i (ResNet-50):

  • 1-shot: 52.5% mIoU (улучшение на 2.3% по сравнению с VRP-SAM 50.2%)
  • 5-shot: 58.0% mIoU (улучшение на 2.5% по сравнению с VRP-SAM 55.5%)

Абляционные исследования

Анализ основных компонентов:

  • Только признаки ResNet (базовая модель): 71.8% mIoU
  • Добавление сопоставления прототип-прототип: 72.6% mIoU (+0.8%)
  • Добавление псевдомаски, управляемой вниманием: 73.2% mIoU (+1.4%)

Влияние количества шагов агрегации T:

  • T=3 достигает оптимальной производительности
  • Слишком много шагов приводит к снижению производительности, так как токены чрезмерно сосредоточиваются на меньших областях

Эффективность функции потерь:

  • Только потеря подсказки: 72.3% mIoU
  • Добавление направляющей потери: 72.7% mIoU (+0.4%)
  • Добавление ортогональной потери: 72.4% mIoU (+0.1%)
  • Все потери: 73.2% mIoU (+0.9%)

Анализ качества псевдомаски

Псевдомаска, управляемая вниманием, значительно превосходит традиционную псевдомаску:

  • mIoU: 60.9% против 32.4%
  • Точность: 69.1% против 46.5%
  • Полнота: 79.4% против 53.6%

Связанные работы

Визуальные базовые модели

SAM как базовая модель в области сегментации обладает дизайном, управляемым подсказками, и сильными возможностями нулевого обучения, но ему не хватает согласованности класса между изображениями.

Методы сегментации с малым числом примеров

Основные категории:

  1. Методы на основе прототипов: представление переднего плана поддержки в виде прототипа и его использование для предсказания
  2. Методы обучения сродству: использование плотной корреляции на уровне пикселей между поддерживающим и запрашиваемым изображениями

VRP-SAM представил метод генерирования подходящих подсказок для декодера маски SAM, но сравнение на уровне пикселей имеет ограничения.

Заключение и обсуждение

Основные выводы

  1. Сопоставление прототип-прототип более эффективно, чем сопоставление прототип-пиксель
  2. Способность агрегации признаков SAM и согласованность класса признаков ResNet являются взаимодополняющими
  3. Псевдомаска, управляемая вниманием, значительно превосходит традиционную псевдомаску
  4. Достижение передовых результатов на нескольких наборах данных

Ограничения

  1. Зависимость от двух предварительно обученных моделей SAM и ResNet увеличивает вычислительную сложность
  2. Эффективность метода в основном проверена на естественных изображениях, способность к обобщению в других областях требует дальнейшей проверки
  3. Гиперпараметры (такие как T, значения λ) требуют настройки для разных наборов данных

Будущие направления

  1. Исследование более легких стратегий слияния признаков
  2. Изучение приложений в специфических областях, таких как медицинские изображения
  3. Дальнейшее повышение эффективности и точности механизма внимания

Глубокая оценка

Преимущества

  1. Сильная техническая инновативность: предложена новая парадигма сопоставления прототип-прототип, эффективно использующая взаимодополняющие свойства двух типов признаков
  2. Достаточные эксперименты: проведена комплексная экспериментальная валидация на нескольких наборах данных и условиях
  3. Глубокий анализ: четкая демонстрация эффективности метода через визуализацию и количественный анализ
  4. Ясное изложение: разумная структура статьи, точное описание технических деталей

Недостатки

  1. Вычислительная сложность: необходимость одновременного использования признаков SAM и ResNet может увеличить время вывода
  2. Чувствительность параметров: установка нескольких гиперпараметров может влиять на стабильность метода
  3. Способность к обобщению: в основном проверена на наборах данных естественных изображений, эффект в других областях неизвестен

Влияние

  1. Академический вклад: предоставляет новый технический путь для сегментации с малым числом примеров, может вдохновить последующие исследования
  2. Практическая ценность: может снизить затраты на аннотирование в практических приложениях, имеет высокий потенциал применения
  3. Воспроизводимость: предоставлены подробные детали реализации и открытый исходный код, облегчающие воспроизведение и улучшение

Применимые сценарии

  1. Задачи сегментации, требующие быстрой адаптации к новым классам
  2. Сценарии приложений с дефицитом аннотированных данных
  3. Приложения компьютерного зрения с высокими требованиями к точности сегментации

Ссылки

Статья цитирует важные работы в связанных областях сегментации с малым числом примеров и визуальных базовых моделей, включая классические методы SAM, VRP-SAM, PFENet, CyCTR и другие, обеспечивая прочную теоретическую основу для данного исследования.