Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation
Park, Lee, Seong et al.
We propose Foreground-Covering Prototype Generation and Matching to resolve Few-Shot Segmentation (FSS), which aims to segment target regions in unlabeled query images based on labeled support images. Unlike previous research, which typically estimates target regions in the query using support prototypes and query pixels, we utilize the relationship between support and query prototypes. To achieve this, we utilize two complementary features: SAM Image Encoder features for pixel aggregation and ResNet features for class consistency. Specifically, we construct support and query prototypes with SAM features and distinguish query prototypes of target regions based on ResNet features. For the query prototype construction, we begin by roughly guiding foreground regions within SAM features using the conventional pseudo-mask, then employ iterative cross-attention to aggregate foreground features into learnable tokens. Here, we discover that the cross-attention weights can effectively alternate the conventional pseudo-mask. Therefore, we use the attention-based pseudo-mask to guide ResNet features to focus on the foreground, then infuse the guided ResNet feature into the learnable tokens to generate class-consistent query prototypes. The generation of the support prototype is conducted symmetrically to that of the query one, with the pseudo-mask replaced by the ground-truth mask. Finally, we compare these query prototypes with support ones to generate prompts, which subsequently produce object masks through the SAM Mask Decoder. Our state-of-the-art performances on various datasets validate the effectiveness of the proposed method for FSS. Our official code is available at https://github.com/SuhoPark0706/FCP
academic
Генерация и сопоставление прототипов с покрытием переднего плана для сегментации с малым числом примеров с помощью SAM
В данной работе предложен метод генерации и сопоставления прототипов с покрытием переднего плана (FCP) для решения задачи сегментации с малым числом примеров (FSS). В отличие от предыдущих исследований, которые обычно используют поддерживающие прототипы и пиксели запроса для оценки целевой области, данный метод использует отношения между поддерживающими и запрашиваемыми прототипами. Метод объединяет две взаимодополняющие характеристики: признаки кодировщика изображений SAM для пиксельной агрегации и признаки ResNet для согласованности класса. Путем построения поддерживающих и запрашиваемых прототипов и различения запрашиваемых прототипов целевой области на основе признаков ResNet, а затем генерирования маски объекта через декодер маски SAM, метод достигает передовых результатов на нескольких наборах данных.
Сегментация с малым числом примеров (Few-Shot Segmentation, FSS) направлена на сегментацию целевых областей в немаркированных изображениях запроса на основе небольшого количества помеченных поддерживающих изображений. Это важная задача в компьютерном зрении, поскольку традиционные методы семантической сегментации требуют больших объемов помеченных данных, тогда как FSS может значительно снизить нагрузку на ручное аннотирование.
Ограничения SAM: Несмотря на отличные результаты модели Segment Anything Model (SAM) в задачах сегментации, ей не хватает согласованности класса между изображениями, и она не может классифицировать области переднего плана в изображении запроса на основе поддерживающего изображения.
Недостатки VRP-SAM:
Отношение сопоставления прототип-пиксель субоптимально, что может привести к недостаточной информации переднего плана в визуальных подсказках или включению элементов фона
Низкое качество псевдомасок на основе простого сходства пиксель-пиксель
Сложность в выборочном усилении пиксельных значений переднего плана запроса, что может размыть различие между пикселями переднего и фонового плана
Авторы обнаружили, что признаки кодировщика изображений SAM превосходны при пиксельной агрегации, тогда как признаки ResNet сильнее в согласованности класса. На основе этого наблюдения предложена стратегия сопоставления прототип-прототип для генерирования более надежных визуальных подсказок.
Предложен метод генерации и сопоставления прототипов с покрытием переднего плана: Построение прототипов поддерживающих и запрашиваемых изображений, генерирование визуальных подсказок путем сравнения между прототипами и создание маски объекта запрашиваемого изображения через декодер маски SAM.
Стратегия двойного слияния признаков: Эффективное использование превосходной способности агрегации признаков кодировщика изображений SAM и согласованности класса признаков ResNet для генерирования прототипов, сосредоточенных на переднем плане.
Псевдомаска, управляемая вниманием: Предложена псевдомаска на основе внимания, которая эффективно заменяет традиционную псевдомаску путем использования признаков кодировщика изображений SAM.
Достижение передовых результатов: Валидация эффективности сопоставления прототип-прототип на нескольких наборах данных с достижением новых передовых результатов.
FSS использует метаобучение с двумя независимыми наборами данных: обучающим набором D_train и тестовым набором D_test, содержащими непересекающиеся классы C_base и C_novel. Каждый эпизод включает:
Поддерживающий набор: K помеченных изображений S = {(I_Si, M_Si)}^K_
Запрашиваемый набор: одно немаркированное изображение Q = (I_Q, M_Q)
Цель состоит в предсказании запрашиваемой маски M_pred на основе поддерживающего набора и запрашиваемого изображения.
Процесс генерации поддерживающего прототипа включает два основных этапа:
Агрегация признаков переднего плана:
Ḡ_S = ConvG(Concat(G_S, M_S, MP(G_S, M_S))) (1)
Использование маски ground truth M_S для направления признаков SAM G_S, затем агрегирование информации переднего плана через T-1 шагов итеративного кросс-внимания:
Использование среднего индекса пересечения над объединением (mean Intersection over Union, mIoU) для оценки производительности с случайной выборкой 1000 пар поддержка-запрос для тестирования на новых классах.
SAM как базовая модель в области сегментации обладает дизайном, управляемым подсказками, и сильными возможностями нулевого обучения, но ему не хватает согласованности класса между изображениями.
Сильная техническая инновативность: предложена новая парадигма сопоставления прототип-прототип, эффективно использующая взаимодополняющие свойства двух типов признаков
Достаточные эксперименты: проведена комплексная экспериментальная валидация на нескольких наборах данных и условиях
Глубокий анализ: четкая демонстрация эффективности метода через визуализацию и количественный анализ
Ясное изложение: разумная структура статьи, точное описание технических деталей
Статья цитирует важные работы в связанных областях сегментации с малым числом примеров и визуальных базовых моделей, включая классические методы SAM, VRP-SAM, PFENet, CyCTR и другие, обеспечивая прочную теоретическую основу для данного исследования.