2025-11-10T02:42:11.024249

Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation

Park, Lee, Seong et al.
We propose Foreground-Covering Prototype Generation and Matching to resolve Few-Shot Segmentation (FSS), which aims to segment target regions in unlabeled query images based on labeled support images. Unlike previous research, which typically estimates target regions in the query using support prototypes and query pixels, we utilize the relationship between support and query prototypes. To achieve this, we utilize two complementary features: SAM Image Encoder features for pixel aggregation and ResNet features for class consistency. Specifically, we construct support and query prototypes with SAM features and distinguish query prototypes of target regions based on ResNet features. For the query prototype construction, we begin by roughly guiding foreground regions within SAM features using the conventional pseudo-mask, then employ iterative cross-attention to aggregate foreground features into learnable tokens. Here, we discover that the cross-attention weights can effectively alternate the conventional pseudo-mask. Therefore, we use the attention-based pseudo-mask to guide ResNet features to focus on the foreground, then infuse the guided ResNet feature into the learnable tokens to generate class-consistent query prototypes. The generation of the support prototype is conducted symmetrically to that of the query one, with the pseudo-mask replaced by the ground-truth mask. Finally, we compare these query prototypes with support ones to generate prompts, which subsequently produce object masks through the SAM Mask Decoder. Our state-of-the-art performances on various datasets validate the effectiveness of the proposed method for FSS. Our official code is available at https://github.com/SuhoPark0706/FCP
academic

Generación y Emparejamiento de Prototipos de Cobertura de Primer Plano para Segmentación Pocos-Disparos Asistida por SAM

Información Básica

  • ID del Artículo: 2501.00752
  • Título: Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation
  • Autores: Suho Park*, SuBeen Lee*, Hyun Seok Seong, Jaejoon Yoo, Jae-Pil Heo†(Universidad Sungkyunkwan)
  • Clasificación: cs.CV (Visión por Computadora)
  • Fecha de Presentación: 1 de enero de 2025 en arXiv
  • Enlace del Artículo: https://arxiv.org/abs/2501.00752
  • Enlace del Código: https://github.com/SuhoPark0706/FCP

Resumen

Este artículo propone el método de Generación y Emparejamiento de Prototipos de Cobertura de Primer Plano (FCP) para abordar el problema de segmentación pocos-disparos (FSS). A diferencia de investigaciones anteriores que típicamente utilizan prototipos de soporte y píxeles de consulta para estimar regiones objetivo, este trabajo aprovecha la relación entre prototipos de soporte y prototipos de consulta. El método combina dos características complementarias: características del codificador de imágenes SAM para agregación de píxeles y características ResNet para consistencia de clase. Mediante la construcción de prototipos de soporte y consulta, y diferenciando prototipos de consulta de regiones objetivo basados en características ResNet, finalmente genera máscaras de objetos a través del decodificador de máscaras SAM, logrando rendimiento de última generación en múltiples conjuntos de datos.

Antecedentes de Investigación y Motivación

Definición del Problema

La segmentación pocos-disparos (Few-Shot Segmentation, FSS) tiene como objetivo segmentar regiones objetivo en imágenes de consulta sin etiquetar basándose en un pequeño número de imágenes de soporte etiquetadas. Esta es una tarea importante en visión por computadora, ya que los métodos tradicionales de segmentación semántica requieren grandes cantidades de datos etiquetados, mientras que FSS puede reducir significativamente la carga de anotación manual.

Limitaciones de Métodos Existentes

  1. Limitaciones de SAM: Aunque el Modelo Segment Anything (SAM) demuestra un excelente rendimiento en tareas de segmentación, carece de consistencia de clase entre imágenes, siendo incapaz de clasificar regiones de primer plano en imágenes de consulta basándose en imágenes de soporte.
  2. Insuficiencias de VRP-SAM:
    • La relación de emparejamiento prototipo-píxel es subóptima, lo que puede resultar en que las indicaciones de referencia visual carezcan de información de primer plano suficiente o contengan elementos de fondo
    • La calidad de la máscara seudónima basada en similitud píxel-píxel simple es baja
    • Dificultad para mejorar selectivamente píxeles de primer plano de consulta, lo que puede difuminar la distinción entre píxeles de primer plano y fondo

Motivación de la Investigación

Este trabajo descubre que las características del codificador de imágenes SAM funcionan excepcionalmente bien en agregación a nivel de píxel, mientras que las características ResNet son más fuertes en consistencia de clase. Basándose en esta observación, se propone una estrategia de emparejamiento prototipo-prototipo para generar indicaciones de referencia visual más confiables.

Contribuciones Principales

  1. Propone el método de Generación y Emparejamiento de Prototipos de Cobertura de Primer Plano: Construye prototipos de imágenes de soporte y consulta, genera indicaciones de referencia visual mediante comparación entre prototipos, y produce máscaras de objetos de imágenes de consulta a través del decodificador de máscaras SAM.
  2. Estrategia de Fusión de Características Duales: Utiliza efectivamente la capacidad de agregación superior de las características del codificador de imágenes SAM y la consistencia de clase de las características ResNet para generar prototipos centrados en el primer plano.
  3. Máscara Seudónima Guiada por Atención: Propone una máscara seudónima basada en atención que reemplaza efectivamente la máscara seudónima tradicional aprovechando las características del codificador de imágenes SAM.
  4. Logra Rendimiento de Última Generación: Valida la efectividad del emparejamiento prototipo-prototipo en múltiples conjuntos de datos, logrando nuevo rendimiento de última generación.

Explicación Detallada del Método

Definición de la Tarea

FSS adopta un enfoque de meta-aprendizaje, utilizando dos conjuntos de datos independientes: conjunto de entrenamiento D_train y conjunto de prueba D_test, que contienen clases no superpuestas C_base y C_novel. Cada episodio incluye:

  • Conjunto de soporte: K imágenes etiquetadas S = {(I_Si, M_Si)}^K_i=1
  • Conjunto de consulta: una imagen sin etiquetar Q = (I_Q, M_Q)

El objetivo es predecir la máscara de consulta M_pred basándose en el conjunto de soporte y la imagen de consulta.

Arquitectura del Modelo

1. Generación de Prototipo de Soporte

El proceso de generación de prototipo de soporte incluye dos pasos principales:

Agregación de Características de Primer Plano:

Ḡ_S = ConvG(Concat(G_S, M_S, MP(G_S, M_S)))  (1)

Utiliza la máscara ground truth M_S para guiar las características SAM G_S, luego agrega información de primer plano mediante T-1 pasos de atención cruzada enmascarada iterativa:

P^t_S = MaskedCrossAttn(P^{t-1}_S, Ḡ_S, Ḡ_S; M_S)  (2)

Inyección de Consistencia de Clase:

F̄_S = ConvG(Concat(F_S, M_S, MP(F_S, M_S)))  (3)
P^T_S = MaskedCrossAttn(P^{T-1}_S, Ḡ_S, F̄_S; M_S)  (4)

2. Generación de Prototipo de Consulta

La generación de prototipo de consulta enfrenta el desafío de no tener máscaras ground truth, adoptando las siguientes estrategias:

Cálculo de Máscara Seudónima Tradicional:

M^pseudo_{h,w} = max_{1≤h'≤H,1≤w'≤W} M^S_{h',w'}(F^Q_{h,w} · F^S_{h',w'})  (5)

Agregación de Características SAM:

Ḡ_Q = ConvG(Concat(G_Q, M^pseudo, MP(G_S, M_S)))  (6)
P^t_Q = CrossAttn(P^{t-1}_Q, Ḡ_Q, Ḡ_Q)  (7)

Máscara Seudónima Guiada por Atención:

M^attn_{t,h,w} = max_{1≤n≤N} A^Q_{t,n,h,w}  (8)

Pérdida Guiada:

L_guide = 1/(T-1) ∑^{T-1}_{t=1} L_BCE(M^attn_t, M_Q) + L_DL(M^attn_t, M_Q)  (9)

Fusión de Características ResNet:

F̄_Q = ConvF(Concat(F_Q, M^attn_{T-1}, MP(F_S, M_S)))  (10)
P^T_Q = CrossAttn(P^{T-1}_Q, Ḡ_Q, F̄_Q)  (11)

3. Emparejamiento Prototipo-Prototipo

Genera indicaciones de referencia visual mediante atención cruzada:

V = CrossAttn(P^T_S, P^T_Q, P^T_Q)  (12)

Función de Pérdida

La pérdida total incluye tres componentes:

L_total = L_prompt + λ_ortho L_ortho + λ_guide L_guide  (15)
  • Pérdida de Indicación: L_prompt = L_BCE(M_pred, M_Q) + L_DL(M_pred, M_Q)
  • Pérdida Ortogonal: Asegura que diferentes prototipos codifiquen información diferente
  • Pérdida Guiada: Guía la atención para enfocarse en regiones de primer plano

Configuración Experimental

Conjuntos de Datos

  • PASCAL-5i: 20 clases de PASCAL VOC 2012 y SDS, divididas en 4 folds, cada fold contiene 15 clases base y 5 clases nuevas
  • COCO-20i: 80 clases del conjunto de datos COCO, divididas en 4 folds, cada fold contiene 60 clases base y 20 clases nuevas

Métricas de Evaluación

Se utiliza la Intersección sobre Unión Media (mean Intersection over Union, mIoU) para evaluar el rendimiento, con 1000 pares de soporte-consulta muestreados aleatoriamente en clases nuevas para pruebas.

Detalles de Implementación

  • Optimizador: AdamW, planificador de recocido de coseno
  • PASCAL-5i: 100 épocas, tasa de aprendizaje 2e-4
  • COCO-20i: 50 épocas, tasa de aprendizaje 1e-4
  • Tamaño de lote: 8
  • Cantidad de tokens aprendibles: 50
  • Número de capas de agregación: T=3
  • Coeficientes de pérdida: λ_ortho=0.05, λ_guide=0.5

Resultados Experimentales

Resultados Principales

Los resultados experimentales en los conjuntos de datos PASCAL-5i y COCO-20i demuestran que este método logra rendimiento de última generación en todas las configuraciones:

Conjunto de Datos PASCAL-5i (ResNet-50):

  • 1-shot: 73.2% mIoU (mejora de 1.4% comparado con VRP-SAM de 71.8%)
  • 5-shot: 74.0% mIoU (mejora de 2.6% comparado con VRP-SAM de 71.4%)

Conjunto de Datos COCO-20i (ResNet-50):

  • 1-shot: 52.5% mIoU (mejora de 2.3% comparado con VRP-SAM de 50.2%)
  • 5-shot: 58.0% mIoU (mejora de 2.5% comparado con VRP-SAM de 55.5%)

Estudios de Ablación

Análisis de Componentes Principales:

  • Solo características ResNet (línea base): 71.8% mIoU
  • Agregando emparejamiento prototipo-prototipo: 72.6% mIoU (+0.8%)
  • Agregando máscara seudónima guiada por atención: 73.2% mIoU (+1.4%)

Impacto del Número de Pasos de Agregación T:

  • T=3 logra el mejor rendimiento
  • Demasiados pasos resultan en degradación del rendimiento, ya que los tokens se enfocan excesivamente en áreas más pequeñas

Efectividad de la Función de Pérdida:

  • Solo pérdida de indicación: 72.3% mIoU
  • Agregando pérdida guiada: 72.7% mIoU (+0.4%)
  • Agregando pérdida ortogonal: 72.4% mIoU (+0.1%)
  • Todas las pérdidas: 73.2% mIoU (+0.9%)

Análisis de Calidad de Máscara Seudónima

La máscara seudónima guiada por atención mejora significativamente comparada con la máscara seudónima tradicional:

  • mIoU: 60.9% vs 32.4%
  • Precisión: 69.1% vs 46.5%
  • Recall: 79.4% vs 53.6%

Trabajo Relacionado

Modelos Base Visuales

SAM como modelo base en el campo de segmentación, posee diseño indicable y capacidad cero-disparos fuerte, pero carece de consistencia de clase entre imágenes.

Métodos de Segmentación Pocos-Disparos

Se dividen principalmente en dos categorías:

  1. Métodos Basados en Prototipos: Representan el primer plano de soporte como prototipo y lo utilizan para predicción
  2. Métodos de Aprendizaje de Afinidad: Utilizan correlación densa a nivel de píxel entre imágenes de soporte y consulta

VRP-SAM introduce el método de generar indicaciones apropiadas para el decodificador de máscaras SAM, pero la comparación a nivel de píxel tiene limitaciones.

Conclusiones y Discusión

Conclusiones Principales

  1. El emparejamiento prototipo-prototipo es más efectivo que el emparejamiento prototipo-píxel
  2. La capacidad de agregación de características SAM y la consistencia de clase de características ResNet son complementarias
  3. La máscara seudónima guiada por atención es significativamente superior a la máscara seudónima tradicional
  4. Se logra rendimiento de última generación en múltiples conjuntos de datos

Limitaciones

  1. Depende de dos modelos preentrenados SAM y ResNet, aumentando la complejidad computacional
  2. La efectividad del método se valida principalmente en imágenes naturales, la capacidad de generalización en otros dominios requiere verificación
  3. Los hiperparámetros (como T, valores λ) requieren ajuste para diferentes conjuntos de datos

Direcciones Futuras

  1. Explorar estrategias de fusión de características más ligeras
  2. Investigar aplicaciones en dominios específicos como imágenes médicas
  3. Mejorar aún más la eficiencia y precisión del mecanismo de atención

Evaluación Profunda

Ventajas

  1. Fuerte Innovación Técnica: Propone un nuevo paradigma de emparejamiento prototipo-prototipo, utilizando efectivamente la complementariedad de dos tipos de características
  2. Experimentación Completa: Realiza validación experimental exhaustiva en múltiples conjuntos de datos y configuraciones
  3. Análisis Profundo: Demuestra claramente la efectividad del método mediante visualización y análisis cuantitativos
  4. Escritura Clara: La estructura del artículo es razonable, con descripción precisa de detalles técnicos

Insuficiencias

  1. Complejidad Computacional: Requiere utilizar simultáneamente características SAM y ResNet, lo que puede aumentar el tiempo de inferencia
  2. Sensibilidad de Parámetros: La configuración de múltiples hiperparámetros puede afectar la estabilidad del método
  3. Capacidad de Generalización: Se valida principalmente en conjuntos de datos de imágenes naturales, el efecto en otros campos es desconocido

Impacto

  1. Contribución Académica: Proporciona una nueva ruta técnica para segmentación pocos-disparos, que puede inspirar investigaciones posteriores
  2. Valor Práctico: Puede reducir costos de anotación en aplicaciones prácticas, con alto potencial de aplicación
  3. Reproducibilidad: Proporciona detalles de implementación detallados y código de código abierto, facilitando reproducción y mejora

Escenarios Aplicables

  1. Tareas de segmentación que requieren adaptación rápida a nuevas clases
  2. Escenarios de aplicación donde los datos anotados son escasos
  3. Aplicaciones de visión por computadora que requieren alta precisión de segmentación

Referencias

El artículo cita trabajos importantes en campos relacionados como segmentación pocos-disparos, modelos base visuales, etc., incluyendo métodos clásicos como SAM, VRP-SAM, PFENet, CyCTR, proporcionando una base teórica sólida para esta investigación.