Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation
Park, Lee, Seong et al.
We propose Foreground-Covering Prototype Generation and Matching to resolve Few-Shot Segmentation (FSS), which aims to segment target regions in unlabeled query images based on labeled support images. Unlike previous research, which typically estimates target regions in the query using support prototypes and query pixels, we utilize the relationship between support and query prototypes. To achieve this, we utilize two complementary features: SAM Image Encoder features for pixel aggregation and ResNet features for class consistency. Specifically, we construct support and query prototypes with SAM features and distinguish query prototypes of target regions based on ResNet features. For the query prototype construction, we begin by roughly guiding foreground regions within SAM features using the conventional pseudo-mask, then employ iterative cross-attention to aggregate foreground features into learnable tokens. Here, we discover that the cross-attention weights can effectively alternate the conventional pseudo-mask. Therefore, we use the attention-based pseudo-mask to guide ResNet features to focus on the foreground, then infuse the guided ResNet feature into the learnable tokens to generate class-consistent query prototypes. The generation of the support prototype is conducted symmetrically to that of the query one, with the pseudo-mask replaced by the ground-truth mask. Finally, we compare these query prototypes with support ones to generate prompts, which subsequently produce object masks through the SAM Mask Decoder. Our state-of-the-art performances on various datasets validate the effectiveness of the proposed method for FSS. Our official code is available at https://github.com/SuhoPark0706/FCP
academic
Generación y Emparejamiento de Prototipos de Cobertura de Primer Plano para Segmentación Pocos-Disparos Asistida por SAM
Este artículo propone el método de Generación y Emparejamiento de Prototipos de Cobertura de Primer Plano (FCP) para abordar el problema de segmentación pocos-disparos (FSS). A diferencia de investigaciones anteriores que típicamente utilizan prototipos de soporte y píxeles de consulta para estimar regiones objetivo, este trabajo aprovecha la relación entre prototipos de soporte y prototipos de consulta. El método combina dos características complementarias: características del codificador de imágenes SAM para agregación de píxeles y características ResNet para consistencia de clase. Mediante la construcción de prototipos de soporte y consulta, y diferenciando prototipos de consulta de regiones objetivo basados en características ResNet, finalmente genera máscaras de objetos a través del decodificador de máscaras SAM, logrando rendimiento de última generación en múltiples conjuntos de datos.
La segmentación pocos-disparos (Few-Shot Segmentation, FSS) tiene como objetivo segmentar regiones objetivo en imágenes de consulta sin etiquetar basándose en un pequeño número de imágenes de soporte etiquetadas. Esta es una tarea importante en visión por computadora, ya que los métodos tradicionales de segmentación semántica requieren grandes cantidades de datos etiquetados, mientras que FSS puede reducir significativamente la carga de anotación manual.
Limitaciones de SAM: Aunque el Modelo Segment Anything (SAM) demuestra un excelente rendimiento en tareas de segmentación, carece de consistencia de clase entre imágenes, siendo incapaz de clasificar regiones de primer plano en imágenes de consulta basándose en imágenes de soporte.
Insuficiencias de VRP-SAM:
La relación de emparejamiento prototipo-píxel es subóptima, lo que puede resultar en que las indicaciones de referencia visual carezcan de información de primer plano suficiente o contengan elementos de fondo
La calidad de la máscara seudónima basada en similitud píxel-píxel simple es baja
Dificultad para mejorar selectivamente píxeles de primer plano de consulta, lo que puede difuminar la distinción entre píxeles de primer plano y fondo
Este trabajo descubre que las características del codificador de imágenes SAM funcionan excepcionalmente bien en agregación a nivel de píxel, mientras que las características ResNet son más fuertes en consistencia de clase. Basándose en esta observación, se propone una estrategia de emparejamiento prototipo-prototipo para generar indicaciones de referencia visual más confiables.
Propone el método de Generación y Emparejamiento de Prototipos de Cobertura de Primer Plano: Construye prototipos de imágenes de soporte y consulta, genera indicaciones de referencia visual mediante comparación entre prototipos, y produce máscaras de objetos de imágenes de consulta a través del decodificador de máscaras SAM.
Estrategia de Fusión de Características Duales: Utiliza efectivamente la capacidad de agregación superior de las características del codificador de imágenes SAM y la consistencia de clase de las características ResNet para generar prototipos centrados en el primer plano.
Máscara Seudónima Guiada por Atención: Propone una máscara seudónima basada en atención que reemplaza efectivamente la máscara seudónima tradicional aprovechando las características del codificador de imágenes SAM.
Logra Rendimiento de Última Generación: Valida la efectividad del emparejamiento prototipo-prototipo en múltiples conjuntos de datos, logrando nuevo rendimiento de última generación.
FSS adopta un enfoque de meta-aprendizaje, utilizando dos conjuntos de datos independientes: conjunto de entrenamiento D_train y conjunto de prueba D_test, que contienen clases no superpuestas C_base y C_novel. Cada episodio incluye:
Conjunto de soporte: K imágenes etiquetadas S = {(I_Si, M_Si)}^K_i=1
Conjunto de consulta: una imagen sin etiquetar Q = (I_Q, M_Q)
El objetivo es predecir la máscara de consulta M_pred basándose en el conjunto de soporte y la imagen de consulta.
El proceso de generación de prototipo de soporte incluye dos pasos principales:
Agregación de Características de Primer Plano:
Ḡ_S = ConvG(Concat(G_S, M_S, MP(G_S, M_S))) (1)
Utiliza la máscara ground truth M_S para guiar las características SAM G_S, luego agrega información de primer plano mediante T-1 pasos de atención cruzada enmascarada iterativa:
Se utiliza la Intersección sobre Unión Media (mean Intersection over Union, mIoU) para evaluar el rendimiento, con 1000 pares de soporte-consulta muestreados aleatoriamente en clases nuevas para pruebas.
Los resultados experimentales en los conjuntos de datos PASCAL-5i y COCO-20i demuestran que este método logra rendimiento de última generación en todas las configuraciones:
Conjunto de Datos PASCAL-5i (ResNet-50):
1-shot: 73.2% mIoU (mejora de 1.4% comparado con VRP-SAM de 71.8%)
5-shot: 74.0% mIoU (mejora de 2.6% comparado con VRP-SAM de 71.4%)
Conjunto de Datos COCO-20i (ResNet-50):
1-shot: 52.5% mIoU (mejora de 2.3% comparado con VRP-SAM de 50.2%)
5-shot: 58.0% mIoU (mejora de 2.5% comparado con VRP-SAM de 55.5%)
SAM como modelo base en el campo de segmentación, posee diseño indicable y capacidad cero-disparos fuerte, pero carece de consistencia de clase entre imágenes.
Métodos Basados en Prototipos: Representan el primer plano de soporte como prototipo y lo utilizan para predicción
Métodos de Aprendizaje de Afinidad: Utilizan correlación densa a nivel de píxel entre imágenes de soporte y consulta
VRP-SAM introduce el método de generar indicaciones apropiadas para el decodificador de máscaras SAM, pero la comparación a nivel de píxel tiene limitaciones.
Fuerte Innovación Técnica: Propone un nuevo paradigma de emparejamiento prototipo-prototipo, utilizando efectivamente la complementariedad de dos tipos de características
Experimentación Completa: Realiza validación experimental exhaustiva en múltiples conjuntos de datos y configuraciones
Análisis Profundo: Demuestra claramente la efectividad del método mediante visualización y análisis cuantitativos
Escritura Clara: La estructura del artículo es razonable, con descripción precisa de detalles técnicos
El artículo cita trabajos importantes en campos relacionados como segmentación pocos-disparos, modelos base visuales, etc., incluyendo métodos clásicos como SAM, VRP-SAM, PFENet, CyCTR, proporcionando una base teórica sólida para esta investigación.