Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation
Park, Lee, Seong et al.
We propose Foreground-Covering Prototype Generation and Matching to resolve Few-Shot Segmentation (FSS), which aims to segment target regions in unlabeled query images based on labeled support images. Unlike previous research, which typically estimates target regions in the query using support prototypes and query pixels, we utilize the relationship between support and query prototypes. To achieve this, we utilize two complementary features: SAM Image Encoder features for pixel aggregation and ResNet features for class consistency. Specifically, we construct support and query prototypes with SAM features and distinguish query prototypes of target regions based on ResNet features. For the query prototype construction, we begin by roughly guiding foreground regions within SAM features using the conventional pseudo-mask, then employ iterative cross-attention to aggregate foreground features into learnable tokens. Here, we discover that the cross-attention weights can effectively alternate the conventional pseudo-mask. Therefore, we use the attention-based pseudo-mask to guide ResNet features to focus on the foreground, then infuse the guided ResNet feature into the learnable tokens to generate class-consistent query prototypes. The generation of the support prototype is conducted symmetrically to that of the query one, with the pseudo-mask replaced by the ground-truth mask. Finally, we compare these query prototypes with support ones to generate prompts, which subsequently produce object masks through the SAM Mask Decoder. Our state-of-the-art performances on various datasets validate the effectiveness of the proposed method for FSS. Our official code is available at https://github.com/SuhoPark0706/FCP
academic
Génération et Appariement de Prototypes Couvrant le Premier Plan pour la Segmentation Peu-Données Assistée par SAM
Cet article propose une méthode de génération et d'appariement de prototypes couvrant le premier plan (FCP) pour résoudre le problème de la segmentation peu-données (FSS). Contrairement aux recherches antérieures qui utilisent généralement des prototypes de support et des pixels de requête pour estimer les régions cibles, cet article exploite la relation entre les prototypes de support et les prototypes de requête. La méthode combine deux caractéristiques complémentaires : les caractéristiques de l'encodeur d'images SAM pour l'agrégation de pixels et les caractéristiques ResNet pour la cohérence de classe. En construisant des prototypes de support et de requête, et en distinguant les prototypes de requête des régions cibles basés sur les caractéristiques ResNet, les masques d'objets sont finalement générés via le décodeur de masques SAM, atteignant les performances de pointe sur plusieurs ensembles de données.
La segmentation peu-données (Few-Shot Segmentation, FSS) vise à segmenter les régions cibles dans des images de requête non étiquetées basées sur un petit nombre d'images de support étiquetées. Il s'agit d'une tâche importante en vision par ordinateur, car les méthodes traditionnelles de segmentation sémantique nécessitent une grande quantité de données étiquetées, tandis que la FSS peut réduire considérablement la charge d'annotation manuelle.
Limitations de SAM: Bien que le Segment Anything Model (SAM) montre d'excellentes performances dans les tâches de segmentation, il manque de cohérence de classe entre les images et ne peut pas classifier les régions de premier plan de l'image de requête basées sur l'image de support.
Insuffisances de VRP-SAM:
La relation d'appariement prototype-pixel est sous-optimale, ce qui peut entraîner des indices visuels de référence manquant d'informations de premier plan suffisantes ou contenant des éléments d'arrière-plan
La qualité des pseudo-masques basée sur la similarité simple pixel-pixel est faible
Difficultés à améliorer sélectivement les pixels de premier plan de requête, ce qui peut brouiller la distinction entre les pixels de premier plan et d'arrière-plan
Cet article découvre que les caractéristiques de l'encodeur d'images SAM excellent dans l'agrégation au niveau des pixels, tandis que les caractéristiques ResNet sont plus fortes en cohérence de classe. Basée sur cette observation, une stratégie d'appariement prototype-prototype est proposée pour générer des indices visuels de référence plus fiables.
Proposition d'une méthode de génération et d'appariement de prototypes couvrant le premier plan: Construction de prototypes pour les images de support et de requête, génération d'indices visuels de référence par comparaison entre prototypes, et production de masques d'objets d'images de requête via le décodeur de masques SAM.
Stratégie de fusion de caractéristiques doubles: Utilisation efficace de la capacité d'agrégation supérieure des caractéristiques de l'encodeur d'images SAM et de la cohérence de classe des caractéristiques ResNet pour générer des prototypes centrés sur le premier plan.
Pseudo-masques guidés par l'attention: Proposition de pseudo-masques basés sur l'attention, remplaçant efficacement les pseudo-masques traditionnels en exploitant les caractéristiques de l'encodeur d'images SAM.
Réalisation de performances de pointe: Validation de l'efficacité de l'appariement prototype-prototype sur plusieurs ensembles de données, réalisant de nouvelles performances de pointe.
La FSS adopte une approche d'apprentissage méta, utilisant deux ensembles de données indépendants : l'ensemble d'entraînement D_train et l'ensemble de test D_test, contenant des classes non chevauchantes C_base et C_novel. Chaque épisode comprend :
Ensemble de support : K images étiquetées S = {(I_Si, M_Si)}^K_
Ensemble de requête : une image non étiquetée Q = (I_Q, M_Q)
L'objectif est de prédire le masque de requête M_pred basé sur l'ensemble de support et l'image de requête.
Le processus de génération de prototypes de support comprend deux étapes principales :
Agrégation de Caractéristiques de Premier Plan:
Ḡ_S = ConvG(Concat(G_S, M_S, MP(G_S, M_S))) (1)
Utilisation du masque ground truth M_S pour guider les caractéristiques SAM G_S, puis agrégation des informations de premier plan par T-1 étapes d'attention croisée itérative masquée :
Utilisation de l'Intersection sur Union Moyenne (mean Intersection over Union, mIoU) pour évaluer les performances, avec 1000 paires support-requête échantillonnées aléatoirement pour les tests sur les classes nouvelles.
Les résultats expérimentaux sur les ensembles de données PASCAL-5i et COCO-20i montrent que la méthode proposée atteint les performances de pointe dans tous les paramètres :
Ensemble de Données PASCAL-5i (ResNet-50):
1-shot: 73,2% mIoU (amélioration de 1,4% par rapport aux 71,8% de VRP-SAM)
5-shot: 74,0% mIoU (amélioration de 2,6% par rapport aux 71,4% de VRP-SAM)
Ensemble de Données COCO-20i (ResNet-50):
1-shot: 52,5% mIoU (amélioration de 2,3% par rapport aux 50,2% de VRP-SAM)
5-shot: 58,0% mIoU (amélioration de 2,5% par rapport aux 55,5% de VRP-SAM)
SAM, en tant que modèle de base dans le domaine de la segmentation, possède une conception d'indice et une capacité de zéro-shot puissante, mais manque de cohérence de classe entre les images.
Méthodes Basées sur les Prototypes: Représentation du premier plan de support en tant que prototype et utilisation pour la prédiction
Méthodes d'Apprentissage d'Affinité: Exploitation de la corrélation dense au niveau des pixels entre les images de support et de requête
VRP-SAM introduit une méthode pour générer des indices appropriés pour le décodeur de masques SAM, mais la comparaison au niveau des pixels présente des limitations.
Innovation Technique Forte: Proposition d'un nouveau paradigme d'appariement prototype-prototype, exploitant efficacement la complémentarité de deux types de caractéristiques
Expérimentation Complète: Réalisation d'une validation expérimentale complète sur plusieurs ensembles de données et paramètres
Analyse Approfondie: Démonstration claire de l'efficacité de la méthode par visualisation et analyse quantitative
Rédaction Claire: Structure d'article raisonnable, description précise des détails techniques
L'article cite des travaux importants dans les domaines connexes de la segmentation peu-données et des modèles de base visuels, incluant les méthodes classiques telles que SAM, VRP-SAM, PFENet et CyCTR, fournissant une base théorique solide pour cette recherche.