2025-11-10T02:42:11.024249

Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation

Park, Lee, Seong et al.
We propose Foreground-Covering Prototype Generation and Matching to resolve Few-Shot Segmentation (FSS), which aims to segment target regions in unlabeled query images based on labeled support images. Unlike previous research, which typically estimates target regions in the query using support prototypes and query pixels, we utilize the relationship between support and query prototypes. To achieve this, we utilize two complementary features: SAM Image Encoder features for pixel aggregation and ResNet features for class consistency. Specifically, we construct support and query prototypes with SAM features and distinguish query prototypes of target regions based on ResNet features. For the query prototype construction, we begin by roughly guiding foreground regions within SAM features using the conventional pseudo-mask, then employ iterative cross-attention to aggregate foreground features into learnable tokens. Here, we discover that the cross-attention weights can effectively alternate the conventional pseudo-mask. Therefore, we use the attention-based pseudo-mask to guide ResNet features to focus on the foreground, then infuse the guided ResNet feature into the learnable tokens to generate class-consistent query prototypes. The generation of the support prototype is conducted symmetrically to that of the query one, with the pseudo-mask replaced by the ground-truth mask. Finally, we compare these query prototypes with support ones to generate prompts, which subsequently produce object masks through the SAM Mask Decoder. Our state-of-the-art performances on various datasets validate the effectiveness of the proposed method for FSS. Our official code is available at https://github.com/SuhoPark0706/FCP
academic

Génération et Appariement de Prototypes Couvrant le Premier Plan pour la Segmentation Peu-Données Assistée par SAM

Informations Fondamentales

  • ID de l'article: 2501.00752
  • Titre: Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation
  • Auteurs: Suho Park*, SuBeen Lee*, Hyun Seok Seong, Jaejoon Yoo, Jae-Pil Heo† (Université Sungkyunkwan)
  • Classification: cs.CV (Vision par Ordinateur)
  • Date de soumission: 1er janvier 2025 sur arXiv
  • Lien de l'article: https://arxiv.org/abs/2501.00752
  • Lien du code: https://github.com/SuhoPark0706/FCP

Résumé

Cet article propose une méthode de génération et d'appariement de prototypes couvrant le premier plan (FCP) pour résoudre le problème de la segmentation peu-données (FSS). Contrairement aux recherches antérieures qui utilisent généralement des prototypes de support et des pixels de requête pour estimer les régions cibles, cet article exploite la relation entre les prototypes de support et les prototypes de requête. La méthode combine deux caractéristiques complémentaires : les caractéristiques de l'encodeur d'images SAM pour l'agrégation de pixels et les caractéristiques ResNet pour la cohérence de classe. En construisant des prototypes de support et de requête, et en distinguant les prototypes de requête des régions cibles basés sur les caractéristiques ResNet, les masques d'objets sont finalement générés via le décodeur de masques SAM, atteignant les performances de pointe sur plusieurs ensembles de données.

Contexte de Recherche et Motivation

Définition du Problème

La segmentation peu-données (Few-Shot Segmentation, FSS) vise à segmenter les régions cibles dans des images de requête non étiquetées basées sur un petit nombre d'images de support étiquetées. Il s'agit d'une tâche importante en vision par ordinateur, car les méthodes traditionnelles de segmentation sémantique nécessitent une grande quantité de données étiquetées, tandis que la FSS peut réduire considérablement la charge d'annotation manuelle.

Limitations des Méthodes Existantes

  1. Limitations de SAM: Bien que le Segment Anything Model (SAM) montre d'excellentes performances dans les tâches de segmentation, il manque de cohérence de classe entre les images et ne peut pas classifier les régions de premier plan de l'image de requête basées sur l'image de support.
  2. Insuffisances de VRP-SAM:
    • La relation d'appariement prototype-pixel est sous-optimale, ce qui peut entraîner des indices visuels de référence manquant d'informations de premier plan suffisantes ou contenant des éléments d'arrière-plan
    • La qualité des pseudo-masques basée sur la similarité simple pixel-pixel est faible
    • Difficultés à améliorer sélectivement les pixels de premier plan de requête, ce qui peut brouiller la distinction entre les pixels de premier plan et d'arrière-plan

Motivation de la Recherche

Cet article découvre que les caractéristiques de l'encodeur d'images SAM excellent dans l'agrégation au niveau des pixels, tandis que les caractéristiques ResNet sont plus fortes en cohérence de classe. Basée sur cette observation, une stratégie d'appariement prototype-prototype est proposée pour générer des indices visuels de référence plus fiables.

Contributions Principales

  1. Proposition d'une méthode de génération et d'appariement de prototypes couvrant le premier plan: Construction de prototypes pour les images de support et de requête, génération d'indices visuels de référence par comparaison entre prototypes, et production de masques d'objets d'images de requête via le décodeur de masques SAM.
  2. Stratégie de fusion de caractéristiques doubles: Utilisation efficace de la capacité d'agrégation supérieure des caractéristiques de l'encodeur d'images SAM et de la cohérence de classe des caractéristiques ResNet pour générer des prototypes centrés sur le premier plan.
  3. Pseudo-masques guidés par l'attention: Proposition de pseudo-masques basés sur l'attention, remplaçant efficacement les pseudo-masques traditionnels en exploitant les caractéristiques de l'encodeur d'images SAM.
  4. Réalisation de performances de pointe: Validation de l'efficacité de l'appariement prototype-prototype sur plusieurs ensembles de données, réalisant de nouvelles performances de pointe.

Détails de la Méthode

Définition de la Tâche

La FSS adopte une approche d'apprentissage méta, utilisant deux ensembles de données indépendants : l'ensemble d'entraînement D_train et l'ensemble de test D_test, contenant des classes non chevauchantes C_base et C_novel. Chaque épisode comprend :

  • Ensemble de support : K images étiquetées S = {(I_Si, M_Si)}^K_
  • Ensemble de requête : une image non étiquetée Q = (I_Q, M_Q)

L'objectif est de prédire le masque de requête M_pred basé sur l'ensemble de support et l'image de requête.

Architecture du Modèle

1. Génération de Prototypes de Support

Le processus de génération de prototypes de support comprend deux étapes principales :

Agrégation de Caractéristiques de Premier Plan:

Ḡ_S = ConvG(Concat(G_S, M_S, MP(G_S, M_S)))  (1)

Utilisation du masque ground truth M_S pour guider les caractéristiques SAM G_S, puis agrégation des informations de premier plan par T-1 étapes d'attention croisée itérative masquée :

P^t_S = MaskedCrossAttn(P^{t-1}_S, Ḡ_S, Ḡ_S; M_S)  (2)

Injection de Cohérence de Classe:

F̄_S = ConvG(Concat(F_S, M_S, MP(F_S, M_S)))  (3)
P^T_S = MaskedCrossAttn(P^{T-1}_S, Ḡ_S, F̄_S; M_S)  (4)

2. Génération de Prototypes de Requête

La génération de prototypes de requête fait face au défi de l'absence de masque ground truth, adoptant la stratégie suivante :

Calcul de Pseudo-Masque Traditionnel:

M^{pseudo}_{h,w} = \max_{1≤h'≤H,1≤w'≤W} M^{S}_{h',w'}(F^Q_{h,w} · F^S_{h',w'})  (5)

Agrégation de Caractéristiques SAM:

Ḡ_Q = ConvG(Concat(G_Q, M^{pseudo}, MP(G_S, M_S)))  (6)
P^t_Q = CrossAttn(P^{t-1}_Q, Ḡ_Q, Ḡ_Q)  (7)

Pseudo-Masque Guidé par l'Attention:

M^{attn}_{t,h,w} = \max_{1≤n≤N} A^Q_{t,n,h,w}  (8)

Perte de Guidage:

L_{guide} = \frac{1}{T-1} \sum^{T-1}_{t=1} L_{BCE}(M^{attn}_t, M_Q) + L_{DL}(M^{attn}_t, M_Q)  (9)

Fusion de Caractéristiques ResNet:

F̄_Q = ConvF(Concat(F_Q, M^{attn}_{T-1}, MP(F_S, M_S)))  (10)
P^T_Q = CrossAttn(P^{T-1}_Q, Ḡ_Q, F̄_Q)  (11)

3. Appariement Prototype-Prototype

Génération d'indices visuels de référence par attention croisée :

V = CrossAttn(P^T_S, P^T_Q, P^T_Q)  (12)

Fonction de Perte

La perte totale comprend trois composants :

L_{total} = L_{prompt} + λ_{ortho}L_{ortho} + λ_{guide}L_{guide}  (15)
  • Perte d'Indice: L_prompt = L_BCE(M_pred, M_Q) + L_DL(M_pred, M_Q)
  • Perte d'Orthogonalité: Assure que différents prototypes encodent des informations différentes
  • Perte de Guidage: Guide l'attention à se concentrer sur les régions de premier plan

Configuration Expérimentale

Ensembles de Données

  • PASCAL-5i: 20 classes provenant de PASCAL VOC 2012 et SDS, divisées en 4 folds, chaque fold contenant 15 classes de base et 5 classes nouvelles
  • COCO-20i: 80 classes provenant de l'ensemble de données COCO, divisées en 4 folds, chaque fold contenant 60 classes de base et 20 classes nouvelles

Métriques d'Évaluation

Utilisation de l'Intersection sur Union Moyenne (mean Intersection over Union, mIoU) pour évaluer les performances, avec 1000 paires support-requête échantillonnées aléatoirement pour les tests sur les classes nouvelles.

Détails d'Implémentation

  • Optimiseur: AdamW, planification de recuit cosinus
  • PASCAL-5i: 100 epochs, taux d'apprentissage 2e-4
  • COCO-20i: 50 epochs, taux d'apprentissage 1e-4
  • Taille de batch: 8
  • Nombre de tokens apprenables: 50
  • Nombre de couches d'agrégation: T=3
  • Coefficients de perte: λ_ortho=0.05, λ_guide=0.5

Résultats Expérimentaux

Résultats Principaux

Les résultats expérimentaux sur les ensembles de données PASCAL-5i et COCO-20i montrent que la méthode proposée atteint les performances de pointe dans tous les paramètres :

Ensemble de Données PASCAL-5i (ResNet-50):

  • 1-shot: 73,2% mIoU (amélioration de 1,4% par rapport aux 71,8% de VRP-SAM)
  • 5-shot: 74,0% mIoU (amélioration de 2,6% par rapport aux 71,4% de VRP-SAM)

Ensemble de Données COCO-20i (ResNet-50):

  • 1-shot: 52,5% mIoU (amélioration de 2,3% par rapport aux 50,2% de VRP-SAM)
  • 5-shot: 58,0% mIoU (amélioration de 2,5% par rapport aux 55,5% de VRP-SAM)

Études d'Ablation

Analyse des Composants Principaux:

  • Caractéristiques ResNet uniquement (ligne de base): 71,8% mIoU
  • Ajout d'appariement prototype-prototype: 72,6% mIoU (+0,8%)
  • Ajout de pseudo-masque guidé par l'attention: 73,2% mIoU (+1,4%)

Impact du Nombre d'Étapes d'Agrégation T:

  • T=3 atteint les meilleures performances
  • Un nombre excessif d'étapes entraîne une dégradation des performances, car les tokens se concentrent excessivement sur les régions plus petites

Efficacité de la Fonction de Perte:

  • Perte d'indice uniquement: 72,3% mIoU
  • Ajout de perte de guidage: 72,7% mIoU (+0,4%)
  • Ajout de perte d'orthogonalité: 72,4% mIoU (+0,1%)
  • Toutes les pertes: 73,2% mIoU (+0,9%)

Analyse de la Qualité des Pseudo-Masques

Le pseudo-masque guidé par l'attention montre une amélioration significative par rapport aux pseudo-masques traditionnels :

  • mIoU: 60,9% vs 32,4%
  • Précision: 69,1% vs 46,5%
  • Rappel: 79,4% vs 53,6%

Travaux Connexes

Modèles de Base Visuels

SAM, en tant que modèle de base dans le domaine de la segmentation, possède une conception d'indice et une capacité de zéro-shot puissante, mais manque de cohérence de classe entre les images.

Méthodes de Segmentation Peu-Données

Principalement divisées en deux catégories :

  1. Méthodes Basées sur les Prototypes: Représentation du premier plan de support en tant que prototype et utilisation pour la prédiction
  2. Méthodes d'Apprentissage d'Affinité: Exploitation de la corrélation dense au niveau des pixels entre les images de support et de requête

VRP-SAM introduit une méthode pour générer des indices appropriés pour le décodeur de masques SAM, mais la comparaison au niveau des pixels présente des limitations.

Conclusion et Discussion

Conclusions Principales

  1. L'appariement prototype-prototype est plus efficace que l'appariement prototype-pixel
  2. La capacité d'agrégation des caractéristiques SAM et la cohérence de classe des caractéristiques ResNet sont complémentaires
  3. Le pseudo-masque guidé par l'attention est significativement supérieur aux pseudo-masques traditionnels
  4. Réalisation de performances de pointe sur plusieurs ensembles de données

Limitations

  1. Dépendance envers deux modèles pré-entraînés (SAM et ResNet), augmentant la complexité de calcul
  2. L'efficacité de la méthode est principalement validée sur des images naturelles, la capacité de généralisation dans d'autres domaines reste à vérifier
  3. Les hyperparamètres (tels que T, valeurs λ) nécessitent un ajustement pour différents ensembles de données

Directions Futures

  1. Exploration de stratégies de fusion de caractéristiques plus légères
  2. Recherche d'applications dans des domaines spécifiques tels que l'imagerie médicale
  3. Amélioration supplémentaire de l'efficacité et de la précision des mécanismes d'attention

Évaluation Approfondie

Avantages

  1. Innovation Technique Forte: Proposition d'un nouveau paradigme d'appariement prototype-prototype, exploitant efficacement la complémentarité de deux types de caractéristiques
  2. Expérimentation Complète: Réalisation d'une validation expérimentale complète sur plusieurs ensembles de données et paramètres
  3. Analyse Approfondie: Démonstration claire de l'efficacité de la méthode par visualisation et analyse quantitative
  4. Rédaction Claire: Structure d'article raisonnable, description précise des détails techniques

Insuffisances

  1. Complexité de Calcul: Nécessité d'utiliser simultanément les caractéristiques SAM et ResNet, pouvant augmenter le temps d'inférence
  2. Sensibilité aux Paramètres: La configuration de plusieurs hyperparamètres peut affecter la stabilité de la méthode
  3. Capacité de Généralisation: Validation principalement sur des ensembles de données d'images naturelles, l'effet dans d'autres domaines reste inconnu

Impact

  1. Contribution Académique: Fourniture d'une nouvelle voie technique pour la segmentation peu-données, pouvant inspirer les recherches ultérieures
  2. Valeur Pratique: Peut réduire les coûts d'annotation dans les applications pratiques, possédant un potentiel d'application élevé
  3. Reproductibilité: Fourniture de détails d'implémentation détaillés et de code open-source, facilitant la reproduction et l'amélioration

Scénarios Applicables

  1. Tâches de segmentation nécessitant une adaptation rapide aux nouvelles classes
  2. Scénarios d'application où les données annotées sont rares
  3. Applications de vision par ordinateur exigeant une précision de segmentation élevée

Références Bibliographiques

L'article cite des travaux importants dans les domaines connexes de la segmentation peu-données et des modèles de base visuels, incluant les méthodes classiques telles que SAM, VRP-SAM, PFENet et CyCTR, fournissant une base théorique solide pour cette recherche.