Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation
Park, Lee, Seong et al.
We propose Foreground-Covering Prototype Generation and Matching to resolve Few-Shot Segmentation (FSS), which aims to segment target regions in unlabeled query images based on labeled support images. Unlike previous research, which typically estimates target regions in the query using support prototypes and query pixels, we utilize the relationship between support and query prototypes. To achieve this, we utilize two complementary features: SAM Image Encoder features for pixel aggregation and ResNet features for class consistency. Specifically, we construct support and query prototypes with SAM features and distinguish query prototypes of target regions based on ResNet features. For the query prototype construction, we begin by roughly guiding foreground regions within SAM features using the conventional pseudo-mask, then employ iterative cross-attention to aggregate foreground features into learnable tokens. Here, we discover that the cross-attention weights can effectively alternate the conventional pseudo-mask. Therefore, we use the attention-based pseudo-mask to guide ResNet features to focus on the foreground, then infuse the guided ResNet feature into the learnable tokens to generate class-consistent query prototypes. The generation of the support prototype is conducted symmetrically to that of the query one, with the pseudo-mask replaced by the ground-truth mask. Finally, we compare these query prototypes with support ones to generate prompts, which subsequently produce object masks through the SAM Mask Decoder. Our state-of-the-art performances on various datasets validate the effectiveness of the proposed method for FSS. Our official code is available at https://github.com/SuhoPark0706/FCP
academic
Generazione e Corrispondenza di Prototipi con Copertura del Primo Piano per la Segmentazione Pochi-Shot Assistita da SAM
Questo articolo propone il metodo di Generazione e Corrispondenza di Prototipi con Copertura del Primo Piano (FCP) per affrontare il problema della segmentazione pochi-shot (FSS). A differenza della ricerca precedente che utilizza tipicamente prototipi di supporto e pixel di query per stimare le aree target, questo articolo sfrutta la relazione tra prototipi di supporto e prototipi di query. Il metodo combina due caratteristiche complementari: le caratteristiche dell'encoder di immagini SAM per l'aggregazione di pixel e le caratteristiche ResNet per la coerenza di classe. Costruendo prototipi di supporto e query, e distinguendo i prototipi di query dell'area target basandosi sulle caratteristiche ResNet, infine genera maschere di oggetti attraverso il decoder di maschere SAM, raggiungendo prestazioni all'avanguardia su più dataset.
La segmentazione pochi-shot (Few-Shot Segmentation, FSS) mira a segmentare le aree target nelle immagini di query non etichettate basandosi su un numero limitato di immagini di supporto etichettate. Si tratta di un compito importante nella visione artificiale, poiché i metodi tradizionali di segmentazione semantica richiedono grandi quantità di dati etichettati, mentre FSS può ridurre significativamente l'onere dell'annotazione manuale.
Limitazioni di SAM: Sebbene il Segment Anything Model (SAM) mostri prestazioni eccellenti nei compiti di segmentazione, manca di coerenza di classe tra immagini e non può classificare le aree di primo piano dell'immagine di query basandosi sull'immagine di supporto.
Insufficienze di VRP-SAM:
La relazione di corrispondenza prototipo-pixel è subottimale, potendo risultare in suggerimenti di riferimento visivo privi di informazioni sufficienti sul primo piano o contenenti elementi di sfondo
La qualità tradizionale delle pseudo-maschere basata su semplice similarità pixel-pixel è bassa
Difficoltà nel migliorare selettivamente i pixel di primo piano della query, potendo offuscare la distinzione tra pixel di primo piano e sfondo
Questo articolo scopre che le caratteristiche dell'encoder di immagini SAM mostrano prestazioni eccellenti nell'aggregazione a livello di pixel, mentre le caratteristiche ResNet sono più forti nella coerenza di classe. Basandosi su questa osservazione, propone una strategia di corrispondenza prototipo-prototipo per generare suggerimenti di riferimento visivo più affidabili.
Propone il metodo di Generazione e Corrispondenza di Prototipi con Copertura del Primo Piano: Costruisce prototipi delle immagini di supporto e query, genera suggerimenti di riferimento visivo attraverso il confronto tra prototipi, e produce maschere di oggetti dell'immagine di query attraverso il decoder di maschere SAM.
Strategia di Fusione Dual-Feature: Sfrutta efficacemente la capacità di aggregazione superiore delle caratteristiche dell'encoder di immagini SAM e la coerenza di classe delle caratteristiche ResNet per generare prototipi centrati sul primo piano.
Pseudo-Maschera Guidata dall'Attenzione: Propone una pseudo-maschera basata su attenzione che sostituisce efficacemente la pseudo-maschera tradizionale utilizzando le caratteristiche dell'encoder di immagini SAM.
Raggiunge Prestazioni all'Avanguardia: Verifica l'efficacia della corrispondenza prototipo-prototipo su più dataset, realizzando nuove prestazioni all'avanguardia.
FSS utilizza un approccio di meta-apprendimento, utilizzando due dataset indipendenti: il set di addestramento D_train e il set di test D_test, contenenti classi non sovrapposte C_base e C_novel. Ogni episodio contiene:
Set di supporto: K immagini etichettate S = {(I_Si, M_Si)}^K_
Set di query: un'immagine non etichettata Q = (I_Q, M_Q)
L'obiettivo è prevedere la maschera di query M_pred basandosi sul set di supporto e sull'immagine di query.
Il processo di generazione del prototipo di supporto include due fasi principali:
Aggregazione di Caratteristiche di Primo Piano:
Ḡ_S = ConvG(Concat(G_S, M_S, MP(G_S, M_S))) (1)
Utilizza la maschera ground truth M_S per guidare le caratteristiche SAM G_S, quindi aggrega le informazioni di primo piano attraverso T-1 passi di attenzione incrociata iterativa mascherata:
Utilizza l'Intersezione Media su Unione (mean Intersection over Union, mIoU) per valutare le prestazioni, testando 1000 coppie di supporto-query campionate casualmente nelle classi nuove.
I risultati sperimentali sui dataset PASCAL-5i e COCO-20i indicano che il metodo proposto raggiunge prestazioni all'avanguardia in tutte le impostazioni:
Dataset PASCAL-5i (ResNet-50):
1-shot: 73,2% mIoU (miglioramento di 1,4% rispetto a VRP-SAM del 71,8%)
5-shot: 74,0% mIoU (miglioramento di 2,6% rispetto a VRP-SAM del 71,4%)
Dataset COCO-20i (ResNet-50):
1-shot: 52,5% mIoU (miglioramento di 2,3% rispetto a VRP-SAM del 50,2%)
5-shot: 58,0% mIoU (miglioramento di 2,5% rispetto a VRP-SAM del 55,5%)
SAM come modello fondamentale nel campo della segmentazione, possiede un design suggerito e forti capacità zero-shot, ma manca di coerenza di classe tra immagini.
Forte Innovazione Tecnica: Propone un nuovo paradigma di corrispondenza prototipo-prototipo, sfruttando efficacemente la complementarità di due tipi di caratteristiche
Esperimenti Completi: Conduce verifiche sperimentali complete su più dataset e impostazioni
Analisi Approfondita: Attraverso visualizzazione e analisi quantitativa, dimostra chiaramente l'efficacia del metodo
Scrittura Chiara: La struttura dell'articolo è razionale e i dettagli tecnici sono descritti accuratamente
L'articolo cita importanti lavori nei campi correlati della segmentazione pochi-shot e dei modelli fondamentali di visione, inclusi metodi classici come SAM, VRP-SAM, PFENet, CyCTR, fornendo una base teorica solida per questa ricerca.