2025-11-10T02:42:11.024249

Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation

Park, Lee, Seong et al.

We propose Foreground-Covering Prototype Generation and Matching to resolve Few-Shot Segmentation (FSS), which aims to segment target regions in unlabeled query images based on labeled support images. Unlike previous research, which typically estimates target regions in the query using support prototypes and query pixels, we utilize the relationship between support and query prototypes. To achieve this, we utilize two complementary features: SAM Image Encoder features for pixel aggregation and ResNet features for class consistency. Specifically, we construct support and query prototypes with SAM features and distinguish query prototypes of target regions based on ResNet features. For the query prototype construction, we begin by roughly guiding foreground regions within SAM features using the conventional pseudo-mask, then employ iterative cross-attention to aggregate foreground features into learnable tokens. Here, we discover that the cross-attention weights can effectively alternate the conventional pseudo-mask. Therefore, we use the attention-based pseudo-mask to guide ResNet features to focus on the foreground, then infuse the guided ResNet feature into the learnable tokens to generate class-consistent query prototypes. The generation of the support prototype is conducted symmetrically to that of the query one, with the pseudo-mask replaced by the ground-truth mask. Finally, we compare these query prototypes with support ones to generate prompts, which subsequently produce object masks through the SAM Mask Decoder. Our state-of-the-art performances on various datasets validate the effectiveness of the proposed method for FSS. Our official code is available at https://github.com/SuhoPark0706/FCP

academic

Generazione e Corrispondenza di Prototipi con Copertura del Primo Piano per la Segmentazione Pochi-Shot Assistita da SAM

Informazioni Fondamentali

ID Articolo: 2501.00752
Titolo: Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation
Autori: Suho Park*, SuBeen Lee*, Hyun Seok Seong, Jaejoon Yoo, Jae-Pil Heo†（Università Sungkyunkwan）
Classificazione: cs.CV (Visione Artificiale)
Data di Pubblicazione: Sottomesso ad arXiv il 1° gennaio 2025
Link Articolo: https://arxiv.org/abs/2501.00752
Link Codice: https://github.com/SuhoPark0706/FCP

Riassunto

Questo articolo propone il metodo di Generazione e Corrispondenza di Prototipi con Copertura del Primo Piano (FCP) per affrontare il problema della segmentazione pochi-shot (FSS). A differenza della ricerca precedente che utilizza tipicamente prototipi di supporto e pixel di query per stimare le aree target, questo articolo sfrutta la relazione tra prototipi di supporto e prototipi di query. Il metodo combina due caratteristiche complementari: le caratteristiche dell'encoder di immagini SAM per l'aggregazione di pixel e le caratteristiche ResNet per la coerenza di classe. Costruendo prototipi di supporto e query, e distinguendo i prototipi di query dell'area target basandosi sulle caratteristiche ResNet, infine genera maschere di oggetti attraverso il decoder di maschere SAM, raggiungendo prestazioni all'avanguardia su più dataset.

Contesto di Ricerca e Motivazione

Definizione del Problema

La segmentazione pochi-shot (Few-Shot Segmentation, FSS) mira a segmentare le aree target nelle immagini di query non etichettate basandosi su un numero limitato di immagini di supporto etichettate. Si tratta di un compito importante nella visione artificiale, poiché i metodi tradizionali di segmentazione semantica richiedono grandi quantità di dati etichettati, mentre FSS può ridurre significativamente l'onere dell'annotazione manuale.

Limitazioni dei Metodi Esistenti

Limitazioni di SAM: Sebbene il Segment Anything Model (SAM) mostri prestazioni eccellenti nei compiti di segmentazione, manca di coerenza di classe tra immagini e non può classificare le aree di primo piano dell'immagine di query basandosi sull'immagine di supporto.
Insufficienze di VRP-SAM:
- La relazione di corrispondenza prototipo-pixel è subottimale, potendo risultare in suggerimenti di riferimento visivo privi di informazioni sufficienti sul primo piano o contenenti elementi di sfondo
- La qualità tradizionale delle pseudo-maschere basata su semplice similarità pixel-pixel è bassa
- Difficoltà nel migliorare selettivamente i pixel di primo piano della query, potendo offuscare la distinzione tra pixel di primo piano e sfondo

Motivazione della Ricerca

Questo articolo scopre che le caratteristiche dell'encoder di immagini SAM mostrano prestazioni eccellenti nell'aggregazione a livello di pixel, mentre le caratteristiche ResNet sono più forti nella coerenza di classe. Basandosi su questa osservazione, propone una strategia di corrispondenza prototipo-prototipo per generare suggerimenti di riferimento visivo più affidabili.

Contributi Fondamentali

Propone il metodo di Generazione e Corrispondenza di Prototipi con Copertura del Primo Piano: Costruisce prototipi delle immagini di supporto e query, genera suggerimenti di riferimento visivo attraverso il confronto tra prototipi, e produce maschere di oggetti dell'immagine di query attraverso il decoder di maschere SAM.
Strategia di Fusione Dual-Feature: Sfrutta efficacemente la capacità di aggregazione superiore delle caratteristiche dell'encoder di immagini SAM e la coerenza di classe delle caratteristiche ResNet per generare prototipi centrati sul primo piano.
Pseudo-Maschera Guidata dall'Attenzione: Propone una pseudo-maschera basata su attenzione che sostituisce efficacemente la pseudo-maschera tradizionale utilizzando le caratteristiche dell'encoder di immagini SAM.
Raggiunge Prestazioni all'Avanguardia: Verifica l'efficacia della corrispondenza prototipo-prototipo su più dataset, realizzando nuove prestazioni all'avanguardia.

Spiegazione Dettagliata del Metodo

Definizione del Compito

FSS utilizza un approccio di meta-apprendimento, utilizzando due dataset indipendenti: il set di addestramento D_train e il set di test D_test, contenenti classi non sovrapposte C_base e C_novel. Ogni episodio contiene:

Set di supporto: K immagini etichettate S = {(I_Si, M_Si)}^K_
Set di query: un'immagine non etichettata Q = (I_Q, M_Q)

L'obiettivo è prevedere la maschera di query M_pred basandosi sul set di supporto e sull'immagine di query.

Architettura del Modello

1. Generazione del Prototipo di Supporto

Il processo di generazione del prototipo di supporto include due fasi principali:

Aggregazione di Caratteristiche di Primo Piano:

Ḡ_S = ConvG(Concat(G_S, M_S, MP(G_S, M_S)))  (1)

Utilizza la maschera ground truth M_S per guidare le caratteristiche SAM G_S, quindi aggrega le informazioni di primo piano attraverso T-1 passi di attenzione incrociata iterativa mascherata:

P^t_S = MaskedCrossAttn(P^{t-1}_S, Ḡ_S, Ḡ_S; M_S)  (2)

Iniezione di Coerenza di Classe:

F̄_S = ConvG(Concat(F_S, M_S, MP(F_S, M_S)))  (3)
P^T_S = MaskedCrossAttn(P^{T-1}_S, Ḡ_S, F̄_S; M_S)  (4)

2. Generazione del Prototipo di Query

La generazione del prototipo di query affronta la sfida dell'assenza di maschere ground truth, adottando le seguenti strategie:

Calcolo Tradizionale della Pseudo-Maschera:

M^{pseudo}_{h,w} = \max_{1≤h'≤H,1≤w'≤W} M^S_{h',w'}(F^Q_{h,w} · F^S_{h',w'})  (5)

Aggregazione di Caratteristiche SAM:

Ḡ_Q = ConvG(Concat(G_Q, M^{pseudo}, MP(G_S, M_S)))  (6)
P^t_Q = CrossAttn(P^{t-1}_Q, Ḡ_Q, Ḡ_Q)  (7)

Pseudo-Maschera Guidata dall'Attenzione:

M^{attn}_{t,h,w} = \max_{1≤n≤N} A^Q_{t,n,h,w}  (8)

Perdita di Guida:

L_{guide} = \frac{1}{T-1} \sum^{T-1}_{t=1} L_{BCE}(M^{attn}_t, M_Q) + L_{DL}(M^{attn}_t, M_Q)  (9)

Fusione di Caratteristiche ResNet:

F̄_Q = ConvF(Concat(F_Q, M^{attn}_{T-1}, MP(F_S, M_S)))  (10)
P^T_Q = CrossAttn(P^{T-1}_Q, Ḡ_Q, F̄_Q)  (11)

3. Corrispondenza Prototipo-Prototipo

Genera suggerimenti di riferimento visivo attraverso attenzione incrociata:

V = CrossAttn(P^T_S, P^T_Q, P^T_Q)  (12)

Funzione di Perdita

La perdita totale comprende tre componenti:

L_{total} = L_{prompt} + λ_{ortho}L_{ortho} + λ_{guide}L_{guide}  (15)

Perdita di Suggerimento: L_prompt = L_BCE(M_pred, M_Q) + L_DL(M_pred, M_Q)
Perdita Ortogonale: Assicura che diversi prototipi codifichino informazioni diverse
Perdita di Guida: Guida l'attenzione a concentrarsi sulle aree di primo piano

Configurazione Sperimentale

Dataset

PASCAL-5i: 20 classi provenienti da PASCAL VOC 2012 e SDS, divise in 4 fold, ogni fold contiene 15 classi base e 5 classi nuove
COCO-20i: 80 classi provenienti dal dataset COCO, divise in 4 fold, ogni fold contiene 60 classi base e 20 classi nuove

Metriche di Valutazione

Utilizza l'Intersezione Media su Unione (mean Intersection over Union, mIoU) per valutare le prestazioni, testando 1000 coppie di supporto-query campionate casualmente nelle classi nuove.

Dettagli di Implementazione

Ottimizzatore: AdamW, pianificazione con annealing coseno
PASCAL-5i: 100 epoch, tasso di apprendimento 2e-4
COCO-20i: 50 epoch, tasso di apprendimento 1e-4
Dimensione del batch: 8
Numero di token apprendibili: 50
Numero di strati di aggregazione: T=3
Coefficienti di perdita: λ_ortho=0.05, λ_guide=0.5

Risultati Sperimentali

Risultati Principali

I risultati sperimentali sui dataset PASCAL-5i e COCO-20i indicano che il metodo proposto raggiunge prestazioni all'avanguardia in tutte le impostazioni:

Dataset PASCAL-5i (ResNet-50):

1-shot: 73,2% mIoU (miglioramento di 1,4% rispetto a VRP-SAM del 71,8%)
5-shot: 74,0% mIoU (miglioramento di 2,6% rispetto a VRP-SAM del 71,4%)

Dataset COCO-20i (ResNet-50):

1-shot: 52,5% mIoU (miglioramento di 2,3% rispetto a VRP-SAM del 50,2%)
5-shot: 58,0% mIoU (miglioramento di 2,5% rispetto a VRP-SAM del 55,5%)

Studi di Ablazione

Analisi dei Componenti Principali:

Solo caratteristiche ResNet (baseline): 71,8% mIoU
Aggiunta della corrispondenza prototipo-prototipo: 72,6% mIoU (+0,8%)
Aggiunta della pseudo-maschera guidata dall'attenzione: 73,2% mIoU (+1,4%)

Impatto del Numero di Passi di Aggregazione T:

T=3 raggiunge le prestazioni ottimali
Troppi passi causano un calo di prestazioni, poiché i token si concentrano eccessivamente su aree più piccole

Validità della Funzione di Perdita:

Solo perdita di suggerimento: 72,3% mIoU
Aggiunta della perdita di guida: 72,7% mIoU (+0,4%)
Aggiunta della perdita ortogonale: 72,4% mIoU (+0,1%)
Tutte le perdite: 73,2% mIoU (+0,9%)

Analisi della Qualità della Pseudo-Maschera

La pseudo-maschera guidata dall'attenzione mostra miglioramenti significativi rispetto alla pseudo-maschera tradizionale:

mIoU: 60,9% vs 32,4%
Precisione: 69,1% vs 46,5%
Richiamo: 79,4% vs 53,6%

Lavori Correlati

Modelli Fondamentali di Visione

SAM come modello fondamentale nel campo della segmentazione, possiede un design suggerito e forti capacità zero-shot, ma manca di coerenza di classe tra immagini.

Metodi di Segmentazione Pochi-Shot

Principalmente divisi in due categorie:

Metodi Basati su Prototipi: Rappresentano il primo piano di supporto come prototipo e lo utilizzano per la previsione
Metodi di Apprendimento di Affinità: Sfruttano la densa correlazione a livello di pixel tra immagini di supporto e query

VRP-SAM introduce il metodo per generare suggerimenti appropriati per il decoder di maschere SAM, ma il confronto a livello di pixel ha limitazioni.

Conclusioni e Discussione

Conclusioni Principali

La corrispondenza prototipo-prototipo è più efficace della corrispondenza prototipo-pixel
La capacità di aggregazione delle caratteristiche SAM e la coerenza di classe delle caratteristiche ResNet sono complementari
La pseudo-maschera guidata dall'attenzione è significativamente superiore alla pseudo-maschera tradizionale
Raggiunge prestazioni all'avanguardia su più dataset

Limitazioni

Dipende da due modelli pre-addestrati SAM e ResNet, aumentando la complessità computazionale
L'efficacia del metodo è principalmente verificata su immagini naturali, la capacità di generalizzazione su altri domini rimane da verificare
Gli iperparametri (come T, valori λ) richiedono regolazione per diversi dataset

Direzioni Future

Esplorare strategie di fusione di caratteristiche più leggere
Ricercare applicazioni in domini specifici come le immagini mediche
Migliorare ulteriormente l'efficienza e l'accuratezza del meccanismo di attenzione

Valutazione Approfondita

Punti di Forza

Forte Innovazione Tecnica: Propone un nuovo paradigma di corrispondenza prototipo-prototipo, sfruttando efficacemente la complementarità di due tipi di caratteristiche
Esperimenti Completi: Conduce verifiche sperimentali complete su più dataset e impostazioni
Analisi Approfondita: Attraverso visualizzazione e analisi quantitativa, dimostra chiaramente l'efficacia del metodo
Scrittura Chiara: La struttura dell'articolo è razionale e i dettagli tecnici sono descritti accuratamente

Insufficienze

Complessità Computazionale: Richiede l'uso simultaneo di caratteristiche SAM e ResNet, potendo aumentare il tempo di inferenza
Sensibilità ai Parametri: L'impostazione di più iperparametri potrebbe influenzare la stabilità del metodo
Capacità di Generalizzazione: Principalmente verificato su dataset di immagini naturali, l'effetto su altri domini rimane sconosciuto

Impatto

Contributo Accademico: Fornisce un nuovo percorso tecnico per la segmentazione pochi-shot, potendo ispirare ricerche successive
Valore Pratico: Può ridurre i costi di annotazione nelle applicazioni pratiche, con elevato potenziale di applicazione
Riproducibilità: Fornisce dettagli di implementazione dettagliati e codice open-source, facilitando la riproduzione e il miglioramento

Scenari Applicabili

Compiti di segmentazione che richiedono rapido adattamento a nuove classi
Scenari di applicazione con dati di annotazione scarsi
Applicazioni di visione artificiale che richiedono elevata precisione di segmentazione

Bibliografia

L'articolo cita importanti lavori nei campi correlati della segmentazione pochi-shot e dei modelli fondamentali di visione, inclusi metodi classici come SAM, VRP-SAM, PFENet, CyCTR, fornendo una base teorica solida per questa ricerca.