2025-11-10T02:42:11.024249

Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation

Park, Lee, Seong et al.
We propose Foreground-Covering Prototype Generation and Matching to resolve Few-Shot Segmentation (FSS), which aims to segment target regions in unlabeled query images based on labeled support images. Unlike previous research, which typically estimates target regions in the query using support prototypes and query pixels, we utilize the relationship between support and query prototypes. To achieve this, we utilize two complementary features: SAM Image Encoder features for pixel aggregation and ResNet features for class consistency. Specifically, we construct support and query prototypes with SAM features and distinguish query prototypes of target regions based on ResNet features. For the query prototype construction, we begin by roughly guiding foreground regions within SAM features using the conventional pseudo-mask, then employ iterative cross-attention to aggregate foreground features into learnable tokens. Here, we discover that the cross-attention weights can effectively alternate the conventional pseudo-mask. Therefore, we use the attention-based pseudo-mask to guide ResNet features to focus on the foreground, then infuse the guided ResNet feature into the learnable tokens to generate class-consistent query prototypes. The generation of the support prototype is conducted symmetrically to that of the query one, with the pseudo-mask replaced by the ground-truth mask. Finally, we compare these query prototypes with support ones to generate prompts, which subsequently produce object masks through the SAM Mask Decoder. Our state-of-the-art performances on various datasets validate the effectiveness of the proposed method for FSS. Our official code is available at https://github.com/SuhoPark0706/FCP
academic

Vordergrund-abdeckende Prototyp-Generierung und -Matching für SAM-gestützte Few-Shot-Segmentierung

Grundlegende Informationen

  • Papier-ID: 2501.00752
  • Titel: Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation
  • Autoren: Suho Park*, SuBeen Lee*, Hyun Seok Seong, Jaejoon Yoo, Jae-Pil Heo† (Sungkyunkwan-Universität)
  • Klassifizierung: cs.CV (Computervision)
  • Einreichungsdatum: 1. Januar 2025 bei arXiv
  • Papier-Link: https://arxiv.org/abs/2501.00752
  • Code-Link: https://github.com/SuhoPark0706/FCP

Zusammenfassung

Dieses Papier präsentiert die Methode der Vordergrund-abdeckenden Prototyp-Generierung und des Matchings (FCP) zur Lösung des Few-Shot-Segmentierungsproblems (FSS). Im Gegensatz zu früheren Arbeiten, die typischerweise Support-Prototypen und Query-Pixel zur Schätzung der Zielregion verwenden, nutzt diese Methode die Beziehung zwischen Support-Prototypen und Query-Prototypen. Das Verfahren kombiniert zwei komplementäre Merkmale: SAM-Bildencoder-Merkmale für die Pixel-Aggregation und ResNet-Merkmale für die Klassenkonsistenz. Durch die Konstruktion von Support- und Query-Prototypen und die Unterscheidung von Query-Prototypen der Zielregion basierend auf ResNet-Merkmalen wird schließlich durch den SAM-Masken-Decoder eine Objektmaske generiert, was auf mehreren Datensätzen hochmoderne Leistung erreicht.

Forschungshintergrund und Motivation

Problemdefinition

Few-Shot-Segmentierung (FSS) zielt darauf ab, Zielregionen in unmarkierten Query-Bildern basierend auf einer kleinen Anzahl markierter Support-Bilder zu segmentieren. Dies ist eine wichtige Aufgabe in der Computervision, da traditionelle semantische Segmentierungsmethoden große Mengen markierter Daten erfordern, während FSS die Belastung durch manuelle Annotationen erheblich reduzieren kann.

Einschränkungen bestehender Methoden

  1. Einschränkungen von SAM: Obwohl das Segment Anything Model (SAM) bei Segmentierungsaufgaben hervorragende Leistungen zeigt, fehlt ihm die bildübergreifende Klassenkonsistenz, und es kann Vordergrund-Regionen in Query-Bildern nicht basierend auf Support-Bildern klassifizieren.
  2. Unzulänglichkeiten von VRP-SAM:
    • Das Prototyp-Pixel-Matching-Verhältnis ist suboptimal und kann dazu führen, dass visuelle Referenz-Prompts unzureichende Vordergrund-Informationen enthalten oder Hintergrund-Elemente einschließen
    • Die traditionelle Pseudo-Maske mit einfacher Pixel-zu-Pixel-Ähnlichkeit hat niedrigere Qualität
    • Es ist schwierig, Query-Vordergrund-Pixel selektiv zu verstärken, was die Unterscheidung zwischen Vordergrund- und Hintergrund-Pixeln verwischen kann

Forschungsmotivation

Dieses Papier stellt fest, dass SAM-Bildencoder-Merkmale bei der Pixel-Level-Aggregation hervorragende Leistungen zeigen, während ResNet-Merkmale in Bezug auf Klassenkonsistenz stärker sind. Basierend auf dieser Beobachtung wird eine Prototyp-zu-Prototyp-Matching-Strategie vorgeschlagen, um zuverlässigere visuelle Referenz-Prompts zu generieren.

Kernbeiträge

  1. Vorschlag der Vordergrund-abdeckenden Prototyp-Generierungs- und Matching-Methode: Konstruktion von Prototypen für Support- und Query-Bilder, Generierung von visuellen Referenz-Prompts durch Prototyp-Vergleich und Erzeugung von Objektmasken für Query-Bilder durch den SAM-Masken-Decoder.
  2. Dual-Feature-Fusionsstrategie: Effektive Nutzung der überlegenen Aggregationsfähigkeit von SAM-Bildencoder-Merkmalen und der Klassenkonsistenz von ResNet-Merkmalen zur Generierung von Vordergrund-zentrierten Prototypen.
  3. Aufmerksamkeits-geleitete Pseudo-Maske: Vorschlag einer aufmerksamkeits-basierten Pseudo-Maske, die traditionelle Pseudo-Masken durch effektive Nutzung von SAM-Bildencoder-Merkmalen ersetzt.
  4. Erreichung hochmoderner Leistung: Validierung der Effektivität des Prototyp-zu-Prototyp-Matchings auf mehreren Datensätzen mit neuer hochmoderner Leistung.

Methodische Details

Aufgabendefinition

FSS verwendet einen Meta-Learning-Ansatz mit zwei separaten Datensätzen: Trainingssatz D_train und Testsatz D_test, die nicht überlappende Klassen C_base und C_novel enthalten. Jede Episode enthält:

  • Support-Menge: K markierte Bilder S = {(I_Si, M_Si)}^K_
  • Query-Menge: ein unmarkiertes Bild Q = (I_Q, M_Q)

Das Ziel besteht darin, die Query-Maske M_pred basierend auf der Support-Menge und dem Query-Bild vorherzusagen.

Modellarchitektur

1. Support-Prototyp-Generierung

Der Support-Prototyp-Generierungsprozess umfasst zwei Hauptschritte:

Vordergrund-Merkmal-Aggregation:

Ḡ_S = ConvG(Concat(G_S, M_S, MP(G_S, M_S)))  (1)

Verwendung der Ground-Truth-Maske M_S zur Anleitung des SAM-Merkmals G_S, gefolgt durch T-1 Schritte iterativer Cross-Attention-Aggregation von Vordergrund-Informationen:

P^t_S = MaskedCrossAttn(P^{t-1}_S, Ḡ_S, Ḡ_S; M_S)  (2)

Klassenkonsistenz-Injektion:

F̄_S = ConvG(Concat(F_S, M_S, MP(F_S, M_S)))  (3)
P^T_S = MaskedCrossAttn(P^{T-1}_S, Ḡ_S, F̄_S; M_S)  (4)

2. Query-Prototyp-Generierung

Die Query-Prototyp-Generierung steht vor der Herausforderung fehlender Ground-Truth-Masken und verwendet die folgende Strategie:

Traditionelle Pseudo-Maske-Berechnung:

M^pseudo_{h,w} = \max_{1≤h'≤H,1≤w'≤W} M^S_{h',w'}(F^Q_{h,w} · F^S_{h',w'})  (5)

SAM-Merkmal-Aggregation:

Ḡ_Q = ConvG(Concat(G_Q, M^pseudo, MP(G_S, M_S)))  (6)
P^t_Q = CrossAttn(P^{t-1}_Q, Ḡ_Q, Ḡ_Q)  (7)

Aufmerksamkeits-geleitete Pseudo-Maske:

M^{attn}_{t,h,w} = \max_{1≤n≤N} A^Q_{t,n,h,w}  (8)

Anleitung-Verlust:

L_{guide} = \frac{1}{T-1} \sum^{T-1}_{t=1} L_{BCE}(M^{attn}_t, M_Q) + L_{DL}(M^{attn}_t, M_Q)  (9)

ResNet-Merkmal-Fusion:

F̄_Q = ConvF(Concat(F_Q, M^{attn}_{T-1}, MP(F_S, M_S)))  (10)
P^T_Q = CrossAttn(P^{T-1}_Q, Ḡ_Q, F̄_Q)  (11)

3. Prototyp-zu-Prototyp-Matching

Generierung von visuellen Referenz-Prompts durch Cross-Attention:

V = CrossAttn(P^T_S, P^T_Q, P^T_Q)  (12)

Verlustfunktion

Der Gesamtverlust besteht aus drei Komponenten:

L_{total} = L_{prompt} + λ_{ortho}L_{ortho} + λ_{guide}L_{guide}  (15)
  • Prompt-Verlust: L_prompt = L_BCE(M_pred, M_Q) + L_DL(M_pred, M_Q)
  • Orthogonalitäts-Verlust: Gewährleistung, dass verschiedene Prototypen unterschiedliche Informationen kodieren
  • Anleitung-Verlust: Anleitung der Aufmerksamkeit zur Fokussierung auf Vordergrund-Regionen

Experimentelle Einrichtung

Datensätze

  • PASCAL-5i: 20 Klassen aus PASCAL VOC 2012 und SDS, aufgeteilt in 4 Folds, jeder Fold enthält 15 Basis-Klassen und 5 neue Klassen
  • COCO-20i: 80 Klassen aus dem COCO-Datensatz, aufgeteilt in 4 Folds, jeder Fold enthält 60 Basis-Klassen und 20 neue Klassen

Bewertungsmetriken

Die Leistung wird anhand des mittleren Schnittpunkt-über-Union (mean Intersection over Union, mIoU) bewertet, wobei 1000 zufällig ausgewählte Support-Query-Paare in neuen Klassen getestet werden.

Implementierungsdetails

  • Optimierer: AdamW mit Kosinus-Annealing-Scheduler
  • PASCAL-5i: 100 Epochen, Lernrate 2e-4
  • COCO-20i: 50 Epochen, Lernrate 1e-4
  • Batch-Größe: 8
  • Anzahl lernbarer Token: 50
  • Aggregationsschichten: T=3
  • Verlust-Koeffizienten: λ_ortho=0.05, λ_guide=0.5

Experimentelle Ergebnisse

Hauptergebnisse

Die Experimentiergebnisse auf den Datensätzen PASCAL-5i und COCO-20i zeigen, dass die Methode unter allen Einstellungen hochmoderne Leistung erreicht:

PASCAL-5i Datensatz (ResNet-50):

  • 1-shot: 73,2% mIoU (Verbesserung um 1,4% gegenüber VRP-SAM mit 71,8%)
  • 5-shot: 74,0% mIoU (Verbesserung um 2,6% gegenüber VRP-SAM mit 71,4%)

COCO-20i Datensatz (ResNet-50):

  • 1-shot: 52,5% mIoU (Verbesserung um 2,3% gegenüber VRP-SAM mit 50,2%)
  • 5-shot: 58,0% mIoU (Verbesserung um 2,5% gegenüber VRP-SAM mit 55,5%)

Ablationsstudien

Analyse der Hauptkomponenten:

  • Nur ResNet-Merkmale (Baseline): 71,8% mIoU
  • Hinzufügen von Prototyp-zu-Prototyp-Matching: 72,6% mIoU (+0,8%)
  • Hinzufügen von aufmerksamkeits-geleiteter Pseudo-Maske: 73,2% mIoU (+1,4%)

Auswirkung der Aggregationsschritte T:

  • T=3 erreicht optimale Leistung
  • Zu viele Schritte führen zu Leistungsabfall, da Token zu stark auf kleinere Regionen fokussieren

Effektivität der Verlustfunktion:

  • Nur Prompt-Verlust: 72,3% mIoU
  • Hinzufügen von Anleitung-Verlust: 72,7% mIoU (+0,4%)
  • Hinzufügen von Orthogonalitäts-Verlust: 72,4% mIoU (+0,1%)
  • Alle Verluste: 73,2% mIoU (+0,9%)

Pseudo-Maske-Qualitätsanalyse

Die aufmerksamkeits-geleitete Pseudo-Maske zeigt signifikante Verbesserungen gegenüber der traditionellen Pseudo-Maske:

  • mIoU: 60,9% vs. 32,4%
  • Präzision: 69,1% vs. 46,5%
  • Recall: 79,4% vs. 53,6%

Verwandte Arbeiten

Visuelle Grundmodelle

SAM als Grundmodell im Segmentierungsbereich verfügt über Prompt-Design-Fähigkeiten und starke Zero-Shot-Fähigkeiten, entbehrt aber der bildübergreifenden Klassenkonsistenz.

Few-Shot-Segmentierungsmethoden

Hauptsächlich in zwei Kategorien unterteilt:

  1. Prototyp-basierte Methoden: Darstellung des Support-Vordergrunds als Prototyp zur Vorhersage
  2. Affinitäts-Lernmethoden: Nutzung der dichten pixelweisen Korrelationen zwischen Support- und Query-Bildern

VRP-SAM führte Methoden zur Generierung geeigneter Prompts für den SAM-Masken-Decoder ein, aber der pixelweise Vergleich hat Einschränkungen.

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. Prototyp-zu-Prototyp-Matching ist effektiver als Prototyp-zu-Pixel-Matching
  2. Die Aggregationsfähigkeit von SAM-Merkmalen und die Klassenkonsistenz von ResNet-Merkmalen sind komplementär
  3. Aufmerksamkeits-geleitete Pseudo-Masken sind deutlich überlegen gegenüber traditionellen Pseudo-Masken
  4. Hochmoderne Leistung auf mehreren Datensätzen erreicht

Einschränkungen

  1. Abhängigkeit von zwei vortrainierten Modellen (SAM und ResNet) erhöht die Rechenkomplexität
  2. Die Effektivität der Methode wurde hauptsächlich auf natürlichen Bildern validiert; die Generalisierungsfähigkeit auf anderen Domänen ist noch zu überprüfen
  3. Hyperparameter (wie T, λ-Werte) müssen möglicherweise für verschiedene Datensätze angepasst werden

Zukünftige Richtungen

  1. Erforschung leichtgewichtigerer Merkmal-Fusionsstrategien
  2. Untersuchung von Anwendungen in spezifischen Bereichen wie medizinischen Bildern
  3. Weitere Verbesserung der Effizienz und Genauigkeit des Aufmerksamkeitsmechanismus

Tiefgreifende Bewertung

Stärken

  1. Starke technische Innovation: Vorschlag eines neuen Paradigmas des Prototyp-zu-Prototyp-Matchings mit effektiver Nutzung der Komplementarität zweier Merkmale
  2. Umfassende Experimente: Vollständige experimentelle Validierung auf mehreren Datensätzen und Einstellungen
  3. Tiefgreifende Analyse: Klare Demonstration der Methodeneffektivität durch Visualisierung und quantitative Analyse
  4. Klares Schreiben: Angemessene Papierstruktur mit präziser Beschreibung technischer Details

Schwächen

  1. Rechenkomplexität: Gleichzeitige Verwendung von SAM- und ResNet-Merkmalen kann die Inferenzzeit erhöhen
  2. Parameterempfindlichkeit: Die Einstellung mehrerer Hyperparameter kann die Methodenstabilität beeinflussen
  3. Generalisierungsfähigkeit: Hauptsächlich auf natürlichen Bilddatensätzen validiert; Effektivität in anderen Bereichen ist unbekannt

Auswirkungen

  1. Akademischer Beitrag: Bietet einen neuen technischen Weg für Few-Shot-Segmentierung, der nachfolgende Forschung inspirieren kann
  2. Praktischer Wert: Kann in praktischen Anwendungen Annotationskosten reduzieren mit hohem Anwendungspotenzial
  3. Reproduzierbarkeit: Bereitstellung detaillierter Implementierungsdetails und Open-Source-Code erleichtert Reproduktion und Verbesserung

Anwendungsszenarien

  1. Segmentierungsaufgaben, die schnelle Anpassung an neue Klassen erfordern
  2. Anwendungsszenarien mit knappen Annotationsdaten
  3. Computervision-Anwendungen mit hohen Anforderungen an Segmentierungsgenauigkeit

Referenzen

Das Papier zitiert wichtige Arbeiten in verwandten Bereichen wie Few-Shot-Segmentierung und visuellen Grundmodellen, einschließlich klassischer Methoden wie SAM, VRP-SAM, PFENet und CyCTR, die eine solide theoretische Grundlage für diese Forschung bieten.