Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation
Park, Lee, Seong et al.
We propose Foreground-Covering Prototype Generation and Matching to resolve Few-Shot Segmentation (FSS), which aims to segment target regions in unlabeled query images based on labeled support images. Unlike previous research, which typically estimates target regions in the query using support prototypes and query pixels, we utilize the relationship between support and query prototypes. To achieve this, we utilize two complementary features: SAM Image Encoder features for pixel aggregation and ResNet features for class consistency. Specifically, we construct support and query prototypes with SAM features and distinguish query prototypes of target regions based on ResNet features. For the query prototype construction, we begin by roughly guiding foreground regions within SAM features using the conventional pseudo-mask, then employ iterative cross-attention to aggregate foreground features into learnable tokens. Here, we discover that the cross-attention weights can effectively alternate the conventional pseudo-mask. Therefore, we use the attention-based pseudo-mask to guide ResNet features to focus on the foreground, then infuse the guided ResNet feature into the learnable tokens to generate class-consistent query prototypes. The generation of the support prototype is conducted symmetrically to that of the query one, with the pseudo-mask replaced by the ground-truth mask. Finally, we compare these query prototypes with support ones to generate prompts, which subsequently produce object masks through the SAM Mask Decoder. Our state-of-the-art performances on various datasets validate the effectiveness of the proposed method for FSS. Our official code is available at https://github.com/SuhoPark0706/FCP
academic
Vordergrund-abdeckende Prototyp-Generierung und -Matching für SAM-gestützte Few-Shot-Segmentierung
Dieses Papier präsentiert die Methode der Vordergrund-abdeckenden Prototyp-Generierung und des Matchings (FCP) zur Lösung des Few-Shot-Segmentierungsproblems (FSS). Im Gegensatz zu früheren Arbeiten, die typischerweise Support-Prototypen und Query-Pixel zur Schätzung der Zielregion verwenden, nutzt diese Methode die Beziehung zwischen Support-Prototypen und Query-Prototypen. Das Verfahren kombiniert zwei komplementäre Merkmale: SAM-Bildencoder-Merkmale für die Pixel-Aggregation und ResNet-Merkmale für die Klassenkonsistenz. Durch die Konstruktion von Support- und Query-Prototypen und die Unterscheidung von Query-Prototypen der Zielregion basierend auf ResNet-Merkmalen wird schließlich durch den SAM-Masken-Decoder eine Objektmaske generiert, was auf mehreren Datensätzen hochmoderne Leistung erreicht.
Few-Shot-Segmentierung (FSS) zielt darauf ab, Zielregionen in unmarkierten Query-Bildern basierend auf einer kleinen Anzahl markierter Support-Bilder zu segmentieren. Dies ist eine wichtige Aufgabe in der Computervision, da traditionelle semantische Segmentierungsmethoden große Mengen markierter Daten erfordern, während FSS die Belastung durch manuelle Annotationen erheblich reduzieren kann.
Einschränkungen von SAM: Obwohl das Segment Anything Model (SAM) bei Segmentierungsaufgaben hervorragende Leistungen zeigt, fehlt ihm die bildübergreifende Klassenkonsistenz, und es kann Vordergrund-Regionen in Query-Bildern nicht basierend auf Support-Bildern klassifizieren.
Unzulänglichkeiten von VRP-SAM:
Das Prototyp-Pixel-Matching-Verhältnis ist suboptimal und kann dazu führen, dass visuelle Referenz-Prompts unzureichende Vordergrund-Informationen enthalten oder Hintergrund-Elemente einschließen
Die traditionelle Pseudo-Maske mit einfacher Pixel-zu-Pixel-Ähnlichkeit hat niedrigere Qualität
Es ist schwierig, Query-Vordergrund-Pixel selektiv zu verstärken, was die Unterscheidung zwischen Vordergrund- und Hintergrund-Pixeln verwischen kann
Dieses Papier stellt fest, dass SAM-Bildencoder-Merkmale bei der Pixel-Level-Aggregation hervorragende Leistungen zeigen, während ResNet-Merkmale in Bezug auf Klassenkonsistenz stärker sind. Basierend auf dieser Beobachtung wird eine Prototyp-zu-Prototyp-Matching-Strategie vorgeschlagen, um zuverlässigere visuelle Referenz-Prompts zu generieren.
Vorschlag der Vordergrund-abdeckenden Prototyp-Generierungs- und Matching-Methode: Konstruktion von Prototypen für Support- und Query-Bilder, Generierung von visuellen Referenz-Prompts durch Prototyp-Vergleich und Erzeugung von Objektmasken für Query-Bilder durch den SAM-Masken-Decoder.
Dual-Feature-Fusionsstrategie: Effektive Nutzung der überlegenen Aggregationsfähigkeit von SAM-Bildencoder-Merkmalen und der Klassenkonsistenz von ResNet-Merkmalen zur Generierung von Vordergrund-zentrierten Prototypen.
Aufmerksamkeits-geleitete Pseudo-Maske: Vorschlag einer aufmerksamkeits-basierten Pseudo-Maske, die traditionelle Pseudo-Masken durch effektive Nutzung von SAM-Bildencoder-Merkmalen ersetzt.
Erreichung hochmoderner Leistung: Validierung der Effektivität des Prototyp-zu-Prototyp-Matchings auf mehreren Datensätzen mit neuer hochmoderner Leistung.
FSS verwendet einen Meta-Learning-Ansatz mit zwei separaten Datensätzen: Trainingssatz D_train und Testsatz D_test, die nicht überlappende Klassen C_base und C_novel enthalten. Jede Episode enthält:
Support-Menge: K markierte Bilder S = {(I_Si, M_Si)}^K_
Query-Menge: ein unmarkiertes Bild Q = (I_Q, M_Q)
Das Ziel besteht darin, die Query-Maske M_pred basierend auf der Support-Menge und dem Query-Bild vorherzusagen.
Der Support-Prototyp-Generierungsprozess umfasst zwei Hauptschritte:
Vordergrund-Merkmal-Aggregation:
Ḡ_S = ConvG(Concat(G_S, M_S, MP(G_S, M_S))) (1)
Verwendung der Ground-Truth-Maske M_S zur Anleitung des SAM-Merkmals G_S, gefolgt durch T-1 Schritte iterativer Cross-Attention-Aggregation von Vordergrund-Informationen:
Die Leistung wird anhand des mittleren Schnittpunkt-über-Union (mean Intersection over Union, mIoU) bewertet, wobei 1000 zufällig ausgewählte Support-Query-Paare in neuen Klassen getestet werden.
SAM als Grundmodell im Segmentierungsbereich verfügt über Prompt-Design-Fähigkeiten und starke Zero-Shot-Fähigkeiten, entbehrt aber der bildübergreifenden Klassenkonsistenz.
Abhängigkeit von zwei vortrainierten Modellen (SAM und ResNet) erhöht die Rechenkomplexität
Die Effektivität der Methode wurde hauptsächlich auf natürlichen Bildern validiert; die Generalisierungsfähigkeit auf anderen Domänen ist noch zu überprüfen
Hyperparameter (wie T, λ-Werte) müssen möglicherweise für verschiedene Datensätze angepasst werden
Starke technische Innovation: Vorschlag eines neuen Paradigmas des Prototyp-zu-Prototyp-Matchings mit effektiver Nutzung der Komplementarität zweier Merkmale
Umfassende Experimente: Vollständige experimentelle Validierung auf mehreren Datensätzen und Einstellungen
Tiefgreifende Analyse: Klare Demonstration der Methodeneffektivität durch Visualisierung und quantitative Analyse
Klares Schreiben: Angemessene Papierstruktur mit präziser Beschreibung technischer Details
Das Papier zitiert wichtige Arbeiten in verwandten Bereichen wie Few-Shot-Segmentierung und visuellen Grundmodellen, einschließlich klassischer Methoden wie SAM, VRP-SAM, PFENet und CyCTR, die eine solide theoretische Grundlage für diese Forschung bieten.