2025-11-10T02:42:11.024249

Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation

Park, Lee, Seong et al.

We propose Foreground-Covering Prototype Generation and Matching to resolve Few-Shot Segmentation (FSS), which aims to segment target regions in unlabeled query images based on labeled support images. Unlike previous research, which typically estimates target regions in the query using support prototypes and query pixels, we utilize the relationship between support and query prototypes. To achieve this, we utilize two complementary features: SAM Image Encoder features for pixel aggregation and ResNet features for class consistency. Specifically, we construct support and query prototypes with SAM features and distinguish query prototypes of target regions based on ResNet features. For the query prototype construction, we begin by roughly guiding foreground regions within SAM features using the conventional pseudo-mask, then employ iterative cross-attention to aggregate foreground features into learnable tokens. Here, we discover that the cross-attention weights can effectively alternate the conventional pseudo-mask. Therefore, we use the attention-based pseudo-mask to guide ResNet features to focus on the foreground, then infuse the guided ResNet feature into the learnable tokens to generate class-consistent query prototypes. The generation of the support prototype is conducted symmetrically to that of the query one, with the pseudo-mask replaced by the ground-truth mask. Finally, we compare these query prototypes with support ones to generate prompts, which subsequently produce object masks through the SAM Mask Decoder. Our state-of-the-art performances on various datasets validate the effectiveness of the proposed method for FSS. Our official code is available at https://github.com/SuhoPark0706/FCP

academic

अग्रभाग-आवरण प्रोटोटाइप जनन और SAM-सहायक कुछ-शॉट विभाजन के लिए मिलान

मूल जानकारी

पेपर ID: 2501.00752
शीर्षक: अग्रभाग-आवरण प्रोटोटाइप जनन और SAM-सहायक कुछ-शॉट विभाजन के लिए मिलान
लेखक: Suho Park*, SuBeen Lee*, Hyun Seok Seong, Jaejoon Yoo, Jae-Pil Heo†（Sungkyunkwan विश्वविद्यालय）
वर्गीकरण: cs.CV (कंप्यूटर दृष्टि)
प्रकाशन तिथि: 1 जनवरी 2025 को arXiv पर प्रस्तुत
पेपर लिंक: https://arxiv.org/abs/2501.00752
कोड लिंक: https://github.com/SuhoPark0706/FCP

सारांश

यह पेपर कुछ-शॉट विभाजन (FSS) समस्या को हल करने के लिए अग्रभाग-आवरण प्रोटोटाइप जनन और मिलान विधि (FCP) प्रस्तावित करता है। पूर्ववर्ती अनुसंधान आमतौर पर समर्थन प्रोटोटाइप और क्वेरी पिक्सेल का उपयोग करके लक्ष्य क्षेत्र का अनुमान लगाता है, जबकि यह पेपर समर्थन प्रोटोटाइप और क्वेरी प्रोटोटाइप के बीच संबंध का उपयोग करता है। यह विधि दो पूरक विशेषताओं को जोड़ती है: पिक्सेल एकत्रीकरण के लिए SAM छवि एनकोडर विशेषताएं और वर्ग सामंजस्य के लिए ResNet विशेषताएं। समर्थन और क्वेरी प्रोटोटाइप का निर्माण करके, और ResNet विशेषताओं के आधार पर लक्ष्य क्षेत्र के क्वेरी प्रोटोटाइप को अलग करके, अंत में SAM मास्क डिकोडर के माध्यम से वस्तु मास्क उत्पन्न करके, कई डेटासेट पर अत्याधुनिक प्रदर्शन प्राप्त किया गया है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

कुछ-शॉट विभाजन (Few-Shot Segmentation, FSS) का उद्देश्य कम संख्या में चिह्नित समर्थन छवियों के आधार पर अचिह्नित क्वेरी छवियों में लक्ष्य क्षेत्रों को विभाजित करना है। यह कंप्यूटर दृष्टि में एक महत्वपूर्ण कार्य है, क्योंकि पारंपरिक सिमेंटिक विभाजन विधियों को बड़ी मात्रा में चिह्नित डेटा की आवश्यकता होती है, जबकि FSS मानव एनोटेशन के बोझ को काफी कम कर सकता है।

मौजूदा विधियों की सीमाएं

SAM की सीमाएं: हालांकि Segment Anything Model (SAM) विभाजन कार्यों में उत्कृष्ट प्रदर्शन करता है, लेकिन इसमें क्रॉस-इमेज वर्ग सामंजस्य की कमी है और यह समर्थन छवि के आधार पर क्वेरी छवि के अग्रभाग क्षेत्र को वर्गीकृत नहीं कर सकता।
VRP-SAM की कमियां:
- प्रोटोटाइप-पिक्सेल मिलान संबंध उप-इष्टतम है, जिससे दृश्य संदर्भ संकेत में पर्याप्त अग्रभाग जानकारी की कमी हो सकती है या पृष्ठभूमि तत्व शामिल हो सकते हैं
- सरल पिक्सेल-से-पिक्सेल समानता पर आधारित पारंपरिक छद्म मास्क की गुणवत्ता कम है
- क्वेरी अग्रभाग पिक्सेल को चुनिंदा रूप से बढ़ाना मुश्किल है, जो अग्रभाग और पृष्ठभूमि पिक्सेल के बीच अंतर को धुंधला कर सकता है

अनुसंधान प्रेरणा

यह पेपर पाता है कि SAM छवि एनकोडर विशेषताएं पिक्सेल-स्तरीय एकत्रीकरण में उत्कृष्ट प्रदर्शन करती हैं, जबकि ResNet विशेषताएं वर्ग सामंजस्य में अधिक मजबूत हैं। इस अवलोकन के आधार पर, अधिक विश्वसनीय दृश्य संदर्भ संकेत उत्पन्न करने के लिए प्रोटोटाइप-से-प्रोटोटाइप मिलान रणनीति प्रस्तावित की गई है।

मुख्य योगदान

अग्रभाग-आवरण प्रोटोटाइप जनन और मिलान विधि प्रस्तावित: समर्थन और क्वेरी छवियों के प्रोटोटाइप का निर्माण, प्रोटोटाइप के बीच तुलना के माध्यम से दृश्य संदर्भ संकेत उत्पन्न करना, और SAM मास्क डिकोडर के माध्यम से क्वेरी छवि का वस्तु मास्क उत्पन्न करना।
दोहरी-विशेषता संलयन रणनीति: SAM छवि एनकोडर विशेषता की उत्कृष्ट एकत्रीकरण क्षमता और ResNet विशेषता की वर्ग सामंजस्य का प्रभावी उपयोग करके अग्रभाग-केंद्रित प्रोटोटाइप उत्पन्न करना।
ध्यान-निर्देशित छद्म मास्क: ध्यान-आधारित छद्म मास्क प्रस्तावित करना, जो SAM छवि एनकोडर विशेषता का उपयोग करके पारंपरिक छद्म मास्क को प्रभावी रूप से प्रतिस्थापित करता है।
अत्याधुनिक प्रदर्शन प्राप्त करना: कई डेटासेट पर प्रोटोटाइप-से-प्रोटोटाइप मिलान की प्रभावशीलता को सत्यापित करना, नई अत्याधुनिक प्रदर्शन प्राप्त करना।

विधि विवरण

कार्य परिभाषा

FSS मेटा-लर्निंग विधि का उपयोग करता है, दो स्वतंत्र डेटासेट का उपयोग करता है: प्रशिक्षण सेट D_train और परीक्षण सेट D_test, जिसमें गैर-अतिव्यापी वर्ग C_base और C_novel शामिल हैं। प्रत्येक episode में शामिल हैं:

समर्थन सेट: K चिह्नित छवियां S = {(I_Si, M_Si)}^K_
क्वेरी सेट: एक अचिह्नित छवि Q = (I_Q, M_Q)

लक्ष्य समर्थन सेट और क्वेरी छवि के आधार पर क्वेरी मास्क M_pred की भविष्यवाणी करना है।

मॉडल आर्किटेक्चर

1. समर्थन प्रोटोटाइप जनन

समर्थन प्रोटोटाइप जनन प्रक्रिया में दो मुख्य चरण शामिल हैं:

अग्रभाग विशेषता एकत्रीकरण:

Ḡ_S = ConvG(Concat(G_S, M_S, MP(G_S, M_S)))  (1)

ground truth मास्क M_S द्वारा SAM विशेषता G_S को निर्देशित करना, फिर T-1 चरणों के पुनरावृत्त क्रॉस-ध्यान एकत्रीकरण के माध्यम से अग्रभाग जानकारी को एकत्रित करना:

P^t_S = MaskedCrossAttn(P^{t-1}_S, Ḡ_S, Ḡ_S; M_S)  (2)

वर्ग सामंजस्य इंजेक्शन:

F̄_S = ConvG(Concat(F_S, M_S, MP(F_S, M_S)))  (3)
P^T_S = MaskedCrossAttn(P^{T-1}_S, Ḡ_S, F̄_S; M_S)  (4)

2. क्वेरी प्रोटोटाइप जनन

क्वेरी प्रोटोटाइप जनन को ground truth मास्क के बिना चुनौती का सामना करना पड़ता है, निम्नलिखित रणनीति अपनाई जाती है:

पारंपरिक छद्म मास्क गणना:

M^pseudo_{h,w} = \max_{1≤h'≤H,1≤w'≤W} M_S^{h',w'}(F^Q_{h,w} · F^S_{h',w'})  (5)

SAM विशेषता एकत्रीकरण:

Ḡ_Q = ConvG(Concat(G_Q, M^{pseudo}, MP(G_S, M_S)))  (6)
P^t_Q = CrossAttn(P^{t-1}_Q, Ḡ_Q, Ḡ_Q)  (7)

ध्यान-निर्देशित छद्म मास्क:

M^{attn}_{t,h,w} = \max_{1≤n≤N} A^Q_{t,n,h,w}  (8)

निर्देशित हानि:

L_{guide} = \frac{1}{T-1} \sum^{T-1}_{t=1} L_{BCE}(M^{attn}_t, M_Q) + L_{DL}(M^{attn}_t, M_Q)  (9)

ResNet विशेषता संलयन:

F̄_Q = ConvF(Concat(F_Q, M^{attn}_{T-1}, MP(F_S, M_S)))  (10)
P^T_Q = CrossAttn(P^{T-1}_Q, Ḡ_Q, F̄_Q)  (11)

3. प्रोटोटाइप-से-प्रोटोटाइप मिलान

क्रॉस-ध्यान के माध्यम से दृश्य संदर्भ संकेत उत्पन्न करना:

V = CrossAttn(P^T_S, P^T_Q, P^T_Q)  (12)

हानि फलन

कुल हानि में तीन घटक शामिल हैं:

L_{total} = L_{prompt} + λ_{ortho}L_{ortho} + λ_{guide}L_{guide}  (15)

संकेत हानि: L_prompt = L_BCE(M_pred, M_Q) + L_DL(M_pred, M_Q)
ऑर्थोगोनल हानि: विभिन्न प्रोटोटाइप को विभिन्न जानकारी एनकोड करना सुनिश्चित करता है
निर्देशित हानि: ध्यान को अग्रभाग क्षेत्र पर केंद्रित करने के लिए निर्देशित करता है

प्रयोगात्मक सेटअप

डेटासेट

PASCAL-5i: PASCAL VOC 2012 और SDS से 20 वर्ग, 4 fold में विभाजित, प्रत्येक fold में 15 आधार वर्ग और 5 नए वर्ग शामिल हैं
COCO-20i: COCO डेटासेट से 80 वर्ग, 4 fold में विभाजित, प्रत्येक fold में 60 आधार वर्ग और 20 नए वर्ग शामिल हैं

मूल्यांकन मेट्रिक्स

औसत प्रतिच्छेदन संघ (mean Intersection over Union, mIoU) का उपयोग करके प्रदर्शन का मूल्यांकन किया जाता है, नए वर्गों में 1000 समर्थन-क्वेरी जोड़े को यादृच्छिक रूप से नमूना लिया जाता है।

कार्यान्वयन विवरण

ऑप्टिमाइज़र: AdamW, कोसाइन एनीलिंग शेड्यूल
PASCAL-5i: 100 epochs, सीखने की दर 2e-4
COCO-20i: 50 epochs, सीखने की दर 1e-4
बैच आकार: 8
सीखने योग्य token संख्या: 50
एकत्रीकरण परतें: T=3
हानि गुणांक: λ_ortho=0.05, λ_guide=0.5

प्रयोगात्मक परिणाम

मुख्य परिणाम

PASCAL-5i और COCO-20i डेटासेट पर प्रयोगात्मक परिणाम दर्शाते हैं कि यह विधि सभी सेटिंग्स में अत्याधुनिक प्रदर्शन प्राप्त करती है:

PASCAL-5i डेटासेट (ResNet-50):

1-shot: 73.2% mIoU (VRP-SAM के 71.8% की तुलना में 1.4% सुधार)
5-shot: 74.0% mIoU (VRP-SAM के 71.4% की तुलना में 2.6% सुधार)

COCO-20i डेटासेट (ResNet-50):

1-shot: 52.5% mIoU (VRP-SAM के 50.2% की तुलना में 2.3% सुधार)
5-shot: 58.0% mIoU (VRP-SAM के 55.5% की तुलना में 2.5% सुधार)

विलोपन प्रयोग

मुख्य घटक विश्लेषण:

केवल ResNet विशेषता (आधारभूत): 71.8% mIoU
प्रोटोटाइप-से-प्रोटोटाइप मिलान जोड़ना: 72.6% mIoU (+0.8%)
ध्यान-निर्देशित छद्म मास्क जोड़ना: 73.2% mIoU (+1.4%)

एकत्रीकरण चरणों T का प्रभाव:

T=3 पर सर्वोत्तम प्रदर्शन प्राप्त होता है
अत्यधिक चरण प्रदर्शन में गिरावट का कारण बनते हैं, क्योंकि token छोटे क्षेत्रों पर अत्यधिक केंद्रित हो जाते हैं

हानि फलन प्रभावशीलता:

केवल संकेत हानि: 72.3% mIoU
निर्देशित हानि जोड़ना: 72.7% mIoU (+0.4%)
ऑर्थोगोनल हानि जोड़ना: 72.4% mIoU (+0.1%)
सभी हानि: 73.2% mIoU (+0.9%)

छद्म मास्क गुणवत्ता विश्लेषण

ध्यान-निर्देशित छद्म मास्क पारंपरिक छद्म मास्क की तुलना में महत्वपूर्ण सुधार दर्शाता है:

mIoU: 60.9% vs 32.4%
सटीकता: 69.1% vs 46.5%
रिकॉल: 79.4% vs 53.6%

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

प्रोटोटाइप-से-प्रोटोटाइप मिलान प्रोटोटाइप-से-पिक्सेल मिलान से अधिक प्रभावी है
SAM विशेषता की एकत्रीकरण क्षमता और ResNet विशेषता की वर्ग सामंजस्य पूरक हैं
ध्यान-निर्देशित छद्म मास्क पारंपरिक छद्म मास्क से काफी बेहतर है
कई डेटासेट पर अत्याधुनिक प्रदर्शन प्राप्त किया गया है

सीमाएं

SAM और ResNet दोनों पूर्व-प्रशिक्षित मॉडल पर निर्भरता, जो कम्प्यूटेशनल जटिलता बढ़ाती है
विधि की प्रभावशीलता मुख्य रूप से प्राकृतिक छवियों पर सत्यापित की गई है, अन्य डोमेन में सामान्यीकरण क्षमता को सत्यापित करने की आवश्यकता है
हाइपरपैरामीटर (जैसे T, λ मान) को विभिन्न डेटासेट के लिए समायोजित करने की आवश्यकता है

भविष्य की दिशाएं

अधिक हल्के-फुल्के विशेषता संलयन रणनीतियों की खोज करना
चिकित्सा छवियों जैसे विशिष्ट डोमेन में अनुप्रयोग का अनुसंधान करना
ध्यान तंत्र की दक्षता और सटीकता को और बढ़ाना

गहन मूल्यांकन

लाभ

तकनीकी नवाचार मजबूत: प्रोटोटाइप-से-प्रोटोटाइप मिलान का नया प्रतिमान प्रस्तावित करता है, दोनों विशेषताओं की पूरकता का प्रभावी उपयोग करता है
प्रयोग व्यापक: कई डेटासेट और सेटिंग्स में व्यापक प्रयोगात्मक सत्यापन किया गया है
विश्लेषण गहन: दृश्य और मात्रात्मक विश्लेषण के माध्यम से विधि की प्रभावशीलता स्पष्ट रूप से प्रदर्शित की गई है
लेखन स्पष्ट: पेपर संरचना तार्किक है, तकनीकी विवरण सटीक रूप से वर्णित हैं

कमियां

कम्प्यूटेशनल जटिलता: SAM और ResNet विशेषताओं का एक साथ उपयोग करने की आवश्यकता, जो अनुमान समय बढ़ा सकता है
पैरामीटर संवेदनशीलता: कई हाइपरपैरामीटर की सेटिंग विधि की स्थिरता को प्रभावित कर सकती है
सामान्यीकरण क्षमता: मुख्य रूप से प्राकृतिक छवि डेटासेट पर सत्यापित, अन्य क्षेत्रों में प्रभाव अज्ञात है

प्रभाव

शैक्षणिक योगदान: कुछ-शॉट विभाजन के लिए नया तकनीकी पथ प्रदान करता है, भविष्य के अनुसंधान को प्रेरित कर सकता है
व्यावहारिक मूल्य: वास्तविक अनुप्रयोगों में एनोटेशन लागत को कम कर सकता है, उच्च अनुप्रयोग संभावना है
पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और खुला स्रोत कोड प्रदान करता है, पुनरुत्पादन और सुधार को सुविधाजनक बनाता है

लागू परिदृश्य

नई श्रेणियों के लिए तेजी से अनुकूलन की आवश्यकता वाले विभाजन कार्य
एनोटेशन डेटा दुर्लभ होने वाले अनुप्रयोग परिदृश्य
विभाजन सटीकता के लिए उच्च आवश्यकताओं वाले कंप्यूटर दृष्टि अनुप्रयोग

संदर्भ

पेपर कुछ-शॉट विभाजन, दृश्य आधार मॉडल आदि संबंधित क्षेत्रों के महत्वपूर्ण कार्यों को उद्धृत करता है, जिसमें SAM, VRP-SAM, PFENet, CyCTR आदि शास्त्रीय विधियां शामिल हैं, जो इस अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करती हैं।