Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation
Park, Lee, Seong et al.
We propose Foreground-Covering Prototype Generation and Matching to resolve Few-Shot Segmentation (FSS), which aims to segment target regions in unlabeled query images based on labeled support images. Unlike previous research, which typically estimates target regions in the query using support prototypes and query pixels, we utilize the relationship between support and query prototypes. To achieve this, we utilize two complementary features: SAM Image Encoder features for pixel aggregation and ResNet features for class consistency. Specifically, we construct support and query prototypes with SAM features and distinguish query prototypes of target regions based on ResNet features. For the query prototype construction, we begin by roughly guiding foreground regions within SAM features using the conventional pseudo-mask, then employ iterative cross-attention to aggregate foreground features into learnable tokens. Here, we discover that the cross-attention weights can effectively alternate the conventional pseudo-mask. Therefore, we use the attention-based pseudo-mask to guide ResNet features to focus on the foreground, then infuse the guided ResNet feature into the learnable tokens to generate class-consistent query prototypes. The generation of the support prototype is conducted symmetrically to that of the query one, with the pseudo-mask replaced by the ground-truth mask. Finally, we compare these query prototypes with support ones to generate prompts, which subsequently produce object masks through the SAM Mask Decoder. Our state-of-the-art performances on various datasets validate the effectiveness of the proposed method for FSS. Our official code is available at https://github.com/SuhoPark0706/FCP
academic
توليد ومطابقة النموذج الأولي الذي يغطي المقدمة لتقسيم الصور بعدد قليل من العينات بمساعدة SAM
تقترح هذه الورقة طريقة توليد ومطابقة النموذج الأولي الذي يغطي المقدمة (FCP) لحل مشكلة التقسيم بعدد قليل من العينات (FSS). بخلاف الأبحاث السابقة التي تستخدم عادة النماذج الأولية للدعم وبكسلات الاستعلام لتقدير منطقة الهدف، تستفيد هذه الورقة من العلاقة بين النماذج الأولية للدعم والنماذج الأولية للاستعلام. تجمع الطريقة بين ميزتين متكاملتين: ميزات مشفر صور SAM لتجميع البكسل، وميزات ResNet لتناسق الفئة. من خلال بناء النماذج الأولية للدعم والاستعلام، والتمييز بين النماذج الأولية للاستعلام في منطقة الهدف بناءً على ميزات ResNet، وأخيراً توليد قناع الكائن من خلال فك تشفير قناع SAM، تحقق الطريقة أداءً متقدماً على عدة مجموعات بيانات.
يهدف التقسيم بعدد قليل من العينات (Few-Shot Segmentation, FSS) إلى تقسيم منطقة الهدف في صورة استعلام غير معلمة بناءً على عدد قليل من صور الدعم المعلمة. هذه مهمة مهمة في رؤية الحاسوب، لأن طرق التقسيم الدلالي التقليدية تتطلب كمية كبيرة من البيانات المعلمة، بينما يمكن لـ FSS تقليل عبء التعليق اليدوي بشكل كبير.
قيود SAM: على الرغم من أن نموذج Segment Anything Model (SAM) يظهر أداءً ممتازاً في مهام التقسيم، إلا أنه يفتقر إلى تناسق الفئة عبر الصور، ولا يمكنه تصنيف منطقة المقدمة في صورة الاستعلام بناءً على صورة الدعم.
قصور VRP-SAM:
علاقة المطابقة بين النموذج الأولي والبكسل دون المستوى الأمثل، مما قد يؤدي إلى أن تفتقر المطالبة المرجعية البصرية إلى معلومات مقدمة كافية أو تحتوي على عناصر خلفية
جودة القناع الزائف المستندة إلى تشابه بكسل-بكسل البسيط منخفضة نسبياً
يصعب تعزيز بكسلات المقدمة في الاستعلام بشكل انتقائي، مما قد يؤدي إلى طمس الفرق بين بكسلات المقدمة والخلفية
تكتشف هذه الورقة أن ميزات مشفر صور SAM تظهر أداءً ممتازاً في التجميع على مستوى البكسل، بينما تتمتع ميزات ResNet بقوة أكبر في تناسق الفئة. بناءً على هذه الملاحظة، تقترح استراتيجية مطابقة النموذج الأولي-النموذج الأولي لتوليد مطالبات مرجعية بصرية أكثر موثوقية.
اقتراح طريقة توليد ومطابقة النموذج الأولي الذي يغطي المقدمة: بناء النماذج الأولية لصور الدعم والاستعلام، وتوليد مطالبات مرجعية بصرية من خلال مقارنة النماذج الأولية، وإنتاج قناع الكائن لصورة الاستعلام من خلال فك تشفير قناع SAM.
استراتيجية دمج الميزات المزدوجة: الاستفادة الفعالة من القدرة التجميعية العليا لميزات مشفر صور SAM وتناسق الفئة لميزات ResNet لتوليد نماذج أولية مركزية على المقدمة.
قناع زائف موجه بالانتباه: اقتراح قناع زائف قائم على الانتباه، يحل محل القناع الزائف التقليدي بشكل فعال من خلال الاستفادة من ميزات مشفر صور SAM.
تحقيق أداء متقدم: التحقق من فعالية مطابقة النموذج الأولي-النموذج الأولي على عدة مجموعات بيانات، وتحقيق أداء متقدم جديد.
يستخدم FSS منهج التعلم الفوقي، مع استخدام مجموعتي بيانات منفصلتين: مجموعة التدريب Dtrain ومجموعة الاختبار Dtest، تحتويان على فئات غير متداخلة Cbase و Cnovel. تتضمن كل حلقة:
مجموعة الدعم: K صورة معلمة S = {(ISi, MSi)}Ki=1
مجموعة الاستعلام: صورة واحدة غير معلمة Q = (IQ, MQ)
الهدف هو التنبؤ بقناع الاستعلام Mpred بناءً على مجموعة الدعم وصورة الاستعلام.
استخدام متوسط تقاطع الاتحاد (mean Intersection over Union, mIoU) لتقييم الأداء، مع أخذ عينات عشوائية من 1000 زوج دعم-استعلام في الفئات الجديدة للاختبار.
تستشهد الورقة بأعمال مهمة في المجالات ذات الصلة مثل التقسيم بعدد قليل من العينات، ونماذج الأساس البصرية، بما في ذلك الطرق الكلاسيكية مثل SAM و VRP-SAM و PFENet و CyCTR، مما يوفر أساساً نظرياً متيناً لهذا البحث.