2025-11-10T02:42:11.024249

Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation

Park, Lee, Seong et al.

We propose Foreground-Covering Prototype Generation and Matching to resolve Few-Shot Segmentation (FSS), which aims to segment target regions in unlabeled query images based on labeled support images. Unlike previous research, which typically estimates target regions in the query using support prototypes and query pixels, we utilize the relationship between support and query prototypes. To achieve this, we utilize two complementary features: SAM Image Encoder features for pixel aggregation and ResNet features for class consistency. Specifically, we construct support and query prototypes with SAM features and distinguish query prototypes of target regions based on ResNet features. For the query prototype construction, we begin by roughly guiding foreground regions within SAM features using the conventional pseudo-mask, then employ iterative cross-attention to aggregate foreground features into learnable tokens. Here, we discover that the cross-attention weights can effectively alternate the conventional pseudo-mask. Therefore, we use the attention-based pseudo-mask to guide ResNet features to focus on the foreground, then infuse the guided ResNet feature into the learnable tokens to generate class-consistent query prototypes. The generation of the support prototype is conducted symmetrically to that of the query one, with the pseudo-mask replaced by the ground-truth mask. Finally, we compare these query prototypes with support ones to generate prompts, which subsequently produce object masks through the SAM Mask Decoder. Our state-of-the-art performances on various datasets validate the effectiveness of the proposed method for FSS. Our official code is available at https://github.com/SuhoPark0706/FCP

academic

توليد ومطابقة النموذج الأولي الذي يغطي المقدمة لتقسيم الصور بعدد قليل من العينات بمساعدة SAM

المعلومات الأساسية

معرّف الورقة: 2501.00752
العنوان: توليد ومطابقة النموذج الأولي الذي يغطي المقدمة لتقسيم الصور بعدد قليل من العينات بمساعدة SAM
المؤلفون: Suho Park*، SuBeen Lee*، Hyun Seok Seong، Jaejoon Yoo، Jae-Pil Heo† (جامعة سونغكيونكوان)
التصنيف: cs.CV (رؤية الحاسوب)
تاريخ النشر: تم تقديمه إلى arXiv في 1 يناير 2025
رابط الورقة: https://arxiv.org/abs/2501.00752
رابط الكود: https://github.com/SuhoPark0706/FCP

الملخص

تقترح هذه الورقة طريقة توليد ومطابقة النموذج الأولي الذي يغطي المقدمة (FCP) لحل مشكلة التقسيم بعدد قليل من العينات (FSS). بخلاف الأبحاث السابقة التي تستخدم عادة النماذج الأولية للدعم وبكسلات الاستعلام لتقدير منطقة الهدف، تستفيد هذه الورقة من العلاقة بين النماذج الأولية للدعم والنماذج الأولية للاستعلام. تجمع الطريقة بين ميزتين متكاملتين: ميزات مشفر صور SAM لتجميع البكسل، وميزات ResNet لتناسق الفئة. من خلال بناء النماذج الأولية للدعم والاستعلام، والتمييز بين النماذج الأولية للاستعلام في منطقة الهدف بناءً على ميزات ResNet، وأخيراً توليد قناع الكائن من خلال فك تشفير قناع SAM، تحقق الطريقة أداءً متقدماً على عدة مجموعات بيانات.

خلفية البحث والدافع

تعريف المشكلة

يهدف التقسيم بعدد قليل من العينات (Few-Shot Segmentation, FSS) إلى تقسيم منطقة الهدف في صورة استعلام غير معلمة بناءً على عدد قليل من صور الدعم المعلمة. هذه مهمة مهمة في رؤية الحاسوب، لأن طرق التقسيم الدلالي التقليدية تتطلب كمية كبيرة من البيانات المعلمة، بينما يمكن لـ FSS تقليل عبء التعليق اليدوي بشكل كبير.

قيود الطرق الموجودة

قيود SAM: على الرغم من أن نموذج Segment Anything Model (SAM) يظهر أداءً ممتازاً في مهام التقسيم، إلا أنه يفتقر إلى تناسق الفئة عبر الصور، ولا يمكنه تصنيف منطقة المقدمة في صورة الاستعلام بناءً على صورة الدعم.
قصور VRP-SAM:
- علاقة المطابقة بين النموذج الأولي والبكسل دون المستوى الأمثل، مما قد يؤدي إلى أن تفتقر المطالبة المرجعية البصرية إلى معلومات مقدمة كافية أو تحتوي على عناصر خلفية
- جودة القناع الزائف المستندة إلى تشابه بكسل-بكسل البسيط منخفضة نسبياً
- يصعب تعزيز بكسلات المقدمة في الاستعلام بشكل انتقائي، مما قد يؤدي إلى طمس الفرق بين بكسلات المقدمة والخلفية

دافع البحث

تكتشف هذه الورقة أن ميزات مشفر صور SAM تظهر أداءً ممتازاً في التجميع على مستوى البكسل، بينما تتمتع ميزات ResNet بقوة أكبر في تناسق الفئة. بناءً على هذه الملاحظة، تقترح استراتيجية مطابقة النموذج الأولي-النموذج الأولي لتوليد مطالبات مرجعية بصرية أكثر موثوقية.

المساهمات الأساسية

اقتراح طريقة توليد ومطابقة النموذج الأولي الذي يغطي المقدمة: بناء النماذج الأولية لصور الدعم والاستعلام، وتوليد مطالبات مرجعية بصرية من خلال مقارنة النماذج الأولية، وإنتاج قناع الكائن لصورة الاستعلام من خلال فك تشفير قناع SAM.
استراتيجية دمج الميزات المزدوجة: الاستفادة الفعالة من القدرة التجميعية العليا لميزات مشفر صور SAM وتناسق الفئة لميزات ResNet لتوليد نماذج أولية مركزية على المقدمة.
قناع زائف موجه بالانتباه: اقتراح قناع زائف قائم على الانتباه، يحل محل القناع الزائف التقليدي بشكل فعال من خلال الاستفادة من ميزات مشفر صور SAM.
تحقيق أداء متقدم: التحقق من فعالية مطابقة النموذج الأولي-النموذج الأولي على عدة مجموعات بيانات، وتحقيق أداء متقدم جديد.

شرح الطريقة

تعريف المهمة

يستخدم FSS منهج التعلم الفوقي، مع استخدام مجموعتي بيانات منفصلتين: مجموعة التدريب Dtrain ومجموعة الاختبار Dtest، تحتويان على فئات غير متداخلة Cbase و Cnovel. تتضمن كل حلقة:

مجموعة الدعم: K صورة معلمة S = {(ISi, MSi)}Ki=1
مجموعة الاستعلام: صورة واحدة غير معلمة Q = (IQ, MQ)

الهدف هو التنبؤ بقناع الاستعلام Mpred بناءً على مجموعة الدعم وصورة الاستعلام.

معمارية النموذج

1. توليد النموذج الأولي للدعم

تتضمن عملية توليد النموذج الأولي للدعم خطوتين رئيسيتين:

تجميع ميزات المقدمة:

ḠS = ConvG(Concat(GS, MS, MP(GS, MS)))  (1)

استخدام قناع الحقيقة الأساسية MS لتوجيه ميزات SAM GS، ثم تجميع معلومات المقدمة من خلال T-1 خطوة من الانتباه المتقاطع المقنع:

PSt = MaskedCrossAttn(PSt-1, ḠS, ḠS; MS)  (2)

حقن تناسق الفئة:

F̄S = ConvG(Concat(FS, MS, MP(FS, MS)))  (3)
PST = MaskedCrossAttn(PST-1, ḠS, F̄S; MS)  (4)

2. توليد النموذج الأولي للاستعلام

يواجه توليد النموذج الأولي للاستعلام تحدي عدم وجود قناع حقيقة أساسية، ويعتمد على الاستراتيجيات التالية:

حساب القناع الزائف التقليدي:

Mpseudoh,w = max1≤h'≤H,1≤w'≤W MSh',w'(FQh,w · FSh',w')  (5)

تجميع ميزات SAM:

ḠQ = ConvG(Concat(GQ, Mpseudo, MP(GS, MS)))  (6)
PQt = CrossAttn(PQt-1, ḠQ, ḠQ)  (7)

القناع الزائف الموجه بالانتباه:

Mattnt,h,w = max1≤n≤N AQt,n,h,w  (8)

خسارة التوجيه:

Lguide = 1/(T-1) ∑t=1T-1 LBCE(Mattnt, MQ) + LDL(Mattnt, MQ)  (9)

دمج ميزات ResNet:

F̄Q = ConvF(Concat(FQ, MattnT-1, MP(FS, MS)))  (10)
PQT = CrossAttn(PQT-1, ḠQ, F̄Q)  (11)

3. مطابقة النموذج الأولي-النموذج الأولي

توليد مطالبة مرجعية بصرية من خلال الانتباه المتقاطع:

V = CrossAttn(PST, PQT, PQT)  (12)

دالة الخسارة

تتضمن الخسارة الإجمالية ثلاثة مكونات:

Ltotal = Lprompt + λorthoLortho + λguideLguide  (15)

خسارة المطالبة: Lprompt = LBCE(Mpred, MQ) + LDL(Mpred, MQ)
خسارة التعامد: ضمان أن النماذج الأولية المختلفة تشفر معلومات مختلفة
خسارة التوجيه: توجيه الانتباه للتركيز على منطقة المقدمة

إعداد التجارب

مجموعات البيانات

PASCAL-5i: 20 فئة من PASCAL VOC 2012 و SDS، مقسمة إلى 4 أضعاف، يحتوي كل ضعف على 15 فئة أساسية و 5 فئات جديدة
COCO-20i: 80 فئة من مجموعة بيانات COCO، مقسمة إلى 4 أضعاف، يحتوي كل ضعف على 60 فئة أساسية و 20 فئة جديدة

مقاييس التقييم

استخدام متوسط تقاطع الاتحاد (mean Intersection over Union, mIoU) لتقييم الأداء، مع أخذ عينات عشوائية من 1000 زوج دعم-استعلام في الفئات الجديدة للاختبار.

تفاصيل التنفيذ

المحسّن: AdamW، جدول التلدين الجيبي
PASCAL-5i: 100 حقبة، معدل تعلم 2e-4
COCO-20i: 50 حقبة، معدل تعلم 1e-4
حجم الدفعة: 8
عدد الرموز القابلة للتعلم: 50
عدد طبقات التجميع: T=3
معاملات الخسارة: λortho=0.05, λguide=0.5

نتائج التجارب

النتائج الرئيسية

تشير نتائج التجارب على مجموعات بيانات PASCAL-5i و COCO-20i إلى أن الطريقة حققت أداءً متقدماً في جميع الإعدادات:

مجموعة بيانات PASCAL-5i (ResNet-50):

1-shot: 73.2% mIoU (تحسن 1.4% مقابل VRP-SAM بنسبة 71.8%)
5-shot: 74.0% mIoU (تحسن 2.6% مقابل VRP-SAM بنسبة 71.4%)

مجموعة بيانات COCO-20i (ResNet-50):

1-shot: 52.5% mIoU (تحسن 2.3% مقابل VRP-SAM بنسبة 50.2%)
5-shot: 58.0% mIoU (تحسن 2.5% مقابل VRP-SAM بنسبة 55.5%)

تجارب الاستئصال

تحليل المكونات الرئيسية:

ميزات ResNet فقط (الخط الأساسي): 71.8% mIoU
إضافة مطابقة النموذج الأولي-النموذج الأولي: 72.6% mIoU (+0.8%)
إضافة القناع الزائف الموجه بالانتباه: 73.2% mIoU (+1.4%)

تأثير خطوات التجميع T:

يتم تحقيق أفضل أداء عند T=3
قد تؤدي الخطوات الكثيرة إلى انخفاض الأداء، لأن الرموز تركز بشكل مفرط على مناطق أصغر

فعالية دالة الخسارة:

خسارة المطالبة فقط: 72.3% mIoU
إضافة خسارة التوجيه: 72.7% mIoU (+0.4%)
إضافة خسارة التعامد: 72.4% mIoU (+0.1%)
جميع الخسائر: 73.2% mIoU (+0.9%)

تحليل جودة القناع الزائف

يحسّن القناع الزائف الموجه بالانتباه بشكل كبير مقابل القناع الزائف التقليدي:

mIoU: 60.9% مقابل 32.4%
الدقة: 69.1% مقابل 46.5%
الاستدعاء: 79.4% مقابل 53.6%

الأعمال ذات الصلة

نماذج الأساس البصرية

يعمل SAM كنموذج أساس في مجال التقسيم، ويتمتع بتصميم قابل للمطالبة وقدرة قوية على التعلم بدون عينات، لكنه يفتقر إلى تناسق الفئة عبر الصور.

طرق التقسيم بعدد قليل من العينات

تنقسم بشكل أساسي إلى فئتين:

الطرق القائمة على النموذج الأولي: تمثيل مقدمة الدعم كنموذج أولي واستخدامه للتنبؤ
طرق تعلم التقارب: الاستفادة من الارتباط الكثيف على مستوى البكسل بين صور الدعم والاستعلام

يقدم VRP-SAM طريقة لتوليد مطالبات مناسبة لفك تشفير قناع SAM، لكن المقارنة على مستوى البكسل لها قيود.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

مطابقة النموذج الأولي-النموذج الأولي أكثر فعالية من مطابقة النموذج الأولي-البكسل
قدرة تجميع ميزات SAM وتناسق الفئة لميزات ResNet متكاملة
القناع الزائف الموجه بالانتباه يتفوق بشكل كبير على القناع الزائف التقليدي
تحقيق أداء متقدم على عدة مجموعات بيانات

القيود

يعتمد على نموذجين مدربين مسبقاً (SAM و ResNet)، مما يزيد من التعقيد الحسابي
تم التحقق من فعالية الطريقة بشكل أساسي على الصور الطبيعية، وقدرة التعميم على المجالات الأخرى تحتاج إلى التحقق
تتطلب المعاملات الفائقة (مثل T وقيم λ) تعديلاً لمجموعات بيانات مختلفة

الاتجاهات المستقبلية

استكشاف استراتيجيات دمج ميزات أخف وزناً
دراسة التطبيقات في مجالات محددة مثل الصور الطبية
تحسين كفاءة ودقة آليات الانتباه بشكل أكبر

التقييم المتعمق

المميزات

الابتكار التقني قوي: يقترح نموذجاً جديداً لمطابقة النموذج الأولي-النموذج الأولي، ويستفيد بشكل فعال من التكامل بين نوعي الميزات
التجارب شاملة: إجراء تحقق تجريبي شامل على عدة مجموعات بيانات وإعدادات
التحليل متعمق: عرض فعالية الطريقة بوضوح من خلال التصور والتحليل الكمي
الكتابة واضحة: هيكل الورقة معقول، وتفاصيل تقنية دقيقة

أوجه القصور

التعقيد الحسابي: الحاجة إلى استخدام ميزات SAM و ResNet في نفس الوقت، مما قد يزيد من وقت الاستدلال
حساسية المعاملات: قد تؤثر إعدادات المعاملات المتعددة على استقرار الطريقة
القدرة على التعميم: التحقق بشكل أساسي على مجموعات بيانات الصور الطبيعية، وتأثير المجالات الأخرى غير معروف

التأثير

المساهمة الأكاديمية: توفير مسار تقني جديد لتقسيم الصور بعدد قليل من العينات، قد يلهم الأبحاث اللاحقة
القيمة العملية: يمكن تقليل تكاليف التعليق في التطبيقات العملية، مع إمكانية تطبيق عالية
قابلية التكرار: توفير تفاصيل تنفيذ مفصلة وكود مفتوح المصدر، مما يسهل التكرار والتحسين

السيناريوهات المطبقة

مهام التقسيم التي تتطلب التكيف السريع مع فئات جديدة
سيناريوهات التطبيق حيث تكون بيانات التعليق نادرة
تطبيقات رؤية الحاسوب التي تتطلب دقة تقسيم عالية

المراجع

تستشهد الورقة بأعمال مهمة في المجالات ذات الصلة مثل التقسيم بعدد قليل من العينات، ونماذج الأساس البصرية، بما في ذلك الطرق الكلاسيكية مثل SAM و VRP-SAM و PFENet و CyCTR، مما يوفر أساساً نظرياً متيناً لهذا البحث.