In this paper, we present a novel architecture for interactive segmentation in winter sports contexts. The field of interactive segmentation deals with the prediction of high-quality segmentation masks by informing the network about the objects position with the help of user guidance. In our case the guidance consists of click prompts. For this task, we first present a baseline architecture which is specifically geared towards quickly responding after each click. Afterwards, we motivate and describe a number of architectural modifications which improve the performance when tasked with segmenting winter sports equipment on the WSESeg dataset. With regards to the average NoC@85 metric on the WSESeg classes, we outperform SAM and HQ-SAM by 2.336 and 7.946 clicks, respectively. When applied to the HQSeg-44k dataset, our system delivers state-of-the-art results with a NoC@90 of 6.00 and NoC@95 of 9.89. In addition to that, we test our model on a novel dataset containing masks for humans during skiing.
- معرّف الورقة: 2501.07960
- العنوان: SkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts
- المؤلفون: Robin Schön, Julian Lorenz, Daniel Kienzle, Rainer Lienhart
- المؤسسة: جامعة أوغسبورغ، ألمانيا
- التصنيف: cs.CV (رؤية الحاسوب)
- تاريخ النشر: يناير 2025
- رابط الورقة: https://arxiv.org/abs/2501.07960
تقدم هذه الورقة معمارية تقسيم تفاعلية جديدة تُسمى SkipClick مخصصة لسياقات الرياضات الشتوية. يتم التقسيم التفاعلي من خلال معلومات موجهة من المستخدم للتنبؤ بأقنعة تقسيم عالية الجودة، حيث يستخدم المؤلفون النقرات كطريقة توجيه. يقدم المؤلفون أولاً معمارية أساسية مخصصة للاستجابة السريعة بعد النقر، ثم يصفون تحسينات معمارية متعددة لتحسين الأداء في تقسيم معدات الرياضات الشتوية على مجموعة بيانات WSESeg. على مقياس NoC@85 المتوسط لفئات WSESeg، تقلل الطريقة النقرات بمقدار 2.336 و7.946 مقارنة بـ SAM و HQ-SAM على التوالي. على مجموعة بيانات HQSeg-44k، يحقق النظام نتائج متقدمة مع NoC@90 بقيمة 6.00 و NoC@95 بقيمة 9.89. بالإضافة إلى ذلك، اختبر المؤلفون النموذج على مجموعة بيانات جديدة مقترحة لتقسيم أجسام المتزلجين.
- المشكلة الأساسية: في سياقات الرياضات الشتوية، يكون هناك حاجة لتحديد موقع دقيق للرياضيين والمعدات ذات الصلة، خاصة أن مهام تقسيم المعدات الرياضية أصبحت ذات أهمية متزايدة
- تحديات التعليق: يستغرق تعليق أقنعة التقسيم وقتاً طويلاً وصعباً، خاصة عند تعليق الهياكل الدقيقة
- الخصوصية المجالية: تظهر معدات الرياضات الشتوية بشكل نادر في مجموعات البيانات العامة، مما يخلق مشاكل في التكيف المجالي
- النمو المتزايد للطلب على التحديد الدقيق للمعدات في تحليل الرياضات
- يمكن للتقسيم التفاعلي أن يقلل بشكل كبير من وقت التعليق اليدوي
- تتمتع سياقات الرياضات الشتوية بخصائص بصرية فريدة (مناظر ثلجية، هياكل معدات دقيقة)
- مشاكل SAM: على الرغم من التدريب على مجموعة بيانات SA-1B (1.1 مليار قناع)، إلا أن قدرة التعميم في مجال معدات الرياضات الشتوية غير كافية
- وقت الاستجابة: تتطلب طرق الدمج المبكر إعادة تشغيل الشبكة بأكملها، مما يؤدي إلى استجابة بطيئة
- معالجة التفاصيل: تواجه الطرق الموجودة صعوبة في التعامل مع الهياكل الدقيقة لمعدات الرياضات الشتوية
- نموذج تقسيم تفاعلي في الوقت الفعلي: يقدم نموذجاً قادراً على التقسيم في المجالات المتخصصة مثل الرياضات الشتوية، مع التركيز بشكل خاص على معالجة الهياكل الدقيقة في الصور
- الابتكار المعماري: يتحقق من أداء النموذج على مجموعة بيانات WSESeg من خلال تجارب الاستئصال، متفوقاً حتى على SAM المدرب على مجموعات بيانات أكبر
- القدرة على التعميم: يثبت أن النموذج لم يفرط في التكيف مع مجال الرياضات الشتوية، مع أداء تنافسية على مجموعات بيانات الصور الاستهلاكية العامة
- مجموعة بيانات جديدة: يقدم مجموعة بيانات SHSeg (تقسيم أجسام المتزلجين) التي تحتوي على 534 قناع تقسيم و496 صورة
يتم تعريف مهمة التقسيم التفاعلي على النحو التالي: بالنظر إلى صورة ximg∈RH×W×3، الهدف هو إنشاء قناع تقسيم عالي الجودة m∈{0,1}H×W، حيث يشير 1 إلى كائن الهدف و0 يشير إلى الخلفية.
يوفر المستخدم التوجيه من خلال التفاعلات المتكررة:
- يفحص المستخدم القناع الحالي mτ
- يضع نقرة pτ=(iτ,jτ,lτ)، حيث (iτ,jτ) هي الإحداثيات وlτ∈{+,−} هي تسمية المقدمة/الخلفية
- تولد الشبكة قناع محسّن mτ+1 بناءً على ximg وmτ والنقرات المتراكمة p0:τ
- شبكة العمود الفقري: استخدام ViT-B المدرب مسبقاً بـ DINOv2، مما يتجنب انحياز البيانات المعلقة
- استخراج ميزات الصورة:
fimg=Linear(ViTBackbone(ximg))∈R14H×14W×dmodel
- ترميز المطالبات: تشفير النقرات الإيجابية والسلبية كأقراص بنصف قطر 5 بكسل، مما ينتج عنه خريطة نقرات m+,m−fprompt=PatchEmbedding(Concat(m+,m−,mτ))
- دمج الميزات:
fmix=fimg+fpromptf^mix=ViTBlocks(fmix)
- فك تشفير القناع: استخدام فك تشفير FPN و SegFormer لإنشاء القناع النهائي
- تجميد شبكة العمود الفقري: منع الإفراط في التكيف، الحفاظ على القدرة على التعميم
- دمج الميزات متعددة الطبقات: استخدام ميزات الطبقات 3 و6 و9 و12 من ViT
f1,f2,f3,f4=ViTBackbone(ximg)fimg=Linear(Concat(f1,f2,f3,f4))
- الاتصالات المتخطية: تصميم مشابه لـ U-Net
f^i=Concat(f^mix,fi) for i=1,2,3,4
- استراتيجية الدمج المتأخر: يتم تنفيذ ترميز الصورة مرة واحدة فقط، وبعد التفاعل يتم تشغيل مُنبئ القناع الخفيف فقط
- تكامل الميزات متعددة الأحجام: دمج الميزات من مستويات مختلفة للحفاظ على المعلومات الدقيقة
- تصميم الاتصالات المتخطية: الوصول إلى الميزات الوسيطة حتى بعد دمج المطالبات، معالجة الهياكل الدقيقة
- استراتيجية التجميد: الحفاظ على قدرة التعميم لنموذج التدريب المسبق من خلال تجميد شبكة العمود الفقري
- بيانات التدريب: مجموعة بيانات COCO+LVIS المدمجة (99 ألف صورة، 1.5 مليون قناع)
- مجموعات بيانات التقييم:
- WSESeg: 7452 قناع، 10 فئات من معدات الرياضات الشتوية
- SHSeg: 534 قناع متزلج، 496 صورة (مقترح جديد)
- HQSeg-44k: مجموعة بيانات عالية الجودة المعلقة
- مجموعات البيانات العامة: GrabCut, Berkeley, DAVIS, SBD
- NoC@θ: عدد النقرات المطلوبة لتحقيق عتبة IoU من θ
- المقاييس الرئيسية: NoC@85, NoC@90, NoC@95
- الحد الأقصى: 20 نقرة كحد أقصى
- محسّن: Adam (lr=5×10⁻⁵, β₁=0.9, β₂=0.999)
- دالة الخسارة: Focal Loss
- التدريب: 55 حقبة، 30,000 صورة لكل حقبة
- الدقة: استخدام 896×896 لـ WSESeg/SHSeg/HQSeg-44k، و672×672 لـ DAVIS
- الأخذ العشوائي: كحد أقصى 24 نقطة عشوائية في البداية، تدريب تكراري لمدة 3 جولات
| الطريقة | NoC@85 | NoC@90 |
|---|
| SAM | 8.83 | 11.86 |
| HQ-SAM | 14.44 | 16.31 |
| SkipClick | 6.49 | 9.16 |
- تقليل 2.336 نقرة مقارنة بـ SAM (NoC@85)
- تقليل 7.946 نقرة مقارنة بـ HQ-SAM (NoC@85)
| الطريقة | NoC@90 | NoC@95 |
|---|
| HQ-SAM | 6.49 | 10.79 |
| SkipClick | 6.00 | 9.89 |
- SkipClick: 6.61ms (الأسرع)
- SAM: 15.01ms
- HQ-SAM: 18.83ms
- SAM + Schön et al.: 41.38ms
| التكوين | متوسط WSESeg NoC@85 | متوسط WSESeg NoC@90 |
|---|
| الأساس | 9.463 | 12.031 |
| +تجميد العمود الفقري | 9.416 | 11.951 |
| +الميزات الوسيطة | 7.285 | 10.344 |
| +الاتصالات المتخطية | 6.494 | 9.163 |
النتائج الرئيسية:
- تجميد شبكة العمود الفقري: تحسن طفيف (9.463→9.416)
- دمج الميزات الوسيطة: تحسن كبير (9.416→7.285)
- الاتصالات المتخطية: تحسن إضافي (7.285→6.494)
تثبت الأداء على مجموعات البيانات العامة أن النموذج لم يفرط في التكيف مع مجال الرياضات الشتوية:
| مجموعة البيانات | SkipClick الكامل NoC@90 |
|---|
| GrabCut | 1.44 |
| Berkeley | 2.45 |
| DAVIS | 4.94 |
| SBD | 6.18 |
- تقسيم لاعبي كرة القدم وكرة السلة 3,9
- تتبع وتقسيم نقطة السيف في المبارزة 40
- كشف النقاط الرئيسية لمعدات التزلج 31,32
- طرق الدمج المبكر: RITM44, FocalClick2, SimpleClick28 - جودة جيدة لكن استجابة بطيئة
- طرق الدمج المتأخر: SAM20, InterFormer15 - استجابة سريعة لكن قد تضحي بالجودة
- التكيف المجالي: طرق التكيف عبر الإنترنت 22,23,41,42
- يتفوق SkipClick بشكل كبير على SAM و HQ-SAM في مهمة تقسيم معدات الرياضات الشتوية
- دمج الميزات متعددة الطبقات والاتصالات المتخطية حاسمة لمعالجة الهياكل الدقيقة
- تجميد شبكة العمود الفقري المدربة مسبقاً يساعد في الحفاظ على القدرة على التعميم
- تتمتع الأداء على مجموعات البيانات العامة بقدرة تنافسية، مما يثبت التعميم الجيد
- حجم مجموعة البيانات: بيانات التدريب أصغر مقارنة بمجموعة بيانات SA-1B الخاصة بـ SAM
- الخصوصية المجالية: على الرغم من إثبات القدرة على التعميم، إلا أنها مُحسّنة بشكل أساسي لسياقات الرياضات الشتوية
- موارد الحوسبة: تتطلب شبكة عمود فقري ViT-B، مع متطلبات معينة لموارد الحوسبة
- التوسع إلى مهام تقسيم في مجالات رياضية أخرى
- استكشاف تصاميم معمارية أخف وزناً
- البحث عن طرق تفاعل مستخدم أكثر كفاءة
- قيمة عملية عالية: حل مشكلة التوازن بين سرعة الاستجابة وجودة التقسيم في التطبيقات الفعلية
- الابتكار التقني: دمج ماهر لميزات متعددة الطبقات والاتصالات المتخطية، معالجة فعالة للهياكل الدقيقة
- التجارب الشاملة: تتضمن تجارب استئصال مفصلة والتحقق من مجموعات بيانات متعددة
- مساهمة مجموعة البيانات: تملأ مجموعة بيانات SHSeg الفراغ في تقسيم أجسام المتزلجين
- التحقق من التعميم: التحقق من القدرة على التعميم للطريقة على مجموعات بيانات عامة متعددة
- التحليل النظري: يفتقر إلى تحليل نظري متعمق حول سبب فعالية دمج الميزات متعددة الطبقات
- البحث عن المستخدم: يفتقر إلى تقييم تجربة المستخدم الفعلي
- الحالات الحدية: تحليل غير كافٍ للأداء في ظروف الطقس القاسية أو الإضاءة
- نطاق المقارنة: المقارنة بشكل أساسي مع سلسلة SAM، مع نقص المقارنة مع طرق الدمج المتأخر الأخرى
- القيمة الأكاديمية: توفير حل فعال للتقسيم التفاعلي الخاص بالمجال
- القيمة العملية: قيمة مباشرة في تحليل الرياضات وتعليق الفيديو وغيرها من التطبيقات
- إمكانية التكرار: توفير تفاصيل تنفيذ مفصلة والتزام بالكود
- تحليل فيديو الرياضات: مناسب بشكل خاص لتقسيم معدات ورياضيي الرياضات الشتوية بدقة
- أدوات تعليق الفيديو: يمكن دمجها في أنظمة تعليق الفيديو لتحسين الكفاءة
- تقسيم الهياكل الدقيقة: مناسب للمهام التي تتطلب معالجة حدود معقدة
- التطبيقات التفاعلية: تجعل خاصية الاستجابة السريعة مناسبة للتطبيقات التفاعلية
تستشهد الورقة بـ 46 مرجعاً ذا صلة، تشمل بشكل أساسي:
- 20 SAM: Segment Anything Model
- 18 HQ-SAM: Segment Anything in High Quality
- 28 SimpleClick: Interactive Image Segmentation with Simple Vision Transformers
- 41 أعمال ذات صلة بمجموعة بيانات WSESeg
- 44 RITM: Reviving Iterative Training with Mask Guidance
التقييم الإجمالي: هذه ورقة عالية الجودة في مجال رؤية الحاسوب، تقدم حلاً فعالاً للتقسيم التفاعلي لسيناريو تطبيقي محدد لكن مهم وهو الرياضات الشتوية. الحل التقني معقول، والتحقق التجريبي شامل، وتتمتع بقيمة عملية وإسهام أكاديمي جيد.