2025-11-16T00:28:11.703942

SkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts

Schön, Lorenz, Kienzle et al.
In this paper, we present a novel architecture for interactive segmentation in winter sports contexts. The field of interactive segmentation deals with the prediction of high-quality segmentation masks by informing the network about the objects position with the help of user guidance. In our case the guidance consists of click prompts. For this task, we first present a baseline architecture which is specifically geared towards quickly responding after each click. Afterwards, we motivate and describe a number of architectural modifications which improve the performance when tasked with segmenting winter sports equipment on the WSESeg dataset. With regards to the average NoC@85 metric on the WSESeg classes, we outperform SAM and HQ-SAM by 2.336 and 7.946 clicks, respectively. When applied to the HQSeg-44k dataset, our system delivers state-of-the-art results with a NoC@90 of 6.00 and NoC@95 of 9.89. In addition to that, we test our model on a novel dataset containing masks for humans during skiing.
academic

SkipClick: دمج الاستجابات السريعة والميزات منخفضة المستوى للتقسيم التفاعلي في سياقات الرياضات الشتوية

المعلومات الأساسية

  • معرّف الورقة: 2501.07960
  • العنوان: SkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts
  • المؤلفون: Robin Schön, Julian Lorenz, Daniel Kienzle, Rainer Lienhart
  • المؤسسة: جامعة أوغسبورغ، ألمانيا
  • التصنيف: cs.CV (رؤية الحاسوب)
  • تاريخ النشر: يناير 2025
  • رابط الورقة: https://arxiv.org/abs/2501.07960

الملخص

تقدم هذه الورقة معمارية تقسيم تفاعلية جديدة تُسمى SkipClick مخصصة لسياقات الرياضات الشتوية. يتم التقسيم التفاعلي من خلال معلومات موجهة من المستخدم للتنبؤ بأقنعة تقسيم عالية الجودة، حيث يستخدم المؤلفون النقرات كطريقة توجيه. يقدم المؤلفون أولاً معمارية أساسية مخصصة للاستجابة السريعة بعد النقر، ثم يصفون تحسينات معمارية متعددة لتحسين الأداء في تقسيم معدات الرياضات الشتوية على مجموعة بيانات WSESeg. على مقياس NoC@85 المتوسط لفئات WSESeg، تقلل الطريقة النقرات بمقدار 2.336 و7.946 مقارنة بـ SAM و HQ-SAM على التوالي. على مجموعة بيانات HQSeg-44k، يحقق النظام نتائج متقدمة مع NoC@90 بقيمة 6.00 و NoC@95 بقيمة 9.89. بالإضافة إلى ذلك، اختبر المؤلفون النموذج على مجموعة بيانات جديدة مقترحة لتقسيم أجسام المتزلجين.

الخلفية البحثية والدافع

تعريف المشكلة

  1. المشكلة الأساسية: في سياقات الرياضات الشتوية، يكون هناك حاجة لتحديد موقع دقيق للرياضيين والمعدات ذات الصلة، خاصة أن مهام تقسيم المعدات الرياضية أصبحت ذات أهمية متزايدة
  2. تحديات التعليق: يستغرق تعليق أقنعة التقسيم وقتاً طويلاً وصعباً، خاصة عند تعليق الهياكل الدقيقة
  3. الخصوصية المجالية: تظهر معدات الرياضات الشتوية بشكل نادر في مجموعات البيانات العامة، مما يخلق مشاكل في التكيف المجالي

الأهمية

  • النمو المتزايد للطلب على التحديد الدقيق للمعدات في تحليل الرياضات
  • يمكن للتقسيم التفاعلي أن يقلل بشكل كبير من وقت التعليق اليدوي
  • تتمتع سياقات الرياضات الشتوية بخصائص بصرية فريدة (مناظر ثلجية، هياكل معدات دقيقة)

قيود الطرق الموجودة

  1. مشاكل SAM: على الرغم من التدريب على مجموعة بيانات SA-1B (1.1 مليار قناع)، إلا أن قدرة التعميم في مجال معدات الرياضات الشتوية غير كافية
  2. وقت الاستجابة: تتطلب طرق الدمج المبكر إعادة تشغيل الشبكة بأكملها، مما يؤدي إلى استجابة بطيئة
  3. معالجة التفاصيل: تواجه الطرق الموجودة صعوبة في التعامل مع الهياكل الدقيقة لمعدات الرياضات الشتوية

المساهمات الأساسية

  1. نموذج تقسيم تفاعلي في الوقت الفعلي: يقدم نموذجاً قادراً على التقسيم في المجالات المتخصصة مثل الرياضات الشتوية، مع التركيز بشكل خاص على معالجة الهياكل الدقيقة في الصور
  2. الابتكار المعماري: يتحقق من أداء النموذج على مجموعة بيانات WSESeg من خلال تجارب الاستئصال، متفوقاً حتى على SAM المدرب على مجموعات بيانات أكبر
  3. القدرة على التعميم: يثبت أن النموذج لم يفرط في التكيف مع مجال الرياضات الشتوية، مع أداء تنافسية على مجموعات بيانات الصور الاستهلاكية العامة
  4. مجموعة بيانات جديدة: يقدم مجموعة بيانات SHSeg (تقسيم أجسام المتزلجين) التي تحتوي على 534 قناع تقسيم و496 صورة

شرح الطريقة

تعريف المهمة

يتم تعريف مهمة التقسيم التفاعلي على النحو التالي: بالنظر إلى صورة ximgRH×W×3x_{img} \in \mathbb{R}^{H×W×3}، الهدف هو إنشاء قناع تقسيم عالي الجودة m{0,1}H×Wm \in \{0,1\}^{H×W}، حيث يشير 1 إلى كائن الهدف و0 يشير إلى الخلفية.

يوفر المستخدم التوجيه من خلال التفاعلات المتكررة:

  1. يفحص المستخدم القناع الحالي mτm_τ
  2. يضع نقرة pτ=(iτ,jτ,lτ)p_τ = (i_τ, j_τ, l_τ)، حيث (iτ,jτ)(i_τ, j_τ) هي الإحداثيات وlτ{+,}l_τ \in \{+,-\} هي تسمية المقدمة/الخلفية
  3. تولد الشبكة قناع محسّن mτ+1m_{τ+1} بناءً على ximgx_{img} وmτm_τ والنقرات المتراكمة p0:τp_{0:τ}

معمارية النموذج

المعمارية الأساسية

  1. شبكة العمود الفقري: استخدام ViT-B المدرب مسبقاً بـ DINOv2، مما يتجنب انحياز البيانات المعلقة
  2. استخراج ميزات الصورة: fimg=Linear(ViTBackbone(ximg))RH14×W14×dmodelf_{img} = \text{Linear}(\text{ViTBackbone}(x_{img})) \in \mathbb{R}^{\frac{H}{14}×\frac{W}{14}×d_{model}}
  3. ترميز المطالبات: تشفير النقرات الإيجابية والسلبية كأقراص بنصف قطر 5 بكسل، مما ينتج عنه خريطة نقرات m+,mm^+, m^-fprompt=PatchEmbedding(Concat(m+,m,mτ))f_{prompt} = \text{PatchEmbedding}(\text{Concat}(m^+, m^-, m_τ))
  4. دمج الميزات: fmix=fimg+fpromptf_{mix} = f_{img} + f_{prompt}f^mix=ViTBlocks(fmix)\hat{f}_{mix} = \text{ViTBlocks}(f_{mix})
  5. فك تشفير القناع: استخدام فك تشفير FPN و SegFormer لإنشاء القناع النهائي

معمارية SkipClick الكاملة

  1. تجميد شبكة العمود الفقري: منع الإفراط في التكيف، الحفاظ على القدرة على التعميم
  2. دمج الميزات متعددة الطبقات: استخدام ميزات الطبقات 3 و6 و9 و12 من ViT f1,f2,f3,f4=ViTBackbone(ximg)f_1, f_2, f_3, f_4 = \text{ViTBackbone}(x_{img})fimg=Linear(Concat(f1,f2,f3,f4))f_{img} = \text{Linear}(\text{Concat}(f_1, f_2, f_3, f_4))
  3. الاتصالات المتخطية: تصميم مشابه لـ U-Net f^i=Concat(f^mix,fi) for i=1,2,3,4\hat{f}_i = \text{Concat}(\hat{f}_{mix}, f_i) \text{ for } i = 1,2,3,4

نقاط الابتكار التقني

  1. استراتيجية الدمج المتأخر: يتم تنفيذ ترميز الصورة مرة واحدة فقط، وبعد التفاعل يتم تشغيل مُنبئ القناع الخفيف فقط
  2. تكامل الميزات متعددة الأحجام: دمج الميزات من مستويات مختلفة للحفاظ على المعلومات الدقيقة
  3. تصميم الاتصالات المتخطية: الوصول إلى الميزات الوسيطة حتى بعد دمج المطالبات، معالجة الهياكل الدقيقة
  4. استراتيجية التجميد: الحفاظ على قدرة التعميم لنموذج التدريب المسبق من خلال تجميد شبكة العمود الفقري

إعداد التجارب

مجموعات البيانات

  1. بيانات التدريب: مجموعة بيانات COCO+LVIS المدمجة (99 ألف صورة، 1.5 مليون قناع)
  2. مجموعات بيانات التقييم:
    • WSESeg: 7452 قناع، 10 فئات من معدات الرياضات الشتوية
    • SHSeg: 534 قناع متزلج، 496 صورة (مقترح جديد)
    • HQSeg-44k: مجموعة بيانات عالية الجودة المعلقة
    • مجموعات البيانات العامة: GrabCut, Berkeley, DAVIS, SBD

مقاييس التقييم

  • NoC@θ: عدد النقرات المطلوبة لتحقيق عتبة IoU من θ
  • المقاييس الرئيسية: NoC@85, NoC@90, NoC@95
  • الحد الأقصى: 20 نقرة كحد أقصى

تفاصيل التنفيذ

  • محسّن: Adam (lr=5×10⁻⁵, β₁=0.9, β₂=0.999)
  • دالة الخسارة: Focal Loss
  • التدريب: 55 حقبة، 30,000 صورة لكل حقبة
  • الدقة: استخدام 896×896 لـ WSESeg/SHSeg/HQSeg-44k، و672×672 لـ DAVIS
  • الأخذ العشوائي: كحد أقصى 24 نقطة عشوائية في البداية، تدريب تكراري لمدة 3 جولات

نتائج التجارب

النتائج الرئيسية

أداء مجموعة بيانات WSESeg

الطريقةNoC@85NoC@90
SAM8.8311.86
HQ-SAM14.4416.31
SkipClick6.499.16
  • تقليل 2.336 نقرة مقارنة بـ SAM (NoC@85)
  • تقليل 7.946 نقرة مقارنة بـ HQ-SAM (NoC@85)

تحقيق SOTA على HQSeg-44k

الطريقةNoC@90NoC@95
HQ-SAM6.4910.79
SkipClick6.009.89

مقارنة وقت الاستجابة

  • SkipClick: 6.61ms (الأسرع)
  • SAM: 15.01ms
  • HQ-SAM: 18.83ms
  • SAM + Schön et al.: 41.38ms

تجارب الاستئصال

التكوينمتوسط WSESeg NoC@85متوسط WSESeg NoC@90
الأساس9.46312.031
+تجميد العمود الفقري9.41611.951
+الميزات الوسيطة7.28510.344
+الاتصالات المتخطية6.4949.163

النتائج الرئيسية:

  1. تجميد شبكة العمود الفقري: تحسن طفيف (9.463→9.416)
  2. دمج الميزات الوسيطة: تحسن كبير (9.416→7.285)
  3. الاتصالات المتخطية: تحسن إضافي (7.285→6.494)

التحقق من القدرة على التعميم

تثبت الأداء على مجموعات البيانات العامة أن النموذج لم يفرط في التكيف مع مجال الرياضات الشتوية:

مجموعة البياناتSkipClick الكامل NoC@90
GrabCut1.44
Berkeley2.45
DAVIS4.94
SBD6.18

الأعمال ذات الصلة

تطبيقات تقسيم الرياضات

  • تقسيم لاعبي كرة القدم وكرة السلة 3,9
  • تتبع وتقسيم نقطة السيف في المبارزة 40
  • كشف النقاط الرئيسية لمعدات التزلج 31,32

تطور التقسيم التفاعلي

  1. طرق الدمج المبكر: RITM44, FocalClick2, SimpleClick28 - جودة جيدة لكن استجابة بطيئة
  2. طرق الدمج المتأخر: SAM20, InterFormer15 - استجابة سريعة لكن قد تضحي بالجودة
  3. التكيف المجالي: طرق التكيف عبر الإنترنت 22,23,41,42

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. يتفوق SkipClick بشكل كبير على SAM و HQ-SAM في مهمة تقسيم معدات الرياضات الشتوية
  2. دمج الميزات متعددة الطبقات والاتصالات المتخطية حاسمة لمعالجة الهياكل الدقيقة
  3. تجميد شبكة العمود الفقري المدربة مسبقاً يساعد في الحفاظ على القدرة على التعميم
  4. تتمتع الأداء على مجموعات البيانات العامة بقدرة تنافسية، مما يثبت التعميم الجيد

القيود

  1. حجم مجموعة البيانات: بيانات التدريب أصغر مقارنة بمجموعة بيانات SA-1B الخاصة بـ SAM
  2. الخصوصية المجالية: على الرغم من إثبات القدرة على التعميم، إلا أنها مُحسّنة بشكل أساسي لسياقات الرياضات الشتوية
  3. موارد الحوسبة: تتطلب شبكة عمود فقري ViT-B، مع متطلبات معينة لموارد الحوسبة

الاتجاهات المستقبلية

  1. التوسع إلى مهام تقسيم في مجالات رياضية أخرى
  2. استكشاف تصاميم معمارية أخف وزناً
  3. البحث عن طرق تفاعل مستخدم أكثر كفاءة

التقييم المتعمق

المزايا

  1. قيمة عملية عالية: حل مشكلة التوازن بين سرعة الاستجابة وجودة التقسيم في التطبيقات الفعلية
  2. الابتكار التقني: دمج ماهر لميزات متعددة الطبقات والاتصالات المتخطية، معالجة فعالة للهياكل الدقيقة
  3. التجارب الشاملة: تتضمن تجارب استئصال مفصلة والتحقق من مجموعات بيانات متعددة
  4. مساهمة مجموعة البيانات: تملأ مجموعة بيانات SHSeg الفراغ في تقسيم أجسام المتزلجين
  5. التحقق من التعميم: التحقق من القدرة على التعميم للطريقة على مجموعات بيانات عامة متعددة

أوجه القصور

  1. التحليل النظري: يفتقر إلى تحليل نظري متعمق حول سبب فعالية دمج الميزات متعددة الطبقات
  2. البحث عن المستخدم: يفتقر إلى تقييم تجربة المستخدم الفعلي
  3. الحالات الحدية: تحليل غير كافٍ للأداء في ظروف الطقس القاسية أو الإضاءة
  4. نطاق المقارنة: المقارنة بشكل أساسي مع سلسلة SAM، مع نقص المقارنة مع طرق الدمج المتأخر الأخرى

التأثير

  1. القيمة الأكاديمية: توفير حل فعال للتقسيم التفاعلي الخاص بالمجال
  2. القيمة العملية: قيمة مباشرة في تحليل الرياضات وتعليق الفيديو وغيرها من التطبيقات
  3. إمكانية التكرار: توفير تفاصيل تنفيذ مفصلة والتزام بالكود

السيناريوهات المناسبة

  1. تحليل فيديو الرياضات: مناسب بشكل خاص لتقسيم معدات ورياضيي الرياضات الشتوية بدقة
  2. أدوات تعليق الفيديو: يمكن دمجها في أنظمة تعليق الفيديو لتحسين الكفاءة
  3. تقسيم الهياكل الدقيقة: مناسب للمهام التي تتطلب معالجة حدود معقدة
  4. التطبيقات التفاعلية: تجعل خاصية الاستجابة السريعة مناسبة للتطبيقات التفاعلية

المراجع

تستشهد الورقة بـ 46 مرجعاً ذا صلة، تشمل بشكل أساسي:

  • 20 SAM: Segment Anything Model
  • 18 HQ-SAM: Segment Anything in High Quality
  • 28 SimpleClick: Interactive Image Segmentation with Simple Vision Transformers
  • 41 أعمال ذات صلة بمجموعة بيانات WSESeg
  • 44 RITM: Reviving Iterative Training with Mask Guidance

التقييم الإجمالي: هذه ورقة عالية الجودة في مجال رؤية الحاسوب، تقدم حلاً فعالاً للتقسيم التفاعلي لسيناريو تطبيقي محدد لكن مهم وهو الرياضات الشتوية. الحل التقني معقول، والتحقق التجريبي شامل، وتتمتع بقيمة عملية وإسهام أكاديمي جيد.