Video event detection has become a cornerstone of modern sports analytics, powering automated performance evaluation, content generation, and tactical decision-making. Recent advances in deep learning have driven progress in related tasks such as Temporal Action Localization (TAL), which detects extended action segments; Action Spotting (AS), which identifies a representative timestamp; and Precise Event Spotting (PES), which pinpoints the exact frame of an event. Although closely connected, their subtle differences often blur the boundaries between them, leading to confusion in both research and practical applications. Furthermore, prior surveys either address generic video event detection or broader sports video tasks, but largely overlook the unique temporal granularity and domain-specific challenges of event spotting. In addition, most existing sports video surveys focus on elite-level competitions while neglecting the wider community of everyday practitioners. This survey addresses these gaps by: (i) clearly delineating TAL, AS, and PES and their respective use cases; (ii) introducing a structured taxonomy of state of the art approaches including temporal modeling strategies, multimodal frameworks, and data-efficient pipelines tailored for AS and PES; and (iii) critically assessing benchmark datasets and evaluation protocols, highlighting limitations such as reliance on broadcast quality footage and metrics that over reward permissive multilabel predictions. By synthesizing current research and exposing open challenges, this work provides a comprehensive foundation for developing temporally precise, generalizable, and practically deployable sports event detection systems for both the research and industry communities.
academic- معرّف الورقة: 2505.03991
- العنوان: التعلم العميق لكشف الأحداث في مقاطع الفيديو الرياضية: المهام والمجموعات البيانية والطرق والتحديات
- المؤلفون: Hao Xu, Arbind Agrahari Baniya, Sam Wells, Mohamed Reda Bouadjenek, Richard Dazeley, Sunil Aryal
- التصنيف: cs.CV
- تاريخ النشر/المؤتمر: أكتوبر 2025 (دورية ACM)
- رابط الورقة: https://arxiv.org/abs/2505.03991
أصبح كشف أحداث الفيديو الرياضي حجر الزاوية في التحليل الرياضي الحديث، حيث يدعم التقييم الآلي للأداء وإنشاء المحتوى واتخاذ القرارات التكتيكية. دفعت التطورات الأخيرة في التعلم العميق تطور المهام ذات الصلة، بما في ذلك تحديد الإجراءات الزمنية (TAL) وتحديد الإجراءات (AS) وتحديد الأحداث الدقيقة (PES). على الرغم من أن هذه المهام مرتبطة ارتباطاً وثيقاً، فإن الفروقات الدقيقة بينها غالباً ما تطمس الحدود بينها، مما يسبب التباساً في البحث والتطبيقات العملية. يعالج هذا الاستعراض هذه الفجوات من خلال تحديد واضح لـ TAL و AS و PES وحالات الاستخدام الخاصة بكل منها، وتقديم تصنيف منظم للطرق الحديثة الموجهة نحو AS و PES، والتقييم النقدي لمجموعات البيانات المرجعية وبروتوكولات التقييم، مما يوفر أساساً شاملاً لتطوير أنظمة كشف أحداث رياضية دقيقة زمنياً وقابلة للتعميم وعملية.
يواجه كشف أحداث الفيديو الرياضي ثلاثة تحديات أساسية:
- غموض حدود المهام: الفروقات الدقيقة بين TAL و AS و PES تؤدي إلى التباس في البحث والتطبيقات
- متطلبات الدقة الزمنية: تتطلب الأحداث الرياضية عادة دقة على مستوى الإطار، بينما الطرق التقليدية غالباً ما تفشل في تحقيق ذلك
- فجوة العملية: يركز البحث الحالي بشكل أساسي على الأحداث النخبوية، متجاهلاً احتياجات الممارسين اليوميين
- القيمة الاقتصادية: يُتوقع أن يصل سوق الرياضة إلى 826 مليار دولار بحلول عام 2030، بمعدل نمو سنوي مركب 6.6%
- الاحتياجات التكنولوجية: الحاجة الملحة للتحليل الآلي للأداء واتخاذ القرارات التكتيكية وإنشاء المحتوى
- التطبيقات الواسعة: من الأحداث الاحترافية إلى المباريات الهواية، تغطي مجموعة واسعة من المستخدمين
- مشاكل مقاييس التقييم: يسمح مقياس mAP@δ الحالي بتنبؤات متعددة التسميات، وهو لا يتوافق مع احتياجات التطبيقات الفعلية
- قيود مجموعات البيانات: الاعتماد المفرط على مقاطع الفيديو عالية الجودة، والافتقار إلى بيانات السيناريوهات الحقيقية
- ضعف القدرة على التعميم: قدرة محدودة على التعميم عبر الرياضات المختلفة
- تعريف وتمييز المهام: أول تعريف منهجي وتمييز لمهام TAL و AS و PES، مع توضيح الأهداف والمخططات التعليقية وحالات الاستخدام لكل منها
- نظام تصنيف منهجي: تقديم تصنيف منظم لطرق التعلم العميق، بما في ذلك النمذجة الزمنية والدمج متعدد الأنماط والتعلم الفعال للبيانات
- استعراض مجموعات البيانات وبروتوكولات التقييم: ملخص شامل لمجموعات البيانات المرجعية، مع تحليل نقدي لقيود مقاييس التقييم
- التوجيهات العملية: تحديد التحديات المفتوحة واقتراح اتجاهات البحث المستقبلية، لسد الفجوة بين البحث الأكاديمي والتطبيقات العملية
- نوع المخرجات: فترة زمنية
- صيغة التعليق: وقت البداية والنهاية
- نافذة التسامح: ~1-5 ثوان
- حالات الاستخدام: الإجراءات الطويلة والمستمرة (مثل عملية الإرسال الكاملة في التنس)
- نوع المخرجات: إطار رئيسي واحد
- صيغة التعليق: طابع زمني واحد
- نافذة التسامح: 5-60 إطار
- حالات الاستخدام: الإجراءات الغامضة والسريعة (مثل التمرير أو التسديد في كرة القدم)
- نوع المخرجات: إطار رئيسي واحد
- صيغة التعليق: طابع زمني واحد
- نافذة التسامح: 0-2 إطار
- حالات الاستخدام: الأحداث الحرجة التي تتطلب دقة على مستوى الإطار (مثل لحظة ضرب الكرة في تنس الطاولة)
طرق التجميع:
- استخدام استراتيجية النافذة المنزلقة، تقسيم الفيديو إلى أجزاء بطول ثابت
- استخدام تجميع متوسط، NetVLAD، NetVLAD++ وغيرها لتجميع الميزات الزمنية
- المميزات: تطبيق بسيط، كفاءة حسابية عالية
- العيوب: فقدان معلومات التسلسل، تحديد دقة الإطار
طرق المشفر:
- استخدام نماذج التسلسل مثل 1D CNN و 3D CNN و RNN و Transformer
- الحفاظ على البعد الزمني، دعم التنبؤ على مستوى الإطار
- الطرق الممثلة: SpotFormer و STE و RMS-Net
- المميزات: قدرة نمذجة السياق الأغنى
طرق الوعي بالإطار:
- تعديل معمارية العمود الفقري مباشرة لتحسين التمثيل الزمكاني
- إدخال آليات خاصة بالإطار للحفاظ على البعد الزمني الكامل
- الطرق الممثلة: E2E-Spot و UGL و T-DEED و ASTRM
- نقاط الابتكار: التدريب من النهاية إلى النهاية، تصنيف إطار حقيقي
- دمج الأنماط البصرية والصوتية والنصية وغيرها
- الطريقة الممثلة: ASTRA (الانتباه عبر الأنماط القائم على Transformer)
- التحديات: عدم استقرار جودة الصوت، التداخل الضوضائي الشديد
- التعلم النشط: اختيار العينات الأكثر إفادة بشكل انتقائي
- التعلم الذاتي الإشراف: COMEDIAN يجمع بين SSL وتقطير المعرفة
- الهدف: تقليل الاعتماد على البيانات المعلقة على نطاق واسع
- SoccerNet-v1: 500 مباراة، 764 ساعة، 3 فئات أحداث
- SoccerNet-v2: موسعة إلى 17 فئة حدث، تعليق بطابع زمني واحد
- SoccerNet Ball AS: التركيز على التفاعلات الدقيقة المتعلقة بالكرة، 12 فئة متعلقة بالكرة
- Tennis: 3,345 مقطع فيديو، 6 فئات
- OpenTTGames: 12 مباراة تنس طاولة عالية الدقة، 120 إطار في الثانية
- TTA: 39 مباراة تنس طاولة شبه احترافية، 8 فئات أحداث
- P2A: 2,721 فيديو تنس طاولة، 272 ساعة
- NCAA: 257 فيديو مباراة كرة سلة، 14 فئة إجراء
- FineGym: 5,374 عرض جمباز، 32 فئة إجراء دقيقة
- FineDiving: 300 فيديو غطس احترافي، 52 تحول وضعية رئيسي
- mAP@T-IoU: للمهام TAL
- mAP@δ: لمهام AS و PES
يعاني مقياس mAP@δ الحالي من مشاكل خطيرة:
- يسمح بتنبؤات فئات متعددة لنفس الإطار
- لا يتم معاقبة التنبؤات المتناقضة بشكل متسق
- عدم اتساق في معالجة أدوات التقييم
اقتراح بروتوكول تقييم أكثر صرامة:
- تصفية Top-1: الاحتفاظ بفئة واحدة فقط بأعلى درجة لكل إطار
- مسح العتبة: تتبع منحنى PR من خلال تغيير عتبة الثقة
- معاقبة الإفراط في التنبؤ: أكثر توافقاً مع احتياجات النشر الفعلي
| الطريقة | السنة | الفئة | عدد المعاملات | Tight Test | Loose Test | Tight Challenge | Loose Challenge |
|---|
| E2E-Spot | 2022 | Frame-Aware | 4.5M | - | - | 66.73 | 73.62 |
| COMEDIAN | 2024 | Data-Efficient | 29.1M | 73.10 | - | 68.38 | 73.98 |
| Santra et al. | 2025 | Frame-Aware | 6.46M | 73.74 | 79.11 | - | - |
- طرق الوعي بالإطار تحقق أفضل أداء، مما يحقق تصنيفاً حقيقياً على مستوى الإطار
- الطرق الفعالة للبيانات تظهر إمكانية في تقليل احتياجات التعليق
- الدمج متعدد الأنماط يوفر تحسينات كبيرة في سيناريوهات محددة
- التعميم عبر مجموعات البيانات لا يزال التحدي الرئيسي
- Ghosh وآخرون: تغطية واسعة لذكاء الرياضة لكن لم تركز على طرق CV للتعلم العميق
- Thomas وآخرون: التركيز الأساسي على طرق CV التقليدية والأنظمة متعددة الكاميرات
- Hu وآخرون: شرح مفصل لـ TAL لكن لم تغطِ AS و PES
- تركيز خاص على طرق التعلم العميق في الفيديو أحادي العدسة
- تمييز منهجي لمهام TAL و AS و PES الثلاث
- التركيز على احتياجات النشر الفعلي والأحداث غير النخبوية
- تمييز المهام حاسم: لـ TAL و AS و PES حالات استخدام منفصلة، تتطلب حلولاً تقنية مختلفة
- طرق الوعي بالإطار هي الاتجاه: توفر الدقة الزمنية اللازمة لمهام PES
- بروتوكولات التقييم تحتاج إلى تحسين: المقاييس الحالية لا تعكس بدقة الأداء في التطبيقات الفعلية
- القدرة على التعميم تحتاج إلى تحسين عاجل: التكيف عبر الرياضات المختلفة هو التحدي الرئيسي
- انحياز مجموعات البيانات: الاعتماد المفرط على مقاطع الفيديو الاحترافية المبثوثة
- عدم توحيد معايير التقييم: وجود اختلافات في حساب mAP بين التطبيقات المختلفة
- فجوة التطبيق العملي: عدم توافق المعايير الأكاديمية مع احتياجات النشر في العالم الحقيقي
- تحسين القدرة على التعميم: تطوير طرق عامة عبر الرياضات المختلفة
- التعلم غير الموجه: تقليل الاعتماد على البيانات المعلقة على نطاق واسع
- الدمج متعدد الأنماط: دمج أفضل للصوت والنص والمعلومات الأخرى
- بيانات العالم الحقيقي: بناء مجموعات بيانات أقرب إلى التطبيقات الفعلية
- قوة الشمول: أول استعراض متخصص في التعلم العميق لكشف أحداث الفيديو الرياضي
- التوجه العملي: لا يركز فقط على البحث الأكاديمي، بل يولي أهمية كبيرة لاحتياجات التطبيقات العملية
- التفكير النقدي: يشير بشكل موضوعي إلى المشاكل الخطيرة في مقاييس التقييم الحالية
- الرؤية المستقبلية: يقدم اقتراحات محددة وقابلة للتطبيق للتحسين والاتجاهات البحثية
- الابتكار التقني محدود: يركز بشكل أساسي على العمل الاستعراضي، مع ابتكار تقني نسبي محدود
- التحقق التجريبي غير كافٍ: نقص التحقق التجريبي من تحسينات مقاييس التقييم المقترحة
- التحليل عبر المجالات سطحي: تحليل الاختلافات بين الرياضات المختلفة ليس عميقاً بما يكفي
- القيمة الأكاديمية: توفير إطار مرجعي مهم لباحثي هذا المجال
- القيمة العملية: مساعدة الصناعة على فهم الحالة الحالية للتكنولوجيا والآفاق التطبيقية
- دفع التوحيد: قد تدفع نحو تحسين توحيد بروتوكولات التقييم
- تطوير أنظمة تحليل الفيديو الرياضي
- إنشاء محتوى الأحداث الرياضية الآلي
- تحليل أداء الرياضيين
- الذكاء الاصطناعي في البث الرياضي
تستشهد هذه الورقة بـ 98 مرجعاً ذا صلة، تغطي أعمالاً مهمة في تحليل الفيديو الرياضي والتعلم العميق ورؤية الحاسوب وغيرها من المجالات، مما توفر أساساً شاملاً للقراء.
الملخص: هذه ورقة استعراضية عالية الجودة تقوم بفحص منهجي للحالة الحالية لتطور مجال كشف أحداث الفيديو الرياضي، خاصة في تطبيق طرق التعلم العميق. تكمن المساهمات الرئيسية للورقة في التعريف الواضح لأنواع المهام المختلفة، وتقديم نظام تصنيف منظم للطرق، والتحليل النقدي لمشاكل بروتوكولات التقييم الحالية. على الرغم من أن الابتكار التقني محدود نسبياً، فإن قيمتها التوجيهية لتطور المجال واهتمامها بالتطبيقات العملية تجعلها مرجعاً مهماً في هذا المجال.