2025-11-15T07:52:11.794343

Deep Learning for Sports Video Event Detection: Tasks, Datasets, Methods, and Challenges

Xu, Baniya, Well et al.

Video event detection has become a cornerstone of modern sports analytics, powering automated performance evaluation, content generation, and tactical decision-making. Recent advances in deep learning have driven progress in related tasks such as Temporal Action Localization (TAL), which detects extended action segments; Action Spotting (AS), which identifies a representative timestamp; and Precise Event Spotting (PES), which pinpoints the exact frame of an event. Although closely connected, their subtle differences often blur the boundaries between them, leading to confusion in both research and practical applications. Furthermore, prior surveys either address generic video event detection or broader sports video tasks, but largely overlook the unique temporal granularity and domain-specific challenges of event spotting. In addition, most existing sports video surveys focus on elite-level competitions while neglecting the wider community of everyday practitioners. This survey addresses these gaps by: (i) clearly delineating TAL, AS, and PES and their respective use cases; (ii) introducing a structured taxonomy of state of the art approaches including temporal modeling strategies, multimodal frameworks, and data-efficient pipelines tailored for AS and PES; and (iii) critically assessing benchmark datasets and evaluation protocols, highlighting limitations such as reliance on broadcast quality footage and metrics that over reward permissive multilabel predictions. By synthesizing current research and exposing open challenges, this work provides a comprehensive foundation for developing temporally precise, generalizable, and practically deployable sports event detection systems for both the research and industry communities.

academic

التعلم العميق لكشف الأحداث في مقاطع الفيديو الرياضية: المهام والمجموعات البيانية والطرق والتحديات

المعلومات الأساسية

معرّف الورقة: 2505.03991
العنوان: التعلم العميق لكشف الأحداث في مقاطع الفيديو الرياضية: المهام والمجموعات البيانية والطرق والتحديات
المؤلفون: Hao Xu, Arbind Agrahari Baniya, Sam Wells, Mohamed Reda Bouadjenek, Richard Dazeley, Sunil Aryal
التصنيف: cs.CV
تاريخ النشر/المؤتمر: أكتوبر 2025 (دورية ACM)
رابط الورقة: https://arxiv.org/abs/2505.03991

الملخص

أصبح كشف أحداث الفيديو الرياضي حجر الزاوية في التحليل الرياضي الحديث، حيث يدعم التقييم الآلي للأداء وإنشاء المحتوى واتخاذ القرارات التكتيكية. دفعت التطورات الأخيرة في التعلم العميق تطور المهام ذات الصلة، بما في ذلك تحديد الإجراءات الزمنية (TAL) وتحديد الإجراءات (AS) وتحديد الأحداث الدقيقة (PES). على الرغم من أن هذه المهام مرتبطة ارتباطاً وثيقاً، فإن الفروقات الدقيقة بينها غالباً ما تطمس الحدود بينها، مما يسبب التباساً في البحث والتطبيقات العملية. يعالج هذا الاستعراض هذه الفجوات من خلال تحديد واضح لـ TAL و AS و PES وحالات الاستخدام الخاصة بكل منها، وتقديم تصنيف منظم للطرق الحديثة الموجهة نحو AS و PES، والتقييم النقدي لمجموعات البيانات المرجعية وبروتوكولات التقييم، مما يوفر أساساً شاملاً لتطوير أنظمة كشف أحداث رياضية دقيقة زمنياً وقابلة للتعميم وعملية.

السياق البحثي والدافع

تعريف المشكلة

يواجه كشف أحداث الفيديو الرياضي ثلاثة تحديات أساسية:

غموض حدود المهام: الفروقات الدقيقة بين TAL و AS و PES تؤدي إلى التباس في البحث والتطبيقات
متطلبات الدقة الزمنية: تتطلب الأحداث الرياضية عادة دقة على مستوى الإطار، بينما الطرق التقليدية غالباً ما تفشل في تحقيق ذلك
فجوة العملية: يركز البحث الحالي بشكل أساسي على الأحداث النخبوية، متجاهلاً احتياجات الممارسين اليوميين

تحليل الأهمية

القيمة الاقتصادية: يُتوقع أن يصل سوق الرياضة إلى 826 مليار دولار بحلول عام 2030، بمعدل نمو سنوي مركب 6.6%
الاحتياجات التكنولوجية: الحاجة الملحة للتحليل الآلي للأداء واتخاذ القرارات التكتيكية وإنشاء المحتوى
التطبيقات الواسعة: من الأحداث الاحترافية إلى المباريات الهواية، تغطي مجموعة واسعة من المستخدمين

قيود الطرق الموجودة

مشاكل مقاييس التقييم: يسمح مقياس mAP@δ الحالي بتنبؤات متعددة التسميات، وهو لا يتوافق مع احتياجات التطبيقات الفعلية
قيود مجموعات البيانات: الاعتماد المفرط على مقاطع الفيديو عالية الجودة، والافتقار إلى بيانات السيناريوهات الحقيقية
ضعف القدرة على التعميم: قدرة محدودة على التعميم عبر الرياضات المختلفة

المساهمات الأساسية

تعريف وتمييز المهام: أول تعريف منهجي وتمييز لمهام TAL و AS و PES، مع توضيح الأهداف والمخططات التعليقية وحالات الاستخدام لكل منها
نظام تصنيف منهجي: تقديم تصنيف منظم لطرق التعلم العميق، بما في ذلك النمذجة الزمنية والدمج متعدد الأنماط والتعلم الفعال للبيانات
استعراض مجموعات البيانات وبروتوكولات التقييم: ملخص شامل لمجموعات البيانات المرجعية، مع تحليل نقدي لقيود مقاييس التقييم
التوجيهات العملية: تحديد التحديات المفتوحة واقتراح اتجاهات البحث المستقبلية، لسد الفجوة بين البحث الأكاديمي والتطبيقات العملية

شرح الطرق

تعريف المهام

تحديد الإجراءات الزمنية (TAL)

نوع المخرجات: فترة زمنية
صيغة التعليق: وقت البداية والنهاية
نافذة التسامح: ~1-5 ثوان
حالات الاستخدام: الإجراءات الطويلة والمستمرة (مثل عملية الإرسال الكاملة في التنس)

تحديد الإجراءات (AS)

نوع المخرجات: إطار رئيسي واحد
صيغة التعليق: طابع زمني واحد
نافذة التسامح: 5-60 إطار
حالات الاستخدام: الإجراءات الغامضة والسريعة (مثل التمرير أو التسديد في كرة القدم)

تحديد الأحداث الدقيقة (PES)

نوع المخرجات: إطار رئيسي واحد
صيغة التعليق: طابع زمني واحد
نافذة التسامح: 0-2 إطار
حالات الاستخدام: الأحداث الحرجة التي تتطلب دقة على مستوى الإطار (مثل لحظة ضرب الكرة في تنس الطاولة)

تصنيف معمارية النموذج

1. طرق النمذجة الزمنية

طرق التجميع:

استخدام استراتيجية النافذة المنزلقة، تقسيم الفيديو إلى أجزاء بطول ثابت
استخدام تجميع متوسط، NetVLAD، NetVLAD++ وغيرها لتجميع الميزات الزمنية
المميزات: تطبيق بسيط، كفاءة حسابية عالية
العيوب: فقدان معلومات التسلسل، تحديد دقة الإطار

طرق المشفر:

استخدام نماذج التسلسل مثل 1D CNN و 3D CNN و RNN و Transformer
الحفاظ على البعد الزمني، دعم التنبؤ على مستوى الإطار
الطرق الممثلة: SpotFormer و STE و RMS-Net
المميزات: قدرة نمذجة السياق الأغنى

طرق الوعي بالإطار:

تعديل معمارية العمود الفقري مباشرة لتحسين التمثيل الزمكاني
إدخال آليات خاصة بالإطار للحفاظ على البعد الزمني الكامل
الطرق الممثلة: E2E-Spot و UGL و T-DEED و ASTRM
نقاط الابتكار: التدريب من النهاية إلى النهاية، تصنيف إطار حقيقي

2. طرق الدمج متعدد الأنماط

دمج الأنماط البصرية والصوتية والنصية وغيرها
الطريقة الممثلة: ASTRA (الانتباه عبر الأنماط القائم على Transformer)
التحديات: عدم استقرار جودة الصوت، التداخل الضوضائي الشديد

3. طرق التعلم الفعال للبيانات

التعلم النشط: اختيار العينات الأكثر إفادة بشكل انتقائي
التعلم الذاتي الإشراف: COMEDIAN يجمع بين SSL وتقطير المعرفة
الهدف: تقليل الاعتماد على البيانات المعلقة على نطاق واسع

الإعدادات التجريبية

نظرة عامة على مجموعات البيانات

مجموعات بيانات كرة القدم

SoccerNet-v1: 500 مباراة، 764 ساعة، 3 فئات أحداث
SoccerNet-v2: موسعة إلى 17 فئة حدث، تعليق بطابع زمني واحد
SoccerNet Ball AS: التركيز على التفاعلات الدقيقة المتعلقة بالكرة، 12 فئة متعلقة بالكرة

مجموعات بيانات الرياضات ذات المضرب

Tennis: 3,345 مقطع فيديو، 6 فئات
OpenTTGames: 12 مباراة تنس طاولة عالية الدقة، 120 إطار في الثانية
TTA: 39 مباراة تنس طاولة شبه احترافية، 8 فئات أحداث
P2A: 2,721 فيديو تنس طاولة، 272 ساعة

مجموعات بيانات رياضية أخرى

NCAA: 257 فيديو مباراة كرة سلة، 14 فئة إجراء
FineGym: 5,374 عرض جمباز، 32 فئة إجراء دقيقة
FineDiving: 300 فيديو غطس احترافي، 52 تحول وضعية رئيسي

مقاييس التقييم

المقاييس التقليدية

mAP@T-IoU: للمهام TAL
mAP@δ: لمهام AS و PES

قيود المقاييس

يعاني مقياس mAP@δ الحالي من مشاكل خطيرة:

يسمح بتنبؤات فئات متعددة لنفس الإطار
لا يتم معاقبة التنبؤات المتناقضة بشكل متسق
عدم اتساق في معالجة أدوات التقييم

الاقتراحات المحسنة

اقتراح بروتوكول تقييم أكثر صرامة:

تصفية Top-1: الاحتفاظ بفئة واحدة فقط بأعلى درجة لكل إطار
مسح العتبة: تتبع منحنى PR من خلال تغيير عتبة الثقة
معاقبة الإفراط في التنبؤ: أكثر توافقاً مع احتياجات النشر الفعلي

النتائج التجريبية

مقارنة الأداء (مجموعة بيانات SoccerNet)

الطريقة	السنة	الفئة	عدد المعاملات	Tight Test	Loose Test	Tight Challenge	Loose Challenge
E2E-Spot	2022	Frame-Aware	4.5M	-	-	66.73	73.62
COMEDIAN	2024	Data-Efficient	29.1M	73.10	-	68.38	73.98
Santra et al.	2025	Frame-Aware	6.46M	73.74	79.11	-	-

النتائج الرئيسية

طرق الوعي بالإطار تحقق أفضل أداء، مما يحقق تصنيفاً حقيقياً على مستوى الإطار
الطرق الفعالة للبيانات تظهر إمكانية في تقليل احتياجات التعليق
الدمج متعدد الأنماط يوفر تحسينات كبيرة في سيناريوهات محددة
التعميم عبر مجموعات البيانات لا يزال التحدي الرئيسي

الأعمال ذات الصلة

قيود الاستعراضات التقليدية

Ghosh وآخرون: تغطية واسعة لذكاء الرياضة لكن لم تركز على طرق CV للتعلم العميق
Thomas وآخرون: التركيز الأساسي على طرق CV التقليدية والأنظمة متعددة الكاميرات
Hu وآخرون: شرح مفصل لـ TAL لكن لم تغطِ AS و PES

المساهمات الفريدة لهذه الورقة

تركيز خاص على طرق التعلم العميق في الفيديو أحادي العدسة
تمييز منهجي لمهام TAL و AS و PES الثلاث
التركيز على احتياجات النشر الفعلي والأحداث غير النخبوية

الخلاصة والمناقشة

الاستنتاجات الرئيسية

تمييز المهام حاسم: لـ TAL و AS و PES حالات استخدام منفصلة، تتطلب حلولاً تقنية مختلفة
طرق الوعي بالإطار هي الاتجاه: توفر الدقة الزمنية اللازمة لمهام PES
بروتوكولات التقييم تحتاج إلى تحسين: المقاييس الحالية لا تعكس بدقة الأداء في التطبيقات الفعلية
القدرة على التعميم تحتاج إلى تحسين عاجل: التكيف عبر الرياضات المختلفة هو التحدي الرئيسي

القيود

انحياز مجموعات البيانات: الاعتماد المفرط على مقاطع الفيديو الاحترافية المبثوثة
عدم توحيد معايير التقييم: وجود اختلافات في حساب mAP بين التطبيقات المختلفة
فجوة التطبيق العملي: عدم توافق المعايير الأكاديمية مع احتياجات النشر في العالم الحقيقي

الاتجاهات المستقبلية

تحسين القدرة على التعميم: تطوير طرق عامة عبر الرياضات المختلفة
التعلم غير الموجه: تقليل الاعتماد على البيانات المعلقة على نطاق واسع
الدمج متعدد الأنماط: دمج أفضل للصوت والنص والمعلومات الأخرى
بيانات العالم الحقيقي: بناء مجموعات بيانات أقرب إلى التطبيقات الفعلية

التقييم المتعمق

المميزات

قوة الشمول: أول استعراض متخصص في التعلم العميق لكشف أحداث الفيديو الرياضي
التوجه العملي: لا يركز فقط على البحث الأكاديمي، بل يولي أهمية كبيرة لاحتياجات التطبيقات العملية
التفكير النقدي: يشير بشكل موضوعي إلى المشاكل الخطيرة في مقاييس التقييم الحالية
الرؤية المستقبلية: يقدم اقتراحات محددة وقابلة للتطبيق للتحسين والاتجاهات البحثية

أوجه القصور

الابتكار التقني محدود: يركز بشكل أساسي على العمل الاستعراضي، مع ابتكار تقني نسبي محدود
التحقق التجريبي غير كافٍ: نقص التحقق التجريبي من تحسينات مقاييس التقييم المقترحة
التحليل عبر المجالات سطحي: تحليل الاختلافات بين الرياضات المختلفة ليس عميقاً بما يكفي

التأثير

القيمة الأكاديمية: توفير إطار مرجعي مهم لباحثي هذا المجال
القيمة العملية: مساعدة الصناعة على فهم الحالة الحالية للتكنولوجيا والآفاق التطبيقية
دفع التوحيد: قد تدفع نحو تحسين توحيد بروتوكولات التقييم

حالات الاستخدام

تطوير أنظمة تحليل الفيديو الرياضي
إنشاء محتوى الأحداث الرياضية الآلي
تحليل أداء الرياضيين
الذكاء الاصطناعي في البث الرياضي

المراجع

تستشهد هذه الورقة بـ 98 مرجعاً ذا صلة، تغطي أعمالاً مهمة في تحليل الفيديو الرياضي والتعلم العميق ورؤية الحاسوب وغيرها من المجالات، مما توفر أساساً شاملاً للقراء.

الملخص: هذه ورقة استعراضية عالية الجودة تقوم بفحص منهجي للحالة الحالية لتطور مجال كشف أحداث الفيديو الرياضي، خاصة في تطبيق طرق التعلم العميق. تكمن المساهمات الرئيسية للورقة في التعريف الواضح لأنواع المهام المختلفة، وتقديم نظام تصنيف منظم للطرق، والتحليل النقدي لمشاكل بروتوكولات التقييم الحالية. على الرغم من أن الابتكار التقني محدود نسبياً، فإن قيمتها التوجيهية لتطور المجال واهتمامها بالتطبيقات العملية تجعلها مرجعاً مهماً في هذا المجال.