2025-11-15T07:52:11.794343

Deep Learning for Sports Video Event Detection: Tasks, Datasets, Methods, and Challenges

Xu, Baniya, Well et al.
Video event detection has become a cornerstone of modern sports analytics, powering automated performance evaluation, content generation, and tactical decision-making. Recent advances in deep learning have driven progress in related tasks such as Temporal Action Localization (TAL), which detects extended action segments; Action Spotting (AS), which identifies a representative timestamp; and Precise Event Spotting (PES), which pinpoints the exact frame of an event. Although closely connected, their subtle differences often blur the boundaries between them, leading to confusion in both research and practical applications. Furthermore, prior surveys either address generic video event detection or broader sports video tasks, but largely overlook the unique temporal granularity and domain-specific challenges of event spotting. In addition, most existing sports video surveys focus on elite-level competitions while neglecting the wider community of everyday practitioners. This survey addresses these gaps by: (i) clearly delineating TAL, AS, and PES and their respective use cases; (ii) introducing a structured taxonomy of state of the art approaches including temporal modeling strategies, multimodal frameworks, and data-efficient pipelines tailored for AS and PES; and (iii) critically assessing benchmark datasets and evaluation protocols, highlighting limitations such as reliance on broadcast quality footage and metrics that over reward permissive multilabel predictions. By synthesizing current research and exposing open challenges, this work provides a comprehensive foundation for developing temporally precise, generalizable, and practically deployable sports event detection systems for both the research and industry communities.
academic

खेल वीडियो इवेंट डिटेक्शन के लिए गहन शिक्षा: कार्य, डेटासेट, विधियाँ और चुनौतियाँ

बुनियादी जानकारी

  • पेपर ID: 2505.03991
  • शीर्षक: खेल वीडियो इवेंट डिटेक्शन के लिए गहन शिक्षा: कार्य, डेटासेट, विधियाँ और चुनौतियाँ
  • लेखक: हाओ जू, अरबिंद अग्रहारी बनिया, सैम वेल्स, मोहम्मद रेडा बुआदजेनेक, रिचर्ड डेज़ेली, सुनील अर्याल
  • वर्गीकरण: cs.CV
  • प्रकाशन समय/सम्मेलन: 2025 अक्टूबर (ACM जर्नल)
  • पेपर लिंक: https://arxiv.org/abs/2505.03991

सारांश

खेल वीडियो इवेंट डिटेक्शन आधुनिक खेल विश्लेषण की नींव बन गई है, जो स्वचालित प्रदर्शन मूल्यांकन, सामग्री निर्माण और रणनीतिक निर्णय लेने का समर्थन करती है। गहन शिक्षा की हाल की प्रगति संबंधित कार्यों के विकास को आगे बढ़ा रही है, जिनमें अस्थायी क्रिया स्थानीयकरण (TAL), क्रिया स्पॉटिंग (AS) और सटीक इवेंट स्पॉटिंग (PES) शामिल हैं। हालांकि ये कार्य निकटता से संबंधित हैं, लेकिन उनकी सूक्ष्म बारीकियाँ अक्सर एक-दूसरे की सीमाओं को धुंधला करती हैं, जिससे अनुसंधान और व्यावहारिक अनुप्रयोगों में भ्रम पैदा होता है। यह समीक्षा TAL, AS और PES को स्पष्ट रूप से परिभाषित करके, AS और PES के लिए नवीनतम विधियों का संरचित वर्गीकरण प्रस्तुत करके, और बेंचमार्क डेटासेट और मूल्यांकन प्रोटोकॉल का आलोचनात्मक मूल्यांकन करके इन अंतरालों को संबोधित करती है, जो समय-सटीक, सामान्यीकृत और व्यावहारिक खेल इवेंट डिटेक्शन सिस्टम विकसित करने के लिए व्यापक आधार प्रदान करती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

खेल वीडियो इवेंट डिटेक्शन तीन मुख्य चुनौतियों का सामना करता है:

  1. कार्य सीमाओं की अस्पष्टता: TAL, AS और PES के बीच सूक्ष्म अंतर अनुसंधान और अनुप्रयोगों में भ्रम पैदा करते हैं
  2. अस्थायी सटीकता आवश्यकता: खेल इवेंट आमतौर पर फ्रेम-स्तरीय सटीकता की आवश्यकता होती है, जबकि पारंपरिक विधियाँ अक्सर इसे पूरा नहीं कर सकती हैं
  3. व्यावहारिकता अंतराल: मौजूदा अनुसंधान मुख्य रूप से अभिजात वर्गीय प्रतियोगिताओं पर केंद्रित है, दैनिक चिकित्सकों की आवश्यकताओं को नजरअंदाज करता है

महत्व विश्लेषण

  • आर्थिक मूल्य: खेल बाजार 2030 तक $826 बिलियन तक पहुंचने का अनुमान है, 6.6% की वार्षिक चक्रवृद्धि वृद्धि दर के साथ
  • तकनीकी आवश्यकता: स्वचालित प्रदर्शन विश्लेषण, रणनीतिक निर्णय और सामग्री निर्माण की तत्काल आवश्यकता
  • व्यापक अनुप्रयोग: पेशेवर प्रतियोगिताओं से शौकिया मैचों तक, व्यापक उपयोगकर्ता समूह को कवर करता है

मौजूदा विधियों की सीमाएं

  1. मूल्यांकन मेट्रिक्स समस्या: मौजूदा mAP@δ मेट्रिक्स बहु-लेबल भविष्यवाणी की अनुमति देते हैं, जो वास्तविक अनुप्रयोग आवश्यकताओं के अनुरूप नहीं हैं
  2. डेटासेट सीमाएं: प्रसारण गुणवत्ता वीडियो पर अत्यधिक निर्भरता, वास्तविक दुनिया के दृश्य डेटा की कमी
  3. सामान्यीकरण क्षमता कमजोर: खेल परियोजनाओं में सीमित सामान्यीकरण क्षमता

मुख्य योगदान

  1. कार्य परिभाषा और भेद: पहली बार TAL, AS, PES तीन कार्यों को व्यवस्थित रूप से परिभाषित और अलग करना, प्रत्येक के उद्देश्य, एनोटेशन योजना और अनुप्रयोग परिदृश्य को स्पष्ट करना
  2. पद्धतिगत वर्गीकरण प्रणाली: गहन शिक्षा विधियों का संरचित वर्गीकरण प्रस्तुत करना, जिसमें अस्थायी मॉडलिंग, बहु-मोडल संलयन और डेटा-कुशल शिक्षा शामिल है
  3. डेटासेट और मूल्यांकन प्रोटोकॉल समीक्षा: बेंचमार्क डेटासेट का व्यापक सारांश, मूल्यांकन मेट्रिक्स की सीमाओं का आलोचनात्मक विश्लेषण
  4. व्यावहारिक मार्गदर्शन: खुली चुनौतियों की पहचान करना और भविष्य के अनुसंधान दिशाओं का प्रस्ताव करना, शैक्षणिक अनुसंधान और व्यावहारिक अनुप्रयोगों के बीच अंतराल को पाटना

विधि विवरण

कार्य परिभाषा

अस्थायी क्रिया स्थानीयकरण (TAL)

  • आउटपुट प्रकार: अस्थायी अंतराल
  • एनोटेशन प्रारूप: शुरुआत और समाप्ति समय
  • त्रुटि सहिष्णुता विंडो: ~1-5 सेकंड
  • अनुप्रयोग परिदृश्य: लंबे समय तक, निरंतर क्रिया (जैसे टेनिस सर्विंग की पूरी प्रक्रिया)

क्रिया स्पॉटिंग (AS)

  • आउटपुट प्रकार: एकल मुख्य फ्रेम
  • एनोटेशन प्रारूप: एकल समय मुहर
  • त्रुटि सहिष्णुता विंडो: 5-60 फ्रेम
  • अनुप्रयोग परिदृश्य: अस्पष्ट, तेज़ गति वाली क्रिया (जैसे फुटबॉल पास, शूटिंग)

सटीक इवेंट स्पॉटिंग (PES)

  • आउटपुट प्रकार: एकल मुख्य फ्रेम
  • एनोटेशन प्रारूप: एकल समय मुहर
  • त्रुटि सहिष्णुता विंडो: 0-2 फ्रेम
  • अनुप्रयोग परिदृश्य: फ्रेम-स्तरीय सटीकता की आवश्यकता वाली महत्वपूर्ण घटनाएं (जैसे टेबल टेनिस हिट का क्षण)

मॉडल आर्किटेक्चर वर्गीकरण

1. अस्थायी मॉडलिंग विधियाँ

पूलिंग विधियाँ:

  • स्लाइडिंग विंडो रणनीति अपनाते हुए, वीडियो को निश्चित लंबाई के खंडों में विभाजित करना
  • औसत पूलिंग, NetVLAD, NetVLAD++ आदि का उपयोग करके अस्थायी विशेषताओं को एकत्रित करना
  • लाभ: सरल कार्यान्वयन, कुशल गणना
  • नुकसान: अनुक्रम जानकारी का नुकसान, फ्रेम-स्तरीय सटीकता में सीमा

एनकोडर विधियाँ:

  • 1D CNN, 3D CNN, RNN, Transformer आदि अनुक्रम मॉडल का उपयोग करना
  • समय आयाम को बनाए रखना, फ्रेम-स्तरीय भविष्यवाणी का समर्थन करना
  • प्रतिनिधि विधियाँ: SpotFormer, STE, RMS-Net
  • लाभ: अधिक समृद्ध संदर्भ मॉडलिंग क्षमता

फ्रेम-जागरूक विधियाँ:

  • समय-स्थान प्रतिनिधित्व को बढ़ाने के लिए मुख्य आर्किटेक्चर को सीधे संशोधित करना
  • पूर्ण समय आयाम को बनाए रखने के लिए फ्रेम-विशिष्ट तंत्र प्रस्तुत करना
  • प्रतिनिधि विधियाँ: E2E-Spot, UGL, T-DEED, ASTRM
  • नवाचार: अंत-से-अंत प्रशिक्षण, सच्ची फ्रेम-स्तरीय वर्गीकरण

2. बहु-मोडल संलयन विधियाँ

  • दृश्य, ऑडियो, पाठ आदि कई मोडल को एकीकृत करना
  • प्रतिनिधि विधि: ASTRA (Transformer-आधारित क्रॉस-मोडल ध्यान)
  • चुनौतियाँ: ऑडियो गुणवत्ता अस्थिर, शोर हस्तक्षेप गंभीर

3. डेटा-कुशल शिक्षा विधियाँ

  • सक्रिय शिक्षा: सबसे सूचनात्मक नमूनों का चयनात्मक एनोटेशन
  • आत्म-निरीक्षित शिक्षा: COMEDIAN SSL और ज्ञान आसवन को जोड़ता है
  • उद्देश्य: बड़े पैमाने पर एनोटेट किए गए डेटा पर निर्भरता को कम करना

प्रायोगिक सेटअप

डेटासेट अवलोकन

फुटबॉल डेटासेट

  • SoccerNet-v1: 500 मैच, 764 घंटे, 3 इवेंट श्रेणियाँ
  • SoccerNet-v2: 17 इवेंट श्रेणियों तक विस्तारित, एकल समय मुहर एनोटेशन
  • SoccerNet Ball AS: सूक्ष्म-दानेदार गेंद इंटरैक्शन पर केंद्रित, 12 गेंद-संबंधित श्रेणियाँ

रैकेट खेल डेटासेट

  • Tennis: 3,345 वीडियो खंड, 6 श्रेणियाँ
  • OpenTTGames: 12 उच्च-परिभाषा टेबल टेनिस मैच, 120 FPS
  • TTA: 39 अर्ध-पेशेवर टेबल टेनिस मैच, 8 इवेंट श्रेणियाँ
  • P2A: 2,721 टेबल टेनिस वीडियो, 272 घंटे

अन्य खेल डेटासेट

  • NCAA: 257 बास्केटबॉल मैच वीडियो, 14 क्रिया श्रेणियाँ
  • FineGym: 5,374 जिमनास्टिक प्रदर्शन, 32 सूक्ष्म क्रिया श्रेणियाँ
  • FineDiving: 300 पेशेवर डाइविंग वीडियो, 52 मुख्य मुद्रा संक्रमण

मूल्यांकन मेट्रिक्स

पारंपरिक मेट्रिक्स

  • mAP@T-IoU: TAL कार्य के लिए
  • mAP@δ: AS और PES कार्यों के लिए

मेट्रिक्स की सीमाएं

मौजूदा mAP@δ मेट्रिक्स में गंभीर समस्याएं हैं:

  • एकल फ्रेम में कई श्रेणियों की भविष्यवाणी की अनुमति देता है
  • विरोधाभासी भविष्यवाणियों को सुसंगत रूप से दंडित नहीं किया जाता है
  • मूल्यांकन उपकरण पैकेज असंगत हैंडलिंग

सुधार सुझाव

अधिक कठोर मूल्यांकन प्रोटोकॉल का प्रस्ताव:

  1. Top-1 फ़िल्टरिंग: प्रत्येक फ्रेम के लिए केवल उच्चतम स्कोर श्रेणी बनाए रखना
  2. थ्रेसहोल्ड स्कैनिंग: आत्मविश्वास थ्रेसहोल्ड परिवर्तन के माध्यम से PR वक्र को ट्रैक करना
  3. अत्यधिक भविष्यवाणी को दंडित करना: वास्तविक तैनाती आवश्यकताओं के अनुरूप अधिक

प्रायोगिक परिणाम

प्रदर्शन तुलना (SoccerNet डेटासेट)

विधिवर्षश्रेणीपैरामीटरTest सेट TightTest सेट LooseChallenge सेट TightChallenge सेट Loose
E2E-Spot2022Frame-Aware4.5M--66.7373.62
COMEDIAN2024Data-Efficient29.1M73.10-68.3873.98
Santra et al.2025Frame-Aware6.46M73.7479.11--

मुख्य निष्कर्ष

  1. फ्रेम-जागरूक विधियाँ सर्वोत्तम प्रदर्शन करती हैं, सच्ची फ्रेम-स्तरीय वर्गीकरण प्राप्त करती हैं
  2. डेटा-कुशल विधियाँ एनोटेशन आवश्यकताओं को कम करने में संभावना दिखाती हैं
  3. बहु-मोडल संलयन विशिष्ट परिदृश्यों में महत्वपूर्ण सुधार प्रदान करता है
  4. क्रॉस-डेटासेट सामान्यीकरण अभी भी मुख्य चुनौती है

संबंधित कार्य

पारंपरिक समीक्षाओं की सीमाएं

  • Ghosh et al.: खेल AI को व्यापक रूप से कवर करता है लेकिन गहन शिक्षा CV विधियों पर केंद्रित नहीं है
  • Thomas et al.: मुख्य रूप से पारंपरिक CV विधियों और बहु-कैमरा प्रणालियों पर केंद्रित है
  • Hu et al.: TAL का विस्तार से परिचय देता है लेकिन AS और PES को कवर नहीं करता है

इस पेपर का अनूठा योगदान

  • एकल-दृश्य वीडियो में गहन शिक्षा विधियों के लिए विशेष रूप से
  • TAL, AS, PES तीन कार्यों को व्यवस्थित रूप से अलग करना
  • वास्तविक तैनाती और गैर-अभिजात प्रतियोगिता आवश्यकताओं पर ध्यान केंद्रित करना

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. कार्य भेद महत्वपूर्ण है: TAL, AS, PES के अपने-अपने अनुप्रयोग परिदृश्य हैं, विभिन्न तकनीकी समाधान की आवश्यकता है
  2. फ्रेम-जागरूक विधियाँ प्रवृत्ति हैं: PES कार्य के लिए आवश्यक समय सटीकता प्रदान करती हैं
  3. मूल्यांकन प्रोटोकॉल में सुधार की आवश्यकता है: मौजूदा मेट्रिक्स वास्तविक अनुप्रयोग प्रदर्शन को सटीक रूप से प्रतिबिंबित नहीं कर सकते हैं
  4. सामान्यीकरण क्षमता में सुधार की तत्काल आवश्यकता है: खेल परियोजनाओं में अनुकूलन मुख्य चुनौती है

सीमाएं

  1. डेटासेट पूर्वाग्रह: पेशेवर प्रसारण वीडियो पर अत्यधिक निर्भरता
  2. मूल्यांकन मानक असंगत: विभिन्न कार्यान्वयनों में mAP गणना में अंतर
  3. व्यावहारिक अनुप्रयोग अंतराल: शैक्षणिक बेंचमार्क और वास्तविक दुनिया की तैनाती आवश्यकताओं में बेमेल

भविष्य की दिशाएं

  1. सामान्यीकरण क्षमता में वृद्धि: खेल परियोजनाओं में सामान्य विधियों का विकास
  2. अनुपर्यवेक्षित शिक्षा: बड़े पैमाने पर एनोटेशन पर निर्भरता को कम करना
  3. बहु-मोडल संलयन: ऑडियो, पाठ आदि जानकारी को बेहतर तरीके से एकीकृत करना
  4. वास्तविक दुनिया डेटा: वास्तविक अनुप्रयोगों के करीब डेटासेट का निर्माण

गहन मूल्यांकन

शक्तियाँ

  1. व्यापकता मजबूत है: खेल वीडियो इवेंट डिटेक्शन के लिए पहली विशेष गहन शिक्षा समीक्षा
  2. व्यावहारिक अभिविन्यास: केवल शैक्षणिक अनुसंधान नहीं, बल्कि वास्तविक अनुप्रयोग आवश्यकताओं पर अधिक ध्यान
  3. आलोचनात्मक सोच: मौजूदा मूल्यांकन मेट्रिक्स की गंभीर समस्याओं को निष्पक्ष रूप से इंगित करना
  4. दूरदर्शिता: ठोस और व्यावहारिक सुधार सुझाव और अनुसंधान दिशाएं प्रस्तुत करना

कमियाँ

  1. विधि नवाचार सीमित: मुख्य रूप से समीक्षा कार्य, तकनीकी नवाचार अपेक्षाकृत कम
  2. प्रायोगिक सत्यापन अपर्याप्त: प्रस्तावित मूल्यांकन मेट्रिक्स सुधार के लिए प्रायोगिक सत्यापन की कमी
  3. क्रॉस-डोमेन विश्लेषण सतही: विभिन्न खेल परियोजनाओं के बीच अंतर का विश्लेषण अभी भी पर्याप्त नहीं है

प्रभाव

  1. शैक्षणिक मूल्य: इस क्षेत्र के शोधकर्ताओं के लिए महत्वपूर्ण संदर्भ ढांचा प्रदान करता है
  2. व्यावहारिक मूल्य: औद्योगिक क्षेत्र को तकनीकी वर्तमान स्थिति और अनुप्रयोग संभावनाओं को समझने में मदद करता है
  3. मानकीकरण प्रचार: मूल्यांकन प्रोटोकॉल के मानकीकरण सुधार को बढ़ावा दे सकता है

अनुप्रयोग परिदृश्य

  • खेल वीडियो विश्लेषण प्रणाली विकास
  • स्वचालित प्रतियोगिता सामग्री निर्माण
  • एथलीट प्रदर्शन विश्लेषण
  • खेल प्रसारण बुद्धिमत्ता

संदर्भ

यह पेपर 98 संबंधित संदर्भों का हवाला देता है, जिसमें खेल वीडियो विश्लेषण, गहन शिक्षा, कंप्यूटर दृष्टि और अन्य क्षेत्रों के महत्वपूर्ण कार्य शामिल हैं, जो पाठकों को व्यापक साहित्य आधार प्रदान करते हैं।


सारांश: यह एक उच्च-गुणवत्ता की समीक्षा पेपर है जो खेल वीडियो इवेंट डिटेक्शन क्षेत्र के विकास की वर्तमान स्थिति को व्यवस्थित रूप से प्रस्तुत करती है, विशेष रूप से गहन शिक्षा विधियों के अनुप्रयोग के संदर्भ में। पेपर का मुख्य योगदान विभिन्न कार्य प्रकारों को स्पष्ट रूप से परिभाषित करना, विधियों का एक संरचित वर्गीकरण प्रणाली प्रस्तुत करना, और मौजूदा मूल्यांकन प्रोटोकॉल की समस्याओं का आलोचनात्मक विश्लेषण करना है। हालांकि तकनीकी नवाचार के संदर्भ में अपेक्षाकृत सीमित है, लेकिन क्षेत्र के विकास के लिए इसका मार्गदर्शन मूल्य और वास्तविक अनुप्रयोगों पर ध्यान इसे इस क्षेत्र का एक महत्वपूर्ण संदर्भ पेपर बनाता है।