2025-11-15T07:52:11.794343

Deep Learning for Sports Video Event Detection: Tasks, Datasets, Methods, and Challenges

Xu, Baniya, Well et al.
Video event detection has become a cornerstone of modern sports analytics, powering automated performance evaluation, content generation, and tactical decision-making. Recent advances in deep learning have driven progress in related tasks such as Temporal Action Localization (TAL), which detects extended action segments; Action Spotting (AS), which identifies a representative timestamp; and Precise Event Spotting (PES), which pinpoints the exact frame of an event. Although closely connected, their subtle differences often blur the boundaries between them, leading to confusion in both research and practical applications. Furthermore, prior surveys either address generic video event detection or broader sports video tasks, but largely overlook the unique temporal granularity and domain-specific challenges of event spotting. In addition, most existing sports video surveys focus on elite-level competitions while neglecting the wider community of everyday practitioners. This survey addresses these gaps by: (i) clearly delineating TAL, AS, and PES and their respective use cases; (ii) introducing a structured taxonomy of state of the art approaches including temporal modeling strategies, multimodal frameworks, and data-efficient pipelines tailored for AS and PES; and (iii) critically assessing benchmark datasets and evaluation protocols, highlighting limitations such as reliance on broadcast quality footage and metrics that over reward permissive multilabel predictions. By synthesizing current research and exposing open challenges, this work provides a comprehensive foundation for developing temporally precise, generalizable, and practically deployable sports event detection systems for both the research and industry communities.
academic

Apprentissage Profond pour la Détection d'Événements dans les Vidéos Sportives : Tâches, Ensembles de Données, Méthodes et Défis

Informations Fondamentales

  • ID de l'article : 2505.03991
  • Titre : Deep Learning for Sports Video Event Detection: Tasks, Datasets, Methods, and Challenges
  • Auteurs : Hao Xu, Arbind Agrahari Baniya, Sam Wells, Mohamed Reda Bouadjenek, Richard Dazeley, Sunil Aryal
  • Classification : cs.CV
  • Date de publication/Conférence : Octobre 2025 (Journal ACM)
  • Lien de l'article : https://arxiv.org/abs/2505.03991

Résumé

La détection d'événements dans les vidéos sportives est devenue la pierre angulaire de l'analyse sportive moderne, soutenant l'évaluation automatisée des performances, la génération de contenu et la prise de décision tactique. Les avancées récentes de l'apprentissage profond ont stimulé le développement de tâches connexes, notamment la localisation d'actions temporelles (TAL), la localisation d'actions (AS) et la localisation précise d'événements (PES). Bien que ces tâches soient étroitement liées, leurs nuances obscurcissent souvent les frontières entre elles, créant une confusion dans la recherche et les applications pratiques. Cet article de synthèse aborde ces lacunes en définissant clairement TAL, AS et PES ainsi que leurs cas d'usage respectifs, en introduisant une classification structurée des méthodes récentes pour AS et PES, et en évaluant de manière critique les ensembles de données de référence et les protocoles d'évaluation, fournissant ainsi une base complète pour le développement de systèmes de détection d'événements sportifs temporellement précis, généralisables et pratiques.

Contexte de Recherche et Motivation

Définition du Problème

La détection d'événements dans les vidéos sportives fait face à trois défis fondamentaux :

  1. Frontières de tâches floues : Les nuances entre TAL, AS et PES entraînent une confusion dans la recherche et les applications
  2. Exigences de précision temporelle : Les événements sportifs nécessitent généralement une précision au niveau des images, que les méthodes traditionnelles ne peuvent souvent pas satisfaire
  3. Écart de praticité : La recherche existante se concentre principalement sur les événements d'élite, négligeant les besoins des praticiens quotidiens

Analyse de l'Importance

  • Valeur économique : Le marché du sport devrait atteindre 826 milliards de dollars d'ici 2030, avec un taux de croissance annuel composé de 6,6 %
  • Besoins technologiques : Besoin urgent d'analyse automatisée des performances, de prise de décision tactique et de génération de contenu
  • Applications étendues : Des événements professionnels aux compétitions amateurs, couvrant un large éventail de groupes d'utilisateurs

Limitations des Approches Existantes

  1. Problèmes de métriques d'évaluation : Les métriques mAP@δ existantes permettent des prédictions multi-étiquettes, ne correspondant pas aux besoins des applications réelles
  2. Limitations des ensembles de données : Dépendance excessive aux vidéos de qualité de diffusion, manque de données de scènes du monde réel
  3. Faible capacité de généralisation : Capacité limitée de généralisation entre les disciplines sportives

Contributions Fondamentales

  1. Définition et Distinction des Tâches : Première définition systématique et distinction des trois tâches TAL, AS et PES, clarifiant les objectifs, les schémas d'annotation et les scénarios d'application respectifs
  2. Système de Classification Méthodologique : Proposition d'une classification structurée des méthodes d'apprentissage profond, incluant la modélisation temporelle, la fusion multimodale et l'apprentissage efficace en données
  3. Synthèse des Ensembles de Données et Protocoles d'Évaluation : Résumé complet des ensembles de données de référence, analyse critique des limitations des métriques d'évaluation
  4. Orientation Pratique : Identification des défis ouverts et proposition de directions de recherche futures, comblant le fossé entre la recherche académique et les applications pratiques

Détails des Méthodes

Définition des Tâches

Localisation d'Actions Temporelles (TAL)

  • Type de sortie : Intervalle temporel
  • Format d'annotation : Temps de début et de fin
  • Fenêtre de tolérance : ~1-5 secondes
  • Scénarios applicables : Actions longues et continues (par exemple, l'ensemble du processus de service au tennis)

Localisation d'Actions (AS)

  • Type de sortie : Image clé unique
  • Format d'annotation : Horodatage unique
  • Fenêtre de tolérance : 5-60 images
  • Scénarios applicables : Actions floues et rapides (par exemple, passes et tirs au football)

Localisation Précise d'Événements (PES)

  • Type de sortie : Image clé unique
  • Format d'annotation : Horodatage unique
  • Fenêtre de tolérance : 0-2 images
  • Scénarios applicables : Événements clés nécessitant une précision au niveau des images (par exemple, le moment du coup au tennis de table)

Classification des Architectures de Modèles

1. Méthodes de Modélisation Temporelle

Méthodes de Pooling :

  • Adoption d'une stratégie de fenêtre glissante, segmentation de la vidéo en fragments de longueur fixe
  • Utilisation du pooling moyen, NetVLAD, NetVLAD++ et autres pour agréger les caractéristiques temporelles
  • Avantages : Implémentation simple, calcul efficace
  • Inconvénients : Perte d'informations de séquence, limitation de la précision au niveau des images

Méthodes d'Encodeur :

  • Utilisation de modèles de séquence tels que CNN 1D, CNN 3D, RNN, Transformer
  • Maintien de la dimension temporelle, support des prédictions au niveau des images
  • Méthodes représentatives : SpotFormer, STE, RMS-Net
  • Avantages : Capacité plus riche de modélisation du contexte

Méthodes Conscientes des Images :

  • Modification directe de l'architecture principale pour améliorer la représentation spatio-temporelle
  • Introduction de mécanismes spécifiques aux images pour maintenir la dimension temporelle complète
  • Méthodes représentatives : E2E-Spot, UGL, T-DEED, ASTRM
  • Points d'innovation : Entraînement bout en bout, véritable classification au niveau des images

2. Méthodes de Fusion Multimodale

  • Intégration de multiples modalités : vision, audio, texte, etc.
  • Méthode représentative : ASTRA (attention cross-modale basée sur Transformer)
  • Défis : Qualité audio instable, interférences de bruit graves

3. Méthodes d'Apprentissage Efficace en Données

  • Apprentissage actif : Annotation sélective des échantillons les plus informatifs
  • Apprentissage auto-supervisé : COMEDIAN combinant SSL et distillation de connaissances
  • Objectif : Réduction de la dépendance aux données annotées à grande échelle

Configuration Expérimentale

Aperçu des Ensembles de Données

Ensembles de Données de Football

  • SoccerNet-v1 : 500 matchs, 764 heures, 3 catégories d'événements
  • SoccerNet-v2 : Extension à 17 catégories d'événements, annotation par horodatage unique
  • SoccerNet Ball AS : Focus sur les interactions fines avec le ballon, 12 catégories liées au ballon

Ensembles de Données de Sports de Raquette

  • Tennis : 3 345 segments vidéo, 6 catégories
  • OpenTTGames : 12 matchs de tennis de table haute définition, 120 FPS
  • TTA : 39 matchs de tennis de table semi-professionnels, 8 catégories d'événements
  • P2A : 2 721 vidéos de tennis de table, 272 heures

Autres Ensembles de Données Sportifs

  • NCAA : 257 vidéos de matchs de basket-ball, 14 catégories d'actions
  • FineGym : 5 374 performances de gymnastique, 32 catégories d'actions fines
  • FineDiving : 300 vidéos de plongeon professionnel, 52 transitions de postures clés

Métriques d'Évaluation

Métriques Traditionnelles

  • mAP@T-IoU : Utilisée pour les tâches TAL
  • mAP@δ : Utilisée pour les tâches AS et PES

Limitations des Métriques

Les métriques mAP@δ existantes présentent des problèmes graves :

  • Autorisation de prédictions multi-catégories pour une même image
  • Absence de pénalité cohérente pour les prédictions contradictoires
  • Incohérence dans le traitement des outils d'évaluation

Suggestions d'Amélioration

Proposition d'un protocole d'évaluation plus strict :

  1. Filtrage Top-1 : Conservation uniquement de la catégorie avec le score le plus élevé par image
  2. Balayage de Seuil : Suivi de la courbe PR par variation du seuil de confiance
  3. Pénalité de Sur-prédiction : Plus conforme aux besoins du déploiement réel

Résultats Expérimentaux

Comparaison des Performances (Ensemble de Données SoccerNet)

MéthodeAnnéeCatégorieParamètresTest StrictTest LooseChallenge StrictChallenge Loose
E2E-Spot2022Frame-Aware4,5M--66,7373,62
COMEDIAN2024Data-Efficient29,1M73,10-68,3873,98
Santra et al.2025Frame-Aware6,46M73,7479,11--

Résultats Clés

  1. Les méthodes conscientes des images offrent les meilleures performances, réalisant une véritable classification au niveau des images
  2. Les méthodes efficaces en données montrent un potentiel dans la réduction des besoins d'annotation
  3. La fusion multimodale fournit des améliorations significatives dans des scénarios spécifiques
  4. La généralisation entre ensembles de données reste un défi majeur

Travaux Connexes

Limitations des Synthèses Traditionnelles

  • Ghosh et al. : Couverture large de l'IA sportive mais sans focus sur les méthodes CV d'apprentissage profond
  • Thomas et al. : Concentration principale sur les méthodes CV traditionnelles et les systèmes multi-caméras
  • Hu et al. : Introduction détaillée de TAL mais sans couverture de AS et PES

Contributions Uniques de cet Article

  • Focus spécifique sur les méthodes d'apprentissage profond dans les vidéos monoculaires
  • Distinction systématique des trois tâches TAL, AS et PES
  • Attention aux besoins de déploiement réel et aux événements non-élites

Conclusion et Discussion

Conclusions Principales

  1. La distinction des tâches est cruciale : TAL, AS et PES ont chacun des scénarios applicables et nécessitent des solutions techniques différentes
  2. Les méthodes conscientes des images sont une tendance : Fournissant la précision temporelle nécessaire pour les tâches PES
  3. Les protocoles d'évaluation nécessitent une amélioration : Les métriques existantes ne reflètent pas précisément les performances en applications réelles
  4. La capacité de généralisation doit être améliorée : L'adaptabilité entre disciplines sportives est un défi clé

Limitations

  1. Biais des ensembles de données : Dépendance excessive aux vidéos de qualité de diffusion professionnelle
  2. Manque de normalisation des critères d'évaluation : Différences dans le calcul de mAP entre différentes implémentations
  3. Écart avec les applications réelles : Inadéquation entre les références académiques et les besoins du déploiement en monde réel

Directions Futures

  1. Amélioration de la Généralisation : Développement de méthodes universelles entre disciplines sportives
  2. Apprentissage Non-Supervisé : Réduction de la dépendance aux données annotées à grande échelle
  3. Fusion Multimodale : Meilleure intégration de l'audio, du texte et d'autres informations
  4. Données du Monde Réel : Construction d'ensembles de données plus proches des applications réelles

Évaluation Approfondie

Points Forts

  1. Couverture Complète : Première synthèse spécialisée sur l'apprentissage profond pour la détection d'événements dans les vidéos sportives
  2. Orientation Pratique : Attention non seulement à la recherche académique mais aussi aux besoins des applications réelles
  3. Pensée Critique : Identification objective des problèmes graves des métriques d'évaluation existantes
  4. Perspective Prospective : Propositions de suggestions d'amélioration concrètes et réalisables et de directions de recherche

Insuffisances

  1. Innovation Méthodologique Limitée : Travail principalement de synthèse avec innovation technique relativement faible
  2. Validation Expérimentale Insuffisante : Manque de validation expérimentale pour les améliorations proposées des métriques d'évaluation
  3. Analyse Inter-Disciplinaire Superficielle : Analyse insuffisamment approfondie des différences entre disciplines sportives

Impact

  1. Valeur Académique : Fournit un cadre de référence important pour les chercheurs du domaine
  2. Valeur Pratique : Aide l'industrie à comprendre l'état actuel de la technologie et les perspectives d'application
  3. Promotion de la Normalisation : Peut promouvoir l'amélioration normalisée des protocoles d'évaluation

Scénarios Applicables

  • Développement de systèmes d'analyse vidéo sportive
  • Génération automatisée de contenu pour événements sportifs
  • Analyse des performances des athlètes
  • Intelligentisation de la diffusion sportive

Références Bibliographiques

Cet article cite 98 références pertinentes, couvrant des travaux importants dans plusieurs domaines incluant l'analyse vidéo sportive, l'apprentissage profond et la vision par ordinateur, fournissant une base bibliographique complète aux lecteurs.


Résumé : Ceci est un article de synthèse de haute qualité qui cartographie systématiquement l'état actuel du développement dans le domaine de la détection d'événements dans les vidéos sportives, particulièrement concernant l'application des méthodes d'apprentissage profond. Les principales contributions de l'article résident dans la clarification des différents types de tâches, la proposition d'un système de classification méthodologique structuré, et l'analyse critique des problèmes des protocoles d'évaluation existants. Bien que relativement limité en innovation technique, sa valeur directrice pour le développement du domaine et son attention aux applications pratiques en font une référence importante pour ce domaine.