2025-11-15T07:52:11.794343

Deep Learning for Sports Video Event Detection: Tasks, Datasets, Methods, and Challenges

Xu, Baniya, Well et al.

Video event detection has become a cornerstone of modern sports analytics, powering automated performance evaluation, content generation, and tactical decision-making. Recent advances in deep learning have driven progress in related tasks such as Temporal Action Localization (TAL), which detects extended action segments; Action Spotting (AS), which identifies a representative timestamp; and Precise Event Spotting (PES), which pinpoints the exact frame of an event. Although closely connected, their subtle differences often blur the boundaries between them, leading to confusion in both research and practical applications. Furthermore, prior surveys either address generic video event detection or broader sports video tasks, but largely overlook the unique temporal granularity and domain-specific challenges of event spotting. In addition, most existing sports video surveys focus on elite-level competitions while neglecting the wider community of everyday practitioners. This survey addresses these gaps by: (i) clearly delineating TAL, AS, and PES and their respective use cases; (ii) introducing a structured taxonomy of state of the art approaches including temporal modeling strategies, multimodal frameworks, and data-efficient pipelines tailored for AS and PES; and (iii) critically assessing benchmark datasets and evaluation protocols, highlighting limitations such as reliance on broadcast quality footage and metrics that over reward permissive multilabel predictions. By synthesizing current research and exposing open challenges, this work provides a comprehensive foundation for developing temporally precise, generalizable, and practically deployable sports event detection systems for both the research and industry communities.

academic

Apprentissage Profond pour la Détection d'Événements dans les Vidéos Sportives : Tâches, Ensembles de Données, Méthodes et Défis

Informations Fondamentales

ID de l'article : 2505.03991
Titre : Deep Learning for Sports Video Event Detection: Tasks, Datasets, Methods, and Challenges
Auteurs : Hao Xu, Arbind Agrahari Baniya, Sam Wells, Mohamed Reda Bouadjenek, Richard Dazeley, Sunil Aryal
Classification : cs.CV
Date de publication/Conférence : Octobre 2025 (Journal ACM)
Lien de l'article : https://arxiv.org/abs/2505.03991

Résumé

La détection d'événements dans les vidéos sportives est devenue la pierre angulaire de l'analyse sportive moderne, soutenant l'évaluation automatisée des performances, la génération de contenu et la prise de décision tactique. Les avancées récentes de l'apprentissage profond ont stimulé le développement de tâches connexes, notamment la localisation d'actions temporelles (TAL), la localisation d'actions (AS) et la localisation précise d'événements (PES). Bien que ces tâches soient étroitement liées, leurs nuances obscurcissent souvent les frontières entre elles, créant une confusion dans la recherche et les applications pratiques. Cet article de synthèse aborde ces lacunes en définissant clairement TAL, AS et PES ainsi que leurs cas d'usage respectifs, en introduisant une classification structurée des méthodes récentes pour AS et PES, et en évaluant de manière critique les ensembles de données de référence et les protocoles d'évaluation, fournissant ainsi une base complète pour le développement de systèmes de détection d'événements sportifs temporellement précis, généralisables et pratiques.

Contexte de Recherche et Motivation

Définition du Problème

La détection d'événements dans les vidéos sportives fait face à trois défis fondamentaux :

Frontières de tâches floues : Les nuances entre TAL, AS et PES entraînent une confusion dans la recherche et les applications
Exigences de précision temporelle : Les événements sportifs nécessitent généralement une précision au niveau des images, que les méthodes traditionnelles ne peuvent souvent pas satisfaire
Écart de praticité : La recherche existante se concentre principalement sur les événements d'élite, négligeant les besoins des praticiens quotidiens

Analyse de l'Importance

Valeur économique : Le marché du sport devrait atteindre 826 milliards de dollars d'ici 2030, avec un taux de croissance annuel composé de 6,6 %
Besoins technologiques : Besoin urgent d'analyse automatisée des performances, de prise de décision tactique et de génération de contenu
Applications étendues : Des événements professionnels aux compétitions amateurs, couvrant un large éventail de groupes d'utilisateurs

Limitations des Approches Existantes

Problèmes de métriques d'évaluation : Les métriques mAP@δ existantes permettent des prédictions multi-étiquettes, ne correspondant pas aux besoins des applications réelles
Limitations des ensembles de données : Dépendance excessive aux vidéos de qualité de diffusion, manque de données de scènes du monde réel
Faible capacité de généralisation : Capacité limitée de généralisation entre les disciplines sportives

Contributions Fondamentales

Définition et Distinction des Tâches : Première définition systématique et distinction des trois tâches TAL, AS et PES, clarifiant les objectifs, les schémas d'annotation et les scénarios d'application respectifs
Système de Classification Méthodologique : Proposition d'une classification structurée des méthodes d'apprentissage profond, incluant la modélisation temporelle, la fusion multimodale et l'apprentissage efficace en données
Synthèse des Ensembles de Données et Protocoles d'Évaluation : Résumé complet des ensembles de données de référence, analyse critique des limitations des métriques d'évaluation
Orientation Pratique : Identification des défis ouverts et proposition de directions de recherche futures, comblant le fossé entre la recherche académique et les applications pratiques

Détails des Méthodes

Définition des Tâches

Localisation d'Actions Temporelles (TAL)

Type de sortie : Intervalle temporel
Format d'annotation : Temps de début et de fin
Fenêtre de tolérance : ~1-5 secondes
Scénarios applicables : Actions longues et continues (par exemple, l'ensemble du processus de service au tennis)

Localisation d'Actions (AS)

Type de sortie : Image clé unique
Format d'annotation : Horodatage unique
Fenêtre de tolérance : 5-60 images
Scénarios applicables : Actions floues et rapides (par exemple, passes et tirs au football)

Localisation Précise d'Événements (PES)

Type de sortie : Image clé unique
Format d'annotation : Horodatage unique
Fenêtre de tolérance : 0-2 images
Scénarios applicables : Événements clés nécessitant une précision au niveau des images (par exemple, le moment du coup au tennis de table)

Classification des Architectures de Modèles

1. Méthodes de Modélisation Temporelle

Méthodes de Pooling :

Adoption d'une stratégie de fenêtre glissante, segmentation de la vidéo en fragments de longueur fixe
Utilisation du pooling moyen, NetVLAD, NetVLAD++ et autres pour agréger les caractéristiques temporelles
Avantages : Implémentation simple, calcul efficace
Inconvénients : Perte d'informations de séquence, limitation de la précision au niveau des images

Méthodes d'Encodeur :

Utilisation de modèles de séquence tels que CNN 1D, CNN 3D, RNN, Transformer
Maintien de la dimension temporelle, support des prédictions au niveau des images
Méthodes représentatives : SpotFormer, STE, RMS-Net
Avantages : Capacité plus riche de modélisation du contexte

Méthodes Conscientes des Images :

Modification directe de l'architecture principale pour améliorer la représentation spatio-temporelle
Introduction de mécanismes spécifiques aux images pour maintenir la dimension temporelle complète
Méthodes représentatives : E2E-Spot, UGL, T-DEED, ASTRM
Points d'innovation : Entraînement bout en bout, véritable classification au niveau des images

2. Méthodes de Fusion Multimodale

Intégration de multiples modalités : vision, audio, texte, etc.
Méthode représentative : ASTRA (attention cross-modale basée sur Transformer)
Défis : Qualité audio instable, interférences de bruit graves

3. Méthodes d'Apprentissage Efficace en Données

Apprentissage actif : Annotation sélective des échantillons les plus informatifs
Apprentissage auto-supervisé : COMEDIAN combinant SSL et distillation de connaissances
Objectif : Réduction de la dépendance aux données annotées à grande échelle

Configuration Expérimentale

Aperçu des Ensembles de Données

Ensembles de Données de Football

SoccerNet-v1 : 500 matchs, 764 heures, 3 catégories d'événements
SoccerNet-v2 : Extension à 17 catégories d'événements, annotation par horodatage unique
SoccerNet Ball AS : Focus sur les interactions fines avec le ballon, 12 catégories liées au ballon

Ensembles de Données de Sports de Raquette

Tennis : 3 345 segments vidéo, 6 catégories
OpenTTGames : 12 matchs de tennis de table haute définition, 120 FPS
TTA : 39 matchs de tennis de table semi-professionnels, 8 catégories d'événements
P2A : 2 721 vidéos de tennis de table, 272 heures

Autres Ensembles de Données Sportifs

NCAA : 257 vidéos de matchs de basket-ball, 14 catégories d'actions
FineGym : 5 374 performances de gymnastique, 32 catégories d'actions fines
FineDiving : 300 vidéos de plongeon professionnel, 52 transitions de postures clés

Métriques d'Évaluation

Métriques Traditionnelles

mAP@T-IoU : Utilisée pour les tâches TAL
mAP@δ : Utilisée pour les tâches AS et PES

Limitations des Métriques

Les métriques mAP@δ existantes présentent des problèmes graves :

Autorisation de prédictions multi-catégories pour une même image
Absence de pénalité cohérente pour les prédictions contradictoires
Incohérence dans le traitement des outils d'évaluation

Suggestions d'Amélioration

Proposition d'un protocole d'évaluation plus strict :

Filtrage Top-1 : Conservation uniquement de la catégorie avec le score le plus élevé par image
Balayage de Seuil : Suivi de la courbe PR par variation du seuil de confiance
Pénalité de Sur-prédiction : Plus conforme aux besoins du déploiement réel

Résultats Expérimentaux

Comparaison des Performances (Ensemble de Données SoccerNet)

Méthode	Année	Catégorie	Paramètres	Test Strict	Test Loose	Challenge Strict	Challenge Loose
E2E-Spot	2022	Frame-Aware	4,5M	-	-	66,73	73,62
COMEDIAN	2024	Data-Efficient	29,1M	73,10	-	68,38	73,98
Santra et al.	2025	Frame-Aware	6,46M	73,74	79,11	-	-

Résultats Clés

Les méthodes conscientes des images offrent les meilleures performances, réalisant une véritable classification au niveau des images
Les méthodes efficaces en données montrent un potentiel dans la réduction des besoins d'annotation
La fusion multimodale fournit des améliorations significatives dans des scénarios spécifiques
La généralisation entre ensembles de données reste un défi majeur

Travaux Connexes

Limitations des Synthèses Traditionnelles

Ghosh et al. : Couverture large de l'IA sportive mais sans focus sur les méthodes CV d'apprentissage profond
Thomas et al. : Concentration principale sur les méthodes CV traditionnelles et les systèmes multi-caméras
Hu et al. : Introduction détaillée de TAL mais sans couverture de AS et PES

Contributions Uniques de cet Article

Focus spécifique sur les méthodes d'apprentissage profond dans les vidéos monoculaires
Distinction systématique des trois tâches TAL, AS et PES
Attention aux besoins de déploiement réel et aux événements non-élites

Conclusion et Discussion

Conclusions Principales

La distinction des tâches est cruciale : TAL, AS et PES ont chacun des scénarios applicables et nécessitent des solutions techniques différentes
Les méthodes conscientes des images sont une tendance : Fournissant la précision temporelle nécessaire pour les tâches PES
Les protocoles d'évaluation nécessitent une amélioration : Les métriques existantes ne reflètent pas précisément les performances en applications réelles
La capacité de généralisation doit être améliorée : L'adaptabilité entre disciplines sportives est un défi clé

Limitations

Biais des ensembles de données : Dépendance excessive aux vidéos de qualité de diffusion professionnelle
Manque de normalisation des critères d'évaluation : Différences dans le calcul de mAP entre différentes implémentations
Écart avec les applications réelles : Inadéquation entre les références académiques et les besoins du déploiement en monde réel

Directions Futures

Amélioration de la Généralisation : Développement de méthodes universelles entre disciplines sportives
Apprentissage Non-Supervisé : Réduction de la dépendance aux données annotées à grande échelle
Fusion Multimodale : Meilleure intégration de l'audio, du texte et d'autres informations
Données du Monde Réel : Construction d'ensembles de données plus proches des applications réelles

Évaluation Approfondie

Points Forts

Couverture Complète : Première synthèse spécialisée sur l'apprentissage profond pour la détection d'événements dans les vidéos sportives
Orientation Pratique : Attention non seulement à la recherche académique mais aussi aux besoins des applications réelles
Pensée Critique : Identification objective des problèmes graves des métriques d'évaluation existantes
Perspective Prospective : Propositions de suggestions d'amélioration concrètes et réalisables et de directions de recherche

Insuffisances

Innovation Méthodologique Limitée : Travail principalement de synthèse avec innovation technique relativement faible
Validation Expérimentale Insuffisante : Manque de validation expérimentale pour les améliorations proposées des métriques d'évaluation
Analyse Inter-Disciplinaire Superficielle : Analyse insuffisamment approfondie des différences entre disciplines sportives

Impact

Valeur Académique : Fournit un cadre de référence important pour les chercheurs du domaine
Valeur Pratique : Aide l'industrie à comprendre l'état actuel de la technologie et les perspectives d'application
Promotion de la Normalisation : Peut promouvoir l'amélioration normalisée des protocoles d'évaluation

Scénarios Applicables

Développement de systèmes d'analyse vidéo sportive
Génération automatisée de contenu pour événements sportifs
Analyse des performances des athlètes
Intelligentisation de la diffusion sportive

Références Bibliographiques

Cet article cite 98 références pertinentes, couvrant des travaux importants dans plusieurs domaines incluant l'analyse vidéo sportive, l'apprentissage profond et la vision par ordinateur, fournissant une base bibliographique complète aux lecteurs.

Résumé : Ceci est un article de synthèse de haute qualité qui cartographie systématiquement l'état actuel du développement dans le domaine de la détection d'événements dans les vidéos sportives, particulièrement concernant l'application des méthodes d'apprentissage profond. Les principales contributions de l'article résident dans la clarification des différents types de tâches, la proposition d'un système de classification méthodologique structuré, et l'analyse critique des problèmes des protocoles d'évaluation existants. Bien que relativement limité en innovation technique, sa valeur directrice pour le développement du domaine et son attention aux applications pratiques en font une référence importante pour ce domaine.