2025-11-15T07:52:11.794343

Deep Learning for Sports Video Event Detection: Tasks, Datasets, Methods, and Challenges

Xu, Baniya, Well et al.

Video event detection has become a cornerstone of modern sports analytics, powering automated performance evaluation, content generation, and tactical decision-making. Recent advances in deep learning have driven progress in related tasks such as Temporal Action Localization (TAL), which detects extended action segments; Action Spotting (AS), which identifies a representative timestamp; and Precise Event Spotting (PES), which pinpoints the exact frame of an event. Although closely connected, their subtle differences often blur the boundaries between them, leading to confusion in both research and practical applications. Furthermore, prior surveys either address generic video event detection or broader sports video tasks, but largely overlook the unique temporal granularity and domain-specific challenges of event spotting. In addition, most existing sports video surveys focus on elite-level competitions while neglecting the wider community of everyday practitioners. This survey addresses these gaps by: (i) clearly delineating TAL, AS, and PES and their respective use cases; (ii) introducing a structured taxonomy of state of the art approaches including temporal modeling strategies, multimodal frameworks, and data-efficient pipelines tailored for AS and PES; and (iii) critically assessing benchmark datasets and evaluation protocols, highlighting limitations such as reliance on broadcast quality footage and metrics that over reward permissive multilabel predictions. By synthesizing current research and exposing open challenges, this work provides a comprehensive foundation for developing temporally precise, generalizable, and practically deployable sports event detection systems for both the research and industry communities.

academic

Aprendizaje Profundo para Detección de Eventos en Videos Deportivos: Tareas, Conjuntos de Datos, Métodos y Desafíos

Información Básica

ID del Artículo: 2505.03991
Título: Deep Learning for Sports Video Event Detection: Tasks, Datasets, Methods, and Challenges
Autores: Hao Xu, Arbind Agrahari Baniya, Sam Wells, Mohamed Reda Bouadjenek, Richard Dazeley, Sunil Aryal
Clasificación: cs.CV
Fecha de Publicación/Conferencia: Octubre de 2025 (Revista ACM)
Enlace del Artículo: https://arxiv.org/abs/2505.03991

Resumen

La detección de eventos en videos deportivos se ha convertido en un pilar fundamental del análisis deportivo moderno, permitiendo evaluación de desempeño automatizada, generación de contenido y toma de decisiones tácticas. Los avances recientes en aprendizaje profundo han impulsado el desarrollo de tareas relacionadas, incluyendo localización de acciones temporales (TAL), detección de acciones (AS) y detección de eventos precisos (PES). Aunque estas tareas están estrechamente relacionadas, sus matices frecuentemente difuminan los límites entre ellas, causando confusión en la investigación y aplicaciones prácticas. Esta revisión aborda estas brechas mediante la definición clara de TAL, AS y PES y sus respectivos casos de uso, la introducción de una clasificación estructurada de métodos recientes para AS y PES, y la evaluación crítica de conjuntos de datos de referencia y protocolos de evaluación, proporcionando una base integral para el desarrollo de sistemas de detección de eventos deportivos temporalmente precisos, generalizables y prácticos.

Contexto de Investigación y Motivación

Definición del Problema

La detección de eventos en videos deportivos enfrenta tres desafíos centrales:

Límites de tareas difusos: Los matices entre TAL, AS y PES generan confusión en investigación y aplicaciones
Requisitos de precisión temporal: Los eventos deportivos típicamente requieren precisión a nivel de fotograma, que los métodos tradicionales frecuentemente no satisfacen
Brecha de practicidad: La investigación existente se enfoca principalmente en eventos de élite, ignorando las necesidades de practicantes cotidianos

Análisis de Importancia

Valor económico: Se proyecta que el mercado deportivo alcance 826 mil millones de dólares para 2030, con una tasa de crecimiento anual compuesto del 6.6%
Demanda tecnológica: Necesidad urgente de análisis de desempeño automatizado, toma de decisiones tácticas y generación de contenido
Aplicación generalizada: Desde eventos profesionales hasta competencias amateur, cubriendo un amplio grupo de usuarios

Limitaciones de Métodos Existentes

Problemas de métricas de evaluación: La métrica mAP@δ existente permite predicciones multietiqueta, incompatible con requisitos de aplicaciones reales
Limitaciones de conjuntos de datos: Dependencia excesiva de videos de calidad de transmisión, carencia de datos de escenarios del mundo real
Capacidad de generalización deficiente: Capacidad limitada de generalización entre disciplinas deportivas

Contribuciones Principales

Definición y Distinción de Tareas: Primera definición sistemática y distinción de las tres tareas TAL, AS y PES, aclarando objetivos, esquemas de anotación y escenarios de aplicación respectivos
Sistema de Clasificación Metodológica: Propuesta de clasificación estructurada de métodos de aprendizaje profundo, incluyendo modelado temporal, fusión multimodal y aprendizaje eficiente en datos
Revisión de Conjuntos de Datos y Protocolos de Evaluación: Resumen integral de conjuntos de datos de referencia, análisis crítico de limitaciones de métricas de evaluación
Orientación Práctica: Identificación de desafíos abiertos y propuesta de direcciones futuras de investigación, cerrando la brecha entre investigación académica y aplicación práctica

Explicación Detallada de Métodos

Definición de Tareas

Localización de Acciones Temporales (TAL)

Tipo de salida: Intervalo temporal
Formato de anotación: Tiempos de inicio y fin
Ventana de tolerancia: ~1-5 segundos
Escenarios de aplicación: Acciones largas y continuas (por ejemplo, proceso completo de saque en tenis)

Detección de Acciones (AS)

Tipo de salida: Fotograma clave único
Formato de anotación: Marca de tiempo única
Ventana de tolerancia: 5-60 fotogramas
Escenarios de aplicación: Acciones ambiguas y de ritmo rápido (por ejemplo, pase o tiro en fútbol)

Detección de Eventos Precisos (PES)

Tipo de salida: Fotograma clave único
Formato de anotación: Marca de tiempo única
Ventana de tolerancia: 0-2 fotogramas
Escenarios de aplicación: Eventos clave que requieren precisión a nivel de fotograma (por ejemplo, momento del golpe en tenis de mesa)

Clasificación de Arquitecturas de Modelos

1. Métodos de Modelado Temporal

Métodos de Agrupación:

Adoptan estrategia de ventana deslizante, dividiendo videos en segmentos de longitud fija
Utilizan agrupación promedio, NetVLAD, NetVLAD++, etc. para agregar características temporales
Ventajas: Implementación simple, computacionalmente eficiente
Desventajas: Pérdida de información de secuencia, limitación de precisión a nivel de fotograma

Métodos de Codificador:

Utilizan modelos de secuencia como CNN 1D, CNN 3D, RNN, Transformer, etc.
Mantienen dimensión temporal, permitiendo predicción a nivel de fotograma
Métodos representativos: SpotFormer, STE, RMS-Net
Ventajas: Capacidad más rica de modelado de contexto

Métodos Conscientes del Fotograma:

Modifican directamente arquitecturas backbone para mejorar representación espaciotemporal
Introducen mecanismos específicos del fotograma para mantener dimensión temporal completa
Métodos representativos: E2E-Spot, UGL, T-DEED, ASTRM
Puntos de innovación: Entrenamiento de extremo a extremo, verdadera clasificación a nivel de fotograma

2. Métodos de Fusión Multimodal

Integran múltiples modalidades: visual, audio, texto, etc.
Método representativo: ASTRA (atención cruzada basada en Transformer)
Desafíos: Calidad de audio inestable, interferencia de ruido severa

3. Métodos de Aprendizaje Eficiente en Datos

Aprendizaje activo: Anotación selectiva de muestras más informativas
Aprendizaje autosupervisado: COMEDIAN combinando SSL y destilación de conocimiento
Objetivo: Reducir dependencia de datos anotados a gran escala

Configuración Experimental

Descripción General de Conjuntos de Datos

Conjuntos de Datos de Fútbol

SoccerNet-v1: 500 partidos, 764 horas, 3 categorías de eventos
SoccerNet-v2: Expandido a 17 categorías de eventos, anotación de marca de tiempo única
SoccerNet Ball AS: Enfocado en interacciones de balón de grano fino, 12 categorías relacionadas con balón

Conjuntos de Datos de Deportes de Raqueta

Tennis: 3,345 segmentos de video, 6 categorías
OpenTTGames: 12 partidos de tenis de mesa en alta definición, 120 FPS
TTA: 39 partidos de tenis de mesa semiprofesionales, 8 categorías de eventos
P2A: 2,721 videos de tenis de mesa, 272 horas

Otros Conjuntos de Datos de Deportes

NCAA: 257 videos de partidos de baloncesto, 14 categorías de acciones
FineGym: 5,374 actuaciones de gimnasia, 32 categorías de acciones finas
FineDiving: 300 videos de clavados profesionales, 52 transiciones de posturas clave

Métricas de Evaluación

Métricas Tradicionales

mAP@T-IoU: Utilizado para tareas TAL
mAP@δ: Utilizado para tareas AS y PES

Limitaciones de Métricas

La métrica mAP@δ existente presenta problemas graves:

Permite predicciones de múltiples categorías en el mismo fotograma
Las predicciones contradictorias no se penalizan consistentemente
Inconsistencia en el manejo de herramientas de evaluación

Sugerencias de Mejora

Se propone un protocolo de evaluación más estricto:

Filtrado Top-1: Retener solo la categoría de puntuación más alta por fotograma
Escaneo de Umbral: Rastrear curva PR mediante variación de umbral de confianza
Penalización de Sobrepredicción: Más alineado con requisitos de despliegue real

Resultados Experimentales

Comparación de Desempeño (Conjunto de Datos SoccerNet)

Método	Año	Categoría	Parámetros	Test Tight	Test Loose	Challenge Tight	Challenge Loose
E2E-Spot	2022	Frame-Aware	4.5M	-	-	66.73	73.62
COMEDIAN	2024	Data-Efficient	29.1M	73.10	-	68.38	73.98
Santra et al.	2025	Frame-Aware	6.46M	73.74	79.11	-	-

Hallazgos Clave

Métodos conscientes del fotograma muestran mejor desempeño, logrando verdadera clasificación a nivel de fotograma
Métodos eficientes en datos demuestran potencial en reducción de requisitos de anotación
Fusión multimodal proporciona mejoras significativas en escenarios específicos
Generalización entre conjuntos de datos sigue siendo un desafío principal

Trabajo Relacionado

Limitaciones de Revisiones Tradicionales

Ghosh et al.: Cobertura amplia de IA deportiva pero sin enfoque en métodos CV de aprendizaje profundo
Thomas et al.: Enfoque principal en métodos CV tradicionales y sistemas multicámara
Hu et al.: Introducción detallada de TAL pero sin cobertura de AS y PES

Contribuciones Únicas de Este Artículo

Enfoque específico en métodos de aprendizaje profundo en video monocular
Distinción sistemática de las tres tareas TAL, AS y PES
Atención a requisitos de despliegue práctico y eventos no de élite

Conclusiones y Discusión

Conclusiones Principales

La distinción de tareas es crucial: TAL, AS y PES tienen escenarios de aplicación respectivos, requiriendo soluciones técnicas diferentes
Los métodos conscientes del fotograma son tendencia: Proporcionan la precisión temporal necesaria para tareas PES
Los protocolos de evaluación requieren mejora: Las métricas existentes no reflejan con precisión el desempeño en aplicaciones reales
La capacidad de generalización requiere mejora urgente: La adaptabilidad entre disciplinas deportivas es un desafío clave

Limitaciones

Sesgo de conjuntos de datos: Dependencia excesiva de videos de transmisión profesional
Estándares de evaluación inconsistentes: Diferencias en cálculo de mAP entre diferentes implementaciones
Brecha en aplicaciones reales: Desajuste entre puntos de referencia académicos y requisitos de despliegue en el mundo real

Direcciones Futuras

Mejora de capacidad de generalización: Desarrollo de métodos universales entre disciplinas deportivas
Aprendizaje no supervisado: Reducción de dependencia de anotaciones a gran escala
Fusión multimodal mejorada: Mejor integración de audio, texto y otras modalidades
Datos del mundo real: Construcción de conjuntos de datos más cercanos a aplicaciones prácticas

Evaluación Profunda

Fortalezas

Amplitud integral: Primera revisión especializada en aprendizaje profundo para detección de eventos en videos deportivos
Orientación práctica: No solo enfocada en investigación académica, sino también en requisitos de aplicación práctica
Pensamiento crítico: Identificación objetiva de problemas graves en métricas de evaluación existentes
Visión prospectiva: Propuesta de sugerencias de mejora concretas y viables, así como direcciones de investigación

Insuficiencias

Innovación metodológica limitada: Principalmente trabajo de revisión, con innovación técnica relativamente limitada
Validación experimental insuficiente: Falta de validación experimental para las mejoras propuestas en protocolos de evaluación
Análisis entre disciplinas superficial: Análisis de diferencias entre diferentes disciplinas deportivas aún no lo suficientemente profundo

Impacto

Valor académico: Proporciona marco de referencia importante para investigadores en el campo
Valor práctico: Ayuda a la industria a comprender el estado actual de la tecnología y perspectivas de aplicación
Impulso de estandarización: Puede promover mejoras en la estandarización de protocolos de evaluación

Escenarios de Aplicación

Desarrollo de sistemas de análisis de videos deportivos
Generación automatizada de contenido de eventos deportivos
Análisis de desempeño de atletas
Inteligencia en transmisiones deportivas

Referencias

Este artículo cita 98 referencias relacionadas, cubriendo trabajos importantes en análisis de videos deportivos, aprendizaje profundo, visión por computadora y otros campos, proporcionando una base bibliográfica integral para los lectores.

Resumen: Este es un artículo de revisión de alta calidad que sistematiza el estado actual del desarrollo en el campo de la detección de eventos en videos deportivos, particularmente en la aplicación de métodos de aprendizaje profundo. Las principales contribuciones del artículo radican en la definición clara de diferentes tipos de tareas, la propuesta de un sistema de clasificación metodológica estructurado, y el análisis crítico de problemas en protocolos de evaluación existentes. Aunque es relativamente limitado en innovación técnica, su valor orientador para el desarrollo del campo y su atención a aplicaciones prácticas lo convierten en una referencia importante en este dominio.