2025-11-15T07:52:11.794343

Deep Learning for Sports Video Event Detection: Tasks, Datasets, Methods, and Challenges

Xu, Baniya, Well et al.
Video event detection has become a cornerstone of modern sports analytics, powering automated performance evaluation, content generation, and tactical decision-making. Recent advances in deep learning have driven progress in related tasks such as Temporal Action Localization (TAL), which detects extended action segments; Action Spotting (AS), which identifies a representative timestamp; and Precise Event Spotting (PES), which pinpoints the exact frame of an event. Although closely connected, their subtle differences often blur the boundaries between them, leading to confusion in both research and practical applications. Furthermore, prior surveys either address generic video event detection or broader sports video tasks, but largely overlook the unique temporal granularity and domain-specific challenges of event spotting. In addition, most existing sports video surveys focus on elite-level competitions while neglecting the wider community of everyday practitioners. This survey addresses these gaps by: (i) clearly delineating TAL, AS, and PES and their respective use cases; (ii) introducing a structured taxonomy of state of the art approaches including temporal modeling strategies, multimodal frameworks, and data-efficient pipelines tailored for AS and PES; and (iii) critically assessing benchmark datasets and evaluation protocols, highlighting limitations such as reliance on broadcast quality footage and metrics that over reward permissive multilabel predictions. By synthesizing current research and exposing open challenges, this work provides a comprehensive foundation for developing temporally precise, generalizable, and practically deployable sports event detection systems for both the research and industry communities.
academic

Aprendizaje Profundo para Detección de Eventos en Videos Deportivos: Tareas, Conjuntos de Datos, Métodos y Desafíos

Información Básica

  • ID del Artículo: 2505.03991
  • Título: Deep Learning for Sports Video Event Detection: Tasks, Datasets, Methods, and Challenges
  • Autores: Hao Xu, Arbind Agrahari Baniya, Sam Wells, Mohamed Reda Bouadjenek, Richard Dazeley, Sunil Aryal
  • Clasificación: cs.CV
  • Fecha de Publicación/Conferencia: Octubre de 2025 (Revista ACM)
  • Enlace del Artículo: https://arxiv.org/abs/2505.03991

Resumen

La detección de eventos en videos deportivos se ha convertido en un pilar fundamental del análisis deportivo moderno, permitiendo evaluación de desempeño automatizada, generación de contenido y toma de decisiones tácticas. Los avances recientes en aprendizaje profundo han impulsado el desarrollo de tareas relacionadas, incluyendo localización de acciones temporales (TAL), detección de acciones (AS) y detección de eventos precisos (PES). Aunque estas tareas están estrechamente relacionadas, sus matices frecuentemente difuminan los límites entre ellas, causando confusión en la investigación y aplicaciones prácticas. Esta revisión aborda estas brechas mediante la definición clara de TAL, AS y PES y sus respectivos casos de uso, la introducción de una clasificación estructurada de métodos recientes para AS y PES, y la evaluación crítica de conjuntos de datos de referencia y protocolos de evaluación, proporcionando una base integral para el desarrollo de sistemas de detección de eventos deportivos temporalmente precisos, generalizables y prácticos.

Contexto de Investigación y Motivación

Definición del Problema

La detección de eventos en videos deportivos enfrenta tres desafíos centrales:

  1. Límites de tareas difusos: Los matices entre TAL, AS y PES generan confusión en investigación y aplicaciones
  2. Requisitos de precisión temporal: Los eventos deportivos típicamente requieren precisión a nivel de fotograma, que los métodos tradicionales frecuentemente no satisfacen
  3. Brecha de practicidad: La investigación existente se enfoca principalmente en eventos de élite, ignorando las necesidades de practicantes cotidianos

Análisis de Importancia

  • Valor económico: Se proyecta que el mercado deportivo alcance 826 mil millones de dólares para 2030, con una tasa de crecimiento anual compuesto del 6.6%
  • Demanda tecnológica: Necesidad urgente de análisis de desempeño automatizado, toma de decisiones tácticas y generación de contenido
  • Aplicación generalizada: Desde eventos profesionales hasta competencias amateur, cubriendo un amplio grupo de usuarios

Limitaciones de Métodos Existentes

  1. Problemas de métricas de evaluación: La métrica mAP@δ existente permite predicciones multietiqueta, incompatible con requisitos de aplicaciones reales
  2. Limitaciones de conjuntos de datos: Dependencia excesiva de videos de calidad de transmisión, carencia de datos de escenarios del mundo real
  3. Capacidad de generalización deficiente: Capacidad limitada de generalización entre disciplinas deportivas

Contribuciones Principales

  1. Definición y Distinción de Tareas: Primera definición sistemática y distinción de las tres tareas TAL, AS y PES, aclarando objetivos, esquemas de anotación y escenarios de aplicación respectivos
  2. Sistema de Clasificación Metodológica: Propuesta de clasificación estructurada de métodos de aprendizaje profundo, incluyendo modelado temporal, fusión multimodal y aprendizaje eficiente en datos
  3. Revisión de Conjuntos de Datos y Protocolos de Evaluación: Resumen integral de conjuntos de datos de referencia, análisis crítico de limitaciones de métricas de evaluación
  4. Orientación Práctica: Identificación de desafíos abiertos y propuesta de direcciones futuras de investigación, cerrando la brecha entre investigación académica y aplicación práctica

Explicación Detallada de Métodos

Definición de Tareas

Localización de Acciones Temporales (TAL)

  • Tipo de salida: Intervalo temporal
  • Formato de anotación: Tiempos de inicio y fin
  • Ventana de tolerancia: ~1-5 segundos
  • Escenarios de aplicación: Acciones largas y continuas (por ejemplo, proceso completo de saque en tenis)

Detección de Acciones (AS)

  • Tipo de salida: Fotograma clave único
  • Formato de anotación: Marca de tiempo única
  • Ventana de tolerancia: 5-60 fotogramas
  • Escenarios de aplicación: Acciones ambiguas y de ritmo rápido (por ejemplo, pase o tiro en fútbol)

Detección de Eventos Precisos (PES)

  • Tipo de salida: Fotograma clave único
  • Formato de anotación: Marca de tiempo única
  • Ventana de tolerancia: 0-2 fotogramas
  • Escenarios de aplicación: Eventos clave que requieren precisión a nivel de fotograma (por ejemplo, momento del golpe en tenis de mesa)

Clasificación de Arquitecturas de Modelos

1. Métodos de Modelado Temporal

Métodos de Agrupación:

  • Adoptan estrategia de ventana deslizante, dividiendo videos en segmentos de longitud fija
  • Utilizan agrupación promedio, NetVLAD, NetVLAD++, etc. para agregar características temporales
  • Ventajas: Implementación simple, computacionalmente eficiente
  • Desventajas: Pérdida de información de secuencia, limitación de precisión a nivel de fotograma

Métodos de Codificador:

  • Utilizan modelos de secuencia como CNN 1D, CNN 3D, RNN, Transformer, etc.
  • Mantienen dimensión temporal, permitiendo predicción a nivel de fotograma
  • Métodos representativos: SpotFormer, STE, RMS-Net
  • Ventajas: Capacidad más rica de modelado de contexto

Métodos Conscientes del Fotograma:

  • Modifican directamente arquitecturas backbone para mejorar representación espaciotemporal
  • Introducen mecanismos específicos del fotograma para mantener dimensión temporal completa
  • Métodos representativos: E2E-Spot, UGL, T-DEED, ASTRM
  • Puntos de innovación: Entrenamiento de extremo a extremo, verdadera clasificación a nivel de fotograma

2. Métodos de Fusión Multimodal

  • Integran múltiples modalidades: visual, audio, texto, etc.
  • Método representativo: ASTRA (atención cruzada basada en Transformer)
  • Desafíos: Calidad de audio inestable, interferencia de ruido severa

3. Métodos de Aprendizaje Eficiente en Datos

  • Aprendizaje activo: Anotación selectiva de muestras más informativas
  • Aprendizaje autosupervisado: COMEDIAN combinando SSL y destilación de conocimiento
  • Objetivo: Reducir dependencia de datos anotados a gran escala

Configuración Experimental

Descripción General de Conjuntos de Datos

Conjuntos de Datos de Fútbol

  • SoccerNet-v1: 500 partidos, 764 horas, 3 categorías de eventos
  • SoccerNet-v2: Expandido a 17 categorías de eventos, anotación de marca de tiempo única
  • SoccerNet Ball AS: Enfocado en interacciones de balón de grano fino, 12 categorías relacionadas con balón

Conjuntos de Datos de Deportes de Raqueta

  • Tennis: 3,345 segmentos de video, 6 categorías
  • OpenTTGames: 12 partidos de tenis de mesa en alta definición, 120 FPS
  • TTA: 39 partidos de tenis de mesa semiprofesionales, 8 categorías de eventos
  • P2A: 2,721 videos de tenis de mesa, 272 horas

Otros Conjuntos de Datos de Deportes

  • NCAA: 257 videos de partidos de baloncesto, 14 categorías de acciones
  • FineGym: 5,374 actuaciones de gimnasia, 32 categorías de acciones finas
  • FineDiving: 300 videos de clavados profesionales, 52 transiciones de posturas clave

Métricas de Evaluación

Métricas Tradicionales

  • mAP@T-IoU: Utilizado para tareas TAL
  • mAP@δ: Utilizado para tareas AS y PES

Limitaciones de Métricas

La métrica mAP@δ existente presenta problemas graves:

  • Permite predicciones de múltiples categorías en el mismo fotograma
  • Las predicciones contradictorias no se penalizan consistentemente
  • Inconsistencia en el manejo de herramientas de evaluación

Sugerencias de Mejora

Se propone un protocolo de evaluación más estricto:

  1. Filtrado Top-1: Retener solo la categoría de puntuación más alta por fotograma
  2. Escaneo de Umbral: Rastrear curva PR mediante variación de umbral de confianza
  3. Penalización de Sobrepredicción: Más alineado con requisitos de despliegue real

Resultados Experimentales

Comparación de Desempeño (Conjunto de Datos SoccerNet)

MétodoAñoCategoríaParámetrosTest TightTest LooseChallenge TightChallenge Loose
E2E-Spot2022Frame-Aware4.5M--66.7373.62
COMEDIAN2024Data-Efficient29.1M73.10-68.3873.98
Santra et al.2025Frame-Aware6.46M73.7479.11--

Hallazgos Clave

  1. Métodos conscientes del fotograma muestran mejor desempeño, logrando verdadera clasificación a nivel de fotograma
  2. Métodos eficientes en datos demuestran potencial en reducción de requisitos de anotación
  3. Fusión multimodal proporciona mejoras significativas en escenarios específicos
  4. Generalización entre conjuntos de datos sigue siendo un desafío principal

Trabajo Relacionado

Limitaciones de Revisiones Tradicionales

  • Ghosh et al.: Cobertura amplia de IA deportiva pero sin enfoque en métodos CV de aprendizaje profundo
  • Thomas et al.: Enfoque principal en métodos CV tradicionales y sistemas multicámara
  • Hu et al.: Introducción detallada de TAL pero sin cobertura de AS y PES

Contribuciones Únicas de Este Artículo

  • Enfoque específico en métodos de aprendizaje profundo en video monocular
  • Distinción sistemática de las tres tareas TAL, AS y PES
  • Atención a requisitos de despliegue práctico y eventos no de élite

Conclusiones y Discusión

Conclusiones Principales

  1. La distinción de tareas es crucial: TAL, AS y PES tienen escenarios de aplicación respectivos, requiriendo soluciones técnicas diferentes
  2. Los métodos conscientes del fotograma son tendencia: Proporcionan la precisión temporal necesaria para tareas PES
  3. Los protocolos de evaluación requieren mejora: Las métricas existentes no reflejan con precisión el desempeño en aplicaciones reales
  4. La capacidad de generalización requiere mejora urgente: La adaptabilidad entre disciplinas deportivas es un desafío clave

Limitaciones

  1. Sesgo de conjuntos de datos: Dependencia excesiva de videos de transmisión profesional
  2. Estándares de evaluación inconsistentes: Diferencias en cálculo de mAP entre diferentes implementaciones
  3. Brecha en aplicaciones reales: Desajuste entre puntos de referencia académicos y requisitos de despliegue en el mundo real

Direcciones Futuras

  1. Mejora de capacidad de generalización: Desarrollo de métodos universales entre disciplinas deportivas
  2. Aprendizaje no supervisado: Reducción de dependencia de anotaciones a gran escala
  3. Fusión multimodal mejorada: Mejor integración de audio, texto y otras modalidades
  4. Datos del mundo real: Construcción de conjuntos de datos más cercanos a aplicaciones prácticas

Evaluación Profunda

Fortalezas

  1. Amplitud integral: Primera revisión especializada en aprendizaje profundo para detección de eventos en videos deportivos
  2. Orientación práctica: No solo enfocada en investigación académica, sino también en requisitos de aplicación práctica
  3. Pensamiento crítico: Identificación objetiva de problemas graves en métricas de evaluación existentes
  4. Visión prospectiva: Propuesta de sugerencias de mejora concretas y viables, así como direcciones de investigación

Insuficiencias

  1. Innovación metodológica limitada: Principalmente trabajo de revisión, con innovación técnica relativamente limitada
  2. Validación experimental insuficiente: Falta de validación experimental para las mejoras propuestas en protocolos de evaluación
  3. Análisis entre disciplinas superficial: Análisis de diferencias entre diferentes disciplinas deportivas aún no lo suficientemente profundo

Impacto

  1. Valor académico: Proporciona marco de referencia importante para investigadores en el campo
  2. Valor práctico: Ayuda a la industria a comprender el estado actual de la tecnología y perspectivas de aplicación
  3. Impulso de estandarización: Puede promover mejoras en la estandarización de protocolos de evaluación

Escenarios de Aplicación

  • Desarrollo de sistemas de análisis de videos deportivos
  • Generación automatizada de contenido de eventos deportivos
  • Análisis de desempeño de atletas
  • Inteligencia en transmisiones deportivas

Referencias

Este artículo cita 98 referencias relacionadas, cubriendo trabajos importantes en análisis de videos deportivos, aprendizaje profundo, visión por computadora y otros campos, proporcionando una base bibliográfica integral para los lectores.


Resumen: Este es un artículo de revisión de alta calidad que sistematiza el estado actual del desarrollo en el campo de la detección de eventos en videos deportivos, particularmente en la aplicación de métodos de aprendizaje profundo. Las principales contribuciones del artículo radican en la definición clara de diferentes tipos de tareas, la propuesta de un sistema de clasificación metodológica estructurado, y el análisis crítico de problemas en protocolos de evaluación existentes. Aunque es relativamente limitado en innovación técnica, su valor orientador para el desarrollo del campo y su atención a aplicaciones prácticas lo convierten en una referencia importante en este dominio.