2025-11-15T07:52:11.794343

Deep Learning for Sports Video Event Detection: Tasks, Datasets, Methods, and Challenges

Xu, Baniya, Well et al.
Video event detection has become a cornerstone of modern sports analytics, powering automated performance evaluation, content generation, and tactical decision-making. Recent advances in deep learning have driven progress in related tasks such as Temporal Action Localization (TAL), which detects extended action segments; Action Spotting (AS), which identifies a representative timestamp; and Precise Event Spotting (PES), which pinpoints the exact frame of an event. Although closely connected, their subtle differences often blur the boundaries between them, leading to confusion in both research and practical applications. Furthermore, prior surveys either address generic video event detection or broader sports video tasks, but largely overlook the unique temporal granularity and domain-specific challenges of event spotting. In addition, most existing sports video surveys focus on elite-level competitions while neglecting the wider community of everyday practitioners. This survey addresses these gaps by: (i) clearly delineating TAL, AS, and PES and their respective use cases; (ii) introducing a structured taxonomy of state of the art approaches including temporal modeling strategies, multimodal frameworks, and data-efficient pipelines tailored for AS and PES; and (iii) critically assessing benchmark datasets and evaluation protocols, highlighting limitations such as reliance on broadcast quality footage and metrics that over reward permissive multilabel predictions. By synthesizing current research and exposing open challenges, this work provides a comprehensive foundation for developing temporally precise, generalizable, and practically deployable sports event detection systems for both the research and industry communities.
academic

Apprendimento Profondo per il Rilevamento di Eventi in Video Sportivi: Compiti, Dataset, Metodi e Sfide

Informazioni Fondamentali

  • ID Articolo: 2505.03991
  • Titolo: Deep Learning for Sports Video Event Detection: Tasks, Datasets, Methods, and Challenges
  • Autori: Hao Xu, Arbind Agrahari Baniya, Sam Wells, Mohamed Reda Bouadjenek, Richard Dazeley, Sunil Aryal
  • Classificazione: cs.CV
  • Data di Pubblicazione/Conferenza: Ottobre 2025 (Rivista ACM)
  • Link Articolo: https://arxiv.org/abs/2505.03991

Riassunto

Il rilevamento di eventi in video sportivi è diventato fondamentale nell'analisi sportiva moderna, supportando la valutazione automatizzata delle prestazioni, la generazione di contenuti e il processo decisionale tattico. I recenti progressi nell'apprendimento profondo hanno promosso lo sviluppo di compiti correlati, tra cui la localizzazione di azioni temporali (TAL), la localizzazione di azioni (AS) e la localizzazione precisa di eventi (PES). Sebbene questi compiti siano strettamente correlati, le loro sfumature spesso offuscano i confini reciproci, causando confusione nella ricerca e nelle applicazioni pratiche. Questa rassegna affronta queste lacune definendo chiaramente TAL, AS e PES e i rispettivi casi d'uso, introducendo una classificazione strutturata dei metodi più recenti per AS e PES, e valutando criticamente i dataset di riferimento e i protocolli di valutazione, fornendo una base completa per lo sviluppo di sistemi di rilevamento di eventi sportivi temporalmente precisi, generalizzabili e pratici.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il rilevamento di eventi in video sportivi affronta tre sfide fondamentali:

  1. Confini di compiti sfumati: Le sfumature tra TAL, AS e PES causano confusione nella ricerca e nelle applicazioni
  2. Requisiti di precisione temporale: Gli eventi sportivi richiedono tipicamente precisione a livello di fotogramma, mentre i metodi tradizionali spesso non la soddisfano
  3. Divario di praticità: La ricerca esistente si concentra principalmente su eventi d'élite, trascurando le esigenze dei praticanti quotidiani

Analisi dell'Importanza

  • Valore economico: Il mercato sportivo dovrebbe raggiungere 826 miliardi di dollari entro il 2030, con un tasso di crescita annuale composto del 6,6%
  • Esigenze tecnologiche: Necessità urgente di analisi automatizzata delle prestazioni, processo decisionale tattico e generazione di contenuti
  • Applicazioni diffuse: Dagli eventi professionali alle competizioni amatoriali, coprendo un'ampia base di utenti

Limitazioni dei Metodi Esistenti

  1. Problemi di metriche di valutazione: L'attuale metrica mAP@δ consente previsioni multi-etichetta, non conforme alle esigenze delle applicazioni reali
  2. Limitazioni dei dataset: Dipendenza eccessiva da video di qualità broadcast, mancanza di dati da scenari reali
  3. Scarsa capacità di generalizzazione: Capacità limitata di generalizzazione tra diversi sport

Contributi Principali

  1. Definizione e Distinzione dei Compiti: Prima definizione sistematica e distinzione dei tre compiti TAL, AS, PES, chiarendo gli obiettivi, gli schemi di annotazione e gli scenari di applicazione di ciascuno
  2. Sistema di Classificazione della Metodologia: Proposta di una classificazione strutturata dei metodi di apprendimento profondo, inclusa la modellazione temporale, la fusione multimodale e l'apprendimento efficiente dei dati
  3. Rassegna di Dataset e Protocolli di Valutazione: Sintesi completa dei dataset di riferimento, analisi critica delle limitazioni delle metriche di valutazione
  4. Guida Pratica: Identificazione delle sfide aperte e proposte di direzioni future di ricerca, colmando il divario tra ricerca accademica e applicazione pratica

Spiegazione Dettagliata dei Metodi

Definizione dei Compiti

Localizzazione di Azioni Temporali (TAL)

  • Tipo di output: Intervallo temporale
  • Formato di annotazione: Tempo di inizio e fine
  • Finestra di tolleranza: ~1-5 secondi
  • Scenari applicabili: Azioni lunghe e continue (ad esempio, l'intero processo di servizio nel tennis)

Localizzazione di Azioni (AS)

  • Tipo di output: Singolo fotogramma chiave
  • Formato di annotazione: Singolo timestamp
  • Finestra di tolleranza: 5-60 fotogrammi
  • Scenari applicabili: Azioni ambigue e veloci (ad esempio, passaggio e tiro nel calcio)

Localizzazione Precisa di Eventi (PES)

  • Tipo di output: Singolo fotogramma chiave
  • Formato di annotazione: Singolo timestamp
  • Finestra di tolleranza: 0-2 fotogrammi
  • Scenari applicabili: Eventi critici che richiedono precisione a livello di fotogramma (ad esempio, il momento di colpo nel ping-pong)

Classificazione dell'Architettura del Modello

1. Metodi di Modellazione Temporale

Metodi di Pooling:

  • Adottano strategie di finestra scorrevole, dividendo il video in segmenti di lunghezza fissa
  • Utilizzano pooling medio, NetVLAD, NetVLAD++ e altri per aggregare caratteristiche temporali
  • Vantaggi: implementazione semplice, efficienza computazionale elevata
  • Svantaggi: perdita di informazioni sequenziali, limitazione della precisione a livello di fotogramma

Metodi di Codificatore:

  • Utilizzano CNN 1D, CNN 3D, RNN, Transformer e altri modelli sequenziali
  • Mantengono la dimensione temporale, supportando previsioni a livello di fotogramma
  • Metodi rappresentativi: SpotFormer, STE, RMS-Net
  • Vantaggi: capacità di modellazione del contesto più ricche

Metodi Consapevoli del Fotogramma:

  • Modificano direttamente l'architettura principale per migliorare la rappresentazione spazio-temporale
  • Introducono meccanismi specifici del fotogramma per mantenere la dimensione temporale completa
  • Metodi rappresentativi: E2E-Spot, UGL, T-DEED, ASTRM
  • Punti innovativi: addestramento end-to-end, vera classificazione a livello di fotogramma

2. Metodi di Fusione Multimodale

  • Integrano molteplici modalità: visione, audio, testo e altre
  • Metodo rappresentativo: ASTRA (attenzione cross-modale basata su Transformer)
  • Sfide: qualità audio instabile, interferenza del rumore grave

3. Metodi di Apprendimento Efficiente dei Dati

  • Apprendimento attivo: annotazione selettiva dei campioni più informativi
  • Apprendimento auto-supervisionato: COMEDIAN combina SSL e distillazione della conoscenza
  • Obiettivo: ridurre la dipendenza da dati annotati su larga scala

Configurazione Sperimentale

Panoramica dei Dataset

Dataset di Calcio

  • SoccerNet-v1: 500 partite, 764 ore, 3 categorie di eventi
  • SoccerNet-v2: Esteso a 17 categorie di eventi, annotazione con singolo timestamp
  • SoccerNet Ball AS: Focalizzato su interazioni di palla a grana fine, 12 categorie correlate alla palla

Dataset di Sport con Racchetta

  • Tennis: 3.345 segmenti video, 6 categorie
  • OpenTTGames: 12 partite di ping-pong ad alta definizione, 120 FPS
  • TTA: 39 partite di ping-pong semi-professionali, 8 categorie di eventi
  • P2A: 2.721 video di ping-pong, 272 ore

Dataset di Altri Sport

  • NCAA: 257 video di partite di basket, 14 categorie di azioni
  • FineGym: 5.374 esibizioni di ginnastica, 32 categorie di azioni fini
  • FineDiving: 300 video di tuffi professionali, 52 transizioni di posture chiave

Metriche di Valutazione

Metriche Tradizionali

  • mAP@T-IoU: Utilizzato per compiti TAL
  • mAP@δ: Utilizzato per compiti AS e PES

Limitazioni delle Metriche

L'attuale metrica mAP@δ presenta problemi gravi:

  • Consente previsioni di più categorie per lo stesso fotogramma
  • Le previsioni contraddittorie non sono penalizzate coerentemente
  • I toolkit di valutazione gestiscono in modo incoerente

Suggerimenti di Miglioramento

Proposta di un protocollo di valutazione più rigoroso:

  1. Filtro Top-1: Conservare solo la categoria con il punteggio più alto per fotogramma
  2. Scansione della Soglia: Tracciare la curva PR attraverso variazioni della soglia di confidenza
  3. Penalità per Sovra-previsione: Più conforme alle esigenze di distribuzione reale

Risultati Sperimentali

Confronto delle Prestazioni (Dataset SoccerNet)

MetodoAnnoCategoriaParametriTest TightTest LooseChallenge TightChallenge Loose
E2E-Spot2022Frame-Aware4,5M--66,7373,62
COMEDIAN2024Data-Efficient29,1M73,10-68,3873,98
Santra et al.2025Frame-Aware6,46M73,7479,11--

Risultati Chiave

  1. Metodi consapevoli del fotogramma mostrano le migliori prestazioni, realizzando vera classificazione a livello di fotogramma
  2. Metodi efficienti dei dati mostrano potenziale nella riduzione dei requisiti di annotazione
  3. Fusione multimodale fornisce miglioramenti significativi in scenari specifici
  4. Generalizzazione cross-dataset rimane una sfida principale

Lavori Correlati

Limitazioni delle Rassegne Tradizionali

  • Ghosh et al.: Copertura ampia dell'IA sportiva ma non focalizzata su metodi CV di apprendimento profondo
  • Thomas et al.: Focalizzato principalmente su metodi CV tradizionali e sistemi multi-camera
  • Hu et al.: Introduzione dettagliata di TAL ma non copre AS e PES

Contributi Unici di Questo Articolo

  • Focalizzato specificamente su metodi di apprendimento profondo in video monoculare
  • Distinzione sistematica dei tre compiti TAL, AS, PES
  • Attenzione alle esigenze di distribuzione pratica e di eventi non d'élite

Conclusioni e Discussione

Conclusioni Principali

  1. La distinzione dei compiti è cruciale: TAL, AS, PES hanno ciascuno scenari applicabili e richiedono soluzioni tecniche diverse
  2. I metodi consapevoli del fotogramma sono una tendenza: Forniscono la precisione temporale necessaria per compiti PES
  3. I protocolli di valutazione necessitano di miglioramenti: Le metriche esistenti non riflettono accuratamente le prestazioni in applicazioni reali
  4. La capacità di generalizzazione richiede urgentemente miglioramenti: L'adattabilità tra diversi sport è una sfida chiave

Limitazioni

  1. Distorsione dei dataset: Dipendenza eccessiva da video di qualità broadcast professionale
  2. Mancanza di standardizzazione delle metriche di valutazione: Differenze nel calcolo di mAP tra diverse implementazioni
  3. Divario tra applicazioni reali: Disallineamento tra benchmark accademici e esigenze di distribuzione nel mondo reale

Direzioni Future

  1. Miglioramento della capacità di generalizzazione: Sviluppo di metodi universali tra diversi sport
  2. Apprendimento non supervisionato: Riduzione della dipendenza da annotazioni su larga scala
  3. Fusione multimodale: Migliore integrazione di audio, testo e altre informazioni
  4. Dati del mondo reale: Costruzione di dataset più vicini alle applicazioni pratiche

Valutazione Approfondita

Punti di Forza

  1. Completezza elevata: Prima rassegna specializzata in apprendimento profondo per il rilevamento di eventi in video sportivi
  2. Orientamento pratico: Non solo focalizzato sulla ricerca accademica, ma attento alle esigenze delle applicazioni pratiche
  3. Pensiero critico: Identificazione obiettiva dei gravi problemi delle metriche di valutazione esistenti
  4. Prospettiva lungimirante: Proposte di suggerimenti di miglioramento concreti e realizzabili e direzioni di ricerca future

Insufficienze

  1. Innovazione metodologica limitata: Principalmente lavoro di rassegna, con innovazione tecnica relativamente limitata
  2. Verifica sperimentale insufficiente: Mancanza di verifica sperimentale dei miglioramenti proposti ai protocolli di valutazione
  3. Analisi cross-disciplinare superficiale: L'analisi delle differenze tra diversi sport rimane non sufficientemente approfondita

Impatto

  1. Valore accademico: Fornisce un quadro di riferimento importante per i ricercatori in questo campo
  2. Valore pratico: Aiuta l'industria a comprendere lo stato attuale della tecnologia e le prospettive di applicazione
  3. Promozione della standardizzazione: Potrebbe promuovere il miglioramento standardizzato dei protocolli di valutazione

Scenari Applicabili

  • Sviluppo di sistemi di analisi video sportivo
  • Generazione automatizzata di contenuti di eventi sportivi
  • Analisi delle prestazioni degli atleti
  • Intelligenza artificiale nella trasmissione sportiva

Bibliografia

Questo articolo cita 98 riferimenti correlati, coprendo importanti lavori nei campi dell'analisi video sportivo, dell'apprendimento profondo e della visione artificiale, fornendo ai lettori una base bibliografica completa.


Sintesi: Questo è un articolo di rassegna di alta qualità che sistematicamente esamina lo stato attuale dello sviluppo nel campo del rilevamento di eventi in video sportivi, in particolare nell'applicazione di metodi di apprendimento profondo. I principali contributi dell'articolo risiedono nella chiara definizione di diversi tipi di compiti, nella proposta di un sistema di classificazione strutturato dei metodi e nell'analisi critica dei problemi dei protocolli di valutazione esistenti. Sebbene relativamente limitato in termini di innovazione tecnica, il suo valore guida per lo sviluppo del settore e l'attenzione alle applicazioni pratiche lo rendono un importante riferimento in questo campo.