2025-11-15T07:52:11.794343

Deep Learning for Sports Video Event Detection: Tasks, Datasets, Methods, and Challenges

Xu, Baniya, Well et al.

Video event detection has become a cornerstone of modern sports analytics, powering automated performance evaluation, content generation, and tactical decision-making. Recent advances in deep learning have driven progress in related tasks such as Temporal Action Localization (TAL), which detects extended action segments; Action Spotting (AS), which identifies a representative timestamp; and Precise Event Spotting (PES), which pinpoints the exact frame of an event. Although closely connected, their subtle differences often blur the boundaries between them, leading to confusion in both research and practical applications. Furthermore, prior surveys either address generic video event detection or broader sports video tasks, but largely overlook the unique temporal granularity and domain-specific challenges of event spotting. In addition, most existing sports video surveys focus on elite-level competitions while neglecting the wider community of everyday practitioners. This survey addresses these gaps by: (i) clearly delineating TAL, AS, and PES and their respective use cases; (ii) introducing a structured taxonomy of state of the art approaches including temporal modeling strategies, multimodal frameworks, and data-efficient pipelines tailored for AS and PES; and (iii) critically assessing benchmark datasets and evaluation protocols, highlighting limitations such as reliance on broadcast quality footage and metrics that over reward permissive multilabel predictions. By synthesizing current research and exposing open challenges, this work provides a comprehensive foundation for developing temporally precise, generalizable, and practically deployable sports event detection systems for both the research and industry communities.

academic

Apprendimento Profondo per il Rilevamento di Eventi in Video Sportivi: Compiti, Dataset, Metodi e Sfide

Informazioni Fondamentali

ID Articolo: 2505.03991
Titolo: Deep Learning for Sports Video Event Detection: Tasks, Datasets, Methods, and Challenges
Autori: Hao Xu, Arbind Agrahari Baniya, Sam Wells, Mohamed Reda Bouadjenek, Richard Dazeley, Sunil Aryal
Classificazione: cs.CV
Data di Pubblicazione/Conferenza: Ottobre 2025 (Rivista ACM)
Link Articolo: https://arxiv.org/abs/2505.03991

Riassunto

Il rilevamento di eventi in video sportivi è diventato fondamentale nell'analisi sportiva moderna, supportando la valutazione automatizzata delle prestazioni, la generazione di contenuti e il processo decisionale tattico. I recenti progressi nell'apprendimento profondo hanno promosso lo sviluppo di compiti correlati, tra cui la localizzazione di azioni temporali (TAL), la localizzazione di azioni (AS) e la localizzazione precisa di eventi (PES). Sebbene questi compiti siano strettamente correlati, le loro sfumature spesso offuscano i confini reciproci, causando confusione nella ricerca e nelle applicazioni pratiche. Questa rassegna affronta queste lacune definendo chiaramente TAL, AS e PES e i rispettivi casi d'uso, introducendo una classificazione strutturata dei metodi più recenti per AS e PES, e valutando criticamente i dataset di riferimento e i protocolli di valutazione, fornendo una base completa per lo sviluppo di sistemi di rilevamento di eventi sportivi temporalmente precisi, generalizzabili e pratici.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il rilevamento di eventi in video sportivi affronta tre sfide fondamentali:

Confini di compiti sfumati: Le sfumature tra TAL, AS e PES causano confusione nella ricerca e nelle applicazioni
Requisiti di precisione temporale: Gli eventi sportivi richiedono tipicamente precisione a livello di fotogramma, mentre i metodi tradizionali spesso non la soddisfano
Divario di praticità: La ricerca esistente si concentra principalmente su eventi d'élite, trascurando le esigenze dei praticanti quotidiani

Analisi dell'Importanza

Valore economico: Il mercato sportivo dovrebbe raggiungere 826 miliardi di dollari entro il 2030, con un tasso di crescita annuale composto del 6,6%
Esigenze tecnologiche: Necessità urgente di analisi automatizzata delle prestazioni, processo decisionale tattico e generazione di contenuti
Applicazioni diffuse: Dagli eventi professionali alle competizioni amatoriali, coprendo un'ampia base di utenti

Limitazioni dei Metodi Esistenti

Problemi di metriche di valutazione: L'attuale metrica mAP@δ consente previsioni multi-etichetta, non conforme alle esigenze delle applicazioni reali
Limitazioni dei dataset: Dipendenza eccessiva da video di qualità broadcast, mancanza di dati da scenari reali
Scarsa capacità di generalizzazione: Capacità limitata di generalizzazione tra diversi sport

Contributi Principali

Definizione e Distinzione dei Compiti: Prima definizione sistematica e distinzione dei tre compiti TAL, AS, PES, chiarendo gli obiettivi, gli schemi di annotazione e gli scenari di applicazione di ciascuno
Sistema di Classificazione della Metodologia: Proposta di una classificazione strutturata dei metodi di apprendimento profondo, inclusa la modellazione temporale, la fusione multimodale e l'apprendimento efficiente dei dati
Rassegna di Dataset e Protocolli di Valutazione: Sintesi completa dei dataset di riferimento, analisi critica delle limitazioni delle metriche di valutazione
Guida Pratica: Identificazione delle sfide aperte e proposte di direzioni future di ricerca, colmando il divario tra ricerca accademica e applicazione pratica

Spiegazione Dettagliata dei Metodi

Definizione dei Compiti

Localizzazione di Azioni Temporali (TAL)

Tipo di output: Intervallo temporale
Formato di annotazione: Tempo di inizio e fine
Finestra di tolleranza: ~1-5 secondi
Scenari applicabili: Azioni lunghe e continue (ad esempio, l'intero processo di servizio nel tennis)

Localizzazione di Azioni (AS)

Tipo di output: Singolo fotogramma chiave
Formato di annotazione: Singolo timestamp
Finestra di tolleranza: 5-60 fotogrammi
Scenari applicabili: Azioni ambigue e veloci (ad esempio, passaggio e tiro nel calcio)

Localizzazione Precisa di Eventi (PES)

Tipo di output: Singolo fotogramma chiave
Formato di annotazione: Singolo timestamp
Finestra di tolleranza: 0-2 fotogrammi
Scenari applicabili: Eventi critici che richiedono precisione a livello di fotogramma (ad esempio, il momento di colpo nel ping-pong)

Classificazione dell'Architettura del Modello

1. Metodi di Modellazione Temporale

Metodi di Pooling:

Adottano strategie di finestra scorrevole, dividendo il video in segmenti di lunghezza fissa
Utilizzano pooling medio, NetVLAD, NetVLAD++ e altri per aggregare caratteristiche temporali
Vantaggi: implementazione semplice, efficienza computazionale elevata
Svantaggi: perdita di informazioni sequenziali, limitazione della precisione a livello di fotogramma

Metodi di Codificatore:

Utilizzano CNN 1D, CNN 3D, RNN, Transformer e altri modelli sequenziali
Mantengono la dimensione temporale, supportando previsioni a livello di fotogramma
Metodi rappresentativi: SpotFormer, STE, RMS-Net
Vantaggi: capacità di modellazione del contesto più ricche

Metodi Consapevoli del Fotogramma:

Modificano direttamente l'architettura principale per migliorare la rappresentazione spazio-temporale
Introducono meccanismi specifici del fotogramma per mantenere la dimensione temporale completa
Metodi rappresentativi: E2E-Spot, UGL, T-DEED, ASTRM
Punti innovativi: addestramento end-to-end, vera classificazione a livello di fotogramma

2. Metodi di Fusione Multimodale

Integrano molteplici modalità: visione, audio, testo e altre
Metodo rappresentativo: ASTRA (attenzione cross-modale basata su Transformer)
Sfide: qualità audio instabile, interferenza del rumore grave

3. Metodi di Apprendimento Efficiente dei Dati

Apprendimento attivo: annotazione selettiva dei campioni più informativi
Apprendimento auto-supervisionato: COMEDIAN combina SSL e distillazione della conoscenza
Obiettivo: ridurre la dipendenza da dati annotati su larga scala

Configurazione Sperimentale

Panoramica dei Dataset

Dataset di Calcio

SoccerNet-v1: 500 partite, 764 ore, 3 categorie di eventi
SoccerNet-v2: Esteso a 17 categorie di eventi, annotazione con singolo timestamp
SoccerNet Ball AS: Focalizzato su interazioni di palla a grana fine, 12 categorie correlate alla palla

Dataset di Sport con Racchetta

Tennis: 3.345 segmenti video, 6 categorie
OpenTTGames: 12 partite di ping-pong ad alta definizione, 120 FPS
TTA: 39 partite di ping-pong semi-professionali, 8 categorie di eventi
P2A: 2.721 video di ping-pong, 272 ore

Dataset di Altri Sport

NCAA: 257 video di partite di basket, 14 categorie di azioni
FineGym: 5.374 esibizioni di ginnastica, 32 categorie di azioni fini
FineDiving: 300 video di tuffi professionali, 52 transizioni di posture chiave

Metriche di Valutazione

Metriche Tradizionali

mAP@T-IoU: Utilizzato per compiti TAL
mAP@δ: Utilizzato per compiti AS e PES

Limitazioni delle Metriche

L'attuale metrica mAP@δ presenta problemi gravi:

Consente previsioni di più categorie per lo stesso fotogramma
Le previsioni contraddittorie non sono penalizzate coerentemente
I toolkit di valutazione gestiscono in modo incoerente

Suggerimenti di Miglioramento

Proposta di un protocollo di valutazione più rigoroso:

Filtro Top-1: Conservare solo la categoria con il punteggio più alto per fotogramma
Scansione della Soglia: Tracciare la curva PR attraverso variazioni della soglia di confidenza
Penalità per Sovra-previsione: Più conforme alle esigenze di distribuzione reale

Risultati Sperimentali

Confronto delle Prestazioni (Dataset SoccerNet)

Metodo	Anno	Categoria	Parametri	Test Tight	Test Loose	Challenge Tight	Challenge Loose
E2E-Spot	2022	Frame-Aware	4,5M	-	-	66,73	73,62
COMEDIAN	2024	Data-Efficient	29,1M	73,10	-	68,38	73,98
Santra et al.	2025	Frame-Aware	6,46M	73,74	79,11	-	-

Risultati Chiave

Metodi consapevoli del fotogramma mostrano le migliori prestazioni, realizzando vera classificazione a livello di fotogramma
Metodi efficienti dei dati mostrano potenziale nella riduzione dei requisiti di annotazione
Fusione multimodale fornisce miglioramenti significativi in scenari specifici
Generalizzazione cross-dataset rimane una sfida principale

Lavori Correlati

Limitazioni delle Rassegne Tradizionali

Ghosh et al.: Copertura ampia dell'IA sportiva ma non focalizzata su metodi CV di apprendimento profondo
Thomas et al.: Focalizzato principalmente su metodi CV tradizionali e sistemi multi-camera
Hu et al.: Introduzione dettagliata di TAL ma non copre AS e PES

Contributi Unici di Questo Articolo

Focalizzato specificamente su metodi di apprendimento profondo in video monoculare
Distinzione sistematica dei tre compiti TAL, AS, PES
Attenzione alle esigenze di distribuzione pratica e di eventi non d'élite

Conclusioni e Discussione

Conclusioni Principali

La distinzione dei compiti è cruciale: TAL, AS, PES hanno ciascuno scenari applicabili e richiedono soluzioni tecniche diverse
I metodi consapevoli del fotogramma sono una tendenza: Forniscono la precisione temporale necessaria per compiti PES
I protocolli di valutazione necessitano di miglioramenti: Le metriche esistenti non riflettono accuratamente le prestazioni in applicazioni reali
La capacità di generalizzazione richiede urgentemente miglioramenti: L'adattabilità tra diversi sport è una sfida chiave

Limitazioni

Distorsione dei dataset: Dipendenza eccessiva da video di qualità broadcast professionale
Mancanza di standardizzazione delle metriche di valutazione: Differenze nel calcolo di mAP tra diverse implementazioni
Divario tra applicazioni reali: Disallineamento tra benchmark accademici e esigenze di distribuzione nel mondo reale

Direzioni Future

Miglioramento della capacità di generalizzazione: Sviluppo di metodi universali tra diversi sport
Apprendimento non supervisionato: Riduzione della dipendenza da annotazioni su larga scala
Fusione multimodale: Migliore integrazione di audio, testo e altre informazioni
Dati del mondo reale: Costruzione di dataset più vicini alle applicazioni pratiche

Valutazione Approfondita

Punti di Forza

Completezza elevata: Prima rassegna specializzata in apprendimento profondo per il rilevamento di eventi in video sportivi
Orientamento pratico: Non solo focalizzato sulla ricerca accademica, ma attento alle esigenze delle applicazioni pratiche
Pensiero critico: Identificazione obiettiva dei gravi problemi delle metriche di valutazione esistenti
Prospettiva lungimirante: Proposte di suggerimenti di miglioramento concreti e realizzabili e direzioni di ricerca future

Insufficienze

Innovazione metodologica limitata: Principalmente lavoro di rassegna, con innovazione tecnica relativamente limitata
Verifica sperimentale insufficiente: Mancanza di verifica sperimentale dei miglioramenti proposti ai protocolli di valutazione
Analisi cross-disciplinare superficiale: L'analisi delle differenze tra diversi sport rimane non sufficientemente approfondita

Impatto

Valore accademico: Fornisce un quadro di riferimento importante per i ricercatori in questo campo
Valore pratico: Aiuta l'industria a comprendere lo stato attuale della tecnologia e le prospettive di applicazione
Promozione della standardizzazione: Potrebbe promuovere il miglioramento standardizzato dei protocolli di valutazione

Scenari Applicabili

Sviluppo di sistemi di analisi video sportivo
Generazione automatizzata di contenuti di eventi sportivi
Analisi delle prestazioni degli atleti
Intelligenza artificiale nella trasmissione sportiva

Bibliografia

Questo articolo cita 98 riferimenti correlati, coprendo importanti lavori nei campi dell'analisi video sportivo, dell'apprendimento profondo e della visione artificiale, fornendo ai lettori una base bibliografica completa.

Sintesi: Questo è un articolo di rassegna di alta qualità che sistematicamente esamina lo stato attuale dello sviluppo nel campo del rilevamento di eventi in video sportivi, in particolare nell'applicazione di metodi di apprendimento profondo. I principali contributi dell'articolo risiedono nella chiara definizione di diversi tipi di compiti, nella proposta di un sistema di classificazione strutturato dei metodi e nell'analisi critica dei problemi dei protocolli di valutazione esistenti. Sebbene relativamente limitato in termini di innovazione tecnica, il suo valore guida per lo sviluppo del settore e l'attenzione alle applicazioni pratiche lo rendono un importante riferimento in questo campo.