Video event detection has become a cornerstone of modern sports analytics, powering automated performance evaluation, content generation, and tactical decision-making. Recent advances in deep learning have driven progress in related tasks such as Temporal Action Localization (TAL), which detects extended action segments; Action Spotting (AS), which identifies a representative timestamp; and Precise Event Spotting (PES), which pinpoints the exact frame of an event. Although closely connected, their subtle differences often blur the boundaries between them, leading to confusion in both research and practical applications. Furthermore, prior surveys either address generic video event detection or broader sports video tasks, but largely overlook the unique temporal granularity and domain-specific challenges of event spotting. In addition, most existing sports video surveys focus on elite-level competitions while neglecting the wider community of everyday practitioners. This survey addresses these gaps by: (i) clearly delineating TAL, AS, and PES and their respective use cases; (ii) introducing a structured taxonomy of state of the art approaches including temporal modeling strategies, multimodal frameworks, and data-efficient pipelines tailored for AS and PES; and (iii) critically assessing benchmark datasets and evaluation protocols, highlighting limitations such as reliance on broadcast quality footage and metrics that over reward permissive multilabel predictions. By synthesizing current research and exposing open challenges, this work provides a comprehensive foundation for developing temporally precise, generalizable, and practically deployable sports event detection systems for both the research and industry communities.
academic- ID Articolo: 2505.03991
- Titolo: Deep Learning for Sports Video Event Detection: Tasks, Datasets, Methods, and Challenges
- Autori: Hao Xu, Arbind Agrahari Baniya, Sam Wells, Mohamed Reda Bouadjenek, Richard Dazeley, Sunil Aryal
- Classificazione: cs.CV
- Data di Pubblicazione/Conferenza: Ottobre 2025 (Rivista ACM)
- Link Articolo: https://arxiv.org/abs/2505.03991
Il rilevamento di eventi in video sportivi è diventato fondamentale nell'analisi sportiva moderna, supportando la valutazione automatizzata delle prestazioni, la generazione di contenuti e il processo decisionale tattico. I recenti progressi nell'apprendimento profondo hanno promosso lo sviluppo di compiti correlati, tra cui la localizzazione di azioni temporali (TAL), la localizzazione di azioni (AS) e la localizzazione precisa di eventi (PES). Sebbene questi compiti siano strettamente correlati, le loro sfumature spesso offuscano i confini reciproci, causando confusione nella ricerca e nelle applicazioni pratiche. Questa rassegna affronta queste lacune definendo chiaramente TAL, AS e PES e i rispettivi casi d'uso, introducendo una classificazione strutturata dei metodi più recenti per AS e PES, e valutando criticamente i dataset di riferimento e i protocolli di valutazione, fornendo una base completa per lo sviluppo di sistemi di rilevamento di eventi sportivi temporalmente precisi, generalizzabili e pratici.
Il rilevamento di eventi in video sportivi affronta tre sfide fondamentali:
- Confini di compiti sfumati: Le sfumature tra TAL, AS e PES causano confusione nella ricerca e nelle applicazioni
- Requisiti di precisione temporale: Gli eventi sportivi richiedono tipicamente precisione a livello di fotogramma, mentre i metodi tradizionali spesso non la soddisfano
- Divario di praticità: La ricerca esistente si concentra principalmente su eventi d'élite, trascurando le esigenze dei praticanti quotidiani
- Valore economico: Il mercato sportivo dovrebbe raggiungere 826 miliardi di dollari entro il 2030, con un tasso di crescita annuale composto del 6,6%
- Esigenze tecnologiche: Necessità urgente di analisi automatizzata delle prestazioni, processo decisionale tattico e generazione di contenuti
- Applicazioni diffuse: Dagli eventi professionali alle competizioni amatoriali, coprendo un'ampia base di utenti
- Problemi di metriche di valutazione: L'attuale metrica mAP@δ consente previsioni multi-etichetta, non conforme alle esigenze delle applicazioni reali
- Limitazioni dei dataset: Dipendenza eccessiva da video di qualità broadcast, mancanza di dati da scenari reali
- Scarsa capacità di generalizzazione: Capacità limitata di generalizzazione tra diversi sport
- Definizione e Distinzione dei Compiti: Prima definizione sistematica e distinzione dei tre compiti TAL, AS, PES, chiarendo gli obiettivi, gli schemi di annotazione e gli scenari di applicazione di ciascuno
- Sistema di Classificazione della Metodologia: Proposta di una classificazione strutturata dei metodi di apprendimento profondo, inclusa la modellazione temporale, la fusione multimodale e l'apprendimento efficiente dei dati
- Rassegna di Dataset e Protocolli di Valutazione: Sintesi completa dei dataset di riferimento, analisi critica delle limitazioni delle metriche di valutazione
- Guida Pratica: Identificazione delle sfide aperte e proposte di direzioni future di ricerca, colmando il divario tra ricerca accademica e applicazione pratica
- Tipo di output: Intervallo temporale
- Formato di annotazione: Tempo di inizio e fine
- Finestra di tolleranza: ~1-5 secondi
- Scenari applicabili: Azioni lunghe e continue (ad esempio, l'intero processo di servizio nel tennis)
- Tipo di output: Singolo fotogramma chiave
- Formato di annotazione: Singolo timestamp
- Finestra di tolleranza: 5-60 fotogrammi
- Scenari applicabili: Azioni ambigue e veloci (ad esempio, passaggio e tiro nel calcio)
- Tipo di output: Singolo fotogramma chiave
- Formato di annotazione: Singolo timestamp
- Finestra di tolleranza: 0-2 fotogrammi
- Scenari applicabili: Eventi critici che richiedono precisione a livello di fotogramma (ad esempio, il momento di colpo nel ping-pong)
Metodi di Pooling:
- Adottano strategie di finestra scorrevole, dividendo il video in segmenti di lunghezza fissa
- Utilizzano pooling medio, NetVLAD, NetVLAD++ e altri per aggregare caratteristiche temporali
- Vantaggi: implementazione semplice, efficienza computazionale elevata
- Svantaggi: perdita di informazioni sequenziali, limitazione della precisione a livello di fotogramma
Metodi di Codificatore:
- Utilizzano CNN 1D, CNN 3D, RNN, Transformer e altri modelli sequenziali
- Mantengono la dimensione temporale, supportando previsioni a livello di fotogramma
- Metodi rappresentativi: SpotFormer, STE, RMS-Net
- Vantaggi: capacità di modellazione del contesto più ricche
Metodi Consapevoli del Fotogramma:
- Modificano direttamente l'architettura principale per migliorare la rappresentazione spazio-temporale
- Introducono meccanismi specifici del fotogramma per mantenere la dimensione temporale completa
- Metodi rappresentativi: E2E-Spot, UGL, T-DEED, ASTRM
- Punti innovativi: addestramento end-to-end, vera classificazione a livello di fotogramma
- Integrano molteplici modalità: visione, audio, testo e altre
- Metodo rappresentativo: ASTRA (attenzione cross-modale basata su Transformer)
- Sfide: qualità audio instabile, interferenza del rumore grave
- Apprendimento attivo: annotazione selettiva dei campioni più informativi
- Apprendimento auto-supervisionato: COMEDIAN combina SSL e distillazione della conoscenza
- Obiettivo: ridurre la dipendenza da dati annotati su larga scala
- SoccerNet-v1: 500 partite, 764 ore, 3 categorie di eventi
- SoccerNet-v2: Esteso a 17 categorie di eventi, annotazione con singolo timestamp
- SoccerNet Ball AS: Focalizzato su interazioni di palla a grana fine, 12 categorie correlate alla palla
- Tennis: 3.345 segmenti video, 6 categorie
- OpenTTGames: 12 partite di ping-pong ad alta definizione, 120 FPS
- TTA: 39 partite di ping-pong semi-professionali, 8 categorie di eventi
- P2A: 2.721 video di ping-pong, 272 ore
- NCAA: 257 video di partite di basket, 14 categorie di azioni
- FineGym: 5.374 esibizioni di ginnastica, 32 categorie di azioni fini
- FineDiving: 300 video di tuffi professionali, 52 transizioni di posture chiave
- mAP@T-IoU: Utilizzato per compiti TAL
- mAP@δ: Utilizzato per compiti AS e PES
L'attuale metrica mAP@δ presenta problemi gravi:
- Consente previsioni di più categorie per lo stesso fotogramma
- Le previsioni contraddittorie non sono penalizzate coerentemente
- I toolkit di valutazione gestiscono in modo incoerente
Proposta di un protocollo di valutazione più rigoroso:
- Filtro Top-1: Conservare solo la categoria con il punteggio più alto per fotogramma
- Scansione della Soglia: Tracciare la curva PR attraverso variazioni della soglia di confidenza
- Penalità per Sovra-previsione: Più conforme alle esigenze di distribuzione reale
| Metodo | Anno | Categoria | Parametri | Test Tight | Test Loose | Challenge Tight | Challenge Loose |
|---|
| E2E-Spot | 2022 | Frame-Aware | 4,5M | - | - | 66,73 | 73,62 |
| COMEDIAN | 2024 | Data-Efficient | 29,1M | 73,10 | - | 68,38 | 73,98 |
| Santra et al. | 2025 | Frame-Aware | 6,46M | 73,74 | 79,11 | - | - |
- Metodi consapevoli del fotogramma mostrano le migliori prestazioni, realizzando vera classificazione a livello di fotogramma
- Metodi efficienti dei dati mostrano potenziale nella riduzione dei requisiti di annotazione
- Fusione multimodale fornisce miglioramenti significativi in scenari specifici
- Generalizzazione cross-dataset rimane una sfida principale
- Ghosh et al.: Copertura ampia dell'IA sportiva ma non focalizzata su metodi CV di apprendimento profondo
- Thomas et al.: Focalizzato principalmente su metodi CV tradizionali e sistemi multi-camera
- Hu et al.: Introduzione dettagliata di TAL ma non copre AS e PES
- Focalizzato specificamente su metodi di apprendimento profondo in video monoculare
- Distinzione sistematica dei tre compiti TAL, AS, PES
- Attenzione alle esigenze di distribuzione pratica e di eventi non d'élite
- La distinzione dei compiti è cruciale: TAL, AS, PES hanno ciascuno scenari applicabili e richiedono soluzioni tecniche diverse
- I metodi consapevoli del fotogramma sono una tendenza: Forniscono la precisione temporale necessaria per compiti PES
- I protocolli di valutazione necessitano di miglioramenti: Le metriche esistenti non riflettono accuratamente le prestazioni in applicazioni reali
- La capacità di generalizzazione richiede urgentemente miglioramenti: L'adattabilità tra diversi sport è una sfida chiave
- Distorsione dei dataset: Dipendenza eccessiva da video di qualità broadcast professionale
- Mancanza di standardizzazione delle metriche di valutazione: Differenze nel calcolo di mAP tra diverse implementazioni
- Divario tra applicazioni reali: Disallineamento tra benchmark accademici e esigenze di distribuzione nel mondo reale
- Miglioramento della capacità di generalizzazione: Sviluppo di metodi universali tra diversi sport
- Apprendimento non supervisionato: Riduzione della dipendenza da annotazioni su larga scala
- Fusione multimodale: Migliore integrazione di audio, testo e altre informazioni
- Dati del mondo reale: Costruzione di dataset più vicini alle applicazioni pratiche
- Completezza elevata: Prima rassegna specializzata in apprendimento profondo per il rilevamento di eventi in video sportivi
- Orientamento pratico: Non solo focalizzato sulla ricerca accademica, ma attento alle esigenze delle applicazioni pratiche
- Pensiero critico: Identificazione obiettiva dei gravi problemi delle metriche di valutazione esistenti
- Prospettiva lungimirante: Proposte di suggerimenti di miglioramento concreti e realizzabili e direzioni di ricerca future
- Innovazione metodologica limitata: Principalmente lavoro di rassegna, con innovazione tecnica relativamente limitata
- Verifica sperimentale insufficiente: Mancanza di verifica sperimentale dei miglioramenti proposti ai protocolli di valutazione
- Analisi cross-disciplinare superficiale: L'analisi delle differenze tra diversi sport rimane non sufficientemente approfondita
- Valore accademico: Fornisce un quadro di riferimento importante per i ricercatori in questo campo
- Valore pratico: Aiuta l'industria a comprendere lo stato attuale della tecnologia e le prospettive di applicazione
- Promozione della standardizzazione: Potrebbe promuovere il miglioramento standardizzato dei protocolli di valutazione
- Sviluppo di sistemi di analisi video sportivo
- Generazione automatizzata di contenuti di eventi sportivi
- Analisi delle prestazioni degli atleti
- Intelligenza artificiale nella trasmissione sportiva
Questo articolo cita 98 riferimenti correlati, coprendo importanti lavori nei campi dell'analisi video sportivo, dell'apprendimento profondo e della visione artificiale, fornendo ai lettori una base bibliografica completa.
Sintesi: Questo è un articolo di rassegna di alta qualità che sistematicamente esamina lo stato attuale dello sviluppo nel campo del rilevamento di eventi in video sportivi, in particolare nell'applicazione di metodi di apprendimento profondo. I principali contributi dell'articolo risiedono nella chiara definizione di diversi tipi di compiti, nella proposta di un sistema di classificazione strutturato dei metodi e nell'analisi critica dei problemi dei protocolli di valutazione esistenti. Sebbene relativamente limitato in termini di innovazione tecnica, il suo valore guida per lo sviluppo del settore e l'attenzione alle applicazioni pratiche lo rendono un importante riferimento in questo campo.