2025-11-15T07:52:11.794343

Deep Learning for Sports Video Event Detection: Tasks, Datasets, Methods, and Challenges

Xu, Baniya, Well et al.

Video event detection has become a cornerstone of modern sports analytics, powering automated performance evaluation, content generation, and tactical decision-making. Recent advances in deep learning have driven progress in related tasks such as Temporal Action Localization (TAL), which detects extended action segments; Action Spotting (AS), which identifies a representative timestamp; and Precise Event Spotting (PES), which pinpoints the exact frame of an event. Although closely connected, their subtle differences often blur the boundaries between them, leading to confusion in both research and practical applications. Furthermore, prior surveys either address generic video event detection or broader sports video tasks, but largely overlook the unique temporal granularity and domain-specific challenges of event spotting. In addition, most existing sports video surveys focus on elite-level competitions while neglecting the wider community of everyday practitioners. This survey addresses these gaps by: (i) clearly delineating TAL, AS, and PES and their respective use cases; (ii) introducing a structured taxonomy of state of the art approaches including temporal modeling strategies, multimodal frameworks, and data-efficient pipelines tailored for AS and PES; and (iii) critically assessing benchmark datasets and evaluation protocols, highlighting limitations such as reliance on broadcast quality footage and metrics that over reward permissive multilabel predictions. By synthesizing current research and exposing open challenges, this work provides a comprehensive foundation for developing temporally precise, generalizable, and practically deployable sports event detection systems for both the research and industry communities.

academic

Deep Learning for Sports Video Event Detection: Tasks, Datasets, Methods, and Challenges

基本信息

论文ID: 2505.03991
标题: Deep Learning for Sports Video Event Detection: Tasks, Datasets, Methods, and Challenges
作者: Hao Xu, Arbind Agrahari Baniya, Sam Wells, Mohamed Reda Bouadjenek, Richard Dazeley, Sunil Aryal
分类: cs.CV
发表时间/会议: 2025年10月（ACM期刊）
论文链接: https://arxiv.org/abs/2505.03991

摘要

体育视频事件检测已成为现代体育分析的基石，支持自动化性能评估、内容生成和战术决策。深度学习的最新进展推动了相关任务的发展，包括时序动作定位(TAL)、动作定点(AS)和精确事件定点(PES)。尽管这些任务密切相关，但它们的细微差别往往模糊了彼此的界限，在研究和实际应用中造成混淆。本综述通过清晰界定TAL、AS和PES及其各自用例，引入针对AS和PES的最新方法结构化分类，以及批判性评估基准数据集和评价协议来解决这些差距，为开发时间精确、可泛化且实用的体育事件检测系统提供全面基础。

研究背景与动机

问题定义

体育视频事件检测面临三个核心挑战：

任务界限模糊：TAL、AS和PES之间的细微差别导致研究和应用中的混淆
时间精度要求：体育事件通常需要帧级精度，而传统方法往往无法满足
实用性差距：现有研究多关注精英赛事，忽略了日常实践者的需求

重要性分析

经济价值：体育市场预计到2030年将达到8260亿美元，年复合增长率6.6%
技术需求：自动化性能分析、战术决策和内容生成的迫切需要
应用广泛：从专业赛事到业余比赛，覆盖广泛的用户群体

现有方法局限性

评价指标问题：现有mAP@δ指标允许多标签预测，不符合实际应用需求
数据集局限：过度依赖广播质量视频，缺乏真实世界场景数据
泛化能力差：跨运动项目的泛化能力有限

核心贡献

任务定义与区分：首次系统性地定义和区分TAL、AS、PES三个任务，明确各自的目标、标注方案和应用场景
方法学分类体系：提出深度学习方法的结构化分类，包括时序建模、多模态融合和数据高效学习
数据集和评价协议综述：全面总结基准数据集，批判性分析评价指标的局限性
实践指导：识别开放挑战并提出未来研究方向，弥合学术研究与实际应用的差距

方法详解

任务定义

时序动作定位(TAL)

输出类型：时间区间
标注格式：开始和结束时间
容错窗口：~1-5秒
适用场景：长时间、连续性动作（如网球发球全过程）

动作定点(AS)

输出类型：单个关键帧
标注格式：单个时间戳
容错窗口：5-60帧
适用场景：模糊、快节奏动作（如足球传球、射门）

精确事件定点(PES)

输出类型：单个关键帧
标注格式：单个时间戳
容错窗口：0-2帧
适用场景：需要帧级精度的关键事件（如乒乓球击球瞬间）

模型架构分类

1. 时序建模方法

池化方法：

采用滑动窗口策略，将视频分割为固定长度片段
使用平均池化、NetVLAD、NetVLAD++等聚合时序特征
优点：实现简单，计算高效
缺点：丢失序列信息，限制帧级精度

编码器方法：

使用1D CNN、3D CNN、RNN、Transformer等序列模型
保持时间维度，支持帧级预测
代表方法：SpotFormer、STE、RMS-Net
优势：更丰富的上下文建模能力

帧感知方法：

直接修改主干架构以增强时空表示
引入帧特定机制保持完整时间维度
代表方法：E2E-Spot、UGL、T-DEED、ASTRM
创新点：端到端训练，真正的帧级分类

2. 多模态融合方法

整合视觉、音频、文本等多种模态
代表方法：ASTRA（基于Transformer的跨模态注意力）
挑战：音频质量不稳定，噪声干扰严重

3. 数据高效学习方法

主动学习：选择性标注最有信息量的样本
自监督学习：COMEDIAN结合SSL和知识蒸馏
目标：减少对大规模标注数据的依赖

实验设置

数据集概览

足球数据集

SoccerNet-v1：500场比赛，764小时，3个事件类别
SoccerNet-v2：扩展到17个事件类别，单时间戳标注
SoccerNet Ball AS：专注细粒度球类交互，12个球相关类别

拍类运动数据集

Tennis：3,345个视频片段，6个类别
OpenTTGames：12场高清乒乓球比赛，120 FPS
TTA：39场准职业乒乓球比赛，8个事件类别
P2A：2,721个乒乓球视频，272小时

其他运动数据集

NCAA：257个篮球比赛视频，14个动作类别
FineGym：5,374个体操表演，32个精细动作类别
FineDiving：300个专业跳水视频，52个关键姿态转换

评价指标

传统指标

mAP@T-IoU：用于TAL任务
mAP@δ：用于AS和PES任务

指标局限性

现有mAP@δ指标存在严重问题：

允许同一帧多个类别预测
矛盾预测不被一致惩罚
评价工具包处理不一致

改进建议

提出更严格的评价协议：

Top-1过滤：每帧只保留最高分类别
阈值扫描：通过置信度阈值变化追踪PR曲线
惩罚过度预测：更符合实际部署需求

实验结果

性能对比（SoccerNet数据集）

方法	年份	类别	参数量	Test集Tight	Test集Loose	Challenge集Tight	Challenge集Loose
E2E-Spot	2022	Frame-Aware	4.5M	-	-	66.73	73.62
COMEDIAN	2024	Data-Efficient	29.1M	73.10	-	68.38	73.98
Santra et al.	2025	Frame-Aware	6.46M	73.74	79.11	-	-

关键发现

帧感知方法表现最佳，实现真正的帧级分类
数据高效方法在减少标注需求方面显示潜力
多模态融合在特定场景下提供显著改进
跨数据集泛化仍是主要挑战

结论与讨论

主要结论

任务区分至关重要：TAL、AS、PES各有适用场景，需要不同的技术方案
帧感知方法是趋势：为PES任务提供必要的时间精度
评价协议需改进：现有指标不能准确反映实际应用性能
泛化能力亟待提升：跨运动项目的适应性是关键挑战

局限性

数据集偏向性：过度依赖专业广播视频
评价标准不统一：不同实现的mAP计算存在差异
实际应用差距：学术基准与真实世界部署需求不匹配

未来方向

增强泛化能力：开发跨运动项目的通用方法
无监督学习：减少对大规模标注的依赖
多模态融合：更好地整合音频、文本等信息
真实世界数据：构建更贴近实际应用的数据集

深度评价

优点

全面性强：首个专门针对体育视频事件检测的深度学习综述
实用导向：不仅关注学术研究，更重视实际应用需求
批判性思维：客观指出现有评价指标的严重问题
前瞻性：提出具体可行的改进建议和研究方向

不足

方法创新有限：主要是综述性工作，技术创新相对较少
实验验证不足：对提出的评价指标改进缺乏实验验证
跨领域分析浅显：对不同运动项目间差异的分析还不够深入

影响力

学术价值：为该领域研究者提供重要参考框架
实用价值：帮助工业界了解技术现状和应用前景
标准化推动：可能推动评价协议的标准化改进

适用场景

体育视频分析系统开发
自动化赛事内容生成
运动员性能分析
体育广播智能化

参考文献

本文引用了98篇相关文献，涵盖了体育视频分析、深度学习、计算机视觉等多个领域的重要工作，为读者提供了全面的文献基础。

总结：这是一篇高质量的综述论文，系统梳理了体育视频事件检测领域的发展现状，特别是在深度学习方法应用方面。论文的主要贡献在于清晰界定了不同任务类型，提出了结构化的方法分类体系，并批判性地分析了现有评价协议的问题。虽然在技术创新方面相对有限，但其对领域发展的指导价值和对实际应用的关注使其成为该领域的重要参考文献。