Video event detection has become a cornerstone of modern sports analytics, powering automated performance evaluation, content generation, and tactical decision-making. Recent advances in deep learning have driven progress in related tasks such as Temporal Action Localization (TAL), which detects extended action segments; Action Spotting (AS), which identifies a representative timestamp; and Precise Event Spotting (PES), which pinpoints the exact frame of an event. Although closely connected, their subtle differences often blur the boundaries between them, leading to confusion in both research and practical applications. Furthermore, prior surveys either address generic video event detection or broader sports video tasks, but largely overlook the unique temporal granularity and domain-specific challenges of event spotting. In addition, most existing sports video surveys focus on elite-level competitions while neglecting the wider community of everyday practitioners. This survey addresses these gaps by: (i) clearly delineating TAL, AS, and PES and their respective use cases; (ii) introducing a structured taxonomy of state of the art approaches including temporal modeling strategies, multimodal frameworks, and data-efficient pipelines tailored for AS and PES; and (iii) critically assessing benchmark datasets and evaluation protocols, highlighting limitations such as reliance on broadcast quality footage and metrics that over reward permissive multilabel predictions. By synthesizing current research and exposing open challenges, this work provides a comprehensive foundation for developing temporally precise, generalizable, and practically deployable sports event detection systems for both the research and industry communities.
academicDeep Learning for Sports Video Event Detection: Tasks, Datasets, Methods, and Challenges
- 论文ID: 2505.03991
- 标题: Deep Learning for Sports Video Event Detection: Tasks, Datasets, Methods, and Challenges
- 作者: Hao Xu, Arbind Agrahari Baniya, Sam Wells, Mohamed Reda Bouadjenek, Richard Dazeley, Sunil Aryal
- 分类: cs.CV
- 发表时间/会议: 2025年10月(ACM期刊)
- 论文链接: https://arxiv.org/abs/2505.03991
体育视频事件检测已成为现代体育分析的基石,支持自动化性能评估、内容生成和战术决策。深度学习的最新进展推动了相关任务的发展,包括时序动作定位(TAL)、动作定点(AS)和精确事件定点(PES)。尽管这些任务密切相关,但它们的细微差别往往模糊了彼此的界限,在研究和实际应用中造成混淆。本综述通过清晰界定TAL、AS和PES及其各自用例,引入针对AS和PES的最新方法结构化分类,以及批判性评估基准数据集和评价协议来解决这些差距,为开发时间精确、可泛化且实用的体育事件检测系统提供全面基础。
体育视频事件检测面临三个核心挑战:
- 任务界限模糊:TAL、AS和PES之间的细微差别导致研究和应用中的混淆
- 时间精度要求:体育事件通常需要帧级精度,而传统方法往往无法满足
- 实用性差距:现有研究多关注精英赛事,忽略了日常实践者的需求
- 经济价值:体育市场预计到2030年将达到8260亿美元,年复合增长率6.6%
- 技术需求:自动化性能分析、战术决策和内容生成的迫切需要
- 应用广泛:从专业赛事到业余比赛,覆盖广泛的用户群体
- 评价指标问题:现有mAP@δ指标允许多标签预测,不符合实际应用需求
- 数据集局限:过度依赖广播质量视频,缺乏真实世界场景数据
- 泛化能力差:跨运动项目的泛化能力有限
- 任务定义与区分:首次系统性地定义和区分TAL、AS、PES三个任务,明确各自的目标、标注方案和应用场景
- 方法学分类体系:提出深度学习方法的结构化分类,包括时序建模、多模态融合和数据高效学习
- 数据集和评价协议综述:全面总结基准数据集,批判性分析评价指标的局限性
- 实践指导:识别开放挑战并提出未来研究方向,弥合学术研究与实际应用的差距
- 输出类型:时间区间
- 标注格式:开始和结束时间
- 容错窗口:~1-5秒
- 适用场景:长时间、连续性动作(如网球发球全过程)
- 输出类型:单个关键帧
- 标注格式:单个时间戳
- 容错窗口:5-60帧
- 适用场景:模糊、快节奏动作(如足球传球、射门)
- 输出类型:单个关键帧
- 标注格式:单个时间戳
- 容错窗口:0-2帧
- 适用场景:需要帧级精度的关键事件(如乒乓球击球瞬间)
池化方法:
- 采用滑动窗口策略,将视频分割为固定长度片段
- 使用平均池化、NetVLAD、NetVLAD++等聚合时序特征
- 优点:实现简单,计算高效
- 缺点:丢失序列信息,限制帧级精度
编码器方法:
- 使用1D CNN、3D CNN、RNN、Transformer等序列模型
- 保持时间维度,支持帧级预测
- 代表方法:SpotFormer、STE、RMS-Net
- 优势:更丰富的上下文建模能力
帧感知方法:
- 直接修改主干架构以增强时空表示
- 引入帧特定机制保持完整时间维度
- 代表方法:E2E-Spot、UGL、T-DEED、ASTRM
- 创新点:端到端训练,真正的帧级分类
- 整合视觉、音频、文本等多种模态
- 代表方法:ASTRA(基于Transformer的跨模态注意力)
- 挑战:音频质量不稳定,噪声干扰严重
- 主动学习:选择性标注最有信息量的样本
- 自监督学习:COMEDIAN结合SSL和知识蒸馏
- 目标:减少对大规模标注数据的依赖
- SoccerNet-v1:500场比赛,764小时,3个事件类别
- SoccerNet-v2:扩展到17个事件类别,单时间戳标注
- SoccerNet Ball AS:专注细粒度球类交互,12个球相关类别
- Tennis:3,345个视频片段,6个类别
- OpenTTGames:12场高清乒乓球比赛,120 FPS
- TTA:39场准职业乒乓球比赛,8个事件类别
- P2A:2,721个乒乓球视频,272小时
- NCAA:257个篮球比赛视频,14个动作类别
- FineGym:5,374个体操表演,32个精细动作类别
- FineDiving:300个专业跳水视频,52个关键姿态转换
- mAP@T-IoU:用于TAL任务
- mAP@δ:用于AS和PES任务
现有mAP@δ指标存在严重问题:
- 允许同一帧多个类别预测
- 矛盾预测不被一致惩罚
- 评价工具包处理不一致
提出更严格的评价协议:
- Top-1过滤:每帧只保留最高分类别
- 阈值扫描:通过置信度阈值变化追踪PR曲线
- 惩罚过度预测:更符合实际部署需求
| 方法 | 年份 | 类别 | 参数量 | Test集Tight | Test集Loose | Challenge集Tight | Challenge集Loose |
|---|
| E2E-Spot | 2022 | Frame-Aware | 4.5M | - | - | 66.73 | 73.62 |
| COMEDIAN | 2024 | Data-Efficient | 29.1M | 73.10 | - | 68.38 | 73.98 |
| Santra et al. | 2025 | Frame-Aware | 6.46M | 73.74 | 79.11 | - | - |
- 帧感知方法表现最佳,实现真正的帧级分类
- 数据高效方法在减少标注需求方面显示潜力
- 多模态融合在特定场景下提供显著改进
- 跨数据集泛化仍是主要挑战
- Ghosh等:广泛覆盖体育AI但未专注深度学习CV方法
- Thomas等:主要关注传统CV方法和多相机系统
- Hu等:详细介绍TAL但未涵盖AS和PES
- 专门针对单目视频中的深度学习方法
- 系统区分TAL、AS、PES三个任务
- 关注实际部署和非精英赛事需求
- 任务区分至关重要:TAL、AS、PES各有适用场景,需要不同的技术方案
- 帧感知方法是趋势:为PES任务提供必要的时间精度
- 评价协议需改进:现有指标不能准确反映实际应用性能
- 泛化能力亟待提升:跨运动项目的适应性是关键挑战
- 数据集偏向性:过度依赖专业广播视频
- 评价标准不统一:不同实现的mAP计算存在差异
- 实际应用差距:学术基准与真实世界部署需求不匹配
- 增强泛化能力:开发跨运动项目的通用方法
- 无监督学习:减少对大规模标注的依赖
- 多模态融合:更好地整合音频、文本等信息
- 真实世界数据:构建更贴近实际应用的数据集
- 全面性强:首个专门针对体育视频事件检测的深度学习综述
- 实用导向:不仅关注学术研究,更重视实际应用需求
- 批判性思维:客观指出现有评价指标的严重问题
- 前瞻性:提出具体可行的改进建议和研究方向
- 方法创新有限:主要是综述性工作,技术创新相对较少
- 实验验证不足:对提出的评价指标改进缺乏实验验证
- 跨领域分析浅显:对不同运动项目间差异的分析还不够深入
- 学术价值:为该领域研究者提供重要参考框架
- 实用价值:帮助工业界了解技术现状和应用前景
- 标准化推动:可能推动评价协议的标准化改进
- 体育视频分析系统开发
- 自动化赛事内容生成
- 运动员性能分析
- 体育广播智能化
本文引用了98篇相关文献,涵盖了体育视频分析、深度学习、计算机视觉等多个领域的重要工作,为读者提供了全面的文献基础。
总结:这是一篇高质量的综述论文,系统梳理了体育视频事件检测领域的发展现状,特别是在深度学习方法应用方面。论文的主要贡献在于清晰界定了不同任务类型,提出了结构化的方法分类体系,并批判性地分析了现有评价协议的问题。虽然在技术创新方面相对有限,但其对领域发展的指导价值和对实际应用的关注使其成为该领域的重要参考文献。