2025-11-15T07:52:11.794343

Deep Learning for Sports Video Event Detection: Tasks, Datasets, Methods, and Challenges

Xu, Baniya, Well et al.

Video event detection has become a cornerstone of modern sports analytics, powering automated performance evaluation, content generation, and tactical decision-making. Recent advances in deep learning have driven progress in related tasks such as Temporal Action Localization (TAL), which detects extended action segments; Action Spotting (AS), which identifies a representative timestamp; and Precise Event Spotting (PES), which pinpoints the exact frame of an event. Although closely connected, their subtle differences often blur the boundaries between them, leading to confusion in both research and practical applications. Furthermore, prior surveys either address generic video event detection or broader sports video tasks, but largely overlook the unique temporal granularity and domain-specific challenges of event spotting. In addition, most existing sports video surveys focus on elite-level competitions while neglecting the wider community of everyday practitioners. This survey addresses these gaps by: (i) clearly delineating TAL, AS, and PES and their respective use cases; (ii) introducing a structured taxonomy of state of the art approaches including temporal modeling strategies, multimodal frameworks, and data-efficient pipelines tailored for AS and PES; and (iii) critically assessing benchmark datasets and evaluation protocols, highlighting limitations such as reliance on broadcast quality footage and metrics that over reward permissive multilabel predictions. By synthesizing current research and exposing open challenges, this work provides a comprehensive foundation for developing temporally precise, generalizable, and practically deployable sports event detection systems for both the research and industry communities.

academic

Глубокое обучение для обнаружения событий в спортивных видео: задачи, наборы данных, методы и вызовы

Основная информация

ID статьи: 2505.03991
Название: Deep Learning for Sports Video Event Detection: Tasks, Datasets, Methods, and Challenges
Авторы: Hao Xu, Arbind Agrahari Baniya, Sam Wells, Mohamed Reda Bouadjenek, Richard Dazeley, Sunil Aryal
Категория: cs.CV
Дата публикации/конференция: октябрь 2025 г. (журнал ACM)
Ссылка на статью: https://arxiv.org/abs/2505.03991

Аннотация

Обнаружение событий в спортивных видео стало краеугольным камнем современного спортивного анализа, поддерживая автоматизированную оценку производительности, создание контента и тактические решения. Последние достижения в глубоком обучении способствовали развитию связанных задач, включая локализацию временных действий (TAL), определение действий (AS) и точное определение событий (PES). Несмотря на тесную связь этих задач, их тонкие различия часто размывают границы между ними, вызывая путаницу в исследованиях и практических приложениях. Данный обзор решает эти пробелы путём чёткого определения TAL, AS и PES и их соответствующих вариантов использования, введения структурированной классификации современных методов для AS и PES, а также критической оценки эталонных наборов данных и протоколов оценки, предоставляя комплексную основу для разработки временно точных, обобщаемых и практичных систем обнаружения спортивных событий.

Исследовательский контекст и мотивация

Определение проблемы

Обнаружение событий в спортивных видео сталкивается с тремя основными вызовами:

Размытые границы задач: тонкие различия между TAL, AS и PES приводят к путанице в исследованиях и приложениях
Требования к временной точности: спортивные события обычно требуют точности на уровне кадра, которую традиционные методы часто не могут обеспечить
Разрыв в практичности: существующие исследования в основном сосредоточены на элитных соревнованиях, игнорируя потребности практикующих спортсменов

Анализ значимости

Экономическая ценность: спортивный рынок, как ожидается, достигнет 826 миллиардов долларов к 2030 году с годовым темпом роста 6,6%
Технические потребности: срочная необходимость в автоматизированном анализе производительности, тактических решениях и создании контента
Широкое применение: от профессиональных соревнований до любительских матчей, охватывая широкий круг пользователей

Ограничения существующих методов

Проблемы с метриками оценки: существующая метрика mAP@δ допускает многолабельные предсказания, что не соответствует требованиям реальных приложений
Ограничения наборов данных: чрезмерная зависимость от видео трансляционного качества, отсутствие данных реальных сценариев
Плохая обобщаемость: ограниченная способность к обобщению между различными видами спорта

Основные вклады

Определение и различие задач: первое систематическое определение и различие трёх задач TAL, AS, PES, уточнение целей каждой, схем аннотирования и сценариев применения
Система классификации методов: предложена структурированная классификация методов глубокого обучения, включая временное моделирование, мультимодальное слияние и обучение с эффективным использованием данных
Обзор наборов данных и протоколов оценки: всеобъемлющий обзор эталонных наборов данных с критическим анализом ограничений метрик оценки
Практическое руководство: выявление открытых проблем и предложение направлений будущих исследований для сокращения разрыва между академическими исследованиями и практическими приложениями

Подробное описание методов

Определение задач

Локализация временных действий (TAL)

Тип выхода: временной интервал
Формат аннотирования: время начала и окончания
Окно допуска: ~1-5 секунд
Сценарии применения: длительные, непрерывные действия (например, полный процесс подачи в теннисе)

Определение действий (AS)

Тип выхода: один ключевой кадр
Формат аннотирования: один временной штамп
Окно допуска: 5-60 кадров
Сценарии применения: неясные, быстрые действия (например, передача в футболе, удар)

Точное определение событий (PES)

Тип выхода: один ключевой кадр
Формат аннотирования: один временной штамп
Окно допуска: 0-2 кадра
Сценарии применения: ключевые события, требующие точности на уровне кадра (например, момент удара в настольном теннисе)

Классификация архитектур моделей

1. Методы временного моделирования

Методы объединения:

Использование стратегии скользящего окна, разделение видео на сегменты фиксированной длины
Применение среднего объединения, NetVLAD, NetVLAD++ и других методов агрегирования временных признаков
Преимущества: простая реализация, высокая вычислительная эффективность
Недостатки: потеря последовательной информации, ограничение точности на уровне кадра

Методы кодирования:

Использование 1D CNN, 3D CNN, RNN, Transformer и других моделей последовательности
Сохранение временного измерения, поддержка предсказаний на уровне кадра
Представительные методы: SpotFormer, STE, RMS-Net
Преимущества: более богатые возможности моделирования контекста

Методы, учитывающие кадры:

Прямое изменение архитектуры основной сети для улучшения пространственно-временного представления
Введение механизмов, специфичных для кадров, для сохранения полного временного измерения
Представительные методы: E2E-Spot, UGL, T-DEED, ASTRM
Инновационные подходы: сквозное обучение, истинная классификация на уровне кадра

2. Методы мультимодального слияния

Интеграция визуальной, аудиальной, текстовой и других модальностей
Представительный метод: ASTRA (кросс-модальное внимание на основе Transformer)
Вызовы: нестабильное качество аудио, серьёзные помехи шума

3. Методы обучения с эффективным использованием данных

Активное обучение: выборочное аннотирование наиболее информативных образцов
Самоконтролируемое обучение: COMEDIAN, объединяющий SSL и дистилляцию знаний
Цель: снижение зависимости от крупномасштабных аннотированных данных

Экспериментальная установка

Обзор наборов данных

Наборы данных по футболу

SoccerNet-v1: 500 матчей, 764 часа, 3 категории событий
SoccerNet-v2: расширение до 17 категорий событий, аннотирование с одним временным штампом
SoccerNet Ball AS: сосредоточение на тонкозернистых взаимодействиях с мячом, 12 категорий, связанных с мячом

Наборы данных по ракеточным видам спорта

Tennis: 3,345 видеофрагментов, 6 категорий
OpenTTGames: 12 матчей по настольному теннису в высоком разрешении, 120 FPS
TTA: 39 матчей по настольному теннису полупрофессионального уровня, 8 категорий событий
P2A: 2,721 видео по настольному теннису, 272 часа

Наборы данных по другим видам спорта

NCAA: 257 видео баскетбольных матчей, 14 категорий действий
FineGym: 5,374 гимнастических выступления, 32 категории тонких действий
FineDiving: 300 видео профессиональных прыжков в воду, 52 категории переходов ключевых поз

Метрики оценки

Традиционные метрики

mAP@T-IoU: используется для задач TAL
mAP@δ: используется для задач AS и PES

Ограничения метрик

Существующая метрика mAP@δ имеет серьёзные проблемы:

Допускает несколько предсказаний класса для одного кадра
Противоречивые предсказания не наказываются последовательно
Инструменты оценки обрабатывают данные непоследовательно

Результаты экспериментов

Сравнение производительности (набор данных SoccerNet)

Метод	Год	Категория	Параметры	Test Tight	Test Loose	Challenge Tight	Challenge Loose
E2E-Spot	2022	Frame-Aware	4.5M	-	-	66.73	73.62
COMEDIAN	2024	Data-Efficient	29.1M	73.10	-	68.38	73.98
Santra et al.	2025	Frame-Aware	6.46M	73.74	79.11	-	-

Ключевые выводы

Методы, учитывающие кадры, показывают лучшие результаты, обеспечивая истинную классификацию на уровне кадра
Методы с эффективным использованием данных демонстрируют потенциал в снижении требований к аннотированию
Мультимодальное слияние обеспечивает значительные улучшения в определённых сценариях
Обобщение между наборами данных остаётся основной проблемой

Связанные работы

Ограничения традиционных обзоров

Ghosh и др.: широкое охватывание спортивного ИИ, но без фокуса на методы глубокого обучения в компьютерном зрении
Thomas и др.: основное внимание на традиционные методы компьютерного зрения и многокамерные системы
Hu и др.: подробное введение в TAL, но без охватывания AS и PES

Уникальные вклады данной работы

Специальный фокус на методы глубокого обучения в монокулярных видео
Систематическое различие трёх задач TAL, AS, PES
Внимание к требованиям реального развёртывания и неэлитных соревнований

Заключение и обсуждение

Основные выводы

Различие задач критически важно: TAL, AS, PES имеют соответствующие сценарии применения и требуют различных технических решений
Методы, учитывающие кадры, — это тренд: обеспечивают необходимую временную точность для задач PES
Протоколы оценки требуют улучшения: существующие метрики не могут точно отражать производительность в реальных приложениях
Обобщаемость требует срочного улучшения: адаптивность между различными видами спорта — это ключевой вызов

Ограничения

Смещение наборов данных: чрезмерная зависимость от профессиональных трансляционных видео
Отсутствие единых стандартов оценки: различия в расчёте mAP между различными реализациями
Разрыв с реальными приложениями: несоответствие между академическими эталонами и требованиями реального развёртывания

Направления будущих исследований

Улучшение обобщаемости: разработка универсальных методов для различных видов спорта
Неконтролируемое обучение: снижение зависимости от крупномасштабного аннотирования
Мультимодальное слияние: лучшая интеграция аудиальной, текстовой и другой информации
Данные реального мира: создание наборов данных, более приближённых к реальным приложениям

Глубокая оценка

Преимущества

Высокая полнота: первый специализированный обзор глубокого обучения для обнаружения событий в спортивных видео
Практическая ориентация: внимание не только к академическим исследованиям, но и к требованиям реальных приложений
Критическое мышление: объективное указание на серьёзные проблемы существующих метрик оценки
Перспективность: предложение конкретных и осуществимых рекомендаций по улучшению и направлений исследований

Недостатки

Ограниченные технологические инновации: в основном обзорная работа с относительно небольшим количеством технических инноваций
Недостаточная экспериментальная проверка: отсутствие экспериментальной проверки предложенных улучшений метрик оценки
Поверхностный кросс-доменный анализ: анализ различий между различными видами спорта остаётся недостаточно глубоким

Влияние

Академическая ценность: предоставление важной справочной базы для исследователей в этой области
Практическая ценность: помощь промышленности в понимании текущего состояния технологии и перспектив применения
Продвижение стандартизации: возможное содействие стандартизации улучшений протоколов оценки

Сценарии применения

Разработка систем анализа спортивных видео
Автоматизированное создание контента спортивных трансляций
Анализ производительности спортсменов
Интеллектуализация спортивного вещания

Библиография

Статья ссылается на 98 соответствующих работ, охватывающих важные исследования в области анализа спортивных видео, глубокого обучения, компьютерного зрения и других областей, предоставляя читателям комплексную библиографическую базу.

Резюме: Это высококачественная обзорная статья, систематически описывающая текущее состояние развития в области обнаружения событий в спортивных видео, особенно в применении методов глубокого обучения. Основной вклад статьи заключается в чётком определении различных типов задач, предложении структурированной системы классификации методов и критическом анализе проблем существующих протоколов оценки. Хотя статья относительно ограничена в технологических инновациях, её руководящая ценность для развития области и внимание к практическим приложениям делают её важным справочным материалом в этой области.