Video event detection has become a cornerstone of modern sports analytics, powering automated performance evaluation, content generation, and tactical decision-making. Recent advances in deep learning have driven progress in related tasks such as Temporal Action Localization (TAL), which detects extended action segments; Action Spotting (AS), which identifies a representative timestamp; and Precise Event Spotting (PES), which pinpoints the exact frame of an event. Although closely connected, their subtle differences often blur the boundaries between them, leading to confusion in both research and practical applications. Furthermore, prior surveys either address generic video event detection or broader sports video tasks, but largely overlook the unique temporal granularity and domain-specific challenges of event spotting. In addition, most existing sports video surveys focus on elite-level competitions while neglecting the wider community of everyday practitioners. This survey addresses these gaps by: (i) clearly delineating TAL, AS, and PES and their respective use cases; (ii) introducing a structured taxonomy of state of the art approaches including temporal modeling strategies, multimodal frameworks, and data-efficient pipelines tailored for AS and PES; and (iii) critically assessing benchmark datasets and evaluation protocols, highlighting limitations such as reliance on broadcast quality footage and metrics that over reward permissive multilabel predictions. By synthesizing current research and exposing open challenges, this work provides a comprehensive foundation for developing temporally precise, generalizable, and practically deployable sports event detection systems for both the research and industry communities.
academic- ID статьи: 2505.03991
- Название: Deep Learning for Sports Video Event Detection: Tasks, Datasets, Methods, and Challenges
- Авторы: Hao Xu, Arbind Agrahari Baniya, Sam Wells, Mohamed Reda Bouadjenek, Richard Dazeley, Sunil Aryal
- Категория: cs.CV
- Дата публикации/конференция: октябрь 2025 г. (журнал ACM)
- Ссылка на статью: https://arxiv.org/abs/2505.03991
Обнаружение событий в спортивных видео стало краеугольным камнем современного спортивного анализа, поддерживая автоматизированную оценку производительности, создание контента и тактические решения. Последние достижения в глубоком обучении способствовали развитию связанных задач, включая локализацию временных действий (TAL), определение действий (AS) и точное определение событий (PES). Несмотря на тесную связь этих задач, их тонкие различия часто размывают границы между ними, вызывая путаницу в исследованиях и практических приложениях. Данный обзор решает эти пробелы путём чёткого определения TAL, AS и PES и их соответствующих вариантов использования, введения структурированной классификации современных методов для AS и PES, а также критической оценки эталонных наборов данных и протоколов оценки, предоставляя комплексную основу для разработки временно точных, обобщаемых и практичных систем обнаружения спортивных событий.
Обнаружение событий в спортивных видео сталкивается с тремя основными вызовами:
- Размытые границы задач: тонкие различия между TAL, AS и PES приводят к путанице в исследованиях и приложениях
- Требования к временной точности: спортивные события обычно требуют точности на уровне кадра, которую традиционные методы часто не могут обеспечить
- Разрыв в практичности: существующие исследования в основном сосредоточены на элитных соревнованиях, игнорируя потребности практикующих спортсменов
- Экономическая ценность: спортивный рынок, как ожидается, достигнет 826 миллиардов долларов к 2030 году с годовым темпом роста 6,6%
- Технические потребности: срочная необходимость в автоматизированном анализе производительности, тактических решениях и создании контента
- Широкое применение: от профессиональных соревнований до любительских матчей, охватывая широкий круг пользователей
- Проблемы с метриками оценки: существующая метрика mAP@δ допускает многолабельные предсказания, что не соответствует требованиям реальных приложений
- Ограничения наборов данных: чрезмерная зависимость от видео трансляционного качества, отсутствие данных реальных сценариев
- Плохая обобщаемость: ограниченная способность к обобщению между различными видами спорта
- Определение и различие задач: первое систематическое определение и различие трёх задач TAL, AS, PES, уточнение целей каждой, схем аннотирования и сценариев применения
- Система классификации методов: предложена структурированная классификация методов глубокого обучения, включая временное моделирование, мультимодальное слияние и обучение с эффективным использованием данных
- Обзор наборов данных и протоколов оценки: всеобъемлющий обзор эталонных наборов данных с критическим анализом ограничений метрик оценки
- Практическое руководство: выявление открытых проблем и предложение направлений будущих исследований для сокращения разрыва между академическими исследованиями и практическими приложениями
- Тип выхода: временной интервал
- Формат аннотирования: время начала и окончания
- Окно допуска: ~1-5 секунд
- Сценарии применения: длительные, непрерывные действия (например, полный процесс подачи в теннисе)
- Тип выхода: один ключевой кадр
- Формат аннотирования: один временной штамп
- Окно допуска: 5-60 кадров
- Сценарии применения: неясные, быстрые действия (например, передача в футболе, удар)
- Тип выхода: один ключевой кадр
- Формат аннотирования: один временной штамп
- Окно допуска: 0-2 кадра
- Сценарии применения: ключевые события, требующие точности на уровне кадра (например, момент удара в настольном теннисе)
Методы объединения:
- Использование стратегии скользящего окна, разделение видео на сегменты фиксированной длины
- Применение среднего объединения, NetVLAD, NetVLAD++ и других методов агрегирования временных признаков
- Преимущества: простая реализация, высокая вычислительная эффективность
- Недостатки: потеря последовательной информации, ограничение точности на уровне кадра
Методы кодирования:
- Использование 1D CNN, 3D CNN, RNN, Transformer и других моделей последовательности
- Сохранение временного измерения, поддержка предсказаний на уровне кадра
- Представительные методы: SpotFormer, STE, RMS-Net
- Преимущества: более богатые возможности моделирования контекста
Методы, учитывающие кадры:
- Прямое изменение архитектуры основной сети для улучшения пространственно-временного представления
- Введение механизмов, специфичных для кадров, для сохранения полного временного измерения
- Представительные методы: E2E-Spot, UGL, T-DEED, ASTRM
- Инновационные подходы: сквозное обучение, истинная классификация на уровне кадра
- Интеграция визуальной, аудиальной, текстовой и других модальностей
- Представительный метод: ASTRA (кросс-модальное внимание на основе Transformer)
- Вызовы: нестабильное качество аудио, серьёзные помехи шума
- Активное обучение: выборочное аннотирование наиболее информативных образцов
- Самоконтролируемое обучение: COMEDIAN, объединяющий SSL и дистилляцию знаний
- Цель: снижение зависимости от крупномасштабных аннотированных данных
- SoccerNet-v1: 500 матчей, 764 часа, 3 категории событий
- SoccerNet-v2: расширение до 17 категорий событий, аннотирование с одним временным штампом
- SoccerNet Ball AS: сосредоточение на тонкозернистых взаимодействиях с мячом, 12 категорий, связанных с мячом
- Tennis: 3,345 видеофрагментов, 6 категорий
- OpenTTGames: 12 матчей по настольному теннису в высоком разрешении, 120 FPS
- TTA: 39 матчей по настольному теннису полупрофессионального уровня, 8 категорий событий
- P2A: 2,721 видео по настольному теннису, 272 часа
- NCAA: 257 видео баскетбольных матчей, 14 категорий действий
- FineGym: 5,374 гимнастических выступления, 32 категории тонких действий
- FineDiving: 300 видео профессиональных прыжков в воду, 52 категории переходов ключевых поз
- mAP@T-IoU: используется для задач TAL
- mAP@δ: используется для задач AS и PES
Существующая метрика mAP@δ имеет серьёзные проблемы:
- Допускает несколько предсказаний класса для одного кадра
- Противоречивые предсказания не наказываются последовательно
- Инструменты оценки обрабатывают данные непоследовательно
Предложены более строгие протоколы оценки:
- Фильтрация Top-1: сохранение только класса с наивысшей оценкой для каждого кадра
- Сканирование порога: отслеживание кривой PR путём варьирования порога уверенности
- Штраф за чрезмерное предсказание: более соответствует требованиям реального развёртывания
| Метод | Год | Категория | Параметры | Test Tight | Test Loose | Challenge Tight | Challenge Loose |
|---|
| E2E-Spot | 2022 | Frame-Aware | 4.5M | - | - | 66.73 | 73.62 |
| COMEDIAN | 2024 | Data-Efficient | 29.1M | 73.10 | - | 68.38 | 73.98 |
| Santra et al. | 2025 | Frame-Aware | 6.46M | 73.74 | 79.11 | - | - |
- Методы, учитывающие кадры, показывают лучшие результаты, обеспечивая истинную классификацию на уровне кадра
- Методы с эффективным использованием данных демонстрируют потенциал в снижении требований к аннотированию
- Мультимодальное слияние обеспечивает значительные улучшения в определённых сценариях
- Обобщение между наборами данных остаётся основной проблемой
- Ghosh и др.: широкое охватывание спортивного ИИ, но без фокуса на методы глубокого обучения в компьютерном зрении
- Thomas и др.: основное внимание на традиционные методы компьютерного зрения и многокамерные системы
- Hu и др.: подробное введение в TAL, но без охватывания AS и PES
- Специальный фокус на методы глубокого обучения в монокулярных видео
- Систематическое различие трёх задач TAL, AS, PES
- Внимание к требованиям реального развёртывания и неэлитных соревнований
- Различие задач критически важно: TAL, AS, PES имеют соответствующие сценарии применения и требуют различных технических решений
- Методы, учитывающие кадры, — это тренд: обеспечивают необходимую временную точность для задач PES
- Протоколы оценки требуют улучшения: существующие метрики не могут точно отражать производительность в реальных приложениях
- Обобщаемость требует срочного улучшения: адаптивность между различными видами спорта — это ключевой вызов
- Смещение наборов данных: чрезмерная зависимость от профессиональных трансляционных видео
- Отсутствие единых стандартов оценки: различия в расчёте mAP между различными реализациями
- Разрыв с реальными приложениями: несоответствие между академическими эталонами и требованиями реального развёртывания
- Улучшение обобщаемости: разработка универсальных методов для различных видов спорта
- Неконтролируемое обучение: снижение зависимости от крупномасштабного аннотирования
- Мультимодальное слияние: лучшая интеграция аудиальной, текстовой и другой информации
- Данные реального мира: создание наборов данных, более приближённых к реальным приложениям
- Высокая полнота: первый специализированный обзор глубокого обучения для обнаружения событий в спортивных видео
- Практическая ориентация: внимание не только к академическим исследованиям, но и к требованиям реальных приложений
- Критическое мышление: объективное указание на серьёзные проблемы существующих метрик оценки
- Перспективность: предложение конкретных и осуществимых рекомендаций по улучшению и направлений исследований
- Ограниченные технологические инновации: в основном обзорная работа с относительно небольшим количеством технических инноваций
- Недостаточная экспериментальная проверка: отсутствие экспериментальной проверки предложенных улучшений метрик оценки
- Поверхностный кросс-доменный анализ: анализ различий между различными видами спорта остаётся недостаточно глубоким
- Академическая ценность: предоставление важной справочной базы для исследователей в этой области
- Практическая ценность: помощь промышленности в понимании текущего состояния технологии и перспектив применения
- Продвижение стандартизации: возможное содействие стандартизации улучшений протоколов оценки
- Разработка систем анализа спортивных видео
- Автоматизированное создание контента спортивных трансляций
- Анализ производительности спортсменов
- Интеллектуализация спортивного вещания
Статья ссылается на 98 соответствующих работ, охватывающих важные исследования в области анализа спортивных видео, глубокого обучения, компьютерного зрения и других областей, предоставляя читателям комплексную библиографическую базу.
Резюме: Это высококачественная обзорная статья, систематически описывающая текущее состояние развития в области обнаружения событий в спортивных видео, особенно в применении методов глубокого обучения. Основной вклад статьи заключается в чётком определении различных типов задач, предложении структурированной системы классификации методов и критическом анализе проблем существующих протоколов оценки. Хотя статья относительно ограничена в технологических инновациях, её руководящая ценность для развития области и внимание к практическим приложениям делают её важным справочным материалом в этой области.