Video event detection has become a cornerstone of modern sports analytics, powering automated performance evaluation, content generation, and tactical decision-making. Recent advances in deep learning have driven progress in related tasks such as Temporal Action Localization (TAL), which detects extended action segments; Action Spotting (AS), which identifies a representative timestamp; and Precise Event Spotting (PES), which pinpoints the exact frame of an event. Although closely connected, their subtle differences often blur the boundaries between them, leading to confusion in both research and practical applications. Furthermore, prior surveys either address generic video event detection or broader sports video tasks, but largely overlook the unique temporal granularity and domain-specific challenges of event spotting. In addition, most existing sports video surveys focus on elite-level competitions while neglecting the wider community of everyday practitioners. This survey addresses these gaps by: (i) clearly delineating TAL, AS, and PES and their respective use cases; (ii) introducing a structured taxonomy of state of the art approaches including temporal modeling strategies, multimodal frameworks, and data-efficient pipelines tailored for AS and PES; and (iii) critically assessing benchmark datasets and evaluation protocols, highlighting limitations such as reliance on broadcast quality footage and metrics that over reward permissive multilabel predictions. By synthesizing current research and exposing open challenges, this work provides a comprehensive foundation for developing temporally precise, generalizable, and practically deployable sports event detection systems for both the research and industry communities.
academic- 논문 ID: 2505.03991
- 제목: Deep Learning for Sports Video Event Detection: Tasks, Datasets, Methods, and Challenges
- 저자: Hao Xu, Arbind Agrahari Baniya, Sam Wells, Mohamed Reda Bouadjenek, Richard Dazeley, Sunil Aryal
- 분류: cs.CV
- 발표 시간/학술지: 2025년 10월(ACM 저널)
- 논문 링크: https://arxiv.org/abs/2505.03991
스포츠 비디오 이벤트 검출은 현대 스포츠 분석의 초석이 되어 자동화된 성능 평가, 콘텐츠 생성 및 전술적 의사결정을 지원하고 있습니다. 딥러닝의 최근 발전은 시간적 동작 위치 결정(TAL), 동작 스포팅(AS) 및 정밀 이벤트 스포팅(PES)을 포함한 관련 과제의 발전을 주도했습니다. 이러한 과제들이 밀접하게 연관되어 있음에도 불구하고, 그들의 미묘한 차이는 종종 경계를 모호하게 하여 연구 및 실제 응용에서 혼동을 야기합니다. 본 종합 검토는 TAL, AS 및 PES를 명확히 정의하고 각각의 사용 사례를 제시하며, AS 및 PES에 대한 최신 방법의 구조화된 분류를 도입하고, 벤치마크 데이터셋 및 평가 프로토콜을 비판적으로 평가함으로써 이러한 격차를 해결합니다. 이는 시간적으로 정확하고 일반화 가능하며 실용적인 스포츠 이벤트 검출 시스템 개발을 위한 포괄적인 기초를 제공합니다.
스포츠 비디오 이벤트 검출은 세 가지 핵심 도전 과제에 직면해 있습니다:
- 과제 경계의 모호성: TAL, AS 및 PES 간의 미묘한 차이로 인한 연구 및 응용에서의 혼동
- 시간적 정확도 요구사항: 스포츠 이벤트는 일반적으로 프레임 수준의 정확도가 필요하지만 기존 방법은 종종 이를 충족하지 못함
- 실용성 격차: 기존 연구는 주로 엘리트 경기에 초점을 맞추고 일상적인 실무자의 요구를 간과함
- 경제적 가치: 스포츠 시장은 2030년까지 8,260억 달러에 도달할 것으로 예상되며, 연평균 성장률은 6.6%
- 기술적 필요성: 자동화된 성능 분석, 전술적 의사결정 및 콘텐츠 생성의 긴급한 필요
- 광범위한 응용: 전문 경기에서 아마추어 경기까지 광범위한 사용자 집단을 포괄
- 평가 지표 문제: 기존 mAP@δ 지표는 다중 레이블 예측을 허용하여 실제 응용 요구사항과 맞지 않음
- 데이터셋 한계: 방송 품질 비디오에 과도하게 의존하며 실제 환경 데이터 부족
- 일반화 능력 부족: 스포츠 종목 간 일반화 능력 제한
- 과제 정의 및 구분: TAL, AS, PES 세 가지 과제를 처음으로 체계적으로 정의하고 구분하며, 각각의 목표, 주석 방식 및 응용 시나리오를 명확히 함
- 방법론적 분류 체계: 시간적 모델링, 다중 모달 융합 및 데이터 효율적 학습을 포함한 딥러닝 방법의 구조화된 분류 제시
- 데이터셋 및 평가 프로토콜 종합 검토: 벤치마크 데이터셋을 전면적으로 요약하고 평가 지표의 한계를 비판적으로 분석
- 실무 지침: 개방형 도전 과제를 파악하고 향후 연구 방향을 제시하여 학술 연구와 실제 응용 간의 격차를 해소
- 출력 유형: 시간 구간
- 주석 형식: 시작 및 종료 시간
- 오차 허용 범위: ~1-5초
- 적용 시나리오: 장시간, 연속적 동작(예: 테니스 서브 전체 과정)
- 출력 유형: 단일 키 프레임
- 주석 형식: 단일 시간 스탬프
- 오차 허용 범위: 5-60 프레임
- 적용 시나리오: 모호하고 빠른 속도의 동작(예: 축구 패스, 슈팅)
- 출력 유형: 단일 키 프레임
- 주석 형식: 단일 시간 스탬프
- 오차 허용 범위: 0-2 프레임
- 적용 시나리오: 프레임 수준 정확도가 필요한 핵심 이벤트(예: 탁구 타격 순간)
풀링 방법:
- 슬라이딩 윈도우 전략을 채택하여 비디오를 고정 길이 세그먼트로 분할
- 평균 풀링, NetVLAD, NetVLAD++ 등을 사용하여 시간적 특징 집계
- 장점: 구현이 간단하고 계산 효율이 높음
- 단점: 시퀀스 정보 손실, 프레임 수준 정확도 제한
인코더 방법:
- 1D CNN, 3D CNN, RNN, Transformer 등의 시퀀스 모델 사용
- 시간 차원 유지로 프레임 수준 예측 지원
- 대표 방법: SpotFormer, STE, RMS-Net
- 장점: 더 풍부한 맥락 모델링 능력
프레임 인식 방법:
- 시공간 표현을 강화하기 위해 주요 아키텍처를 직접 수정
- 완전한 시간 차원을 유지하기 위해 프레임 특정 메커니즘 도입
- 대표 방법: E2E-Spot, UGL, T-DEED, ASTRM
- 혁신점: 엔드-투-엔드 학습, 진정한 프레임 수준 분류
- 시각, 음성, 텍스트 등 다양한 모달 통합
- 대표 방법: ASTRA(Transformer 기반 교차 모달 주의)
- 도전 과제: 음성 품질 불안정, 노이즈 간섭 심각
- 능동 학습: 가장 정보량이 많은 샘플의 선택적 주석
- 자기 감독 학습: SSL과 지식 증류를 결합한 COMEDIAN
- 목표: 대규모 주석 데이터에 대한 의존성 감소
- SoccerNet-v1: 500경기, 764시간, 3개 이벤트 범주
- SoccerNet-v2: 17개 이벤트 범주로 확장, 단일 시간 스탬프 주석
- SoccerNet Ball AS: 세분화된 볼 상호작용에 초점, 12개 볼 관련 범주
- Tennis: 3,345개 비디오 세그먼트, 6개 범주
- OpenTTGames: 12경기 고화질 탁구, 120 FPS
- TTA: 39경기 준전문 탁구, 8개 이벤트 범주
- P2A: 2,721개 탁구 비디오, 272시간
- NCAA: 257개 농구 경기 비디오, 14개 동작 범주
- FineGym: 5,374개 체조 공연, 32개 세분화된 동작 범주
- FineDiving: 300개 전문 다이빙 비디오, 52개 주요 자세 전환
- mAP@T-IoU: TAL 과제용
- mAP@δ: AS 및 PES 과제용
기존 mAP@δ 지표는 심각한 문제가 있습니다:
- 동일 프레임에서 여러 범주 예측 허용
- 모순된 예측이 일관되게 처벌되지 않음
- 평가 도구 패키지 처리 불일치
더 엄격한 평가 프로토콜 제시:
- Top-1 필터링: 각 프레임에서 최고 점수 범주만 유지
- 임계값 스캔: 신뢰도 임계값 변화를 통한 PR 곡선 추적
- 과도 예측 처벌: 실제 배포 요구사항에 더 부합
| 방법 | 연도 | 범주 | 매개변수 수 | Test 세트 Tight | Test 세트 Loose | Challenge 세트 Tight | Challenge 세트 Loose |
|---|
| E2E-Spot | 2022 | Frame-Aware | 4.5M | - | - | 66.73 | 73.62 |
| COMEDIAN | 2024 | Data-Efficient | 29.1M | 73.10 | - | 68.38 | 73.98 |
| Santra et al. | 2025 | Frame-Aware | 6.46M | 73.74 | 79.11 | - | - |
- 프레임 인식 방법이 최고 성능을 보이며 진정한 프레임 수준 분류 구현
- 데이터 효율적 방법이 주석 요구사항 감소에서 잠재력 시연
- 다중 모달 융합이 특정 시나리오에서 상당한 개선 제공
- 교차 데이터셋 일반화가 여전히 주요 도전 과제
- Ghosh 등: 스포츠 AI를 광범위하게 다루지만 딥러닝 CV 방법에 초점을 맞추지 않음
- Thomas 등: 주로 전통적 CV 방법 및 다중 카메라 시스템에 초점
- Hu 등: TAL을 상세히 소개하지만 AS 및 PES를 포함하지 않음
- 단일 카메라 비디오의 딥러닝 방법에 특화
- TAL, AS, PES 세 가지 과제를 체계적으로 구분
- 실제 배포 및 비엘리트 경기에 대한 관심
- 과제 구분이 매우 중요함: TAL, AS, PES는 각각 적용 시나리오가 있으며 다양한 기술 솔루션 필요
- 프레임 인식 방법이 추세: PES 과제에 필요한 시간적 정확도 제공
- 평가 프로토콜 개선 필요: 기존 지표는 실제 응용 성능을 정확히 반영하지 못함
- 일반화 능력 긴급히 개선 필요: 스포츠 종목 간 적응성이 핵심 도전 과제
- 데이터셋 편향성: 전문 방송 비디오에 과도하게 의존
- 평가 표준 불일치: 다양한 구현 간 mAP 계산 차이
- 실제 응용 격차: 학술 벤치마크와 실제 배포 요구사항 불일치
- 일반화 능력 강화: 스포츠 종목 간 통용 방법 개발
- 비감독 학습: 대규모 주석에 대한 의존성 감소
- 다중 모달 융합: 음성, 텍스트 등 정보의 더 나은 통합
- 실제 환경 데이터: 실제 응용에 더 가까운 데이터셋 구축
- 포괄성 강함: 스포츠 비디오 이벤트 검출을 위한 첫 번째 딥러닝 종합 검토
- 실용 지향: 학술 연구뿐만 아니라 실제 응용 요구사항에 중점
- 비판적 사고: 기존 평가 지표의 심각한 문제점을 객관적으로 지적
- 전망성: 구체적이고 실행 가능한 개선 제안 및 연구 방향 제시
- 방법론적 혁신 제한: 주로 종합 검토 작업으로 기술 혁신 상대적으로 적음
- 실험 검증 부족: 제시된 평가 지표 개선에 대한 실험 검증 부족
- 교차 분야 분석 얕음: 다양한 스포츠 종목 간 차이에 대한 분석이 충분하지 않음
- 학술적 가치: 해당 분야 연구자에게 중요한 참고 프레임워크 제공
- 실용적 가치: 산업계가 기술 현황 및 응용 전망을 이해하도록 지원
- 표준화 추진: 평가 프로토콜의 표준화 개선 추진 가능성
- 스포츠 비디오 분석 시스템 개발
- 자동화된 경기 콘텐츠 생성
- 운동선수 성능 분석
- 스포츠 방송 지능화
본 논문은 스포츠 비디오 분석, 딥러닝, 컴퓨터 비전 등 다양한 분야의 중요한 연구를 포괄하는 98편의 관련 문헌을 인용하여 독자에게 포괄적인 문헌 기초를 제공합니다.
요약: 이것은 스포츠 비디오 이벤트 검출 분야의 발전 현황을 체계적으로 정리한 고품질 종합 검토 논문입니다. 특히 딥러닝 방법의 응용 측면에서 그렇습니다. 본 논문의 주요 기여는 다양한 과제 유형을 명확히 정의하고, 구조화된 방법론 분류 체계를 제시하며, 기존 평가 프로토콜의 문제점을 비판적으로 분석하는 데 있습니다. 기술 혁신 측면에서는 상대적으로 제한적이지만, 분야 발전에 대한 지도적 가치와 실제 응용에 대한 관심으로 인해 해당 분야의 중요한 참고 문헌이 됩니다.