2025-11-15T07:52:11.794343

Deep Learning for Sports Video Event Detection: Tasks, Datasets, Methods, and Challenges

Xu, Baniya, Well et al.
Video event detection has become a cornerstone of modern sports analytics, powering automated performance evaluation, content generation, and tactical decision-making. Recent advances in deep learning have driven progress in related tasks such as Temporal Action Localization (TAL), which detects extended action segments; Action Spotting (AS), which identifies a representative timestamp; and Precise Event Spotting (PES), which pinpoints the exact frame of an event. Although closely connected, their subtle differences often blur the boundaries between them, leading to confusion in both research and practical applications. Furthermore, prior surveys either address generic video event detection or broader sports video tasks, but largely overlook the unique temporal granularity and domain-specific challenges of event spotting. In addition, most existing sports video surveys focus on elite-level competitions while neglecting the wider community of everyday practitioners. This survey addresses these gaps by: (i) clearly delineating TAL, AS, and PES and their respective use cases; (ii) introducing a structured taxonomy of state of the art approaches including temporal modeling strategies, multimodal frameworks, and data-efficient pipelines tailored for AS and PES; and (iii) critically assessing benchmark datasets and evaluation protocols, highlighting limitations such as reliance on broadcast quality footage and metrics that over reward permissive multilabel predictions. By synthesizing current research and exposing open challenges, this work provides a comprehensive foundation for developing temporally precise, generalizable, and practically deployable sports event detection systems for both the research and industry communities.
academic

গভীর শিক্ষার মাধ্যমে ক্রীড়া ভিডিও ইভেন্ট সনাক্তকরণ: কাজ, ডেটাসেট, পদ্ধতি এবং চ্যালেঞ্জ

মৌলিক তথ্য

  • পেপার আইডি: 2505.03991
  • শিরোনাম: Deep Learning for Sports Video Event Detection: Tasks, Datasets, Methods, and Challenges
  • লেখক: Hao Xu, Arbind Agrahari Baniya, Sam Wells, Mohamed Reda Bouadjenek, Richard Dazeley, Sunil Aryal
  • শ্রেণীবিভাগ: cs.CV
  • প্রকাশনার সময়/সম্মেলন: ২০২৫ সালের অক্টোবর (ACM জার্নাল)
  • পেপার লিংক: https://arxiv.org/abs/2505.03991

সারসংক্ষেপ

ক্রীড়া ভিডিও ইভেন্ট সনাক্তকরণ আধুনিক ক্রীড়া বিশ্লেষণের ভিত্তি হয়ে উঠেছে, যা স্বয়ংক্রিয় কর্মক্ষমতা মূল্যায়ন, সামগ্রী উৎপাদন এবং কৌশলগত সিদ্ধান্ত গ্রহণকে সমর্থন করে। গভীর শিক্ষার সর্বশেষ অগ্রগতি সম্পর্কিত কাজগুলির বিকাশকে চালিত করেছে, যার মধ্যে রয়েছে সময়গত কর্ম স্থানীয়করণ (TAL), কর্ম স্থানীয়করণ (AS) এবং নির্ভুল ইভেন্ট স্থানীয়করণ (PES)। যদিও এই কাজগুলি ঘনিষ্ঠভাবে সম্পর্কিত, তবে তাদের সূক্ষ্ম পার্থক্যগুলি প্রায়শই তাদের সীমানা অস্পষ্ট করে, গবেষণা এবং ব্যবহারিক প্রয়োগে বিভ্রান্তি সৃষ্টি করে। এই পর্যালোচনা TAL, AS এবং PES স্পষ্টভাবে সংজ্ঞায়িত করে এবং তাদের নিজ নিজ ব্যবহারের ক্ষেত্রে, AS এবং PES-এর জন্য সর্বশেষ পদ্ধতির কাঠামোবদ্ধ শ্রেণীবিভাগ প্রবর্তন করে, এবং মানদণ্ড ডেটাসেট এবং মূল্যায়ন প্রোটোকল সমালোচনামূলকভাবে মূল্যায়ন করে এই ব্যবধানগুলি সমাধান করে। এটি সময়-নির্ভুল, সাধারণীকরণযোগ্য এবং ব্যবহারিক ক্রীড়া ইভেন্ট সনাক্তকরণ ব্যবস্থা বিকাশের জন্য একটি ব্যাপক ভিত্তি প্রদান করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

ক্রীড়া ভিডিও ইভেন্ট সনাক্তকরণ তিনটি মূল চ্যালেঞ্জের সম্মুখীন:

  1. কাজের সীমানা অস্পষ্টতা: TAL, AS এবং PES-এর মধ্যে সূক্ষ্ম পার্থক্য গবেষণা এবং প্রয়োগে বিভ্রান্তি সৃষ্টি করে
  2. সময়গত নির্ভুলতার প্রয়োজনীয়তা: ক্রীড়া ইভেন্টগুলি সাধারণত ফ্রেম-স্তরের নির্ভুলতা প্রয়োজন, যা ঐতিহ্যবাহী পদ্ধতিগুলি প্রায়শই পূরণ করতে পারে না
  3. ব্যবহারিক ব্যবধান: বিদ্যমান গবেষণা প্রধানত অভিজাত ইভেন্টগুলিতে ফোকাস করে, দৈনন্দিন অনুশীলনকারীদের চাহিদা উপেক্ষা করে

গুরুত্ব বিশ্লেষণ

  • অর্থনৈতিক মূল্য: ক্রীড়া বাজার ২০৩০ সালের মধ্যে ৮২৬ বিলিয়ন ডলারে পৌঁছানোর প্রত্যাশা করা হচ্ছে, বার্ষিক যৌগিক বৃদ্ধির হার ৬.৬%
  • প্রযুক্তিগত চাহিদা: স্বয়ংক্রিয় কর্মক্ষমতা বিশ্লেষণ, কৌশলগত সিদ্ধান্ত এবং সামগ্রী উৎপাদনের জরুরি প্রয়োজন
  • বিস্তৃত প্রয়োগ: পেশাদার ইভেন্ট থেকে শখের প্রতিযোগিতা পর্যন্ত, ব্যাপক ব্যবহারকারী গোষ্ঠীকে কভার করে

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  1. মূল্যায়ন মেট্রিক সমস্যা: বিদ্যমান mAP@δ মেট্রিক একাধিক লেবেল পূর্বাভাস অনুমতি দেয়, যা ব্যবহারিক প্রয়োগের চাহিদা পূরণ করে না
  2. ডেটাসেট সীমাবদ্ধতা: সম্প্রচার-মানের ভিডিওর উপর অত্যধিক নির্ভরতা, বাস্তব-বিশ্ব দৃশ্যের ডেটার অভাব
  3. দুর্বল সাধারণীকরণ ক্ষমতা: ক্রীড়া শাখা জুড়ে সীমিত সাধারণীকরণ ক্ষমতা

মূল অবদান

  1. কাজের সংজ্ঞা এবং পার্থক্য: TAL, AS, PES তিনটি কাজকে প্রথমবারের মতো পদ্ধতিগতভাবে সংজ্ঞায়িত এবং পার্থক্য করা, প্রতিটির উদ্দেশ্য, টীকা স্কিম এবং প্রয়োগের দৃশ্য স্পষ্ট করা
  2. পদ্ধতিগত শ্রেণীবিভাগ ব্যবস্থা: গভীর শিক্ষা পদ্ধতির একটি কাঠামোবদ্ধ শ্রেণীবিভাগ প্রস্তাব করা, যার মধ্যে রয়েছে সময়গত মডেলিং, মাল্টিমোডাল ফিউশন এবং ডেটা-দক্ষ শিক্ষা
  3. ডেটাসেট এবং মূল্যায়ন প্রোটোকল পর্যালোচনা: মানদণ্ড ডেটাসেটের ব্যাপক সংক্ষিপ্তকরণ, মূল্যায়ন মেট্রিক্সের সীমাবদ্ধতার সমালোচনামূলক বিশ্লেষণ
  4. ব্যবহারিক নির্দেশনা: খোলা চ্যালেঞ্জগুলি চিহ্নিত করা এবং ভবিষ্যত গবেষণার দিকনির্দেশনা প্রস্তাব করা, একাডেমিক গবেষণা এবং ব্যবহারিক প্রয়োগের মধ্যে ব্যবধান পূরণ করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

সময়গত কর্ম স্থানীয়করণ (TAL)

  • আউটপুট প্রকার: সময়ের ব্যবধান
  • টীকা বিন্যাস: শুরু এবং শেষ সময়
  • সহনশীলতা উইন্ডো: ~১-৫ সেকেন্ড
  • প্রয়োগের দৃশ্য: দীর্ঘ সময়ের, ক্রমাগত কর্ম (যেমন টেনিস পরিবেশন প্রক্রিয়া)

কর্ম স্থানীয়করণ (AS)

  • আউটপুট প্রকার: একক মূল ফ্রেম
  • টীকা বিন্যাস: একক সময় স্ট্যাম্প
  • সহনশীলতা উইন্ডো: ৫-৬০ ফ্রেম
  • প্রয়োগের দৃশ্য: অস্পষ্ট, দ্রুত-গতির কর্ম (যেমন ফুটবল পাস, শট)

নির্ভুল ইভেন্ট স্থানীয়করণ (PES)

  • আউটপুট প্রকার: একক মূল ফ্রেম
  • টীকা বিন্যাস: একক সময় স্ট্যাম্প
  • সহনশীলতা উইন্ডো: ০-২ ফ্রেম
  • প্রয়োগের দৃশ্য: ফ্রেম-স্তরের নির্ভুলতা প্রয়োজন এমন মূল ইভেন্ট (যেমন পিংপং বল আঘাত মুহূর্ত)

মডেল আর্কিটেকচার শ্রেণীবিভাগ

১. সময়গত মডেলিং পদ্ধতি

পুলিং পদ্ধতি:

  • স্লাইডিং উইন্ডো কৌশল গ্রহণ করে, ভিডিওকে নির্দিষ্ট দৈর্ঘ্যের খণ্ডে বিভক্ত করে
  • গড় পুলিং, NetVLAD, NetVLAD++ ইত্যাদি ব্যবহার করে সময়গত বৈশিষ্ট্য সমন্বয় করে
  • সুবিধা: সহজ বাস্তবায়ন, উচ্চ গণনা দক্ষতা
  • অসুবিধা: ক্রম তথ্য হারায়, ফ্রেম-স্তরের নির্ভুলতা সীমিত করে

এনকোডার পদ্ধতি:

  • ১D CNN, ৩D CNN, RNN, Transformer ইত্যাদি ক্রম মডেল ব্যবহার করে
  • সময় মাত্রা বজায় রাখে, ফ্রেম-স্তরের পূর্বাভাস সমর্থন করে
  • প্রতিনিধি পদ্ধতি: SpotFormer, STE, RMS-Net
  • সুবিধা: আরও সমৃদ্ধ প্রসঙ্গ মডেলিং ক্ষমতা

ফ্রেম-সচেতন পদ্ধতি:

  • সময়-স্থানীয় প্রতিনিধিত্ব বৃদ্ধির জন্য সরাসরি মূল স্থাপত্য সংশোধন করে
  • সম্পূর্ণ সময় মাত্রা বজায় রাখতে ফ্রেম-নির্দিষ্ট প্রক্রিয়া প্রবর্তন করে
  • প্রতিনিধি পদ্ধতি: E2E-Spot, UGL, T-DEED, ASTRM
  • উদ্ভাবনী বিষয়: শেষ থেকে শেষ প্রশিক্ষণ, সত্যিকারের ফ্রেম-স্তরের শ্রেণীবিভাগ

২. মাল্টিমোডাল ফিউশন পদ্ধতি

  • দৃষ্টি, অডিও, পাঠ্য এবং অন্যান্য একাধিক মোডালিটি একীভূত করে
  • প্রতিনিধি পদ্ধতি: ASTRA (Transformer-ভিত্তিক ক্রস-মোডাল মনোযোগ)
  • চ্যালেঞ্জ: অডিও গুণমান অস্থির, শব্দ হস্তক্ষেপ গুরুতর

৩. ডেটা-দক্ষ শিক্ষা পদ্ধতি

  • সক্রিয় শিক্ষা: সবচেয়ে তথ্যপূর্ণ নমুনা নির্বাচনী টীকা
  • স্ব-তত্ত্বাবধানী শিক্ষা: COMEDIAN SSL এবং জ্ঞান পাতন একত্রিত করে
  • উদ্দেশ্য: বড় আকারের টীকাকৃত ডেটার উপর নির্ভরতা হ্রাস করা

পরীক্ষামূলক সেটআপ

ডেটাসেট সংক্ষিপ্তকরণ

ফুটবল ডেটাসেট

  • SoccerNet-v1: ৫০০ ম্যাচ, ৭৬৪ ঘন্টা, ৩টি ইভেন্ট শ্রেণী
  • SoccerNet-v2: ১৭টি ইভেন্ট শ্রেণীতে সম্প্রসারিত, একক সময় স্ট্যাম্প টীকা
  • SoccerNet Ball AS: সূক্ষ্ম-দানাদার বল মিথস্ক্রিয়া উপর ফোকাস, ১২টি বল-সম্পর্কিত শ্রেণী

র্যাকেট খেলাধুলা ডেটাসেট

  • Tennis: ৩,৩৪৫ ভিডিও ক্লিপ, ৬টি শ্রেণী
  • OpenTTGames: ১২টি উচ্চ-সংজ্ঞা পিংপং ম্যাচ, ১২০ FPS
  • TTA: ৩৯টি আধা-পেশাদার পিংপং ম্যাচ, ৮টি ইভেন্ট শ্রেণী
  • P2A: ২,৭২১টি পিংপং ভিডিও, ২৭২ ঘন্টা

অন্যান্য ক্রীড়া ডেটাসেট

  • NCAA: ২৫৭টি বাস্কেটবল ম্যাচ ভিডিও, ১৪টি কর্ম শ্রেণী
  • FineGym: ৫,৩৭৪টি জিমনাস্টিক পারফরম্যান্স, ৩২টি সূক্ষ্ম কর্ম শ্রেণী
  • FineDiving: ৩০০টি পেশাদার ডাইভিং ভিডিও, ৫২টি মূল ভঙ্গি রূপান্তর

মূল্যায়ন মেট্রিক্স

ঐতিহ্যবাহী মেট্রিক্স

  • mAP@T-IoU: TAL কাজের জন্য ব্যবহৃত
  • mAP@δ: AS এবং PES কাজের জন্য ব্যবহৃত

মেট্রিক সীমাবদ্ধতা

বিদ্যমান mAP@δ মেট্রিক গুরুতর সমস্যা উপস্থাপন করে:

  • একই ফ্রেমে একাধিক শ্রেণী পূর্বাভাস অনুমতি দেয়
  • বিরোধী পূর্বাভাস সামঞ্জস্যপূর্ণভাবে শাস্তি পায় না
  • মূল্যায়ন সরঞ্জাম সেট অসামঞ্জস্যপূর্ণ পরিচালনা করে

উন্নতি সুপারিশ

আরও কঠোর মূল্যায়ন প্রোটোকল প্রস্তাব করা:

  1. শীর্ষ-১ ফিল্টারিং: প্রতি ফ্রেমে শুধুমাত্র সর্বোচ্চ স্কোর শ্রেণী বজায় রাখা
  2. থ্রেশহোল্ড স্ক্যানিং: আত্মবিশ্বাস থ্রেশহোল্ড পরিবর্তনের মাধ্যমে PR বক্ররেখা ট্র্যাক করা
  3. অতিরিক্ত পূর্বাভাস শাস্তি: প্রকৃত স্থাপনার চাহিদার সাথে আরও সামঞ্জস্যপূর্ণ

পরীক্ষামূলক ফলাফল

কর্মক্ষমতা তুলনা (SoccerNet ডেটাসেট)

পদ্ধতিবছরশ্রেণীপ্যারামিটারপরীক্ষা সেট টাইটপরীক্ষা সেট শিথিলচ্যালেঞ্জ সেট টাইটচ্যালেঞ্জ সেট শিথিল
E2E-Spot২০২২ফ্রেম-সচেতন৪.৫M--৬৬.৭৩৭৩.৬২
COMEDIAN২০২৪ডেটা-দক্ষ২৯.১M৭৩.১০-৬৮.৩৮৭৩.৯৮
Santra et al.২০২৫ফ্রেম-সচেতন৬.৪৬M৭৩.৭৪৭৯.১১--

মূল অনুসন্ধান

  1. ফ্রেম-সচেতন পদ্ধতি সর্বোত্তম কর্মক্ষমতা প্রদর্শন করে, সত্যিকারের ফ্রেম-স্তরের শ্রেণীবিভাগ অর্জন করে
  2. ডেটা-দক্ষ পদ্ধতি টীকা প্রয়োজনীয়তা হ্রাসে সম্ভাবনা প্রদর্শন করে
  3. মাল্টিমোডাল ফিউশন নির্দিষ্ট দৃশ্যে উল্লেখযোগ্য উন্নতি প্রদান করে
  4. ক্রস-ডেটাসেট সাধারণীকরণ প্রধান চ্যালেঞ্জ রয়ে গেছে

সম্পর্কিত কাজ

ঐতিহ্যবাহী পর্যালোচনার সীমাবদ্ধতা

  • Ghosh ইত্যাদি: ক্রীড়া AI-এর ব্যাপক কভারেজ কিন্তু গভীর শিক্ষা CV পদ্ধতিতে ফোকাস নয়
  • Thomas ইত্যাদি: প্রধানত ঐতিহ্যবাহী CV পদ্ধতি এবং বহু-ক্যামেরা সিস্টেমে ফোকাস
  • Hu ইত্যাদি: TAL-এ বিস্তারিত ভূমিকা কিন্তু AS এবং PES কভার করে না

এই পেপারের অনন্য অবদান

  • একক-ক্যামেরা ভিডিওতে গভীর শিক্ষা পদ্ধতিতে বিশেষভাবে ফোকাস করা
  • TAL, AS, PES তিনটি কাজকে পদ্ধতিগতভাবে পার্থক্য করা
  • প্রকৃত স্থাপনা এবং অ-অভিজাত ইভেন্টের চাহিদায় ফোকাস করা

সিদ্ধান্ত এবং আলোচনা

প্রধান সিদ্ধান্ত

  1. কাজের পার্থক্য অত্যন্ত গুরুত্বপূর্ণ: TAL, AS, PES-এর প্রতিটির নিজ নিজ প্রয়োগের দৃশ্য রয়েছে, বিভিন্ন প্রযুক্তিগত সমাধান প্রয়োজন
  2. ফ্রেম-সচেতন পদ্ধতি প্রবণতা: PES কাজের জন্য প্রয়োজনীয় সময়গত নির্ভুলতা প্রদান করে
  3. মূল্যায়ন প্রোটোকল উন্নতি প্রয়োজন: বিদ্যমান মেট্রিক্স প্রকৃত প্রয়োগ কর্মক্ষমতা সঠিকভাবে প্রতিফলিত করতে পারে না
  4. সাধারণীকরণ ক্ষমতা জরুরিভাবে উন্নত প্রয়োজন: ক্রীড়া শাখা জুড়ে অভিযোজনযোগ্যতা মূল চ্যালেঞ্জ

সীমাবদ্ধতা

  1. ডেটাসেট পক্ষপাত: পেশাদার সম্প্রচার ভিডিওর উপর অত্যধিক নির্ভরতা
  2. মূল্যায়ন মান অসামঞ্জস্যপূর্ণ: বিভিন্ন বাস্তবায়নের মধ্যে mAP গণনায় পার্থক্য
  3. ব্যবহারিক প্রয়োগ ব্যবধান: একাডেমিক মানদণ্ড এবং বাস্তব-বিশ্ব স্থাপনার চাহিদা মিলে না

ভবিষ্যত দিকনির্দেশনা

  1. সাধারণীকরণ ক্ষমতা বৃদ্ধি: ক্রীড়া শাখা জুড়ে সর্বজনীন পদ্ধতি বিকাশ করা
  2. অপর্যবেক্ষিত শিক্ষা: বড় আকারের টীকার উপর নির্ভরতা হ্রাস করা
  3. মাল্টিমোডাল ফিউশন: অডিও, পাঠ্য এবং অন্যান্য তথ্য আরও ভালভাবে একীভূত করা
  4. বাস্তব-বিশ্ব ডেটা: প্রকৃত প্রয়োগের কাছাকাছি ডেটাসেট নির্মাণ করা

গভীর মূল্যায়ন

শক্তি

  1. শক্তিশালী ব্যাপকতা: ক্রীড়া ভিডিও ইভেন্ট সনাক্তকরণের জন্য প্রথম বিশেষায়িত গভীর শিক্ষা পর্যালোচনা
  2. ব্যবহারিক অভিমুখী: একাডেমিক গবেষণা এবং ব্যবহারিক প্রয়োগ উভয়ই বিবেচনা করে
  3. সমালোচনামূলক চিন্তাভাবনা: বিদ্যমান মূল্যায়ন মেট্রিক্সের গুরুতর সমস্যা উদ্দেশ্যমূলকভাবে নির্দেশ করে
  4. দূরদর্শী: নির্দিষ্ট কার্যকর উন্নতি সুপারিশ এবং গবেষণা দিকনির্দেশনা প্রস্তাব করে

অপূর্ণতা

  1. সীমিত পদ্ধতিগত উদ্ভাবন: প্রধানত পর্যালোচনামূলক কাজ, প্রযুক্তিগত উদ্ভাবন তুলনামূলকভাবে কম
  2. অপর্যাপ্ত পরীক্ষামূলক যাচাইকরণ: প্রস্তাবিত মূল্যায়ন মেট্রিক উন্নতির জন্য পরীক্ষামূলক যাচাইকরণের অভাব
  3. অগভীর ক্রস-ডোমেইন বিশ্লেষণ: বিভিন্ন ক্রীড়া শাখার মধ্যে পার্থক্যের বিশ্লেষণ এখনও অগভীর

প্রভাব

  1. একাডেমিক মূল্য: এই ক্ষেত্রের গবেষকদের জন্য গুরুত্বপূর্ণ রেফারেন্স ফ্রেমওয়ার্ক প্রদান করে
  2. ব্যবহারিক মূল্য: শিল্পকে প্রযুক্তির বর্তমান অবস্থা এবং প্রয়োগের সম্ভাবনা বুঝতে সাহায্য করে
  3. মান নির্ধারণ প্রচার: মূল্যায়ন প্রোটোকলের মান নির্ধারণ উন্নতি চালিত করতে পারে

প্রয়োগের দৃশ্য

  • ক্রীড়া ভিডিও বিশ্লেষণ ব্যবস্থা উন্নয়ন
  • স্বয়ংক্রিয় ক্রীড়া ইভেন্ট সামগ্রী উৎপাদন
  • ক্রীড়াবিদ কর্মক্ষমতা বিশ্লেষণ
  • ক্রীড়া সম্প্রচার বুদ্ধিমত্তা

সংদর্ভ

এই পেপারটি ৯৮টি সম্পর্কিত সংদর্ভ উদ্ধৃত করে, যা ক্রীড়া ভিডিও বিশ্লেষণ, গভীর শিক্ষা, কম্পিউটার দৃষ্টি এবং অন্যান্য ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, পাঠকদের জন্য ব্যাপক সাহিত্য ভিত্তি প্রদান করে।


সংক্ষিপ্তকরণ: এটি একটি উচ্চ-মানের পর্যালোচনা পেপার যা ক্রীড়া ভিডিও ইভেন্ট সনাক্তকরণ ক্ষেত্রের বিকাশের বর্তমান অবস্থা পদ্ধতিগতভাবে পরিষ্কার করে, বিশেষত গভীর শিক্ষা পদ্ধতির প্রয়োগে। পেপারের প্রধান অবদান বিভিন্ন কাজের ধরন স্পষ্টভাবে সংজ্ঞায়িত করা, একটি কাঠামোবদ্ধ পদ্ধতি শ্রেণীবিভাগ ব্যবস্থা প্রস্তাব করা এবং বিদ্যমান মূল্যায়ন প্রোটোকলের সমস্যা সমালোচনামূলকভাবে বিশ্লেষণ করা। যদিও প্রযুক্তিগত উদ্ভাবনে তুলনামূলকভাবে সীমিত, তবে ক্ষেত্রের বিকাশের জন্য এর নির্দেশনামূলক মূল্য এবং ব্যবহারিক প্রয়োগের প্রতি মনোযোগ এটিকে এই ক্ষেত্রের একটি গুরুত্বপূর্ণ রেফারেন্স সাহিত্য করে তোলে।