2025-11-19T02:46:12.920144

Beat Detection as Object Detection

Ahn, Jung
Recent beat and downbeat tracking models (e.g., RNNs, TCNs, Transformers) output frame-level activations. We propose reframing this task as object detection, where beats and downbeats are modeled as temporal "objects." Adapting the FCOS detector from computer vision to 1D audio, we replace its original backbone with WaveBeat's temporal feature extractor and add a Feature Pyramid Network to capture multi-scale temporal patterns. The model predicts overlapping beat/downbeat intervals with confidence scores, followed by non-maximum suppression (NMS) to select final predictions. This NMS step serves a similar role to DBNs in traditional trackers, but is simpler and less heuristic. Evaluated on standard music datasets, our approach achieves competitive results, showing that object detection techniques can effectively model musical beats with minimal adaptation.
academic

বিট ট্র্যাকিং অবজেক্ট ডিটেকশন হিসাবে

মৌলিক তথ্য

  • পেপার আইডি: 2510.14391
  • শিরোনাম: Beat Tracking as Object Detection
  • লেখক: Jaehoon Ahn (সোগাং বিশ্ববিদ্যালয়), Moon-Ryul Jung (সোগাং বিশ্ববিদ্যালয়)
  • শ্রেণীবিভাগ: cs.SD (সাউন্ড), cs.AI (কৃত্রিম বুদ্ধিমত্তা), cs.LG (মেশিন লার্নিং)
  • প্রকাশনার সময়: ২০২৫ সালের ১৬ অক্টোবর (arXiv প্রি-প্রিন্ট)
  • পেপার লিংক: https://arxiv.org/abs/2510.14391v1

সারসংক্ষেপ

সাম্প্রতিক বিট এবং ডাউনবিট ট্র্যাকিং মডেল (যেমন RNNs, TCNs, Transformers) ফ্রেম-স্তরের সক্রিয়করণ মান আউটপুট করে। এই পেপারটি এই কাজটিকে একটি অবজেক্ট ডিটেকশন সমস্যা হিসাবে পুনর্সংজ্ঞায়িত করার প্রস্তাব দেয়, বিট এবং ডাউনবিটগুলিকে সময়গত "অবজেক্ট" হিসাবে মডেল করে। কম্পিউটার ভিশনে FCOS ডিটেক্টরকে 1D অডিওতে অভিযোজিত করে, WaveBeat এর সময়গত বৈশিষ্ট্য নিষ্কাশক দিয়ে মূল ব্যাকবোন প্রতিস্থাপন করে এবং বহু-স্কেল সময়গত প্যাটার্ন ক্যাপচার করার জন্য বৈশিষ্ট্য পিরামিড নেটওয়ার্ক যোগ করে। মডেল ওভারল্যাপিং বিট/ডাউনবিট ইন্টারভাল এবং তাদের আত্মবিশ্বাস স্কোর পূর্বাভাস দেয়, তারপর চূড়ান্ত পূর্বাভাসের জন্য অ-সর্বাধিক দমন (NMS) ব্যবহার করে। এই NMS পদক্ষেপ ঐতিহ্যবাহী ট্র্যাকারে DBN এর মতো ভূমিকা পালন করে, কিন্তু আরও সহজ এবং কম অনুমানমূলক। মানক সঙ্গীত ডেটাসেটে মূল্যায়ন দেখায় যে পদ্ধতিটি প্রতিযোগিতামূলক ফলাফল অর্জন করেছে, যা প্রমাণ করে যে অবজেক্ট ডিটেকশন কৌশল সঙ্গীত বিট কার্যকরভাবে মডেল করতে পারে এবং শুধুমাত্র ন্যূনতম অভিযোজনের প্রয়োজন।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

বিট ট্র্যাকিং সঙ্গীত তথ্য পুনরুদ্ধার (MIR) ক্ষেত্রের একটি গুরুত্বপূর্ণ গবেষণা দিক, যা বিট এবং ডাউনবিট অবস্থানের গণনামূলক পূর্বাভাস অন্তর্ভুক্ত করে। ঐতিহ্যবাহী পদ্ধতি প্রাথমিক অনসেট সনাক্তকরণ থেকে আধুনিক মেশিন লার্নিং প্রযুক্তিতে বিকশিত হয়েছে, যার মধ্যে রয়েছে RNNs, LSTMs, TCNs এবং Transformers ইত্যাদি।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  1. পোস্ট-প্রসেসিং জটিলতা: বেশিরভাগ আধুনিক বিট সনাক্তকরণ নেটওয়ার্ক প্রতিটি ফ্রেমের সক্রিয়করণ ফাংশন তৈরি করে, চূড়ান্ত বিট অবস্থান তৈরি করতে গতিশীল বেয়েস নেটওয়ার্ক (DBNs) ব্যবহার করার প্রয়োজন
  2. DBN এর ত্রুটি: DBNs বিট পরিবর্তন এবং সময় স্বাক্ষর পরিবর্তনে সহজেই ব্যর্থ হয়, এবং অত্যন্ত অনুমানমূলক
  3. ডাউনবিট সনাক্তকরণ কঠিনতা: বিট সনাক্তকরণের তুলনায় ডাউনবিট সনাক্তকরণের কর্মক্ষমতা সাধারণত খারাপ

গবেষণা প্রেরণা

লেখকরা বিশ্বাস করেন যে বিট ট্র্যাকিং অডিওর অবজেক্ট ডিটেকশনের একটি ফর্ম হিসাবে দেখা যেতে পারে, তাই বিট ট্র্যাকিং উন্নত করতে অবজেক্ট ডিটেকশনের জন্য ডিজাইন করা নিউরাল নেটওয়ার্ক ব্যবহার করার চেষ্টা করেছেন, বিশেষত ডাউনবিট ট্র্যাকিং কর্মক্ষমতা।

মূল অবদান

  1. প্যারাডাইম উদ্ভাবন: প্রথমবারের মতো বিট ট্র্যাকিংকে 1D সময়গত অবজেক্ট ডিটেকশন সমস্যা হিসাবে পুনর্সংজ্ঞায়িত করা, বিট এবং ডাউনবিটগুলিকে সময়গত ইন্টারভাল অবজেক্ট হিসাবে মডেল করা
  2. আর্কিটেকচার অভিযোজন: FCOS অবজেক্ট ডিটেকশন মডেলকে অডিও ডোমেনে সফলভাবে অভিযোজিত করা, মূল ResNet-50 ব্যাকবোন WaveBeat দিয়ে প্রতিস্থাপন করা
  3. পোস্ট-প্রসেসিং সরলীকরণ: ঐতিহ্যবাহী DBN পোস্ট-প্রসেসিং এর জায়গায় NMS ব্যবহার করা, আরও সহজ এবং কম অনুমানমূলক সমাধান প্রদান করা
  4. কর্মক্ষমতা উন্নতি: মানক সঙ্গীত ডেটাসেটে প্রতিযোগিতামূলক ফলাফল অর্জন করা, বিশেষত ডাউনবিট সনাক্তকরণে উল্লেখযোগ্য কর্মক্ষমতা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

0D সময় পয়েন্টের বিট সনাক্তকরণকে 1D অডিওতে ইন্টারভাল সনাক্তকরণ সমস্যায় রূপান্তরিত করা। ইনপুট হল কাঁচা অডিও তরঙ্গরূপ, আউটপুট হল আত্মবিশ্বাস স্কোর সহ বিট/ডাউনবিট ইন্টারভাল পূর্বাভাস।

মডেল আর্কিটেকচার

সামগ্রিক ডিজাইন

BeatFCOS মডেল নিম্নলিখিত মূল উপাদান অন্তর্ভুক্ত করে:

  1. WaveBeat ব্যাকবোন: মূল FCOS এর ResNet-50 প্রতিস্থাপন করে, কাঁচা অডিও তরঙ্গরূপ সরাসরি প্রক্রিয়া করে
  2. বৈশিষ্ট্য পিরামিড নেটওয়ার্ক (FPN): বহু-স্কেল সময়গত প্যাটার্ন ক্যাপচার করে
  3. তিন-মাথা ডিটেক্টর: যথাক্রমে শ্রেণীবিভাগ, রিগ্রেশন এবং লেফটনেস পূর্বাভাসের জন্য ব্যবহৃত

বিট ইন্টারভাল প্রতিনিধিত্ব

  • বিট ইন্টারভাল: দুটি ক্রমাগত বিটের মধ্যে সময়ের সেগমেন্ট
  • ডাউনবিট ইন্টারভাল: দুটি ক্রমাগত ডাউনবিটের মধ্যে সময়ের সেগমেন্ট
  • পুনরাবৃত্তি প্রতিনিধিত্ব: ডাউনবিট একটি ডাউনবিট ইন্টারভাল এবং একটি সাধারণ বিট ইন্টারভাল উভয় হিসাবে প্রদর্শিত হয়

WaveBeat এবং FPN একীকরণ

  • WaveBeat এর চূড়ান্ত কনভোলিউশন এবং সিগময়েড স্তর সরান
  • শেষ দুটি TCN ব্লক (C7 এবং C8) এর আউটপুট FPN এর P7 এবং P8 স্তরে পাস করুন
  • মেমরি সীমাবদ্ধতার কারণে, মূল FCOS এর তিনটির পরিবর্তে শুধুমাত্র শেষ দুটি ব্যাকবোন ব্লক আউটপুট ব্যবহার করুন

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

1. অ্যাঙ্কর কৌশল

  • আকার সীমাবদ্ধতা: প্রতিটি FPN স্তর নির্দিষ্ট সময়গত স্কেলের ইন্টারভালের জন্য দায়ী
  • সাব-বক্স কৌশল: সমরূপ কেন্দ্র অঞ্চলের পরিবর্তে বাম-পক্ষপাত সাব-বক্স ব্যবহার করুন, ইন্টারভাল শুরুর অবস্থানে ফোকাস করুন

2. লেফটনেস মেকানিজম

FCOS এ সেন্টারনেস প্রতিস্থাপন করে, সংজ্ঞায়িত:

leftness1D(r) = √(rright / (rleft + rright))

কেন্দ্রের পরিবর্তে বিট ইন্টারভালের বাম প্রান্তকে জোর দেয়, বিট অবস্থানের সাথে আরও সামঞ্জস্যপূর্ণ।

3. ক্ষতি ফাংশন

মোট ক্ষতি তিনটি অংশ অন্তর্ভুক্ত করে:

Lpoint(k,n) = Lcls(ck,n, ĉk,n, n) + 1{ck,n>0}Lreg(rk,n, r̂k,n, n) + 1{ck,n>0}Llft(rk,n, r̂k,n, n)
  • শ্রেণীবিভাগ ক্ষতি: focal loss
  • রিগ্রেশন ক্ষতি: 1D অভিযোজিত GIoU loss
  • লেফটনেস ক্ষতি: বাইনারি ক্রস-এন্ট্রপি ক্ষতি

পরীক্ষামূলক সেটআপ

ডেটাসেট

WaveBeat এর মতো একই ডেটাসেট ব্যবহার করুন:

  • প্রশিক্ষণ সেট: Ballroom, Hainsworth, Beatles, RWC Popular
  • পরীক্ষা সেট: GTZAN, SMC
  • অডিও ফর্ম্যাট: 22.05kHz স্যাম্পলিং রেট, 2^21 নমুনা দৈর্ঘ্য (প্রায় 1.6 মিনিট)

মূল্যায়ন মেট্রিক্স

  • F1 স্কোর: নির্ভুলতা এবং রিকল এর সুরেলা গড়
  • CMLt (সময় স্বাক্ষর স্তরের সহনশীলতা সহ ধারাবাহিকতা-ভিত্তিক মেট্রিক): সময় স্বাক্ষর স্তরের সহনশীলতা সহ ধারাবাহিকতা সূচক
  • AMLt (সময় স্বাক্ষর স্তরের সহনশীলতা সহ নির্ভুলতা-ভিত্তিক মেট্রিক): সময় স্বাক্ষর স্তরের সহনশীলতা সহ নির্ভুলতা সূচক

তুলনামূলক পদ্ধতি

  • WaveBeat (Peak-picking)
  • WaveBeat (DBN)
  • Spectral TCN
  • Hung et al. (Transformer-ভিত্তিক)

বাস্তবায়ন বিবরণ

  • অপ্টিমাইজার: Adam (lr=1e-3, weight decay=1e-4)
  • শেখার হার সময়সূচী: ক্রমাগত 3 epoch কোন উন্নতি ছাড়াই 10 গুণ হ্রাস করুন
  • ব্যাচ আকার: 16
  • প্রশিক্ষণ পরিবেশ: Google Colab, NVIDIA A100 40GB GPU
  • প্রশিক্ষণ কৌশল: 8-ফোল্ড ক্রস-ভ্যালিডেশন

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

সমস্ত WaveBeat ভেরিয়েন্টের মধ্যে, BeatFCOS একাধিক ডেটাসেটে চমৎকার কর্মক্ষমতা প্রদর্শন করে:

বিট ট্র্যাকিং কর্মক্ষমতা

  • Ballroom ডেটাসেট: F1=0.927, CMLt=0.873, AMLt=0.898
  • Beatles ডেটাসেট: F1=0.903, CMLt=0.797, AMLt=0.866
  • RWC Popular ডেটাসেট: F1=0.862, CMLt=0.763, AMLt=0.849

ডাউনবিট ট্র্যাকিং কর্মক্ষমতা

  • Ballroom ডেটাসেট: F1=0.807, CMLt=0.697, AMLt=0.756
  • Beatles ডেটাসেট: F1=0.762, CMLt=0.579, AMLt=0.659
  • RWC Popular ডেটাসেট: F1=0.779, CMLt=0.691, AMLt=0.731

অ্যাবলেশন পরীক্ষা

লেফটনেস বনাম সেন্টারনেস

লেফটনেস মেকানিজম প্রায় সমস্ত ডেটাসেট এবং মেট্রিক্সে সেন্টারনেসকে উল্লেখযোগ্যভাবে অতিক্রম করে, বিশেষত ডাউনবিট ট্র্যাকিংয়ে।

Soft-NMS বনাম মানক NMS

Soft-NMS ক্রমাগত কর্মক্ষমতা উন্নত করে, যা নির্দেশ করে যে এটি মানক NMS দ্বারা ভুলভাবে দমন করা যেতে পারে এমন বৈধ নিকটবর্তী বিট পূর্বাভাস সংরক্ষণে সহায়তা করে।

ব্যাকবোন মাইক্রোফাইন-টিউনিং কৌশল

শুধুমাত্র BatchNorm স্তর হিমায়িত করার সময় কনভোলিউশন ওজন আপডেট করার অনুমতি দেওয়ার কৌশল সম্পূর্ণ হিমায়িত ব্যাকবোনের চেয়ে উল্লেখযোগ্যভাবে ভাল।

NMS থ্রেশহোল্ড নির্বাচন

পূর্বাভাস ইন্টারভাল IoU বিতরণের হিস্টোগ্রাম বিশ্লেষণের মাধ্যমে, IoU থ্রেশহোল্ড 0.2 ডেটা-চালিত পদ্ধতিতে নির্বাচিত হয়, ঐতিহ্যবাহী DBN দ্বারা প্রয়োজনীয় গ্রিড অনুসন্ধান এড়ায়।

সম্পর্কিত কাজ

ঐতিহ্যবাহী পদ্ধতি

প্রাথমিক বিট ট্র্যাকিং অনসেট সনাক্তকরণের উপর ভিত্তি করে, সঙ্গীত নোট শুরু চিহ্নিত করে বিট অবস্থান চেইন অনুমান করে।

গভীর শেখার পদ্ধতি

  • RNNs/LSTMs: সময়গত নির্ভরতা সমর্থন প্রদান করে, অ-মেশিন লার্নিং পদ্ধতির তুলনায় উল্লেখযোগ্য অগ্রগতি
  • TCNs: বৃহৎ সময়গত প্রসঙ্গ প্রদানের জন্য প্রচুর পরিমাণে প্রসারিত কনভোলিউশন স্তর ব্যবহার করে
  • Transformers: ক্রম ডেটার গুরুত্বপূর্ণ দিকগুলিতে ওজন বরাদ্দ শিখে

পোস্ট-প্রসেসিং প্রযুক্তি

ঐতিহ্যবাহী পদ্ধতি সাধারণত পোস্ট-প্রসেসিংয়ের জন্য DBNs ব্যবহার করে, কিন্তু প্যারামিটার টিউনিং জটিলতা, গণনামূলক ব্যয় ইত্যাদি সমস্যা রয়েছে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. অবজেক্ট ডিটেকশন প্যারাডাইম বিট ট্র্যাকিং কাজে কার্যকরভাবে প্রয়োগ করা যেতে পারে
  2. NMS পোস্ট-প্রসেসিং ঐতিহ্যবাহী DBN এর চেয়ে সহজ এবং কম অনুমানমূলক
  3. BeatFCOS বিশেষত ডাউনবিট সনাক্তকরণে চমৎকার কর্মক্ষমতা প্রদর্শন করে
  4. ডেটা-চালিত হাইপারপ্যারামিটার নির্বাচন গ্রিড অনুসন্ধানের চেয়ে আরও দক্ষ

সীমাবদ্ধতা

  1. কর্মক্ষমতা সীমাবদ্ধতা: প্রতিযোগিতামূলক হলেও, সমস্ত মেট্রিক্সে SOTA পদ্ধতিকে ধারাবাহিকভাবে অতিক্রম করে না
  2. মেমরি সীমাবদ্ধতা: মেমরি সীমাবদ্ধতার কারণে তিনটির পরিবর্তে শুধুমাত্র দুটি FPN স্তর ব্যবহার করা যায়
  3. ডেটা নির্ভরতা: পদ্ধতির কার্যকারিতা প্রশিক্ষণ ডেটা গুণমান দ্বারা উল্লেখযোগ্যভাবে প্রভাবিত হয়

ভবিষ্যত দিকনির্দেশনা

  1. নিয়মিত বিট ব্যবধান আরও ভালভাবে প্রয়োগ করতে সময়গত সংলগ্নতা সীমাবদ্ধতা একীভূত করুন
  2. পরিপূরক পদ্ধতি হিসাবে EM-ভিত্তিক সময়গত মডেল শেখার অন্বেষণ করুন
  3. মেমরি প্রয়োজনীয়তা হ্রাস করতে আর্কিটেকচার আরও অপ্টিমাইজ করুন

গভীর মূল্যায়ন

সুবিধা

  1. শক্তিশালী উদ্ভাবনী: প্রথমবারের মতো অবজেক্ট ডিটেকশন প্যারাডাইম বিট ট্র্যাকিংয়ে প্রবর্তন করা, উপন্যাস চিন্তাভাবনা
  2. দৃঢ় প্রযুক্তি: লেফটনেস মেকানিজম ডিজাইন যুক্তিসঙ্গত, বিট অবস্থানের সাথে সামঞ্জস্যপূর্ণ
  3. ব্যাপক পরীক্ষা: বিস্তারিত অ্যাবলেশন পরীক্ষা এবং 8-ফোল্ড ক্রস-ভ্যালিডেশন অন্তর্ভুক্ত
  4. ব্যবহারিক মূল্য: পোস্ট-প্রসেসিং প্রবাহ সরলীকৃত, প্যারামিটার টিউনিং জটিলতা হ্রাস

অপূর্ণতা

  1. সীমিত কর্মক্ষমতা উন্নতি: বিদ্যমান SOTA পদ্ধতির তুলনায় উন্নতির পরিমাণ যথেষ্ট নয়
  2. প্রয়োগযোগ্যতা সীমাবদ্ধতা: প্রধানত নির্দিষ্ট ডেটাসেটে যাচাই করা হয়েছে, সাধারণীকরণ ক্ষমতা আরও প্রমাণের অপেক্ষায়
  3. অপর্যাপ্ত তাত্ত্বিক বিশ্লেষণ: কেন অবজেক্ট ডিটেকশন বিট ট্র্যাকিংয়ের জন্য উপযুক্ত তার গভীর তাত্ত্বিক ব্যাখ্যার অভাব

প্রভাব

  1. পদ্ধতিগত অবদান: সঙ্গীত তথ্য পুনরুদ্ধার ক্ষেত্রে নতুন মডেলিং চিন্তাভাবনা প্রদান করে
  2. ক্রস-ডোমেইন অনুপ্রেরণা: কম্পিউটার ভিশন প্রযুক্তির অডিও প্রক্রিয়াকরণে প্রয়োগের সম্ভাবনা প্রদর্শন করে
  3. প্রকৌশল মূল্য: সরলীকৃত পোস্ট-প্রসেসিং প্রবাহ ব্যবহারিক প্রয়োগ মূল্য রয়েছে

প্রযোজ্য পরিস্থিতি

  1. রিয়েল-টাইম বিট সনাক্তকরণ প্রয়োজনীয় সঙ্গীত অ্যাপ্লিকেশন
  2. পোস্ট-প্রসেসিং জটিলতার প্রতি সংবেদনশীল এমবেডেড সিস্টেম
  3. ডাউনবিট সনাক্তকরণ প্রয়োজনীয়তা উচ্চ সঙ্গীত বিশ্লেষণ কাজ

সংদর্ভ

পেপারটি 34টি সম্পর্কিত সাহিত্য উদ্ধৃত করে, যা বিট ট্র্যাকিং, অবজেক্ট ডিটেকশন, গভীর শেখা ইত্যাদি একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, গবেষণার জন্য একটি দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।