2025-11-19T02:46:12.920144

Beat Detection as Object Detection

Ahn, Jung
Recent beat and downbeat tracking models (e.g., RNNs, TCNs, Transformers) output frame-level activations. We propose reframing this task as object detection, where beats and downbeats are modeled as temporal "objects." Adapting the FCOS detector from computer vision to 1D audio, we replace its original backbone with WaveBeat's temporal feature extractor and add a Feature Pyramid Network to capture multi-scale temporal patterns. The model predicts overlapping beat/downbeat intervals with confidence scores, followed by non-maximum suppression (NMS) to select final predictions. This NMS step serves a similar role to DBNs in traditional trackers, but is simpler and less heuristic. Evaluated on standard music datasets, our approach achieves competitive results, showing that object detection techniques can effectively model musical beats with minimal adaptation.
academic

बीट ट्रैकिंग को ऑब्जेक्ट डिटेक्शन के रूप में

बुनियादी जानकारी

  • पेपर ID: 2510.14391
  • शीर्षक: Beat Tracking as Object Detection
  • लेखक: Jaehoon Ahn (Sogang University), Moon-Ryul Jung (Sogang University)
  • वर्गीकरण: cs.SD (ध्वनि), cs.AI (कृत्रिम बुद्धिमत्ता), cs.LG (मशीन लर्निंग)
  • प्रकाशन समय: 16 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.14391v1

सारांश

हाल के बीट और डाउनबीट ट्रैकिंग मॉडल (जैसे RNNs, TCNs, Transformers) फ्रेम-स्तरीय सक्रियण मान आउटपुट करते हैं। यह पेपर इस कार्य को ऑब्जेक्ट डिटेक्शन समस्या के रूप में पुनः परिभाषित करने का प्रस्ताव देता है, बीट और डाउनबीट को अस्थायी "ऑब्जेक्ट" के रूप में मॉडल करते हुए। कंप्यूटर विजन में FCOS डिटेक्टर को 1D ऑडियो में अनुकूलित करके, WaveBeat के अस्थायी फीचर एक्सट्रैक्टर से मूल बैकबोन नेटवर्क को प्रतिस्थापित करके, और बहु-स्केल अस्थायी पैटर्न को कैप्चर करने के लिए फीचर पिरामिड नेटवर्क जोड़कर। मॉडल ओवरलैपिंग बीट/डाउनबीट अंतराल और उनके आत्मविश्वास स्कोर की भविष्यवाणी करता है, फिर अंतिम भविष्यवाणी चुनने के लिए गैर-अधिकतम दमन (NMS) का उपयोग करता है। यह NMS चरण पारंपरिक ट्रैकर में DBN की तरह काम करता है, लेकिन अधिक सरल और कम अनुमानी है। मानक संगीत डेटासेट पर मूल्यांकन प्रतिस्पर्धी परिणाम दिखाता है, जो साबित करता है कि ऑब्जेक्ट डिटेक्शन तकनीकें संगीत बीट को प्रभावी ढंग से मॉडल कर सकती हैं और केवल न्यूनतम अनुकूलन की आवश्यकता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

बीट ट्रैकिंग संगीत सूचना पुनर्प्राप्ति (MIR) क्षेत्र में एक महत्वपूर्ण अनुसंधान दिशा है, जिसमें बीट और डाउनबीट स्थिति की कम्प्यूटेशनल भविष्यवाणी शामिल है। पारंपरिक विधियां प्रारंभिक ऑनसेट डिटेक्शन से आधुनिक मशीन लर्निंग तकनीकों तक विकसित हुई हैं, जिनमें RNNs, LSTMs, TCNs और Transformers शामिल हैं।

मौजूदा विधियों की सीमाएं

  1. पोस्ट-प्रोसेसिंग जटिलता: अधिकांश आधुनिक बीट डिटेक्शन नेटवर्क प्रत्येक फ्रेम के लिए सक्रियण फ़ंक्शन उत्पन्न करते हैं, जिन्हें अंतिम बीट स्थिति उत्पन्न करने के लिए गतिशील बेयस नेटवर्क (DBNs) का उपयोग करके पोस्ट-प्रोसेस करने की आवश्यकता होती है
  2. DBN की कमियां: DBNs बीट परिवर्तन और समय हस्ताक्षर परिवर्तन के समय विफल होने के लिए प्रवण हैं, और अत्यधिक अनुमानी हैं
  3. डाउनबीट डिटेक्शन कठिनाई: बीट डिटेक्शन की तुलना में, डाउनबीट डिटेक्शन का प्रदर्शन आम तौर पर खराब है

अनुसंधान प्रेरणा

लेखकों का मानना है कि बीट ट्रैकिंग को ऑडियो के लिए ऑब्जेक्ट डिटेक्शन के रूप में देखा जा सकता है, इसलिए वे बीट ट्रैकिंग में सुधार के लिए विशेष रूप से ऑब्जेक्ट डिटेक्शन के लिए डिज़ाइन किए गए तंत्रिका नेटवर्क का उपयोग करने का प्रयास करते हैं, विशेष रूप से डाउनबीट ट्रैकिंग प्रदर्शन।

मुख्य योगदान

  1. प्रतिमान नवाचार: पहली बार बीट ट्रैकिंग को 1D अस्थायी ऑब्जेक्ट डिटेक्शन समस्या के रूप में पुनः परिभाषित करना, बीट और डाउनबीट को अस्थायी अंतराल ऑब्जेक्ट के रूप में मॉडल करना
  2. आर्किटेक्चर अनुकूलन: FCOS ऑब्जेक्ट डिटेक्शन मॉडल को ऑडियो डोमेन में सफलतापूर्वक अनुकूलित करना, मूल ResNet-50 बैकबोन नेटवर्क को WaveBeat से प्रतिस्थापित करना
  3. पोस्ट-प्रोसेसिंग सरलीकरण: पारंपरिक DBN पोस्ट-प्रोसेसिंग को NMS से प्रतिस्थापित करना, अधिक सरल, कम अनुमानी समाधान प्रदान करना
  4. प्रदर्शन सुधार: मानक संगीत डेटासेट पर प्रतिस्पर्धी परिणाम प्राप्त करना, विशेष रूप से डाउनबीट डिटेक्शन में उत्कृष्ट प्रदर्शन

विधि विवरण

कार्य परिभाषा

0D अस्थायी बिंदु बीट डिटेक्शन को 1D ऑडियो में अंतराल डिटेक्शन समस्या में परिवर्तित करना। इनपुट कच्चा ऑडियो वेवफॉर्म है, आउटपुट आत्मविश्वास स्कोर के साथ बीट/डाउनबीट अंतराल भविष्यवाणी है।

मॉडल आर्किटेक्चर

समग्र डिजाइन

BeatFCOS मॉडल निम्नलिखित मुख्य घटकों को शामिल करता है:

  1. WaveBeat बैकबोन नेटवर्क: मूल FCOS के ResNet-50 को प्रतिस्थापित करता है, कच्चे ऑडियो वेवफॉर्म को सीधे संसाधित करता है
  2. फीचर पिरामिड नेटवर्क (FPN): बहु-स्केल अस्थायी पैटर्न को कैप्चर करता है
  3. तीन-सिर डिटेक्टर: क्रमशः वर्गीकरण, प्रतिगमन और leftness भविष्यवाणी के लिए

बीट अंतराल प्रतिनिधित्व

  • बीट अंतराल: दो क्रमिक बीट के बीच का समय खंड
  • डाउनबीट अंतराल: दो क्रमिक डाउनबीट के बीच का समय खंड
  • दोहराव प्रतिनिधित्व: डाउनबीट डाउनबीट अंतराल और सामान्य बीट अंतराल दोनों के रूप में दिखाई देता है

WaveBeat और FPN एकीकरण

  • WaveBeat के अंतिम कनवल्शन और sigmoid परत को हटाना
  • अंतिम दो TCN ब्लॉक (C7 और C8) के आउटपुट को FPN के P7 और P8 परतों को पास करना
  • मेमोरी सीमाओं के कारण, मूल FCOS के तीन के बजाय केवल अंतिम दो बैकबोन ब्लॉक आउटपुट का उपयोग करना

तकनीकी नवाचार बिंदु

1. एंकर रणनीति

  • आकार सीमा: प्रत्येक FPN परत अस्थायी पैमाने के विशिष्ट अंतराल के लिए जिम्मेदार है
  • सबफ्रेम रणनीति: सममित केंद्र क्षेत्र के बजाय बाएं-पूर्वाग्रह सबफ्रेम का उपयोग करना, अंतराल शुरुआत स्थिति पर ध्यान केंद्रित करना

2. Leftness तंत्र

FCOS में centerness को प्रतिस्थापित करता है, जिसे इस प्रकार परिभाषित किया गया है:

leftness1D(r) = √(rright / (rleft + rright))

बीट अंतराल के केंद्र के बजाय बाएं किनारे पर जोर देता है, बीट स्थानीयकरण के अंतर्ज्ञान के अनुरूप है।

3. हानि फ़ंक्शन

कुल हानि में तीन भाग होते हैं:

Lpoint(k,n) = Lcls(ck,n, ĉk,n, n) + 1{ck,n>0}Lreg(rk,n, r̂k,n, n) + 1{ck,n>0}Llft(rk,n, r̂k,n, n)
  • वर्गीकरण हानि: focal loss
  • प्रतिगमन हानि: 1D अनुकूलित GIoU loss
  • Leftness हानि: बाइनरी क्रॉस-एंट्रॉपी हानि

प्रायोगिक सेटअप

डेटासेट

WaveBeat के समान डेटासेट का उपयोग:

  • प्रशिक्षण सेट: Ballroom, Hainsworth, Beatles, RWC Popular
  • परीक्षण सेट: GTZAN, SMC
  • ऑडियो प्रारूप: 22.05kHz सैंपलिंग दर, 2^21 नमूना लंबाई (लगभग 1.6 मिनट)

मूल्यांकन मेट्रिक्स

  • F1 स्कोर: परिशुद्धता और रिकॉल का हार्मोनिक माध्य
  • CMLt (Continuity-based Metric allowing for Metrical Level Tolerance): समय हस्ताक्षर स्तर सहिष्णुता की अनुमति देने वाली निरंतरता मेट्रिक
  • AMLt (Accuracy-based Metric allowing for Metrical Level Tolerance): समय हस्ताक्षर स्तर सहिष्णुता की अनुमति देने वाली सटीकता मेट्रिक

तुलना विधियां

  • WaveBeat (Peak-picking)
  • WaveBeat (DBN)
  • Spectral TCN
  • Hung et al. (Transformer-based)

कार्यान्वयन विवरण

  • अनुकूलक: Adam (lr=1e-3, weight decay=1e-4)
  • सीखने की दर शेड्यूल: लगातार 3 epoch बिना सुधार के 10 गुना कम करना
  • बैच आकार: 16
  • प्रशिक्षण वातावरण: Google Colab, NVIDIA A100 40GB GPU
  • प्रशिक्षण रणनीति: 8-गुना क्रॉस-सत्यापन

प्रायोगिक परिणाम

मुख्य परिणाम

सभी WaveBeat वेरिएंट में, BeatFCOS कई डेटासेट पर उत्कृष्ट प्रदर्शन दिखाता है:

बीट ट्रैकिंग प्रदर्शन

  • Ballroom डेटासेट: F1=0.927, CMLt=0.873, AMLt=0.898
  • Beatles डेटासेट: F1=0.903, CMLt=0.797, AMLt=0.866
  • RWC Popular डेटासेट: F1=0.862, CMLt=0.763, AMLt=0.849

डाउनबीट ट्रैकिंग प्रदर्शन

  • Ballroom डेटासेट: F1=0.807, CMLt=0.697, AMLt=0.756
  • Beatles डेटासेट: F1=0.762, CMLt=0.579, AMLt=0.659
  • RWC Popular डेटासेट: F1=0.779, CMLt=0.691, AMLt=0.731

विलोपन प्रयोग

Leftness बनाम Centerness

Leftness तंत्र लगभग सभी डेटासेट और मेट्रिक्स पर centerness से काफी बेहतर है, विशेष रूप से डाउनबीट ट्रैकिंग में।

Soft-NMS बनाम मानक NMS

Soft-NMS लगातार प्रदर्शन में सुधार करता है, यह दर्शाता है कि यह संभावित रूप से मानक NMS द्वारा गलती से दबाए गए वैध निकटवर्ती बीट भविष्यवाणियों को बनाए रखने में सहायता करता है।

बैकबोन नेटवर्क फाइन-ट्यूनिंग रणनीति

केवल BatchNorm परतों को फ्रीज करते हुए कनवल्शन वजन अपडेट की अनुमति देने की रणनीति बैकबोन नेटवर्क को पूरी तरह फ्रीज करने की तुलना में काफी बेहतर है।

NMS थ्रेसहोल्ड चयन

भविष्यवाणी अंतराल IoU वितरण के हिस्टोग्राम का विश्लेषण करके, IoU थ्रेसहोल्ड को 0.2 पर डेटा-संचालित तरीके से चुना गया, जो पारंपरिक DBN द्वारा आवश्यक ग्रिड खोज से बचा गया।

संबंधित कार्य

पारंपरिक विधियां

प्रारंभिक बीट ट्रैकिंग ऑनसेट डिटेक्शन पर आधारित था, संगीत नोट शुरुआत की पहचान करके बीट स्थिति श्रृंखला का अनुमान लगाया गया।

गहन शिक्षा विधियां

  • RNNs/LSTMs: अस्थायी निर्भरता समर्थन प्रदान करते हैं, गैर-मशीन लर्निंग विधियों की तुलना में महत्वपूर्ण सफलता
  • TCNs: बड़े अस्थायी संदर्भ प्रदान करने के लिए बड़ी संख्या में फैली हुई कनवल्शन परतों का उपयोग करते हैं
  • Transformers: अनुक्रम डेटा के महत्वपूर्ण पहलुओं के लिए वजन आवंटन सीखते हैं

पोस्ट-प्रोसेसिंग तकनीकें

पारंपरिक विधियां आम तौर पर पोस्ट-प्रोसेसिंग के लिए DBNs का उपयोग करती हैं, लेकिन पैरामीटर ट्यूनिंग जटिलता, कम्प्यूटेशनल खर्च आदि समस्याएं हैं।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. ऑब्जेक्ट डिटेक्शन प्रतिमान बीट ट्रैकिंग कार्य पर प्रभावी ढंग से लागू किया जा सकता है
  2. NMS पोस्ट-प्रोसेसिंग पारंपरिक DBN की तुलना में अधिक सरल, कम अनुमानी है
  3. BeatFCOS डाउनबीट डिटेक्शन में विशेष रूप से उत्कृष्ट प्रदर्शन करता है
  4. डेटा-संचालित हाइपरपैरामीटर चयन ग्रिड खोज की तुलना में अधिक कुशल है

सीमाएं

  1. प्रदर्शन सीमा: हालांकि प्रतिस्पर्धी है, लेकिन सभी मेट्रिक्स पर SOTA विधियों को लगातार पार नहीं करता है
  2. मेमोरी बाधा: मेमोरी सीमाओं के कारण तीन के बजाय केवल दो FPN परतों का उपयोग कर सकते हैं
  3. डेटा निर्भरता: विधि प्रभाव प्रशिक्षण डेटा गुणवत्ता पर काफी निर्भर है

भविष्य की दिशाएं

  1. नियमित बीट अंतराल को बेहतर ढंग से लागू करने के लिए अस्थायी आसन्नता बाधाओं को एकीकृत करना
  2. पूरक दिशा के रूप में EM-आधारित अस्थायी मॉडल सीखने की खोज करना
  3. मेमोरी आवश्यकताओं को कम करने के लिए आर्किटेक्चर को और अनुकूलित करना

गहन मूल्यांकन

शक्तियां

  1. मजबूत नवाचार: पहली बार बीट ट्रैकिंग में ऑब्जेक्ट डिटेक्शन प्रतिमान पेश करना, नवीन विचार
  2. ठोस तकनीक: leftness तंत्र डिजाइन उचित है, बीट स्थानीयकरण अंतर्ज्ञान के अनुरूप है
  3. व्यापक प्रयोग: विस्तृत विलोपन प्रयोग और 8-गुना क्रॉस-सत्यापन शामिल है
  4. व्यावहारिक मूल्य: पोस्ट-प्रोसेसिंग प्रवाह को सरल बनाया, पैरामीटर ट्यूनिंग जटिलता को कम किया

कमियां

  1. सीमित प्रदर्शन सुधार: मौजूदा SOTA विधियों की तुलना में, सुधार की मात्रा पर्याप्त नहीं है
  2. प्रयोज्यता सीमा: मुख्य रूप से विशिष्ट डेटासेट पर सत्यापित, सामान्यीकरण क्षमता को आगे साबित करने की आवश्यकता है
  3. अपर्याप्त सैद्धांतिक विश्लेषण: इस बात की गहन सैद्धांतिक व्याख्या की कमी कि बीट ट्रैकिंग के लिए ऑब्जेक्ट डिटेक्शन क्यों उपयुक्त है

प्रभाव

  1. पद्धति योगदान: संगीत सूचना पुनर्प्राप्ति क्षेत्र के लिए नई मॉडलिंग सोच प्रदान करता है
  2. क्रॉस-डोमेन प्रेरणा: ऑडियो प्रोसेसिंग में कंप्यूटर विजन तकनीकों के अनुप्रयोग की संभावना दिखाता है
  3. इंजीनियरिंग मूल्य: सरलीकृत पोस्ट-प्रोसेसिंग प्रवाह में व्यावहारिक अनुप्रयोग मूल्य है

लागू परिदृश्य

  1. वास्तविक समय बीट डिटेक्शन की आवश्यकता वाले संगीत अनुप्रयोग
  2. पोस्ट-प्रोसेसिंग जटिलता के प्रति संवेदनशील एम्बेडेड सिस्टम
  3. डाउनबीट डिटेक्शन आवश्यकताओं वाले संगीत विश्लेषण कार्य

संदर्भ

पेपर ने 34 संबंधित संदर्भों का हवाला दिया है, जो बीट ट्रैकिंग, ऑब्जेक्ट डिटेक्शन, गहन शिक्षा और अन्य क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करते हैं, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।