Recent beat and downbeat tracking models (e.g., RNNs, TCNs, Transformers) output frame-level activations. We propose reframing this task as object detection, where beats and downbeats are modeled as temporal "objects." Adapting the FCOS detector from computer vision to 1D audio, we replace its original backbone with WaveBeat's temporal feature extractor and add a Feature Pyramid Network to capture multi-scale temporal patterns. The model predicts overlapping beat/downbeat intervals with confidence scores, followed by non-maximum suppression (NMS) to select final predictions. This NMS step serves a similar role to DBNs in traditional trackers, but is simpler and less heuristic. Evaluated on standard music datasets, our approach achieves competitive results, showing that object detection techniques can effectively model musical beats with minimal adaptation.
हाल के बीट और डाउनबीट ट्रैकिंग मॉडल (जैसे RNNs, TCNs, Transformers) फ्रेम-स्तरीय सक्रियण मान आउटपुट करते हैं। यह पेपर इस कार्य को ऑब्जेक्ट डिटेक्शन समस्या के रूप में पुनः परिभाषित करने का प्रस्ताव देता है, बीट और डाउनबीट को अस्थायी "ऑब्जेक्ट" के रूप में मॉडल करते हुए। कंप्यूटर विजन में FCOS डिटेक्टर को 1D ऑडियो में अनुकूलित करके, WaveBeat के अस्थायी फीचर एक्सट्रैक्टर से मूल बैकबोन नेटवर्क को प्रतिस्थापित करके, और बहु-स्केल अस्थायी पैटर्न को कैप्चर करने के लिए फीचर पिरामिड नेटवर्क जोड़कर। मॉडल ओवरलैपिंग बीट/डाउनबीट अंतराल और उनके आत्मविश्वास स्कोर की भविष्यवाणी करता है, फिर अंतिम भविष्यवाणी चुनने के लिए गैर-अधिकतम दमन (NMS) का उपयोग करता है। यह NMS चरण पारंपरिक ट्रैकर में DBN की तरह काम करता है, लेकिन अधिक सरल और कम अनुमानी है। मानक संगीत डेटासेट पर मूल्यांकन प्रतिस्पर्धी परिणाम दिखाता है, जो साबित करता है कि ऑब्जेक्ट डिटेक्शन तकनीकें संगीत बीट को प्रभावी ढंग से मॉडल कर सकती हैं और केवल न्यूनतम अनुकूलन की आवश्यकता है।
बीट ट्रैकिंग संगीत सूचना पुनर्प्राप्ति (MIR) क्षेत्र में एक महत्वपूर्ण अनुसंधान दिशा है, जिसमें बीट और डाउनबीट स्थिति की कम्प्यूटेशनल भविष्यवाणी शामिल है। पारंपरिक विधियां प्रारंभिक ऑनसेट डिटेक्शन से आधुनिक मशीन लर्निंग तकनीकों तक विकसित हुई हैं, जिनमें RNNs, LSTMs, TCNs और Transformers शामिल हैं।
पोस्ट-प्रोसेसिंग जटिलता: अधिकांश आधुनिक बीट डिटेक्शन नेटवर्क प्रत्येक फ्रेम के लिए सक्रियण फ़ंक्शन उत्पन्न करते हैं, जिन्हें अंतिम बीट स्थिति उत्पन्न करने के लिए गतिशील बेयस नेटवर्क (DBNs) का उपयोग करके पोस्ट-प्रोसेस करने की आवश्यकता होती है
DBN की कमियां: DBNs बीट परिवर्तन और समय हस्ताक्षर परिवर्तन के समय विफल होने के लिए प्रवण हैं, और अत्यधिक अनुमानी हैं
डाउनबीट डिटेक्शन कठिनाई: बीट डिटेक्शन की तुलना में, डाउनबीट डिटेक्शन का प्रदर्शन आम तौर पर खराब है
लेखकों का मानना है कि बीट ट्रैकिंग को ऑडियो के लिए ऑब्जेक्ट डिटेक्शन के रूप में देखा जा सकता है, इसलिए वे बीट ट्रैकिंग में सुधार के लिए विशेष रूप से ऑब्जेक्ट डिटेक्शन के लिए डिज़ाइन किए गए तंत्रिका नेटवर्क का उपयोग करने का प्रयास करते हैं, विशेष रूप से डाउनबीट ट्रैकिंग प्रदर्शन।
प्रतिमान नवाचार: पहली बार बीट ट्रैकिंग को 1D अस्थायी ऑब्जेक्ट डिटेक्शन समस्या के रूप में पुनः परिभाषित करना, बीट और डाउनबीट को अस्थायी अंतराल ऑब्जेक्ट के रूप में मॉडल करना
आर्किटेक्चर अनुकूलन: FCOS ऑब्जेक्ट डिटेक्शन मॉडल को ऑडियो डोमेन में सफलतापूर्वक अनुकूलित करना, मूल ResNet-50 बैकबोन नेटवर्क को WaveBeat से प्रतिस्थापित करना
पोस्ट-प्रोसेसिंग सरलीकरण: पारंपरिक DBN पोस्ट-प्रोसेसिंग को NMS से प्रतिस्थापित करना, अधिक सरल, कम अनुमानी समाधान प्रदान करना
प्रदर्शन सुधार: मानक संगीत डेटासेट पर प्रतिस्पर्धी परिणाम प्राप्त करना, विशेष रूप से डाउनबीट डिटेक्शन में उत्कृष्ट प्रदर्शन
0D अस्थायी बिंदु बीट डिटेक्शन को 1D ऑडियो में अंतराल डिटेक्शन समस्या में परिवर्तित करना। इनपुट कच्चा ऑडियो वेवफॉर्म है, आउटपुट आत्मविश्वास स्कोर के साथ बीट/डाउनबीट अंतराल भविष्यवाणी है।
Soft-NMS लगातार प्रदर्शन में सुधार करता है, यह दर्शाता है कि यह संभावित रूप से मानक NMS द्वारा गलती से दबाए गए वैध निकटवर्ती बीट भविष्यवाणियों को बनाए रखने में सहायता करता है।
भविष्यवाणी अंतराल IoU वितरण के हिस्टोग्राम का विश्लेषण करके, IoU थ्रेसहोल्ड को 0.2 पर डेटा-संचालित तरीके से चुना गया, जो पारंपरिक DBN द्वारा आवश्यक ग्रिड खोज से बचा गया।
पेपर ने 34 संबंधित संदर्भों का हवाला दिया है, जो बीट ट्रैकिंग, ऑब्जेक्ट डिटेक्शन, गहन शिक्षा और अन्य क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करते हैं, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।