Recent beat and downbeat tracking models (e.g., RNNs, TCNs, Transformers) output frame-level activations. We propose reframing this task as object detection, where beats and downbeats are modeled as temporal "objects." Adapting the FCOS detector from computer vision to 1D audio, we replace its original backbone with WaveBeat's temporal feature extractor and add a Feature Pyramid Network to capture multi-scale temporal patterns. The model predicts overlapping beat/downbeat intervals with confidence scores, followed by non-maximum suppression (NMS) to select final predictions. This NMS step serves a similar role to DBNs in traditional trackers, but is simpler and less heuristic. Evaluated on standard music datasets, our approach achieves competitive results, showing that object detection techniques can effectively model musical beats with minimal adaptation.
تُخرج نماذج تتبع النبض والنبض القوي الحديثة (مثل RNNs و TCNs و Transformers) قيم تفعيل على مستوى الإطار. تقترح هذه الورقة إعادة تعريف هذه المهمة كمشكلة كشف أجسام، حيث يتم نمذجة النبضات والنبضات القوية كـ"أجسام" زمنية. من خلال تكييف كاشف FCOS من رؤية الحاسوب إلى الصوت أحادي البعد، واستبدال العمود الفقري الأصلي باستخراج الميزات الزمنية من WaveBeat، وإضافة شبكة هرم الميزات لالتقاط أنماط زمنية متعددة المقاييس. يتنبأ النموذج بفترات النبض/النبض القوي المتداخلة ودرجات الثقة الخاصة بها، ثم يستخدم قمع الحد الأقصى غير الأقصى (NMS) لاختيار التنبؤات النهائية. تؤدي خطوة NMS هذه دوراً مشابهاً لـ DBN في المتتبعات التقليدية، لكنها أبسط وأقل استكشافية. يُظهر التقييم على مجموعات بيانات موسيقية قياسية نتائج تنافسية، مما يثبت أن تقنيات كشف الأجسام يمكنها نمذجة النبض الموسيقي بشكل فعال مع الحد الأدنى من التكييف.
يعتبر تتبع النبض اتجاهاً بحثياً مهماً في مجال استرجاع المعلومات الموسيقية (MIR)، ويشمل التنبؤ الحسابي لمواقع النبض والنبض القوي. تطورت الطرق التقليدية من الكشف المبكر عن نقاط البداية إلى تقنيات التعلم الآلي الحديثة، بما في ذلك RNNs و LSTMs و TCNs و Transformers وغيرها.
تعقيد المعالجة اللاحقة: تُنتج معظم شبكات كشف النبض الحديثة دوال تفعيل لكل إطار، مما يتطلب استخدام الشبكات البايزية الديناميكية (DBNs) للمعالجة اللاحقة لإنتاج مواقع النبض النهائية
عيوب DBN: تفشل DBNs عند تغيير النبض وتغيير التوقيع الزمني، وهي استكشافية جداً
صعوبة الكشف عن النبض القوي: يكون أداء الكشف عن النبض القوي أسوأ بشكل عام مقارنة بكشف النبض
يعتقد المؤلفون أن تتبع النبض يمكن اعتباره شكلاً من أشكال كشف الأجسام للصوت، لذلك يحاولون استخدام الشبكات العصبية المصممة خصيصاً لكشف الأجسام لتحسين تتبع النبض، خاصة أداء تتبع النبض القوي.
تحويل كشف النبض من نقطة زمنية ثنائية الأبعاد إلى مشكلة كشف فترة في صوت أحادي البعد. الإدخال عبارة عن موجة صوتية خام، والإخراج عبارة عن تنبؤات فترة نبض/نبض قوي مع درجات ثقة.
من خلال تحليل الرسم البياني لتوزيع IoU لفترات التنبؤ، تم اختيار عتبة IoU بقيمة 0.2 بطريقة تحكمها البيانات، مما يتجنب البحث الشامل المطلوب بواسطة DBN التقليدي.