2025-11-19T02:46:12.920144

Beat Detection as Object Detection

Ahn, Jung

Recent beat and downbeat tracking models (e.g., RNNs, TCNs, Transformers) output frame-level activations. We propose reframing this task as object detection, where beats and downbeats are modeled as temporal "objects." Adapting the FCOS detector from computer vision to 1D audio, we replace its original backbone with WaveBeat's temporal feature extractor and add a Feature Pyramid Network to capture multi-scale temporal patterns. The model predicts overlapping beat/downbeat intervals with confidence scores, followed by non-maximum suppression (NMS) to select final predictions. This NMS step serves a similar role to DBNs in traditional trackers, but is simpler and less heuristic. Evaluated on standard music datasets, our approach achieves competitive results, showing that object detection techniques can effectively model musical beats with minimal adaptation.

academic

Beat Tracking as Object Detection

基本信息

论文ID: 2510.14391
标题: Beat Tracking as Object Detection
作者: Jaehoon Ahn (Sogang University), Moon-Ryul Jung (Sogang University)
分类: cs.SD (Sound), cs.AI (Artificial Intelligence), cs.LG (Machine Learning)
发表时间: 2025年10月16日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.14391v1

摘要

近期的节拍和重拍跟踪模型（如RNNs、TCNs、Transformers）输出帧级激活值。本文提出将此任务重新定义为目标检测问题，将节拍和重拍建模为时间"对象"。通过将计算机视觉中的FCOS检测器适配到1D音频，用WaveBeat的时间特征提取器替换原始骨干网络，并添加特征金字塔网络以捕获多尺度时间模式。模型预测重叠的节拍/重拍区间及其置信度分数，然后使用非极大值抑制(NMS)选择最终预测。这个NMS步骤与传统跟踪器中的DBN起到类似作用，但更简单且不那么启发式。在标准音乐数据集上的评估显示，该方法取得了竞争性结果，证明目标检测技术可以有效建模音乐节拍且只需最小适配。

后处理复杂性：大多数现代节拍检测网络产生每帧的激活函数，需要使用动态贝叶斯网络(DBNs)进行后处理以产生最终节拍位置
DBN的缺陷：DBNs在节拍变化和拍号变化时容易失效，且过于启发式
重拍检测困难：相比节拍检测，重拍检测的性能普遍较差

研究动机

作者认为节拍跟踪可以看作音频的目标检测形式，因此尝试使用专门为目标检测设计的神经网络来改进节拍跟踪，特别是重拍跟踪性能。

核心贡献

范式创新：首次将节拍跟踪重新定义为1D时间目标检测问题，将节拍和重拍建模为时间区间对象
架构适配：成功将FCOS目标检测模型适配到音频领域，用WaveBeat替换原始ResNet-50骨干网络
后处理简化：用NMS替代传统的DBN后处理，提供更简单、更少启发式的解决方案
性能提升：在标准音乐数据集上取得竞争性结果，特别是在重拍检测方面表现突出

WaveBeat骨干网络：替代原始FCOS的ResNet-50，直接处理原始音频波形
特征金字塔网络(FPN)：捕获多尺度时间模式
三头检测器：分别用于分类、回归和leftness预测

节拍区间表示

节拍区间：两个连续节拍之间的时间段
重拍区间：两个连续重拍之间的时间段
重复表示：重拍既作为重拍区间又作为普通节拍区间出现

WaveBeat与FPN集成

移除WaveBeat的最终卷积和sigmoid层
将最后两个TCN块(C7和C8)的输出传递给FPN的P7和P8层
由于内存限制，只使用最后两个骨干块输出而非原始FCOS的三个

技术创新点

1. 锚点策略

尺寸限制：每个FPN层负责特定时间尺度的区间
子框策略：使用左偏置子框而非对称中心区域，重点关注区间起始位置

2. Leftness机制

替代FCOS中的centerness，定义为：

leftness1D(r) = √(rright / (rleft + rright))

强调节拍区间的左边缘而非中心，更符合节拍定位的直觉。

3. 损失函数

总损失包含三个部分：

Lpoint(k,n) = Lcls(ck,n, ĉk,n, n) + 1{ck,n>0}Lreg(rk,n, r̂k,n, n) + 1{ck,n>0}Llft(rk,n, r̂k,n, n)

分类损失：focal loss
回归损失：1D适配的GIoU loss
Leftness损失：二元交叉熵损失

实验设置

数据集

使用与WaveBeat相同的数据集：

训练集：Ballroom、Hainsworth、Beatles、RWC Popular
测试集：GTZAN、SMC
音频格式：22.05kHz采样率，2^21样本长度(约1.6分钟)

评价指标

F1分数：精确率和召回率的调和平均
CMLt (Continuity-based Metric allowing for Metrical Level Tolerance)：容忍拍号层级的连续性指标
AMLt (Accuracy-based Metric allowing for Metrical Level Tolerance)：容忍拍号层级的准确性指标