Recent beat and downbeat tracking models (e.g., RNNs, TCNs, Transformers) output frame-level activations. We propose reframing this task as object detection, where beats and downbeats are modeled as temporal "objects." Adapting the FCOS detector from computer vision to 1D audio, we replace its original backbone with WaveBeat's temporal feature extractor and add a Feature Pyramid Network to capture multi-scale temporal patterns. The model predicts overlapping beat/downbeat intervals with confidence scores, followed by non-maximum suppression (NMS) to select final predictions. This NMS step serves a similar role to DBNs in traditional trackers, but is simpler and less heuristic. Evaluated on standard music datasets, our approach achieves competitive results, showing that object detection techniques can effectively model musical beats with minimal adaptation.
论文ID : 2510.14391标题 : Beat Tracking as Object Detection作者 : Jaehoon Ahn (Sogang University), Moon-Ryul Jung (Sogang University)分类 : cs.SD (Sound), cs.AI (Artificial Intelligence), cs.LG (Machine Learning)发表时间 : 2025年10月16日 (arXiv预印本)论文链接 : https://arxiv.org/abs/2510.14391v1 近期的节拍和重拍跟踪模型(如RNNs、TCNs、Transformers)输出帧级激活值。本文提出将此任务重新定义为目标检测问题,将节拍和重拍建模为时间"对象"。通过将计算机视觉中的FCOS检测器适配到1D音频,用WaveBeat的时间特征提取器替换原始骨干网络,并添加特征金字塔网络以捕获多尺度时间模式。模型预测重叠的节拍/重拍区间及其置信度分数,然后使用非极大值抑制(NMS)选择最终预测。这个NMS步骤与传统跟踪器中的DBN起到类似作用,但更简单且不那么启发式。在标准音乐数据集上的评估显示,该方法取得了竞争性结果,证明目标检测技术可以有效建模音乐节拍且只需最小适配。
节拍跟踪是音乐信息检索(MIR)领域的重要研究方向,包括节拍和重拍位置的计算预测。传统方法从早期的起始点检测发展到现代的机器学习技术,包括RNNs、LSTMs、TCNs和Transformers等。
后处理复杂性 :大多数现代节拍检测网络产生每帧的激活函数,需要使用动态贝叶斯网络(DBNs)进行后处理以产生最终节拍位置DBN的缺陷 :DBNs在节拍变化和拍号变化时容易失效,且过于启发式重拍检测困难 :相比节拍检测,重拍检测的性能普遍较差作者认为节拍跟踪可以看作音频的目标检测形式,因此尝试使用专门为目标检测设计的神经网络来改进节拍跟踪,特别是重拍跟踪性能。
范式创新 :首次将节拍跟踪重新定义为1D时间目标检测问题,将节拍和重拍建模为时间区间对象架构适配 :成功将FCOS目标检测模型适配到音频领域,用WaveBeat替换原始ResNet-50骨干网络后处理简化 :用NMS替代传统的DBN后处理,提供更简单、更少启发式的解决方案性能提升 :在标准音乐数据集上取得竞争性结果,特别是在重拍检测方面表现突出将0D时间点的节拍检测转换为1D音频中区间检测问题。输入为原始音频波形,输出为带置信度分数的节拍/重拍区间预测。
BeatFCOS模型包含以下关键组件:
WaveBeat骨干网络 :替代原始FCOS的ResNet-50,直接处理原始音频波形特征金字塔网络(FPN) :捕获多尺度时间模式三头检测器 :分别用于分类、回归和leftness预测节拍区间 :两个连续节拍之间的时间段重拍区间 :两个连续重拍之间的时间段重复表示 :重拍既作为重拍区间又作为普通节拍区间出现移除WaveBeat的最终卷积和sigmoid层 将最后两个TCN块(C7和C8)的输出传递给FPN的P7和P8层 由于内存限制,只使用最后两个骨干块输出而非原始FCOS的三个 尺寸限制 :每个FPN层负责特定时间尺度的区间子框策略 :使用左偏置子框而非对称中心区域,重点关注区间起始位置替代FCOS中的centerness,定义为:
leftness1D(r) = √(rright / (rleft + rright))
强调节拍区间的左边缘而非中心,更符合节拍定位的直觉。
总损失包含三个部分:
Lpoint(k,n) = Lcls(ck,n, ĉk,n, n) + 1{ck,n>0}Lreg(rk,n, r̂k,n, n) + 1{ck,n>0}Llft(rk,n, r̂k,n, n)
分类损失:focal loss 回归损失:1D适配的GIoU loss Leftness损失:二元交叉熵损失 使用与WaveBeat相同的数据集:
训练集 :Ballroom、Hainsworth、Beatles、RWC Popular测试集 :GTZAN、SMC音频格式 :22.05kHz采样率,2^21样本长度(约1.6分钟)F1分数 :精确率和召回率的调和平均CMLt (Continuity-based Metric allowing for Metrical Level Tolerance) :容忍拍号层级的连续性指标AMLt (Accuracy-based Metric allowing for Metrical Level Tolerance) :容忍拍号层级的准确性指标WaveBeat (Peak-picking) WaveBeat (DBN) Spectral TCN Hung et al. (Transformer-based) 优化器 :Adam (lr=1e-3, weight decay=1e-4)学习率调度 :连续3个epoch无改善时降低10倍批大小 :16训练环境 :Google Colab, NVIDIA A100 40GB GPU训练策略 :8折交叉验证在所有WaveBeat变体中,BeatFCOS在多个数据集上表现出色:
Ballroom数据集 :F1=0.927, CMLt=0.873, AMLt=0.898Beatles数据集 :F1=0.903, CMLt=0.797, AMLt=0.866RWC Popular数据集 :F1=0.862, CMLt=0.763, AMLt=0.849Ballroom数据集 :F1=0.807, CMLt=0.697, AMLt=0.756Beatles数据集 :F1=0.762, CMLt=0.579, AMLt=0.659RWC Popular数据集 :F1=0.779, CMLt=0.691, AMLt=0.731Leftness机制在几乎所有数据集和指标上都显著优于centerness,特别是在重拍跟踪方面。
Soft-NMS持续改善性能,表明它有助于保留可能被标准NMS错误抑制的有效近距离节拍预测。
只冻结BatchNorm层而允许卷积权重更新的策略显著优于完全冻结骨干网络。
通过分析预测区间间IoU分布的直方图,数据驱动地选择IoU阈值为0.2,避免了传统DBN需要的网格搜索。
早期节拍跟踪基于起始点检测,通过识别音符开始来估计节拍位置链。
RNNs/LSTMs :提供时间依赖性支持,相比非机器学习方法有显著突破TCNs :使用大量扩张卷积层提供大时间上下文Transformers :学习对序列数据重要方面的权重分配传统方法普遍使用DBNs进行后处理,但存在参数调优复杂、计算昂贵等问题。
目标检测范式可以有效应用于节拍跟踪任务 NMS后处理比传统DBN更简单、更少启发式 BeatFCOS在重拍检测方面表现特别突出 数据驱动的超参数选择比网格搜索更高效 性能限制 :虽然竞争性强,但未在所有指标上一致超越SOTA方法内存约束 :由于内存限制只能使用两个FPN层而非三个数据依赖 :方法效果受训练数据质量影响较大集成时间邻接约束以更好地强制规律节拍间距 探索基于EM的时间模型学习作为补充方向 进一步优化架构以减少内存需求 创新性强 :首次将目标检测范式引入节拍跟踪,思路新颖技术扎实 :leftness机制设计合理,符合节拍定位直觉实验充分 :包含详细的消融实验和8折交叉验证实用价值 :简化了后处理流程,降低了参数调优复杂度性能提升有限 :相比现有SOTA方法,提升幅度不够显著适用性限制 :主要在特定数据集上验证,泛化能力有待进一步证明理论分析不足 :缺乏对为什么目标检测适合节拍跟踪的深入理论解释方法论贡献 :为音乐信息检索领域提供了新的建模思路跨领域启发 :展示了计算机视觉技术在音频处理中的应用潜力工程价值 :简化的后处理流程具有实际应用价值需要实时节拍检测的音乐应用 对后处理复杂度敏感的嵌入式系统 重拍检测要求较高的音乐分析任务 论文引用了34篇相关文献,涵盖了节拍跟踪、目标检测、深度学习等多个领域的重要工作,为研究提供了坚实的理论基础。