Recent beat and downbeat tracking models (e.g., RNNs, TCNs, Transformers) output frame-level activations. We propose reframing this task as object detection, where beats and downbeats are modeled as temporal "objects." Adapting the FCOS detector from computer vision to 1D audio, we replace its original backbone with WaveBeat's temporal feature extractor and add a Feature Pyramid Network to capture multi-scale temporal patterns. The model predicts overlapping beat/downbeat intervals with confidence scores, followed by non-maximum suppression (NMS) to select final predictions. This NMS step serves a similar role to DBNs in traditional trackers, but is simpler and less heuristic. Evaluated on standard music datasets, our approach achieves competitive results, showing that object detection techniques can effectively model musical beats with minimal adaptation.
論文ID : 2510.14391タイトル : Beat Tracking as Object Detection著者 : Jaehoon Ahn (Sogang University)、Moon-Ryul Jung (Sogang University)分類 : cs.SD (Sound)、cs.AI (Artificial Intelligence)、cs.LG (Machine Learning)発表日時 : 2025年10月16日 (arXivプレプリント)論文リンク : https://arxiv.org/abs/2510.14391v1 最近のビート追跡および強拍追跡モデル(RNN、TCN、Transformerなど)はフレームレベルの活性化値を出力します。本論文は、このタスクをオブジェクト検出問題として再定義し、ビートと強拍を時間的「オブジェクト」としてモデル化することを提案しています。コンピュータビジョンのFCOS検出器を1D音声に適応させ、元のバックボーンネットワークをWaveBeatの時間特徴抽出器に置き換え、マルチスケール時間パターンをキャプチャするための特徴ピラミッドネットワークを追加しました。モデルは重複するビート/強拍区間とその信頼度スコアを予測し、その後、非最大値抑制(NMS)を使用して最終予測を選択します。このNMSステップは従来の追跡器の動的ベイズネットワーク(DBN)と同様の役割を果たしますが、より単純で発見的ではありません。標準音楽データセットでの評価により、本手法は競争力のある結果を達成し、オブジェクト検出技術が最小限の適応で音楽ビートを効果的にモデル化できることを証明しています。
ビート追跡は音楽情報検索(MIR)分野の重要な研究方向であり、ビートと強拍位置の計算予測を含みます。従来の方法は初期のオンセット検出から現代の機械学習技術(RNN、LSTM、TCN、Transformerなど)へと発展してきました。
後処理の複雑性 :ほとんどの現代的なビート検出ネットワークはフレームごとの活性化関数を生成し、最終的なビート位置を生成するために動的ベイズネットワーク(DBN)を使用した後処理が必要ですDBNの欠陥 :DBNはビート変化と拍子変化時に失敗しやすく、過度に発見的です強拍検出の困難さ :ビート検出と比較して、強拍検出のパフォーマンスは一般的に低くなっています著者らは、ビート追跡を音声のオブジェクト検出の形式と見なすことができると考え、オブジェクト検出用に特別に設計されたニューラルネットワークを使用してビート追跡を改善し、特に強拍追跡のパフォーマンスを向上させることを試みました。
パラダイムの革新 :ビート追跡を1D時間オブジェクト検出問題として初めて再定義し、ビートと強拍を時間区間オブジェクトとしてモデル化アーキテクチャの適応 :FCOS目標検出モデルを音声領域に成功裏に適応させ、元のResNet-50バックボーンをWaveBeatに置き換え後処理の簡略化 :従来のDBN後処理をNMSに置き換え、より単純で発見的でないソリューションを提供パフォーマンスの向上 :標準音楽データセットで競争力のある結果を達成し、特に強拍検出で優れたパフォーマンスを発揮0D時間点のビート検出を1D音声の区間検出問題に変換します。入力は生の音声波形であり、出力は信頼度スコア付きのビート/強拍区間予測です。
BeatFCOSモデルには以下の主要コンポーネントが含まれます:
WaveBeatバックボーン :元のFCOSのResNet-50に代わり、生の音声波形を直接処理特徴ピラミッドネットワーク(FPN) :マルチスケール時間パターンをキャプチャ3ヘッド検出器 :分類、回帰、leftness予測にそれぞれ使用ビート区間 :2つの連続するビート間の時間セグメント強拍区間 :2つの連続する強拍間の時間セグメント重複表現 :強拍は強拍区間と通常のビート区間の両方として表示WaveBeatの最終畳み込みとシグモイド層を削除 最後の2つのTCNブロック(C7とC8)の出力をFPNのP7とP8層に渡す メモリ制限により、元のFCOSの3つではなく、最後の2つのバックボーンブロック出力のみを使用 サイズ制限 :各FPNレイヤーは特定の時間スケールの区間を担当サブボックス戦略 :対称的な中心領域ではなく、左バイアスサブボックスを使用し、区間の開始位置に焦点を当てるFCOSのcenternessに代わり、以下のように定義されます:
leftness1D(r) = √(rright / (rleft + rright))
ビート区間の中心ではなく左端を強調し、ビート位置決定の直感とより一致しています。
総損失は3つの部分で構成されます:
Lpoint(k,n) = Lcls(ck,n, ĉk,n, n) + 1{ck,n>0}Lreg(rk,n, r̂k,n, n) + 1{ck,n>0}Llft(rk,n, r̂k,n, n)
分類損失:focal loss 回帰損失:1D適応GIoU loss Leftness損失:二値交差エントロピー損失 WaveBeatと同じデータセットを使用:
訓練セット :Ballroom、Hainsworth、Beatles、RWC Popularテストセット :GTZAN、SMC音声フォーマット :22.05kHzサンプリングレート、2^21サンプル長(約1.6分)F1スコア :適合率と再現率の調和平均CMLt (Continuity-based Metric allowing for Metrical Level Tolerance) :拍子レベルの許容度を考慮した連続性指標AMLt (Accuracy-based Metric allowing for Metrical Level Tolerance) :拍子レベルの許容度を考慮した精度指標WaveBeat (Peak-picking) WaveBeat (DBN) Spectral TCN Hung et al. (Transformer-based) オプティマイザー :Adam (lr=1e-3、weight decay=1e-4)学習率スケジュール :連続3エポック改善なしで10倍低下バッチサイズ :16訓練環境 :Google Colab、NVIDIA A100 40GB GPU訓練戦略 :8分割交差検証すべてのWaveBeat変種の中で、BeatFCOSは複数のデータセットで優れたパフォーマンスを示しました:
Ballroomデータセット :F1=0.927、CMLt=0.873、AMLt=0.898Beatlesデータセット :F1=0.903、CMLt=0.797、AMLt=0.866RWC Popularデータセット :F1=0.862、CMLt=0.763、AMLt=0.849Ballroomデータセット :F1=0.807、CMLt=0.697、AMLt=0.756Beatlesデータセット :F1=0.762、CMLt=0.579、AMLt=0.659RWC Popularデータセット :F1=0.779、CMLt=0.691、AMLt=0.731Leftness機構はほぼすべてのデータセットと指標でcenternessを大幅に上回り、特に強拍追跡で顕著です。
Soft-NMSはパフォーマンスを継続的に改善し、標準NMSが誤って抑制する可能性のある有効な近距離ビート予測の保持に役立つことを示しています。
BatchNormレイヤーのみを凍結し、畳み込み重みの更新を許可する戦略は、バックボーンネットワークを完全に凍結する場合よりも大幅に優れています。
予測区間間のIoU分布のヒストグラムを分析することで、IoU閾値を0.2としてデータ駆動的に選択し、従来のDBNが必要とするグリッドサーチを回避しました。
初期のビート追跡は、音符の開始を識別することでビート位置チェーンを推定するオンセット検出に基づいていました。
RNN/LSTM :時間依存性のサポートを提供し、非機械学習手法と比較して大幅な進歩を実現TCN :大量の拡張畳み込み層を使用して大きな時間コンテキストを提供Transformer :シーケンスデータの重要な側面に対する重み配分を学習従来の手法は一般的にDBNを後処理に使用していますが、パラメータ調整の複雑さと計算コストが高いなどの問題があります。
オブジェクト検出パラダイムはビート追跡タスクに効果的に適用できる NMS後処理は従来のDBNより単純で発見的ではない BeatFCOSは特に強拍検出で優れたパフォーマンスを発揮 データ駆動型のハイパーパラメータ選択はグリッドサーチより効率的 パフォーマンスの制限 :競争力は強いが、すべての指標でSOTA手法を一貫して上回っていないメモリ制約 :メモリ制限により、3つではなく2つのFPNレイヤーのみを使用可能データ依存性 :手法の効果は訓練データの品質に大きく影響される時間的隣接制約を統合して、より規則的なビート間隔を強制 補足的なアプローチとしてEM基盤の時間モデル学習を探索 メモリ要件を削減するためのアーキテクチャのさらなる最適化 革新性が高い :オブジェクト検出パラダイムをビート追跡に初めて導入し、新しい視点を提供技術が堅実 :leftness機構の設計は合理的で、ビート位置決定の直感と一致実験が充分 :詳細なアブレーション実験と8分割交差検証を含む実用的価値 :後処理フローを簡略化し、パラメータ調整の複雑さを軽減パフォーマンス向上が限定的 :既存のSOTA手法と比較して、改善幅が十分ではない適用性の制限 :主に特定のデータセットで検証され、汎化能力の証明が不十分理論分析が不足 :オブジェクト検出がビート追跡に適している理由の深い理論的説明が欠けている方法論への貢献 :音楽情報検索分野に新しいモデリング思想を提供分野横断的な啓発 :コンピュータビジョン技術の音声処理への応用可能性を実証工学的価値 :簡略化された後処理フローは実用的応用価値を持つリアルタイムビート検出が必要な音楽アプリケーション 後処理の複雑さに敏感な組み込みシステム 強拍検出要件が高い音楽分析タスク 本論文は、ビート追跡、オブジェクト検出、深層学習など複数の分野の重要な研究を網羅する34篇の関連文献を引用しており、研究に堅実な理論的基礎を提供しています。