2025-11-19T02:46:12.920144

Beat Detection as Object Detection

Ahn, Jung

Recent beat and downbeat tracking models (e.g., RNNs, TCNs, Transformers) output frame-level activations. We propose reframing this task as object detection, where beats and downbeats are modeled as temporal "objects." Adapting the FCOS detector from computer vision to 1D audio, we replace its original backbone with WaveBeat's temporal feature extractor and add a Feature Pyramid Network to capture multi-scale temporal patterns. The model predicts overlapping beat/downbeat intervals with confidence scores, followed by non-maximum suppression (NMS) to select final predictions. This NMS step serves a similar role to DBNs in traditional trackers, but is simpler and less heuristic. Evaluated on standard music datasets, our approach achieves competitive results, showing that object detection techniques can effectively model musical beats with minimal adaptation.

academic

객체 검출로서의 비트 추적

기본 정보

논문 ID: 2510.14391
제목: Beat Tracking as Object Detection
저자: Jaehoon Ahn (Sogang University), Moon-Ryul Jung (Sogang University)
분류: cs.SD (Sound), cs.AI (Artificial Intelligence), cs.LG (Machine Learning)
발표 시간: 2025년 10월 16일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.14391v1

초록

최근의 비트 및 강박 추적 모델(예: RNNs, TCNs, Transformers)은 프레임 수준의 활성화 값을 출력합니다. 본 논문은 이 작업을 객체 검출 문제로 재정의하여 비트와 강박을 시간적 "객체"로 모델링할 것을 제안합니다. 컴퓨터 비전의 FCOS 검출기를 1D 오디오에 적용하고, WaveBeat의 시간 특성 추출기로 원래 백본 네트워크를 대체하며, 다중 스케일 시간 패턴을 포착하기 위해 특성 피라미드 네트워크를 추가합니다. 모델은 겹치는 비트/강박 구간 및 신뢰도 점수를 예측한 후, 비극대값 억제(NMS)를 사용하여 최종 예측을 선택합니다. 이 NMS 단계는 전통적 추적기의 DBN과 유사한 역할을 하지만 더 간단하고 휴리스틱하지 않습니다. 표준 음악 데이터셋에 대한 평가는 이 방법이 경쟁력 있는 결과를 달성하며, 객체 검출 기술이 음악 비트를 효과적으로 모델링할 수 있고 최소한의 적응만 필요함을 입증합니다.

연구 배경 및 동기

문제 정의

비트 추적은 음악 정보 검색(MIR) 분야의 중요한 연구 방향으로, 비트 및 강박 위치의 계산적 예측을 포함합니다. 전통적 방법은 초기 온셋 검출에서 RNNs, LSTMs, TCNs, Transformers 등을 포함한 현대 기계학습 기술로 발전했습니다.

기존 방법의 한계

후처리 복잡성: 대부분의 현대 비트 검출 네트워크는 프레임별 활성화 함수를 생성하며, 최종 비트 위치를 생성하기 위해 동적 베이지안 네트워크(DBNs)를 사용한 후처리가 필요합니다.
DBN의 결함: DBNs는 비트 변화 및 박자 변화 시 실패하기 쉬우며 과도하게 휴리스틱합니다.
강박 검출의 어려움: 비트 검출에 비해 강박 검출의 성능이 일반적으로 낮습니다.

연구 동기

저자들은 비트 추적을 오디오의 객체 검출 형태로 볼 수 있다고 생각하여, 객체 검출을 위해 특별히 설계된 신경망을 사용하여 비트 추적을 개선하려고 시도했으며, 특히 강박 추적 성능을 개선하고자 했습니다.

핵심 기여

패러다임 혁신: 비트 추적을 1D 시간 객체 검출 문제로 처음 재정의하고, 비트와 강박을 시간 구간 객체로 모델링합니다.
아키텍처 적응: FCOS 객체 검출 모델을 오디오 영역에 성공적으로 적응시키고, 원래 ResNet-50 백본 네트워크를 WaveBeat로 대체합니다.
후처리 단순화: 전통적 DBN 후처리를 NMS로 대체하여 더 간단하고 휴리스틱하지 않은 솔루션을 제공합니다.
성능 향상: 표준 음악 데이터셋에서 경쟁력 있는 결과를 달성하며, 특히 강박 검출에서 우수한 성능을 보입니다.

WaveBeat 백본 네트워크: 원래 FCOS의 ResNet-50을 대체하여 원시 오디오 파형을 직접 처리합니다.
특성 피라미드 네트워크(FPN): 다중 스케일 시간 패턴을 포착합니다.
삼중 헤드 검출기: 분류, 회귀, leftness 예측에 각각 사용됩니다.

비트 구간 표현

비트 구간: 두 개의 연속 비트 사이의 시간 세그먼트
강박 구간: 두 개의 연속 강박 사이의 시간 세그먼트
중복 표현: 강박은 강박 구간과 일반 비트 구간으로 모두 나타납니다.

WaveBeat와 FPN 통합

WaveBeat의 최종 컨볼루션 및 시그모이드 레이어를 제거합니다.
마지막 두 개의 TCN 블록(C7 및 C8)의 출력을 FPN의 P7 및 P8 레이어로 전달합니다.
메모리 제약으로 인해 원래 FCOS의 세 개가 아닌 마지막 두 개의 백본 블록 출력만 사용합니다.

기술 혁신점

1. 앵커 전략

크기 제한: 각 FPN 레이어는 특정 시간 스케일의 구간을 담당합니다.
부분 박스 전략: 대칭 중심 영역이 아닌 좌측 편향 부분 박스를 사용하여 구간 시작 위치에 초점을 맞춥니다.

2. Leftness 메커니즘

FCOS의 centerness를 대체하며, 다음과 같이 정의됩니다:

leftness1D(r) = √(rright / (rleft + rright))

중심이 아닌 비트 구간의 좌측 가장자리를 강조하여 비트 위치 결정의 직관과 더 잘 맞습니다.

3. 손실 함수

총 손실은 세 부분으로 구성됩니다:

Lpoint(k,n) = Lcls(ck,n, ĉk,n, n) + 1{ck,n>0}Lreg(rk,n, r̂k,n, n) + 1{ck,n>0}Llft(rk,n, r̂k,n, n)

분류 손실: focal loss
회귀 손실: 1D 적응 GIoU loss
Leftness 손실: 이진 교차 엔트로피 손실

실험 설정

데이터셋

WaveBeat와 동일한 데이터셋을 사용합니다:

훈련 세트: Ballroom, Hainsworth, Beatles, RWC Popular
테스트 세트: GTZAN, SMC
오디오 형식: 22.05kHz 샘플링 레이트, 2^21 샘플 길이(약 1.6분)

평가 지표

F1 점수: 정밀도와 재현율의 조화 평균
CMLt (Continuity-based Metric allowing for Metrical Level Tolerance): 박자 수준 허용도를 포함한 연속성 지표
AMLt (Accuracy-based Metric allowing for Metrical Level Tolerance): 박자 수준 허용도를 포함한 정확성 지표