Recent beat and downbeat tracking models (e.g., RNNs, TCNs, Transformers) output frame-level activations. We propose reframing this task as object detection, where beats and downbeats are modeled as temporal "objects." Adapting the FCOS detector from computer vision to 1D audio, we replace its original backbone with WaveBeat's temporal feature extractor and add a Feature Pyramid Network to capture multi-scale temporal patterns. The model predicts overlapping beat/downbeat intervals with confidence scores, followed by non-maximum suppression (NMS) to select final predictions. This NMS step serves a similar role to DBNs in traditional trackers, but is simpler and less heuristic. Evaluated on standard music datasets, our approach achieves competitive results, showing that object detection techniques can effectively model musical beats with minimal adaptation.
논문 ID : 2510.14391제목 : Beat Tracking as Object Detection저자 : Jaehoon Ahn (Sogang University), Moon-Ryul Jung (Sogang University)분류 : cs.SD (Sound), cs.AI (Artificial Intelligence), cs.LG (Machine Learning)발표 시간 : 2025년 10월 16일 (arXiv 사전인쇄본)논문 링크 : https://arxiv.org/abs/2510.14391v1 최근의 비트 및 강박 추적 모델(예: RNNs, TCNs, Transformers)은 프레임 수준의 활성화 값을 출력합니다. 본 논문은 이 작업을 객체 검출 문제로 재정의하여 비트와 강박을 시간적 "객체"로 모델링할 것을 제안합니다. 컴퓨터 비전의 FCOS 검출기를 1D 오디오에 적용하고, WaveBeat의 시간 특성 추출기로 원래 백본 네트워크를 대체하며, 다중 스케일 시간 패턴을 포착하기 위해 특성 피라미드 네트워크를 추가합니다. 모델은 겹치는 비트/강박 구간 및 신뢰도 점수를 예측한 후, 비극대값 억제(NMS)를 사용하여 최종 예측을 선택합니다. 이 NMS 단계는 전통적 추적기의 DBN과 유사한 역할을 하지만 더 간단하고 휴리스틱하지 않습니다. 표준 음악 데이터셋에 대한 평가는 이 방법이 경쟁력 있는 결과를 달성하며, 객체 검출 기술이 음악 비트를 효과적으로 모델링할 수 있고 최소한의 적응만 필요함을 입증합니다.
비트 추적은 음악 정보 검색(MIR) 분야의 중요한 연구 방향으로, 비트 및 강박 위치의 계산적 예측을 포함합니다. 전통적 방법은 초기 온셋 검출에서 RNNs, LSTMs, TCNs, Transformers 등을 포함한 현대 기계학습 기술로 발전했습니다.
후처리 복잡성 : 대부분의 현대 비트 검출 네트워크는 프레임별 활성화 함수를 생성하며, 최종 비트 위치를 생성하기 위해 동적 베이지안 네트워크(DBNs)를 사용한 후처리가 필요합니다.DBN의 결함 : DBNs는 비트 변화 및 박자 변화 시 실패하기 쉬우며 과도하게 휴리스틱합니다.강박 검출의 어려움 : 비트 검출에 비해 강박 검출의 성능이 일반적으로 낮습니다.저자들은 비트 추적을 오디오의 객체 검출 형태로 볼 수 있다고 생각하여, 객체 검출을 위해 특별히 설계된 신경망을 사용하여 비트 추적을 개선하려고 시도했으며, 특히 강박 추적 성능을 개선하고자 했습니다.
패러다임 혁신 : 비트 추적을 1D 시간 객체 검출 문제로 처음 재정의하고, 비트와 강박을 시간 구간 객체로 모델링합니다.아키텍처 적응 : FCOS 객체 검출 모델을 오디오 영역에 성공적으로 적응시키고, 원래 ResNet-50 백본 네트워크를 WaveBeat로 대체합니다.후처리 단순화 : 전통적 DBN 후처리를 NMS로 대체하여 더 간단하고 휴리스틱하지 않은 솔루션을 제공합니다.성능 향상 : 표준 음악 데이터셋에서 경쟁력 있는 결과를 달성하며, 특히 강박 검출에서 우수한 성능을 보입니다.0D 시간 포인트의 비트 검출을 1D 오디오의 구간 검출 문제로 변환합니다. 입력은 원시 오디오 파형이고, 출력은 신뢰도 점수를 포함한 비트/강박 구간 예측입니다.
BeatFCOS 모델은 다음의 핵심 구성 요소를 포함합니다:
WaveBeat 백본 네트워크 : 원래 FCOS의 ResNet-50을 대체하여 원시 오디오 파형을 직접 처리합니다.특성 피라미드 네트워크(FPN) : 다중 스케일 시간 패턴을 포착합니다.삼중 헤드 검출기 : 분류, 회귀, leftness 예측에 각각 사용됩니다.비트 구간 : 두 개의 연속 비트 사이의 시간 세그먼트강박 구간 : 두 개의 연속 강박 사이의 시간 세그먼트중복 표현 : 강박은 강박 구간과 일반 비트 구간으로 모두 나타납니다.WaveBeat의 최종 컨볼루션 및 시그모이드 레이어를 제거합니다. 마지막 두 개의 TCN 블록(C7 및 C8)의 출력을 FPN의 P7 및 P8 레이어로 전달합니다. 메모리 제약으로 인해 원래 FCOS의 세 개가 아닌 마지막 두 개의 백본 블록 출력만 사용합니다. 크기 제한 : 각 FPN 레이어는 특정 시간 스케일의 구간을 담당합니다.부분 박스 전략 : 대칭 중심 영역이 아닌 좌측 편향 부분 박스를 사용하여 구간 시작 위치에 초점을 맞춥니다.FCOS의 centerness를 대체하며, 다음과 같이 정의됩니다:
leftness1D(r) = √(rright / (rleft + rright))
중심이 아닌 비트 구간의 좌측 가장자리를 강조하여 비트 위치 결정의 직관과 더 잘 맞습니다.
총 손실은 세 부분으로 구성됩니다:
Lpoint(k,n) = Lcls(ck,n, ĉk,n, n) + 1{ck,n>0}Lreg(rk,n, r̂k,n, n) + 1{ck,n>0}Llft(rk,n, r̂k,n, n)
분류 손실: focal loss 회귀 손실: 1D 적응 GIoU loss Leftness 손실: 이진 교차 엔트로피 손실 WaveBeat와 동일한 데이터셋을 사용합니다:
훈련 세트 : Ballroom, Hainsworth, Beatles, RWC Popular테스트 세트 : GTZAN, SMC오디오 형식 : 22.05kHz 샘플링 레이트, 2^21 샘플 길이(약 1.6분)F1 점수 : 정밀도와 재현율의 조화 평균CMLt (Continuity-based Metric allowing for Metrical Level Tolerance) : 박자 수준 허용도를 포함한 연속성 지표AMLt (Accuracy-based Metric allowing for Metrical Level Tolerance) : 박자 수준 허용도를 포함한 정확성 지표WaveBeat (Peak-picking) WaveBeat (DBN) Spectral TCN Hung et al. (Transformer 기반) 최적화기 : Adam (lr=1e-3, weight decay=1e-4)학습률 스케줄 : 연속 3개 에포크 개선 없을 시 10배 감소배치 크기 : 16훈련 환경 : Google Colab, NVIDIA A100 40GB GPU훈련 전략 : 8-폴드 교차 검증모든 WaveBeat 변형 중에서 BeatFCOS는 여러 데이터셋에서 우수한 성능을 보입니다:
Ballroom 데이터셋 : F1=0.927, CMLt=0.873, AMLt=0.898Beatles 데이터셋 : F1=0.903, CMLt=0.797, AMLt=0.866RWC Popular 데이터셋 : F1=0.862, CMLt=0.763, AMLt=0.849Ballroom 데이터셋 : F1=0.807, CMLt=0.697, AMLt=0.756Beatles 데이터셋 : F1=0.762, CMLt=0.579, AMLt=0.659RWC Popular 데이터셋 : F1=0.779, CMLt=0.691, AMLt=0.731Leftness 메커니즘은 거의 모든 데이터셋과 지표에서 centerness를 크게 능가하며, 특히 강박 추적에서 두드러집니다.
Soft-NMS는 지속적으로 성능을 개선하여 표준 NMS에 의해 잘못 억제될 수 있는 유효한 근처 비트 예측을 보존하는 데 도움이 됨을 나타냅니다.
BatchNorm 레이어만 고정하고 컨볼루션 가중치 업데이트를 허용하는 전략은 백본 네트워크를 완전히 고정하는 것보다 크게 우수합니다.
예측 구간 간 IoU 분포의 히스토그램을 분석하여 IoU 임계값을 0.2로 데이터 기반으로 선택하여 전통적 DBN이 필요로 하는 그리드 검색을 피합니다.
초기 비트 추적은 음표 시작을 식별하여 비트 위치 체인을 추정하는 온셋 검출을 기반으로 했습니다.
RNNs/LSTMs : 시간 의존성 지원을 제공하며 비기계학습 방법에 비해 상당한 진전을 이루었습니다.TCNs : 많은 확장 컨볼루션 레이어를 사용하여 큰 시간 컨텍스트를 제공합니다.Transformers : 시퀀스 데이터의 중요한 측면에 대한 가중치 할당을 학습합니다.전통적 방법은 일반적으로 후처리를 위해 DBNs를 사용하지만 매개변수 조정 복잡성, 계산 비용 등의 문제가 있습니다.
객체 검출 패러다임을 비트 추적 작업에 효과적으로 적용할 수 있습니다. NMS 후처리는 전통적 DBN보다 더 간단하고 휴리스틱하지 않습니다. BeatFCOS는 강박 검출에서 특히 우수한 성능을 보입니다. 데이터 기반 하이퍼파라미터 선택은 그리드 검색보다 더 효율적입니다. 성능 제한 : 경쟁력이 있지만 모든 지표에서 일관되게 SOTA 방법을 능가하지는 못합니다.메모리 제약 : 메모리 제약으로 인해 세 개가 아닌 두 개의 FPN 레이어만 사용할 수 있습니다.데이터 의존성 : 방법의 효과는 훈련 데이터 품질에 크게 영향을 받습니다.시간 인접 제약을 통합하여 규칙적인 비트 간격을 더 잘 강제합니다. 보완적 방향으로 EM 기반 시간 모델 학습을 탐색합니다. 메모리 요구사항을 줄이기 위해 아키텍처를 추가로 최적화합니다. 높은 혁신성 : 객체 검출 패러다임을 비트 추적에 처음 도입하여 새로운 사고방식을 제시합니다.견고한 기술 : leftness 메커니즘 설계가 합리적이며 비트 위치 결정의 직관과 일치합니다.충분한 실험 : 상세한 절제 실험과 8-폴드 교차 검증을 포함합니다.실용적 가치 : 후처리 프로세스를 단순화하고 매개변수 조정 복잡성을 감소시킵니다.제한된 성능 향상 : 기존 SOTA 방법에 비해 향상 폭이 충분하지 않습니다.적용 제한 : 주로 특정 데이터셋에서 검증되어 일반화 능력이 추가 증명이 필요합니다.이론적 분석 부족 : 객체 검출이 비트 추적에 적합한 이유에 대한 심층적 이론적 설명이 부족합니다.방법론 기여 : 음악 정보 검색 분야에 새로운 모델링 사고방식을 제공합니다.학제 간 영감 : 컴퓨터 비전 기술이 오디오 처리에 적용될 수 있는 잠재력을 보여줍니다.공학적 가치 : 단순화된 후처리 프로세스는 실제 응용 가치를 가집니다.실시간 비트 검출이 필요한 음악 애플리케이션 후처리 복잡성에 민감한 임베디드 시스템 강박 검출 요구사항이 높은 음악 분석 작업 논문은 비트 추적, 객체 검출, 심층학습 등 여러 분야의 중요한 작업을 포함하는 34개의 관련 문헌을 인용하여 연구에 견고한 이론적 기초를 제공합니다.