SongFormer: Scaling Music Structure Analysis with Heterogeneous Supervision
Hao, Yuan, Yao et al.
Music structure analysis (MSA) underpins music understanding and controllable generation, yet progress has been limited by small, inconsistent corpora. We present SongFormer, a scalable framework that learns from heterogeneous supervision. SongFormer (i) fuses short- and long-window self-supervised audio representations to capture both fine-grained and long-range dependencies, and (ii) introduces a learned source embedding to enable training with partial, noisy, and schema-mismatched labels. To support scaling and fair evaluation, we release SongFormDB, the largest MSA corpus to date (over 10k tracks spanning languages and genres), and SongFormBench, a 300-song expert-verified benchmark. On SongFormBench, SongFormer sets a new state of the art in strict boundary detection (HR.5F) and achieves the highest functional label accuracy, while remaining computationally efficient; it surpasses strong baselines and Gemini 2.5 Pro on these metrics and remains competitive under relaxed tolerance (HR3F). Code, datasets, and model are publicly available.
음악 구조 분석(MSA)은 음악 이해 및 제어 가능한 생성의 기초이지만, 소규모이고 불일치하는 데이터셋으로 인해 진전이 제한적입니다. 본 논문은 확장 가능한 이질적 감독 학습 프레임워크인 SongFormer를 제안합니다. SongFormer는 (i) 단기 및 장기 윈도우 자기감독 음성 표현을 융합하여 세밀한 입도와 장거리 의존성을 포착하고, (ii) 부분적, 노이즈가 있는, 패턴 불일치 레이블 학습을 지원하기 위해 학습된 소스 임베딩을 도입합니다. 확장 및 공정한 평가를 지원하기 위해 저자들은 현재까지 가장 큰 MSA 코퍼스인 SongFormDB(10,000곡 이상의 다국어 다양한 스타일 곡)와 300곡의 전문가 검증 벤치마크인 SongFormBench를 공개했습니다. SongFormBench에서 SongFormer는 엄격한 경계 검출(HR.5F)에서 새로운 최고 기록을 달성하고 최고의 기능 레이블 정확도를 달성하면서 계산 효율성을 유지합니다. 이러한 지표에서 강력한 기준선과 Gemini 2.5 Pro를 능가하며, 느슨한 허용도(HR3F)에서는 경쟁력을 유지합니다.
음악 구조 분석(MSA)은 곡을 기능적으로 의미 있는 부분(예: intro, verse, chorus 등)으로 분할하고 경계를 검출하는 것을 목표로 하며, 음악 이해 및 제어 가능한 생성의 핵심 작업입니다. 음악 생성 시스템의 빠른 발전에 따라 MSA를 구조 사전으로 활용하는 것이 점점 더 중요해지고 있습니다.
MuQ 및 MusicFM 자기감독 모델 (Zhu et al., 2025; Won et al., 2024)
관련 심층학습 방법 (Wang et al., 2022; Kim & Nam, 2023)
종합 평가: 이는 음악 구조 분석 분야에서 중요한 기여를 하는 고품질 논문입니다. 기술 방안이 혁신적이고 실용적이며, 실험 설계가 엄밀하고 포괄적이고, 데이터셋 기여가 중대하여 해당 분야의 발전에 중요한 추진력을 제공합니다. 오픈소스 전략은 또한 우수한 학술 공유 정신을 반영합니다.