2025-11-20T07:43:14.963491

SongFormer: Scaling Music Structure Analysis with Heterogeneous Supervision

Hao, Yuan, Yao et al.

Music structure analysis (MSA) underpins music understanding and controllable generation, yet progress has been limited by small, inconsistent corpora. We present SongFormer, a scalable framework that learns from heterogeneous supervision. SongFormer (i) fuses short- and long-window self-supervised audio representations to capture both fine-grained and long-range dependencies, and (ii) introduces a learned source embedding to enable training with partial, noisy, and schema-mismatched labels. To support scaling and fair evaluation, we release SongFormDB, the largest MSA corpus to date (over 10k tracks spanning languages and genres), and SongFormBench, a 300-song expert-verified benchmark. On SongFormBench, SongFormer sets a new state of the art in strict boundary detection (HR.5F) and achieves the highest functional label accuracy, while remaining computationally efficient; it surpasses strong baselines and Gemini 2.5 Pro on these metrics and remains competitive under relaxed tolerance (HR3F). Code, datasets, and model are publicly available.

academic

SongFormer: Scaling Music Structure Analysis with Heterogeneous Supervision

基本信息

论文ID: 2510.02797
标题: SongFormer: Scaling Music Structure Analysis with Heterogeneous Supervision
作者: Chunbo Hao, Ruibin Yuan, Jixun Yao, Qixin Deng, Xinyi Bai, Wei Xue, Lei Xie
分类: eess.AS (音频与语音处理)
发表时间: 2025年10月11日 (arXiv v2)
论文链接: https://arxiv.org/abs/2510.02797

摘要

音乐结构分析(MSA)是音乐理解和可控生成的基础，但受限于小规模、不一致的数据集，进展缓慢。本文提出SongFormer，一个可扩展的异构监督学习框架。SongFormer (i) 融合短窗口和长窗口自监督音频表示以捕获细粒度和长程依赖关系，(ii) 引入学习的源嵌入来支持部分、噪声和模式不匹配标签的训练。为支持扩展和公平评估，作者发布了迄今最大的MSA语料库SongFormDB(超过1万首跨语言跨风格曲目)和300首专家验证的基准SongFormBench。在SongFormBench上，SongFormer在严格边界检测(HR.5F)上创下新的最优记录，并实现最高的功能标签准确率，同时保持计算效率；在这些指标上超越了强基线和Gemini 2.5 Pro，在宽松容忍度(HR3F)下保持竞争力。

数据稀缺性：公开语料库规模小且异构，如HarmonixSet仅有912首歌曲，标注模式和格式不一致，访问受限
方法局限性：许多系统从头训练而非利用强大的自监督/基础音频模型，依赖复杂预处理(节拍跟踪、源分离)
时间分辨率问题：通用多模态LLM(如Gemini 2.5 Pro)虽能产生结构标注，但时间分辨率过粗，无法精确检测边界

研究动机

本文旨在解决MSA领域的数据瓶颈和方法局限，提出一个简单、可扩展的框架，在保持时间精度的同时从异构监督中学习。

核心贡献

提出SongFormer框架：融合多分辨率自监督表示(30s和420s窗口)，捕获细粒度和长程依赖关系
异构监督策略：引入学习的数据源嵌入，支持部分、噪声和模式不匹配标签的训练
构建大规模数据集：发布SongFormDB(超过1万首曲目)和SongFormBench(300首专家验证基准)
SOTA性能：在严格边界检测和功能标签准确率上创下新记录，超越强基线和Gemini 2.5 Pro

方法详解

任务定义

MSA被建模为时序标注任务，输入为音频波形，输出为结构化标注序列：

{(t₀, l₀), (t₁, l₁), ..., (tₙ₋₁, lₙ₋₁), (tₙ, end)}

其中tᵢ和lᵢ分别表示每个段落的起始时间和标签。

模型架构

1. 多分辨率SSL表示融合

局部表示：将音频分割为连续的30s块，获得细粒度局部特征
全局表示：处理420s长窗口，捕获整体全局上下文
特征融合：时间维度连接14个30s块与420s全局表示对齐，特征维度融合MuQ和MusicFM表示
下采样：通过残差下采样模块将时间分辨率从25Hz降至约8.33Hz

2. 异构监督策略

数据源嵌入：添加学习的数据源嵌入到下采样特征序列，指示训练样本来源
条件化学习：模型学习源特定的标注模式和噪声特征
推理固定：推理时固定数据源嵌入为高质量HarmonixSet

3. Transformer编码器

4层Transformer编码器，使用RoPE位置编码捕获时间依赖关系
隐藏层维度512，两个任务特定头：边界检测和功能标签预测

训练目标

总损失函数为：

L = λ(L_BCE + λ_TV L_TV) + (1-λ)(L_CE + λ_Focal L_Focal)

其中：

边界检测：二元交叉熵损失 + 边界感知1D全变分损失(避免真实边界处过度平滑)
功能预测：帧级交叉熵损失 + softmax焦点损失(关注不确定帧)
超参数：λ=0.2, λ_TV=0.05, λ_Focal=0.2

SongForm-HX：512首训练，200首验证，从HarmonixSet重构音频并精炼标注
SongForm-Private：4,314首，歌词衍生结构标签，使用SOFA对齐器校正时间戳
SongForm-Hook：5,933首，部分段落的精确结构标注
SongForm-Gem：4,387首，跨47种语言，使用Gemini 2.5 Pro API生成标注

SongFormBench (测试集，300首)

SongFormBench-HarmonixSet：200首专家修订的HarmonixSet歌曲
SongFormBench-CN：100首中文歌曲，解决MSA中文数据稀缺问题

评价指标

HR.5F：0.5秒内边界命中率的F值(严格边界检测)
HR3F：3秒内边界命中率的F值(宽松边界检测)
ACC：帧级功能标签准确率

实现细节

最大输入时长420s，采样率8.33Hz
边界用高斯核平滑(10帧窗口，约2.4s)
批大小8，余弦学习率调度(峰值1×10⁻⁴)
单个NVIDIA L40 GPU，三次随机种子平均

方法	ACC	HR.5F	HR3F
All-In-One	0.740	0.596	0.730
LinkSeg-7Labels	0.780	0.630	0.762
TA (Zhang et al.)	0.787	0.610	0.801
Gemini 2.5 Pro	0.748	0.423	0.813
SongFormer (HX)	0.795	0.703	0.784
SongFormer (HX+P+H+G)	0.807	0.696	0.780