2025-11-20T07:43:14.963491

SongFormer: Scaling Music Structure Analysis with Heterogeneous Supervision

Hao, Yuan, Yao et al.

Music structure analysis (MSA) underpins music understanding and controllable generation, yet progress has been limited by small, inconsistent corpora. We present SongFormer, a scalable framework that learns from heterogeneous supervision. SongFormer (i) fuses short- and long-window self-supervised audio representations to capture both fine-grained and long-range dependencies, and (ii) introduces a learned source embedding to enable training with partial, noisy, and schema-mismatched labels. To support scaling and fair evaluation, we release SongFormDB, the largest MSA corpus to date (over 10k tracks spanning languages and genres), and SongFormBench, a 300-song expert-verified benchmark. On SongFormBench, SongFormer sets a new state of the art in strict boundary detection (HR.5F) and achieves the highest functional label accuracy, while remaining computationally efficient; it surpasses strong baselines and Gemini 2.5 Pro on these metrics and remains competitive under relaxed tolerance (HR3F). Code, datasets, and model are publicly available.

academic

SongFormer: 異種教師信号を用いた音楽構造分析のスケーリング

基本情報

論文ID: 2510.02797
タイトル: SongFormer: Scaling Music Structure Analysis with Heterogeneous Supervision
著者: Chunbo Hao, Ruibin Yuan, Jixun Yao, Qixin Deng, Xinyi Bai, Wei Xue, Lei Xie
分類: eess.AS (音声・音響信号処理)
発表日: 2025年10月11日 (arXiv v2)
論文リンク: https://arxiv.org/abs/2510.02797

要旨

音楽構造分析(MSA)は音楽理解と制御可能な生成の基礎であるが、小規模で不一貫なデータセットに制限されており、進展が遅い。本論文ではSongFormerを提案する。これは異種教師信号を用いたスケーラブルな学習フレームワークである。SongFormerは(i)短窓と長窓の自己教師あり音声表現を融合させ、細粒度と長距離依存関係を捉え、(ii)部分的、ノイズを含む、パターン不一致なラベルでの学習をサポートするために学習可能なソース埋め込みを導入する。スケーリングと公正な評価をサポートするため、著者らは過去最大のMSAコーパスであるSongFormDB(10,000曲以上の多言語・多ジャンル楽曲)と300曲の専門家検証ベンチマークSongFormBenchをリリースした。SongFormBench上で、SongFormerは厳密な境界検出(HR.5F)で新たな最高記録を達成し、最高の機能ラベル精度を実現しながら計算効率を維持している。これらの指標においてGemini 2.5 Proを含む強力なベースラインを上回り、寛容な許容度(HR3F)下では競争力を保持している。

研究背景と動機

問題定義

音楽構造分析(MSA)は、楽曲をイントロ、ヴァース、コーラスなどの機能的に意味のある部分に分割し、その境界を検出することを目的とする。これは音楽理解と制御可能な生成の中核的タスクである。音楽生成システムの急速な発展に伴い、MSAを構造的先験知識として活用することがますます重要になっている。

既存の問題

データの希少性：公開コーパスは規模が小さく異種であり、HarmonixSetは912曲のみ、アノテーションパターンと形式が不一貫で、アクセスが制限されている
方法の限界：多くのシステムは強力な自己教師あり/基盤音声モデルを活用せず、ゼロから訓練され、複雑な前処理(ビート追跡、音源分離)に依存している
時間分解能の問題：汎用マルチモーダルLLM(Gemini 2.5 Proなど)は構造アノテーションを生成できるが、時間分解能が粗すぎて正確な境界検出ができない

研究動機

本論文は、MSA領域のデータボトルネックと方法の限界に対処し、時間精度を保ちながら異種教師信号から学習する単純でスケーラブルなフレームワークを提案することを目指している。

核心的貢献

SongFormerフレームワークの提案：多分解能自己教師あり表現(30秒および420秒窓)を融合させ、細粒度と長距離依存関係を捉える
異種教師信号戦略：学習可能なデータソース埋め込みを導入し、部分的、ノイズを含む、パターン不一致なラベルでの訓練をサポート
大規模データセットの構築：SongFormDB(10,000曲以上)とSongFormBench(300曲の専門家検証ベンチマーク)をリリース
最先端性能：厳密な境界検出と機能ラベル精度で新記録を達成し、強力なベースラインとGemini 2.5 Proを上回る

方法の詳細

タスク定義

MSAは時系列ラベリングタスクとしてモデル化され、入力は音声波形、出力は構造化ラベルシーケンスである：

{(t₀, l₀), (t₁, l₁), ..., (tₙ₋₁, lₙ₋₁), (tₙ, end)}

ここで、tᵢとlᵢはそれぞれ各セグメントの開始時刻とラベルを表す。

モデルアーキテクチャ

1. 多分解能自己教師あり表現融合

局所表現：音声を連続する30秒ブロックに分割し、細粒度の局所特徴を取得
グローバル表現：420秒の長窓を処理し、全体的なグローバルコンテキストを捉える
特徴融合：時間次元で14個の30秒ブロックを420秒グローバル表現に整列させて連結し、特徴次元でMuQとMusicFM表現を融合
ダウンサンプリング：残差ダウンサンプリングモジュールを通じて時間分解能を25Hzから約8.33Hzに低下させる

2. 異種教師信号戦略

データソース埋め込み：ダウンサンプリング特徴シーケンスに学習可能なデータソース埋め込みを追加し、訓練サンプルのソースを示す
条件付き学習：モデルはソース固有のアノテーションパターンとノイズ特性を学習
推論時の固定：推論時にデータソース埋め込みを高品質なHarmonixSetに固定

3. Transformerエンコーダ

4層Transformerエンコーダ、RoPE位置符号化を使用して時間依存関係を捉える
隠れ層次元512、2つのタスク固有ヘッド：境界検出と機能ラベル予測

訓練目標

総損失関数は以下の通り：

L = λ(L_BCE + λ_TV L_TV) + (1-λ)(L_CE + λ_Focal L_Focal)

ここで：

境界検出：二値交差エントロピー損失 + 境界認識1D全変分損失(真の境界での過度な平滑化を回避)
機能予測：フレームレベル交差エントロピー損失 + ソフトマックス焦点損失(不確実なフレームに焦点)
ハイパーパラメータ：λ=0.2、λ_TV=0.05、λ_Focal=0.2

実験設定

データセット

SongFormDB (訓練セット、>10,000曲)

SongForm-HX：512曲訓練、200曲検証、HarmonixSetから音声を再構成しアノテーションを精緻化
SongForm-Private：4,314曲、歌詞由来の構造ラベル、SOFAアライナーで時刻を補正
SongForm-Hook：5,933曲、セグメント部分の正確な構造アノテーション
SongForm-Gem：4,387曲、47言語にわたり、Gemini 2.5 Pro APIで生成されたアノテーション

SongFormBench (テストセット、300曲)

SongFormBench-HarmonixSet：200曲の専門家修正HarmonixSet楽曲
SongFormBench-CN：100曲の中国語楽曲、MSAにおける中国語データの希少性に対応

評価指標

HR.5F：0.5秒以内の境界ヒット率のF値(厳密な境界検出)
HR3F：3秒以内の境界ヒット率のF値(寛容な境界検出)
ACC：フレームレベル機能ラベル精度

実装詳細

最大入力長420秒、サンプリングレート8.33Hz
ガウスカーネル平滑化による境界表現(10フレーム窓、約2.4秒)
バッチサイズ8、コサイン学習率スケジューリング(ピーク1×10⁻⁴)
単一NVIDIA L40 GPU、3つのランダムシードで平均化

実験結果

主要結果

SongFormBench-HarmonixSet

方法	ACC	HR.5F	HR3F
All-In-One	0.740	0.596	0.730
LinkSeg-7Labels	0.780	0.630	0.762
TA (Zhang et al.)	0.787	0.610	0.801
Gemini 2.5 Pro	0.748	0.423	0.813
SongFormer (HX)	0.795	0.703	0.784
SongFormer (HX+P+H+G)	0.807	0.696	0.780