Music structure analysis (MSA) underpins music understanding and controllable generation, yet progress has been limited by small, inconsistent corpora. We present SongFormer, a scalable framework that learns from heterogeneous supervision. SongFormer (i) fuses short- and long-window self-supervised audio representations to capture both fine-grained and long-range dependencies, and (ii) introduces a learned source embedding to enable training with partial, noisy, and schema-mismatched labels. To support scaling and fair evaluation, we release SongFormDB, the largest MSA corpus to date (over 10k tracks spanning languages and genres), and SongFormBench, a 300-song expert-verified benchmark. On SongFormBench, SongFormer sets a new state of the art in strict boundary detection (HR.5F) and achieves the highest functional label accuracy, while remaining computationally efficient; it surpasses strong baselines and Gemini 2.5 Pro on these metrics and remains competitive under relaxed tolerance (HR3F). Code, datasets, and model are publicly available.
academic 論文ID : 2510.02797タイトル : SongFormer: Scaling Music Structure Analysis with Heterogeneous Supervision著者 : Chunbo Hao, Ruibin Yuan, Jixun Yao, Qixin Deng, Xinyi Bai, Wei Xue, Lei Xie分類 : eess.AS (音声・音響信号処理)発表日 : 2025年10月11日 (arXiv v2)論文リンク : https://arxiv.org/abs/2510.02797 音楽構造分析(MSA)は音楽理解と制御可能な生成の基礎であるが、小規模で不一貫なデータセットに制限されており、進展が遅い。本論文ではSongFormerを提案する。これは異種教師信号を用いたスケーラブルな学習フレームワークである。SongFormerは(i)短窓と長窓の自己教師あり音声表現を融合させ、細粒度と長距離依存関係を捉え、(ii)部分的、ノイズを含む、パターン不一致なラベルでの学習をサポートするために学習可能なソース埋め込みを導入する。スケーリングと公正な評価をサポートするため、著者らは過去最大のMSAコーパスであるSongFormDB(10,000曲以上の多言語・多ジャンル楽曲)と300曲の専門家検証ベンチマークSongFormBenchをリリースした。SongFormBench上で、SongFormerは厳密な境界検出(HR.5F)で新たな最高記録を達成し、最高の機能ラベル精度を実現しながら計算効率を維持している。これらの指標においてGemini 2.5 Proを含む強力なベースラインを上回り、寛容な許容度(HR3F)下では競争力を保持している。
音楽構造分析(MSA)は、楽曲をイントロ、ヴァース、コーラスなどの機能的に意味のある部分に分割し、その境界を検出することを目的とする。これは音楽理解と制御可能な生成の中核的タスクである。音楽生成システムの急速な発展に伴い、MSAを構造的先験知識として活用することがますます重要になっている。
データの希少性 :公開コーパスは規模が小さく異種であり、HarmonixSetは912曲のみ、アノテーションパターンと形式が不一貫で、アクセスが制限されている方法の限界 :多くのシステムは強力な自己教師あり/基盤音声モデルを活用せず、ゼロから訓練され、複雑な前処理(ビート追跡、音源分離)に依存している時間分解能の問題 :汎用マルチモーダルLLM(Gemini 2.5 Proなど)は構造アノテーションを生成できるが、時間分解能が粗すぎて正確な境界検出ができない本論文は、MSA領域のデータボトルネックと方法の限界に対処し、時間精度を保ちながら異種教師信号から学習する単純でスケーラブルなフレームワークを提案することを目指している。
SongFormerフレームワークの提案 :多分解能自己教師あり表現(30秒および420秒窓)を融合させ、細粒度と長距離依存関係を捉える異種教師信号戦略 :学習可能なデータソース埋め込みを導入し、部分的、ノイズを含む、パターン不一致なラベルでの訓練をサポート大規模データセットの構築 :SongFormDB(10,000曲以上)とSongFormBench(300曲の専門家検証ベンチマーク)をリリース最先端性能 :厳密な境界検出と機能ラベル精度で新記録を達成し、強力なベースラインとGemini 2.5 Proを上回るMSAは時系列ラベリングタスクとしてモデル化され、入力は音声波形、出力は構造化ラベルシーケンスである:
{(t₀, l₀), (t₁, l₁), ..., (tₙ₋₁, lₙ₋₁), (tₙ, end)}
ここで、tᵢとlᵢはそれぞれ各セグメントの開始時刻とラベルを表す。
局所表現 :音声を連続する30秒ブロックに分割し、細粒度の局所特徴を取得グローバル表現 :420秒の長窓を処理し、全体的なグローバルコンテキストを捉える特徴融合 :時間次元で14個の30秒ブロックを420秒グローバル表現に整列させて連結し、特徴次元でMuQとMusicFM表現を融合ダウンサンプリング :残差ダウンサンプリングモジュールを通じて時間分解能を25Hzから約8.33Hzに低下させるデータソース埋め込み :ダウンサンプリング特徴シーケンスに学習可能なデータソース埋め込みを追加し、訓練サンプルのソースを示す条件付き学習 :モデルはソース固有のアノテーションパターンとノイズ特性を学習推論時の固定 :推論時にデータソース埋め込みを高品質なHarmonixSetに固定4層Transformerエンコーダ、RoPE位置符号化を使用して時間依存関係を捉える 隠れ層次元512、2つのタスク固有ヘッド:境界検出と機能ラベル予測 総損失関数は以下の通り:
L = λ(L_BCE + λ_TV L_TV) + (1-λ)(L_CE + λ_Focal L_Focal)
ここで:
境界検出 :二値交差エントロピー損失 + 境界認識1D全変分損失(真の境界での過度な平滑化を回避)機能予測 :フレームレベル交差エントロピー損失 + ソフトマックス焦点損失(不確実なフレームに焦点)ハイパーパラメータ:λ=0.2、λ_TV=0.05、λ_Focal=0.2 SongForm-HX :512曲訓練、200曲検証、HarmonixSetから音声を再構成しアノテーションを精緻化SongForm-Private :4,314曲、歌詞由来の構造ラベル、SOFAアライナーで時刻を補正SongForm-Hook :5,933曲、セグメント部分の正確な構造アノテーションSongForm-Gem :4,387曲、47言語にわたり、Gemini 2.5 Pro APIで生成されたアノテーションSongFormBench-HarmonixSet :200曲の専門家修正HarmonixSet楽曲SongFormBench-CN :100曲の中国語楽曲、MSAにおける中国語データの希少性に対応HR.5F :0.5秒以内の境界ヒット率のF値(厳密な境界検出)HR3F :3秒以内の境界ヒット率のF値(寛容な境界検出)ACC :フレームレベル機能ラベル精度最大入力長420秒、サンプリングレート8.33Hz ガウスカーネル平滑化による境界表現(10フレーム窓、約2.4秒) バッチサイズ8、コサイン学習率スケジューリング(ピーク1×10⁻⁴) 単一NVIDIA L40 GPU、3つのランダムシードで平均化 方法 ACC HR.5F HR3F All-In-One 0.740 0.596 0.730 LinkSeg-7Labels 0.780 0.630 0.762 TA (Zhang et al.) 0.787 0.610 0.801 Gemini 2.5 Pro 0.748 0.423 0.813 SongFormer (HX) 0.795 0.703 0.784 SongFormer (HX+P+H+G) 0.807 0.696 0.780
方法 ACC HR.5F HR3F All-In-One 0.834 0.563 0.771 Gemini 2.5 Pro 0.806 0.412 0.833 SongFormer (HX+P+H) 0.890 0.690 0.852 SongFormer (HX+P+H+G) 0.891 0.688 0.851
多分解能表現 :30秒と420秒窓の組み合わせは単一窓より優れた性能を示すデータソース埋め込み :削除後、ACCは0.848から0.825に低下Transformer対線形層 :Transformer後端は単純な線形層を大幅に上回るダウンサンプリング戦略 :適度なダウンサンプリングは効率と精度のバランスを最適化ラベル精度が最強 :SongFormerは両ベンチマークで最高のACCを実現境界検出がより正確 :厳密な評価下でより鋭い信頼性の高い境界予測を提供データ拡張効果 :訓練データの増加は堅牢性を向上させるが、アノテーション不正確さにより境界精度に軽微な影響LLMを上回る :Gemini 2.5 Proと比較して精度指標で著しく優れている従来手法 :音声特徴ベースのルール手法と機械学習深層学習 :CNN、RNNを用いた境界検出と機能ラベリング自己教師あり学習 :事前訓練音声モデルの活用、ただし多くはゼロから訓練HarmonixSet:912曲の西洋ポップミュージック、高品質アノテーションだが規模が小さい その他データセット:規模がさらに小さく、アノテーション不一貫、アクセス制限 既存研究と比較して、SongFormerは初めて体系的に多分解能自己教師あり表現を融合させ、異種教師信号戦略を導入しながら、過去最大のMSAデータセットを構築している。
SongFormerは多分解能自己教師あり融合と異種教師信号により最先端性能を実現 大規模データセットSongFormDBと高品質ベンチマークSongFormBenchは領域発展を推進 方法は厳密な境界検出と機能ラベル精度において既存手法を著しく上回る アノテーション品質のトレードオフ :追加データセット導入は全体性能を向上させるが、アノテーション不正確さは境界精度に影響計算複雑性 :多分解能融合は特徴抽出の計算オーバーヘッドを増加言語カバレッジ :中国語データを含むが、他の非英語言語カバレッジはまだ限定的MSAを制御可能な音楽生成と音楽情報検索システムに統合 より多くの言語と音楽ジャンルの構造分析を探索 音楽生成と構造分析の共同最適化の研究 技術革新性が強い :多分解能自己教師あり融合は長短コンテキストバランスの問題を巧妙に解決異種教師信号戦略が実用的 :データソース埋め込みはアノテーション品質の不一貫性を効果的に処理データ貢献が重大 :SongFormDBとSongFormBenchは領域の空白を埋める実験が充分で包括的 :詳細なアブレーション実験が各コンポーネントの有効性を検証オープンソース対応 :コード、データ、モデルが公開され再現可能方法の複雑性 :複数の自己教師あり学習モデル融合はシステム複雑性を増加評価の限界 :主にポップミュージックで評価、クラシック音楽など他のジャンルカバレッジが不足リアルタイム性分析 :リアルタイム処理能力について未議論、実用的応用への適用性が不明確学術的価値 :MSA領域に新しい技術パラダイムと大規模データリソースを提供実用的価値 :音楽推奨、生成、編集システムに直接応用可能再現性 :完全なオープンソース化により研究の再現と後続開発を保証音楽ストリーミングプラットフォームのインテリジェント推奨とプレイリスト生成 音楽制作ソフトウェアの自動構造分析と編集 音楽教育における構造理論教学補助 制御可能な音楽生成システムの構造制約 主要参考文献:
HarmonixSetデータセット (Nieto et al., 2019) 音楽構造分析サーベイ (Nieto et al., 2020) MuQおよびMusicFM自己教師あり学習モデル (Zhu et al., 2025; Won et al., 2024) 関連深層学習手法 (Wang et al., 2022; Kim & Nam, 2023) 総合評価 :これは音楽構造分析領域における重要な貢献を持つ高品質論文である。技術方案は革新的で実用的、実験設計は厳密で包括的、データセット貢献は重大であり、当該領域の発展に重要な推進力を提供している。オープンソース戦略は優れた学術共有精神を体現している。