SongFormer: Scaling Music Structure Analysis with Heterogeneous Supervision
Hao, Yuan, Yao et al.
Music structure analysis (MSA) underpins music understanding and controllable generation, yet progress has been limited by small, inconsistent corpora. We present SongFormer, a scalable framework that learns from heterogeneous supervision. SongFormer (i) fuses short- and long-window self-supervised audio representations to capture both fine-grained and long-range dependencies, and (ii) introduces a learned source embedding to enable training with partial, noisy, and schema-mismatched labels. To support scaling and fair evaluation, we release SongFormDB, the largest MSA corpus to date (over 10k tracks spanning languages and genres), and SongFormBench, a 300-song expert-verified benchmark. On SongFormBench, SongFormer sets a new state of the art in strict boundary detection (HR.5F) and achieves the highest functional label accuracy, while remaining computationally efficient; it surpasses strong baselines and Gemini 2.5 Pro on these metrics and remains competitive under relaxed tolerance (HR3F). Code, datasets, and model are publicly available.
academic
SongFormer: Skalierung der Musikstrukturanalyse mit heterogener Überwachung
Die Musikstrukturanalyse (MSA) ist grundlegend für das Musikverständnis und die kontrollierte Generierung, wird jedoch durch kleine, inkonsistente Datensätze behindert. Dieses Paper präsentiert SongFormer, ein skalierbares Framework für heterogenes überwachtes Lernen. SongFormer (i) fusioniert kurzfenster- und langfenster-selbstüberwachte Audiorepräsentationen, um feingranulare und langfristige Abhängigkeiten zu erfassen, (ii) führt gelernte Quelleinbettungen ein, um das Training mit teilweisen, verrauschten und musterabweichenden Etiketten zu unterstützen. Zur Unterstützung der Skalierung und fairen Bewertung veröffentlichen die Autoren SongFormDB, das bislang größte MSA-Korpus (über 10.000 mehrsprachige und stilübergreifende Titel), und SongFormBench, eine von Experten validierte Benchmark mit 300 Titeln. Auf SongFormBench setzt SongFormer neue Rekorde bei der strikten Grenzenerkennung (HR.5F) und erreicht die höchste Genauigkeit bei funktionalen Etiketten, während die Recheneffizienz erhalten bleibt. Das System übertrifft starke Baselines und Gemini 2.5 Pro bei diesen Metriken und bleibt bei lockerem Toleranzbereich (HR3F) wettbewerbsfähig.
Die Musikstrukturanalyse (MSA) zielt darauf ab, Lieder in funktional bedeutungsvolle Teile (wie Intro, Vers, Refrain usw.) zu unterteilen und deren Grenzen zu erkennen. Dies ist eine Kernaufgabe für das Musikverständnis und die kontrollierte Generierung. Mit der rasanten Entwicklung von Musikgenerationssystemen wird die Verwendung von MSA als Strukturprior zunehmend wichtiger.
Datenmangel: Öffentliche Korpora sind klein und heterogen, wie HarmonixSet mit nur 912 Liedern; Annotationsmuster und -formate sind inkonsistent; der Zugriff ist eingeschränkt
Methodische Einschränkungen: Viele Systeme werden von Grund auf trainiert, anstatt starke selbstüberwachte/grundlegende Audiomodelle zu nutzen; sie sind abhängig von komplexer Vorverarbeitung (Taktverfolg, Quellentrennung)
Zeitauflösungsprobleme: Universelle multimodale LLMs (wie Gemini 2.5 Pro) können Strukturannotationen erzeugen, aber mit zu grober Zeitauflösung für präzise Grenzerkennung
Dieses Paper zielt darauf ab, den Datenbottleneck und die methodischen Einschränkungen im MSA-Bereich zu beheben und ein einfaches, skalierbares Framework vorzuschlagen, das aus heterogener Überwachung lernt und dabei zeitliche Präzision bewahrt.
Vorschlag des SongFormer-Frameworks: Fusion von Multi-Auflösungs-Selbstüberwachungsrepräsentationen (30s und 420s Fenster) zur Erfassung feingranularer und langfristiger Abhängigkeiten
Heterogene Überwachungsstrategie: Einführung gelernter Datenquelleinbettungen zur Unterstützung des Trainings mit teilweisen, verrauschten und musterabweichenden Etiketten
Konstruktion großer Datensätze: Veröffentlichung von SongFormDB (über 10.000 Titel) und SongFormBench (300 von Experten validierte Benchmark)
SOTA-Leistung: Neue Rekorde bei strikter Grenzenerkennung und Genauigkeit funktionaler Etiketten, Überlegenheit gegenüber starken Baselines und Gemini 2.5 Pro
Im Vergleich zu bestehenden Arbeiten integriert SongFormer erstmals systematisch Multi-Auflösungs-SSL-Repräsentationen und führt heterogene Überwachungsstrategien ein, während gleichzeitig der bislang größte MSA-Datensatz konstruiert wird.
Musikstrukturanalyse-Übersicht (Nieto et al., 2020)
MuQ- und MusicFM-Selbstüberwachungsmodelle (Zhu et al., 2025; Won et al., 2024)
Verwandte Tiefenlernmethoden (Wang et al., 2022; Kim & Nam, 2023)
Gesamtbewertung: Dies ist ein hochqualitatives Paper mit bedeutenden Beiträgen zum Musikstrukturanalyse-Feld. Die technische Lösung ist innovativ und praktisch, das Experimentdesign ist rigoros und umfassend, die Datensatzbeiträge sind bedeutsam und fördern die Feldentwicklung. Die Open-Source-Strategie zeigt auch guten akademischen Geist der Zusammenarbeit.