SongFormer: Scaling Music Structure Analysis with Heterogeneous Supervision
Hao, Yuan, Yao et al.
Music structure analysis (MSA) underpins music understanding and controllable generation, yet progress has been limited by small, inconsistent corpora. We present SongFormer, a scalable framework that learns from heterogeneous supervision. SongFormer (i) fuses short- and long-window self-supervised audio representations to capture both fine-grained and long-range dependencies, and (ii) introduces a learned source embedding to enable training with partial, noisy, and schema-mismatched labels. To support scaling and fair evaluation, we release SongFormDB, the largest MSA corpus to date (over 10k tracks spanning languages and genres), and SongFormBench, a 300-song expert-verified benchmark. On SongFormBench, SongFormer sets a new state of the art in strict boundary detection (HR.5F) and achieves the highest functional label accuracy, while remaining computationally efficient; it surpasses strong baselines and Gemini 2.5 Pro on these metrics and remains competitive under relaxed tolerance (HR3F). Code, datasets, and model are publicly available.
academic
SongFormer: Scalare l'Analisi della Struttura Musicale con Supervisione Eterogenea
L'analisi della struttura musicale (MSA) rappresenta il fondamento della comprensione musicale e della generazione controllata, tuttavia il progresso è limitato da dataset di piccole dimensioni e incoerenti. Questo articolo propone SongFormer, un framework scalabile di apprendimento con supervisione eterogenea. SongFormer (i) integra rappresentazioni audio auto-supervisionate a finestra breve e lunga per catturare dipendenze granulari e a lungo raggio, (ii) introduce embedding di fonte appresi per supportare l'addestramento con etichette parziali, rumorose e non corrispondenti ai modelli. Per supportare la scalabilità e la valutazione equa, gli autori rilasciano il più grande corpus MSA fino ad oggi, SongFormDB (oltre 10.000 brani multilingue e multistile) e SongFormBench, un benchmark di 300 brani verificati da esperti. Su SongFormBench, SongFormer stabilisce nuovi record ottimali nel rilevamento rigoroso dei confini (HR.5F) e raggiunge la massima accuratezza delle etichette funzionali mantenendo l'efficienza computazionale; supera baseline forti e Gemini 2.5 Pro su questi metriche, rimanendo competitivo con tolleranza ampia (HR3F).
L'analisi della struttura musicale (MSA) mira a segmentare i brani in parti funzionalmente significative (come intro, verso, ritornello, ecc.) e rilevare i loro confini, rappresentando un compito centrale nella comprensione musicale e nella generazione controllata. Con lo sviluppo rapido dei sistemi di generazione musicale, l'utilizzo di MSA come vincolo strutturale diventa sempre più importante.
Scarsità di Dati: I corpus pubblici hanno dimensioni ridotte e sono eterogenei, come HarmonixSet con soli 912 brani, con modelli e formati di annotazione incoerenti e accesso limitato
Limitazioni Metodologiche: Molti sistemi vengono addestrati da zero piuttosto che sfruttare modelli audio auto-supervisionati/fondamentali robusti, dipendendo da preprocessing complesso (tracciamento del beat, separazione delle fonti)
Problema di Risoluzione Temporale: I modelli LLM multimodali generici (come Gemini 2.5 Pro) possono produrre annotazioni strutturali, ma con risoluzione temporale troppo grossolana per rilevare con precisione i confini
Questo articolo mira a risolvere il collo di bottiglia dei dati nel campo MSA e le limitazioni metodologiche, proponendo un framework semplice e scalabile che apprende da supervisione eterogenea mantenendo la precisione temporale.
Propone il Framework SongFormer: Integra rappresentazioni auto-supervisionate a multi-risoluzione (finestre di 30s e 420s), catturando dipendenze granulari e a lungo raggio
Strategia di Supervisione Eterogenea: Introduce embedding di fonte appresi per supportare l'addestramento con etichette parziali, rumorose e non corrispondenti ai modelli
Costruisce Dataset su Larga Scala: Rilascia SongFormDB (oltre 10.000 brani) e SongFormBench (300 brani benchmark verificati da esperti)
Prestazioni SOTA: Stabilisce nuovi record nel rilevamento rigoroso dei confini e nell'accuratezza delle etichette funzionali, superando baseline forti e Gemini 2.5 Pro
Rappresentazione Locale: Divide l'audio in blocchi consecutivi di 30s per ottenere caratteristiche locali granulari
Rappresentazione Globale: Elabora finestre lunghe di 420s per catturare il contesto globale complessivo
Fusione di Caratteristiche: Concatena nel tempo 14 blocchi di 30s allineati con la rappresentazione globale di 420s, integra le dimensioni delle caratteristiche dalle rappresentazioni MuQ e MusicFM
Sottocampionamento: Riduce la risoluzione temporale da 25Hz a circa 8,33Hz attraverso un modulo di sottocampionamento residuo
Embedding di Fonte Dati: Aggiunge embedding di fonte appresi alla sequenza di caratteristiche sottocampionate, indicando la fonte del campione di addestramento
Apprendimento Condizionato: Il modello apprende modelli di annotazione specifici della fonte e caratteristiche di rumore
Inferenza Fissa: Durante l'inferenza, fissa l'embedding di fonte dati al HarmonixSet di alta qualità
Rilevamento dei Confini: Perdita di entropia incrociata binaria + perdita di variazione totale 1D consapevole dei confini (evita eccessivo livellamento nei confini reali)
Previsione Funzionale: Perdita di entropia incrociata a livello di frame + perdita focale softmax (focalizza su frame incerti)
Accuratezza delle Etichette Più Forte: SongFormer raggiunge l'ACC massimo su entrambi i benchmark
Rilevamento dei Confini Più Preciso: Fornisce previsioni dei confini più nitide e affidabili nella valutazione rigorosa
Effetto dell'Espansione dei Dati: L'aggiunta di dati di addestramento migliora la robustezza, ma le annotazioni imprecise influenzano leggermente la precisione dei confini
Superiore ai Modelli LLM: Significativamente superiore a Gemini 2.5 Pro su metriche di precisione
Rispetto ai lavori esistenti, SongFormer integra sistematicamente rappresentazioni SSL multi-risoluzione e introduce una strategia di supervisione eterogenea per la prima volta, costruendo contemporaneamente il più grande dataset MSA fino ad oggi.
Compromesso nella Qualità dell'Annotazione: L'introduzione di dataset aggiuntivi migliora le prestazioni complessive, ma le annotazioni imprecise influenzano la precisione dei confini
Complessità Computazionale: L'integrazione multi-risoluzione aumenta il carico computazionale dell'estrazione delle caratteristiche
Copertura Linguistica: Sebbene includa dati in cinese, la copertura di altre lingue non inglesi rimane limitata
Forte Innovazione Tecnica: L'integrazione SSL multi-risoluzione risolve elegantemente il problema dell'equilibrio tra contesto breve e lungo
Strategia di Supervisione Eterogenea Pratica: L'embedding di fonte appresi gestisce efficacemente il problema dell'incoerenza nella qualità delle annotazioni
Contributo Significativo ai Dati: SongFormDB e SongFormBench colmano lacune nel campo
Esperimenti Completi e Approfonditi: Esperimenti di ablazione dettagliati verificano l'efficacia di ogni componente
Favorevole all'Open Source: Codice, dati e modelli sono pubblicamente disponibili per la riproducibilità
Rassegna dell'analisi della struttura musicale (Nieto et al., 2020)
Modelli auto-supervisionati MuQ e MusicFM (Zhu et al., 2025; Won et al., 2024)
Metodi di apprendimento profondo correlati (Wang et al., 2022; Kim & Nam, 2023)
Valutazione Complessiva: Questo è un articolo di alta qualità con importanti contributi nel campo dell'analisi della struttura musicale. La soluzione tecnica è innovativa e pratica, la progettazione sperimentale è rigorosa e completa, il contributo del dataset è significativo e promuove lo sviluppo del campo. La strategia open source riflette anche uno spirito di condivisione accademica eccellente.