SongFormer: Scaling Music Structure Analysis with Heterogeneous Supervision
Hao, Yuan, Yao et al.
Music structure analysis (MSA) underpins music understanding and controllable generation, yet progress has been limited by small, inconsistent corpora. We present SongFormer, a scalable framework that learns from heterogeneous supervision. SongFormer (i) fuses short- and long-window self-supervised audio representations to capture both fine-grained and long-range dependencies, and (ii) introduces a learned source embedding to enable training with partial, noisy, and schema-mismatched labels. To support scaling and fair evaluation, we release SongFormDB, the largest MSA corpus to date (over 10k tracks spanning languages and genres), and SongFormBench, a 300-song expert-verified benchmark. On SongFormBench, SongFormer sets a new state of the art in strict boundary detection (HR.5F) and achieves the highest functional label accuracy, while remaining computationally efficient; it surpasses strong baselines and Gemini 2.5 Pro on these metrics and remains competitive under relaxed tolerance (HR3F). Code, datasets, and model are publicly available.
academic
SongFormer: Escalado del Análisis de Estructura Musical con Supervisión Heterogénea
El análisis de estructura musical (MSA) es fundamental para la comprensión musical y la generación controlada, pero su progreso se ve limitado por conjuntos de datos pequeños e inconsistentes. Este artículo propone SongFormer, un marco de aprendizaje escalable con supervisión heterogénea. SongFormer (i) fusiona representaciones de audio autosupervisadas de ventana corta y ventana larga para capturar dependencias de grano fino y de largo alcance, (ii) introduce incrustaciones de fuente aprendidas para respaldar el entrenamiento con etiquetas parciales, ruidosas y con desajuste de patrones. Para respaldar el escalado y la evaluación justa, los autores publican el corpus MSA más grande hasta la fecha, SongFormDB (más de 10,000 pistas multilingües y multigenéricas) y SongFormBench, un conjunto de referencia de 300 pistas validadas por expertos. En SongFormBench, SongFormer establece un nuevo récord óptimo en detección de límites estricta (HR.5F) y logra la máxima precisión de etiquetas funcionales, manteniendo eficiencia computacional; superando líneas base sólidas y Gemini 2.5 Pro en estas métricas, manteniendo competitividad bajo tolerancia amplia (HR3F).
El análisis de estructura musical (MSA) tiene como objetivo segmentar canciones en partes funcionalmente significativas (como intro, verso, coro, etc.) y detectar sus límites, siendo una tarea central para la comprensión musical y la generación controlada. Con el rápido desarrollo de sistemas de generación musical, el uso de MSA como restricción estructural se vuelve cada vez más importante.
Escasez de Datos: Los corpus públicos son pequeños y heterogéneos, como HarmonixSet con solo 912 canciones, patrones de anotación inconsistentes y acceso limitado
Limitaciones Metodológicas: Muchos sistemas se entrenan desde cero en lugar de aprovechar modelos de audio autosupervisados/fundamentales sólidos, dependiendo de preprocesamiento complejo (seguimiento de ritmo, separación de fuentes)
Problema de Resolución Temporal: Los LLM multimodales de propósito general (como Gemini 2.5 Pro) pueden producir anotaciones estructurales, pero con resolución temporal demasiado gruesa para detectar límites precisos
Este artículo tiene como objetivo abordar el cuello de botella de datos y las limitaciones metodológicas en el campo MSA, proponiendo un marco simple y escalable que aprenda de supervisión heterogénea manteniendo precisión temporal.
Propone el Marco SongFormer: Fusiona representaciones autosupervisadas multirresolución (ventanas de 30s y 420s), capturando dependencias de grano fino y de largo alcance
Estrategia de Supervisión Heterogénea: Introduce incrustaciones de fuente de datos aprendidas, permitiendo entrenamiento con etiquetas parciales, ruidosas y con desajuste de patrones
Construcción de Conjunto de Datos a Gran Escala: Publica SongFormDB (más de 10,000 pistas) y SongFormBench (300 pistas de referencia validadas por expertos)
Rendimiento SOTA: Establece nuevos récords en detección de límites estricta y precisión de etiquetas funcionales, superando líneas base sólidas y Gemini 2.5 Pro
Representación Local: Divide el audio en bloques consecutivos de 30s, obteniendo características locales de grano fino
Representación Global: Procesa ventanas largas de 420s, capturando contexto global general
Fusión de Características: Concatenación en dimensión temporal de 14 bloques de 30s alineados con representación global de 420s, fusión en dimensión de características de representaciones MuQ y MusicFM
Submuestreo: Reduce resolución temporal de 25Hz a aproximadamente 8.33Hz mediante módulo de submuestreo residual
Incrustación de Fuente de Datos: Añade incrustación de fuente de datos aprendida a la secuencia de características submuestreadas, indicando la fuente de la muestra de entrenamiento
Aprendizaje Condicional: El modelo aprende patrones de anotación específicos de la fuente y características de ruido
Fijación en Inferencia: Fija la incrustación de fuente de datos a HarmonixSet de alta calidad durante la inferencia
Detección de Límites: Pérdida de entropía cruzada binaria + pérdida de variación total 1D consciente de límites (evita suavizado excesivo en límites reales)
Predicción Funcional: Pérdida de entropía cruzada a nivel de fotograma + pérdida focal softmax (enfoca fotogramas inciertos)
En comparación con trabajos existentes, SongFormer es el primero en fusionar sistemáticamente representaciones SSL multirresolución e introducir estrategia de supervisión heterogénea, mientras construye el conjunto de datos MSA más grande hasta la fecha.
Equilibrio de Calidad de Anotación: Introducir conjuntos de datos adicionales mejora rendimiento general, pero anotaciones imprecisas afectan precisión de límites
Complejidad Computacional: La fusión multirresolución aumenta la sobrecarga computacional de extracción de características
Cobertura de Idiomas: Aunque incluye datos en chino, la cobertura de otros idiomas no ingleses sigue siendo limitada
Conjunto de datos HarmonixSet (Nieto et al., 2019)
Revisión de análisis de estructura musical (Nieto et al., 2020)
Modelos autosupervisados MuQ y MusicFM (Zhu et al., 2025; Won et al., 2024)
Métodos de aprendizaje profundo relacionados (Wang et al., 2022; Kim & Nam, 2023)
Evaluación General: Este es un artículo de alta calidad con contribuciones importantes en el campo del análisis de estructura musical. La solución técnica es innovadora y práctica, el diseño experimental es riguroso y completo, la contribución de conjuntos de datos es significativa, proporcionando un impulso importante para el desarrollo del campo. La estrategia de código abierto también refleja excelente espíritu de intercambio académico.