2025-11-20T07:43:14.963491

SongFormer: Scaling Music Structure Analysis with Heterogeneous Supervision

Hao, Yuan, Yao et al.

Music structure analysis (MSA) underpins music understanding and controllable generation, yet progress has been limited by small, inconsistent corpora. We present SongFormer, a scalable framework that learns from heterogeneous supervision. SongFormer (i) fuses short- and long-window self-supervised audio representations to capture both fine-grained and long-range dependencies, and (ii) introduces a learned source embedding to enable training with partial, noisy, and schema-mismatched labels. To support scaling and fair evaluation, we release SongFormDB, the largest MSA corpus to date (over 10k tracks spanning languages and genres), and SongFormBench, a 300-song expert-verified benchmark. On SongFormBench, SongFormer sets a new state of the art in strict boundary detection (HR.5F) and achieves the highest functional label accuracy, while remaining computationally efficient; it surpasses strong baselines and Gemini 2.5 Pro on these metrics and remains competitive under relaxed tolerance (HR3F). Code, datasets, and model are publicly available.

academic

SongFormer: Escalado del Análisis de Estructura Musical con Supervisión Heterogénea

Información Básica

ID del Artículo: 2510.02797
Título: SongFormer: Escalado del Análisis de Estructura Musical con Supervisión Heterogénea
Autores: Chunbo Hao, Ruibin Yuan, Jixun Yao, Qixin Deng, Xinyi Bai, Wei Xue, Lei Xie
Clasificación: eess.AS (Procesamiento de Audio y Voz)
Fecha de Publicación: 11 de octubre de 2025 (arXiv v2)
Enlace del Artículo: https://arxiv.org/abs/2510.02797

Resumen

El análisis de estructura musical (MSA) es fundamental para la comprensión musical y la generación controlada, pero su progreso se ve limitado por conjuntos de datos pequeños e inconsistentes. Este artículo propone SongFormer, un marco de aprendizaje escalable con supervisión heterogénea. SongFormer (i) fusiona representaciones de audio autosupervisadas de ventana corta y ventana larga para capturar dependencias de grano fino y de largo alcance, (ii) introduce incrustaciones de fuente aprendidas para respaldar el entrenamiento con etiquetas parciales, ruidosas y con desajuste de patrones. Para respaldar el escalado y la evaluación justa, los autores publican el corpus MSA más grande hasta la fecha, SongFormDB (más de 10,000 pistas multilingües y multigenéricas) y SongFormBench, un conjunto de referencia de 300 pistas validadas por expertos. En SongFormBench, SongFormer establece un nuevo récord óptimo en detección de límites estricta (HR.5F) y logra la máxima precisión de etiquetas funcionales, manteniendo eficiencia computacional; superando líneas base sólidas y Gemini 2.5 Pro en estas métricas, manteniendo competitividad bajo tolerancia amplia (HR3F).

Antecedentes de Investigación y Motivación

Definición del Problema

El análisis de estructura musical (MSA) tiene como objetivo segmentar canciones en partes funcionalmente significativas (como intro, verso, coro, etc.) y detectar sus límites, siendo una tarea central para la comprensión musical y la generación controlada. Con el rápido desarrollo de sistemas de generación musical, el uso de MSA como restricción estructural se vuelve cada vez más importante.

Problemas Existentes

Escasez de Datos: Los corpus públicos son pequeños y heterogéneos, como HarmonixSet con solo 912 canciones, patrones de anotación inconsistentes y acceso limitado
Limitaciones Metodológicas: Muchos sistemas se entrenan desde cero en lugar de aprovechar modelos de audio autosupervisados/fundamentales sólidos, dependiendo de preprocesamiento complejo (seguimiento de ritmo, separación de fuentes)
Problema de Resolución Temporal: Los LLM multimodales de propósito general (como Gemini 2.5 Pro) pueden producir anotaciones estructurales, pero con resolución temporal demasiado gruesa para detectar límites precisos

Motivación de la Investigación

Este artículo tiene como objetivo abordar el cuello de botella de datos y las limitaciones metodológicas en el campo MSA, proponiendo un marco simple y escalable que aprenda de supervisión heterogénea manteniendo precisión temporal.

Contribuciones Principales

Propone el Marco SongFormer: Fusiona representaciones autosupervisadas multirresolución (ventanas de 30s y 420s), capturando dependencias de grano fino y de largo alcance
Estrategia de Supervisión Heterogénea: Introduce incrustaciones de fuente de datos aprendidas, permitiendo entrenamiento con etiquetas parciales, ruidosas y con desajuste de patrones
Construcción de Conjunto de Datos a Gran Escala: Publica SongFormDB (más de 10,000 pistas) y SongFormBench (300 pistas de referencia validadas por expertos)
Rendimiento SOTA: Establece nuevos récords en detección de límites estricta y precisión de etiquetas funcionales, superando líneas base sólidas y Gemini 2.5 Pro

Explicación Detallada del Método

Definición de la Tarea

MSA se modela como una tarea de anotación temporal, con entrada de forma de onda de audio y salida de secuencia de anotación estructurada:

{(t₀, l₀), (t₁, l₁), ..., (tₙ₋₁, lₙ₋₁), (tₙ, end)}

donde tᵢ y lᵢ representan el tiempo de inicio y la etiqueta de cada segmento, respectivamente.

Arquitectura del Modelo

1. Fusión de Representaciones SSL Multirresolución

Representación Local: Divide el audio en bloques consecutivos de 30s, obteniendo características locales de grano fino
Representación Global: Procesa ventanas largas de 420s, capturando contexto global general
Fusión de Características: Concatenación en dimensión temporal de 14 bloques de 30s alineados con representación global de 420s, fusión en dimensión de características de representaciones MuQ y MusicFM
Submuestreo: Reduce resolución temporal de 25Hz a aproximadamente 8.33Hz mediante módulo de submuestreo residual

2. Estrategia de Supervisión Heterogénea

Incrustación de Fuente de Datos: Añade incrustación de fuente de datos aprendida a la secuencia de características submuestreadas, indicando la fuente de la muestra de entrenamiento
Aprendizaje Condicional: El modelo aprende patrones de anotación específicos de la fuente y características de ruido
Fijación en Inferencia: Fija la incrustación de fuente de datos a HarmonixSet de alta calidad durante la inferencia

3. Codificador Transformer

4 capas de codificador Transformer, utilizando codificación de posición RoPE para capturar dependencias temporales
Dimensión de capa oculta 512, dos cabezas específicas de tarea: detección de límites y predicción de etiquetas funcionales

Objetivos de Entrenamiento

La función de pérdida total es:

L = λ(L_BCE + λ_TV L_TV) + (1-λ)(L_CE + λ_Focal L_Focal)

donde:

Detección de Límites: Pérdida de entropía cruzada binaria + pérdida de variación total 1D consciente de límites (evita suavizado excesivo en límites reales)
Predicción Funcional: Pérdida de entropía cruzada a nivel de fotograma + pérdida focal softmax (enfoca fotogramas inciertos)
Hiperparámetros: λ=0.2, λ_TV=0.05, λ_Focal=0.2

Configuración Experimental

Conjuntos de Datos

SongFormDB (Conjunto de Entrenamiento, >10k canciones)

SongForm-HX: 512 de entrenamiento, 200 de validación, audio reconstruido de HarmonixSet con anotaciones refinadas
SongForm-Private: 4,314 canciones, etiquetas de estructura derivadas de letras, marcas de tiempo corregidas usando alineador SOFA
SongForm-Hook: 5,933 canciones, anotaciones de estructura precisas de segmentos parciales
SongForm-Gem: 4,387 canciones, en 47 idiomas, anotaciones generadas usando API Gemini 2.5 Pro

SongFormBench (Conjunto de Prueba, 300 canciones)

SongFormBench-HarmonixSet: 200 canciones de HarmonixSet revisadas por expertos
SongFormBench-CN: 100 canciones en chino, abordando la escasez de datos MSA en chino

Métricas de Evaluación

HR.5F: Valor F de tasa de acierto de límite dentro de 0.5 segundos (detección de límite estricta)
HR3F: Valor F de tasa de acierto de límite dentro de 3 segundos (detección de límite amplia)
ACC: Precisión de etiqueta funcional a nivel de fotograma

Detalles de Implementación

Duración máxima de entrada 420s, frecuencia de muestreo 8.33Hz
Límites suavizados con núcleo gaussiano (ventana de 10 fotogramas, aproximadamente 2.4s)
Tamaño de lote 8, programación de tasa de aprendizaje coseno (pico 1×10⁻⁴)
GPU NVIDIA L40 única, promedio de tres semillas aleatorias

Resultados Experimentales

Resultados Principales

SongFormBench-HarmonixSet

Método	ACC	HR.5F	HR3F
All-In-One	0.740	0.596	0.730
LinkSeg-7Labels	0.780	0.630	0.762
TA (Zhang et al.)	0.787	0.610	0.801
Gemini 2.5 Pro	0.748	0.423	0.813
SongFormer (HX)	0.795	0.703	0.784
SongFormer (HX+P+H+G)	0.807	0.696	0.780

SongFormBench-CN

Método	ACC	HR.5F	HR3F
All-In-One	0.834	0.563	0.771
Gemini 2.5 Pro	0.806	0.412	0.833
SongFormer (HX+P+H)	0.890	0.690	0.852
SongFormer (HX+P+H+G)	0.891	0.688	0.851

Experimentos de Ablación

Representaciones Multirresolución: La combinación de ventanas de 30s y 420s supera el rendimiento de ventana única
Incrustación de Fuente de Datos: La eliminación reduce ACC de 0.848 a 0.825
Transformer vs Capa Lineal: El backend Transformer supera significativamente capas lineales simples
Estrategia de Submuestreo: El submuestreo moderado logra el mejor equilibrio entre eficiencia y precisión

Hallazgos Experimentales

Precisión de Etiqueta Más Fuerte: SongFormer logra ACC máximo en ambos conjuntos de referencia
Detección de Límites Más Precisa: Proporciona predicciones de límite más agudas y confiables bajo evaluación estricta
Efecto de Expansión de Datos: Aumentar datos de entrenamiento mejora robustez, pero impacta ligeramente precisión de límite por anotaciones imprecisas
Superioridad sobre LLM: Significativamente superior a Gemini 2.5 Pro en métricas de precisión

Trabajo Relacionado

Evolución de Métodos MSA

Métodos Tradicionales: Métodos basados en reglas y aprendizaje automático basados en características de audio
Aprendizaje Profundo: CNN, RNN para detección de límites y anotación funcional
Aprendizaje Autosupervisado: Aprovecha modelos de audio preentrenados, pero la mayoría aún se entrena desde cero

Desarrollo de Conjuntos de Datos

HarmonixSet: 912 canciones de música popular occidental, alta calidad de anotación pero escala pequeña
Otros conjuntos de datos: Escala más pequeña, anotaciones inconsistentes, acceso limitado

Innovación de Este Artículo

En comparación con trabajos existentes, SongFormer es el primero en fusionar sistemáticamente representaciones SSL multirresolución e introducir estrategia de supervisión heterogénea, mientras construye el conjunto de datos MSA más grande hasta la fecha.

Conclusiones y Discusión

Conclusiones Principales

SongFormer logra rendimiento SOTA mediante fusión SSL multirresolución y supervisión heterogénea
El conjunto de datos a gran escala SongFormDB y el conjunto de referencia de alta calidad SongFormBench impulsan el desarrollo del campo
El método supera significativamente métodos existentes en detección de límites estricta y precisión de etiquetas funcionales

Limitaciones

Equilibrio de Calidad de Anotación: Introducir conjuntos de datos adicionales mejora rendimiento general, pero anotaciones imprecisas afectan precisión de límites
Complejidad Computacional: La fusión multirresolución aumenta la sobrecarga computacional de extracción de características
Cobertura de Idiomas: Aunque incluye datos en chino, la cobertura de otros idiomas no ingleses sigue siendo limitada

Direcciones Futuras

Integrar MSA en sistemas de generación musical controlada y recuperación de información musical
Explorar análisis de estructura en más idiomas y géneros musicales
Investigar optimización conjunta de generación musical y análisis de estructura de extremo a extremo

Evaluación Profunda

Fortalezas

Innovación Técnica Fuerte: La fusión SSL multirresolución aborda ingeniosamente el equilibrio entre contexto corto y largo
Estrategia de Supervisión Heterogénea Práctica: La incrustación de fuente de datos maneja efectivamente inconsistencias de calidad de anotación
Contribución de Datos Significativa: SongFormDB y SongFormBench llenan vacíos en el campo
Experimentos Completos y Exhaustivos: Experimentos de ablación detallados verifican efectividad de cada componente
Amigable con Código Abierto: Código, datos y modelos públicamente disponibles para reproducibilidad

Insuficiencias

Complejidad del Método: La fusión de múltiples modelos SSL aumenta complejidad del sistema
Limitaciones de Evaluación: Evaluación principalmente en música popular, cobertura insuficiente de otros géneros como música clásica
Análisis de Tiempo Real: No discute capacidad de procesamiento en tiempo real, aplicabilidad a aplicaciones prácticas poco clara

Impacto

Valor Académico: Proporciona nuevo paradigma técnico y recursos de datos a gran escala para el campo MSA
Valor Práctico: Aplicable directamente a sistemas de recomendación musical, generación de listas de reproducción y edición
Reproducibilidad: Código abierto completo asegura investigación reproducible y desarrollo posterior

Escenarios Aplicables

Recomendación inteligente de plataformas de streaming musical y generación de listas de reproducción
Análisis automático de estructura y edición en software de producción musical
Asistencia de enseñanza de teoría de estructura en educación musical
Restricciones estructurales en sistemas de generación musical controlada

Referencias

Las referencias clave incluyen:

Conjunto de datos HarmonixSet (Nieto et al., 2019)
Revisión de análisis de estructura musical (Nieto et al., 2020)
Modelos autosupervisados MuQ y MusicFM (Zhu et al., 2025; Won et al., 2024)
Métodos de aprendizaje profundo relacionados (Wang et al., 2022; Kim & Nam, 2023)

Evaluación General: Este es un artículo de alta calidad con contribuciones importantes en el campo del análisis de estructura musical. La solución técnica es innovadora y práctica, el diseño experimental es riguroso y completo, la contribución de conjuntos de datos es significativa, proporcionando un impulso importante para el desarrollo del campo. La estrategia de código abierto también refleja excelente espíritu de intercambio académico.