SongFormer: Scaling Music Structure Analysis with Heterogeneous Supervision
Hao, Yuan, Yao et al.
Music structure analysis (MSA) underpins music understanding and controllable generation, yet progress has been limited by small, inconsistent corpora. We present SongFormer, a scalable framework that learns from heterogeneous supervision. SongFormer (i) fuses short- and long-window self-supervised audio representations to capture both fine-grained and long-range dependencies, and (ii) introduces a learned source embedding to enable training with partial, noisy, and schema-mismatched labels. To support scaling and fair evaluation, we release SongFormDB, the largest MSA corpus to date (over 10k tracks spanning languages and genres), and SongFormBench, a 300-song expert-verified benchmark. On SongFormBench, SongFormer sets a new state of the art in strict boundary detection (HR.5F) and achieves the highest functional label accuracy, while remaining computationally efficient; it surpasses strong baselines and Gemini 2.5 Pro on these metrics and remains competitive under relaxed tolerance (HR3F). Code, datasets, and model are publicly available.
academic
SongFormer: Масштабирование анализа музыкальной структуры с гетерогенным надзором
Анализ музыкальной структуры (МС) является основой для понимания музыки и управляемого синтеза, однако его развитие ограничено малыми и несогласованными наборами данных. В данной работе предлагается SongFormer — масштабируемая структура обучения с гетерогенным надзором. SongFormer (i) объединяет самоконтролируемые аудиопредставления с коротким и длинным окном для захвата мелкозернистых и долгосрочных зависимостей, (ii) вводит изученные встраивания источников для поддержки обучения на частичных, зашумленных и несоответствующих по шаблону метках. Для поддержки масштабирования и справедливой оценки авторы выпустили крупнейший на сегодняшний день корпус МС — SongFormDB (более 10 000 многоязычных кроссжанровых композиций) и эталонный набор SongFormBench из 300 экспертно проверенных композиций. На SongFormBench SongFormer устанавливает новый рекорд по строгому обнаружению границ (HR.5F) и достигает наивысшей точности функциональных меток при сохранении вычислительной эффективности; превосходит сильные базовые модели и Gemini 2.5 Pro по этим метрикам, сохраняя конкурентоспособность при более мягком допуске (HR3F).
Анализ музыкальной структуры (МС) направлен на разделение песни на функционально значимые части (такие как intro, verse, chorus и т.д.) и обнаружение их границ, что является ключевой задачей для понимания музыки и управляемого синтеза. С быстрым развитием систем музыкального синтеза использование МС в качестве структурного приоритета становится все более важным.
Дефицит данных: открытые корпусы имеют малый размер и являются гетерогенными, например HarmonixSet содержит только 912 песен, схемы и форматы аннотаций несогласованны, доступ ограничен
Ограничения методов: многие системы обучаются с нуля, а не используют мощные самоконтролируемые/базовые аудиомодели, зависят от сложной предварительной обработки (отслеживание ритма, разделение источников)
Проблема временного разрешения: универсальные многомодальные LLM (такие как Gemini 2.5 Pro) могут генерировать аннотации структуры, но с недостаточным временным разрешением для точного обнаружения границ
Данная работа направлена на решение проблемы дефицита данных в области МС и ограничений методов, предлагая простую и масштабируемую структуру, которая обучается на гетерогенном надзоре при сохранении временной точности.
Предложение структуры SongFormer: объединение многоразрешающих самоконтролируемых представлений (окна 30s и 420s) для захвата мелкозернистых и долгосрочных зависимостей
Стратегия гетерогенного надзора: введение изученных встраиваний источников данных для поддержки обучения на частичных, зашумленных и несоответствующих по шаблону метках
Построение крупномасштабного набора данных: выпуск SongFormDB (более 10 000 композиций) и SongFormBench (300 экспертно проверенных эталонов)
Производительность SOTA: установление новых рекордов по строгому обнаружению границ и точности функциональных меток, превосходство над сильными базовыми моделями и Gemini 2.5 Pro
Локальное представление: разделение аудио на последовательные блоки по 30s для получения мелкозернистых локальных признаков
Глобальное представление: обработка длинного окна 420s для захвата общего глобального контекста
Объединение признаков: конкатенация 14 блоков по 30s с выравниванием глобального представления 420s по временному измерению, объединение представлений MuQ и MusicFM по измерению признаков
Понижающая дискретизация: снижение временного разрешения с 25 Гц до примерно 8,33 Гц через модуль остаточной понижающей дискретизации
Встраивания источников данных: добавление изученных встраиваний источников данных к последовательности понижающе дискретизированных признаков, указывающих на источник обучающей выборки
Условное обучение: модель обучается на специфичных для источника схемах аннотаций и характеристиках шума
Фиксирование при выводе: при выводе встраивания источников данных фиксируются на высококачественном HarmonixSet
По сравнению с существующими работами, SongFormer впервые систематически объединяет многоразрешающие SSL-представления и вводит стратегию гетерогенного надзора, одновременно создавая крупнейший на сегодняшний день набор данных МС.
Компромисс качества аннотаций: введение дополнительных наборов данных улучшает общую производительность, но неточные аннотации влияют на точность границ
Вычислительная сложность: объединение многоразрешающих представлений увеличивает вычислительные затраты на извлечение признаков
Языковое покрытие: хотя включены китайские данные, покрытие других неанглийских языков остается ограниченным
Обзор анализа музыкальной структуры (Nieto et al., 2020)
Самоконтролируемые модели MuQ и MusicFM (Zhu et al., 2025; Won et al., 2024)
Связанные методы глубокого обучения (Wang et al., 2022; Kim & Nam, 2023)
Общая оценка: Это высококачественная статья с важным вкладом в область анализа музыкальной структуры. Технический подход инновативен и практичен, экспериментальный дизайн строг и всеобъемлющ, вклад набора данных значителен и способствует развитию области. Открытая стратегия также демонстрирует хороший дух академического обмена.