2025-11-20T07:43:14.963491

SongFormer: Scaling Music Structure Analysis with Heterogeneous Supervision

Hao, Yuan, Yao et al.

Music structure analysis (MSA) underpins music understanding and controllable generation, yet progress has been limited by small, inconsistent corpora. We present SongFormer, a scalable framework that learns from heterogeneous supervision. SongFormer (i) fuses short- and long-window self-supervised audio representations to capture both fine-grained and long-range dependencies, and (ii) introduces a learned source embedding to enable training with partial, noisy, and schema-mismatched labels. To support scaling and fair evaluation, we release SongFormDB, the largest MSA corpus to date (over 10k tracks spanning languages and genres), and SongFormBench, a 300-song expert-verified benchmark. On SongFormBench, SongFormer sets a new state of the art in strict boundary detection (HR.5F) and achieves the highest functional label accuracy, while remaining computationally efficient; it surpasses strong baselines and Gemini 2.5 Pro on these metrics and remains competitive under relaxed tolerance (HR3F). Code, datasets, and model are publicly available.

academic

SongFormer: Масштабирование анализа музыкальной структуры с гетерогенным надзором

Основная информация

ID статьи: 2510.02797
Название: SongFormer: Scaling Music Structure Analysis with Heterogeneous Supervision
Авторы: Chunbo Hao, Ruibin Yuan, Jixun Yao, Qixin Deng, Xinyi Bai, Wei Xue, Lei Xie
Классификация: eess.AS (обработка аудио и речи)
Дата публикации: 11 октября 2025 г. (arXiv v2)
Ссылка на статью: https://arxiv.org/abs/2510.02797

Аннотация

Анализ музыкальной структуры (МС) является основой для понимания музыки и управляемого синтеза, однако его развитие ограничено малыми и несогласованными наборами данных. В данной работе предлагается SongFormer — масштабируемая структура обучения с гетерогенным надзором. SongFormer (i) объединяет самоконтролируемые аудиопредставления с коротким и длинным окном для захвата мелкозернистых и долгосрочных зависимостей, (ii) вводит изученные встраивания источников для поддержки обучения на частичных, зашумленных и несоответствующих по шаблону метках. Для поддержки масштабирования и справедливой оценки авторы выпустили крупнейший на сегодняшний день корпус МС — SongFormDB (более 10 000 многоязычных кроссжанровых композиций) и эталонный набор SongFormBench из 300 экспертно проверенных композиций. На SongFormBench SongFormer устанавливает новый рекорд по строгому обнаружению границ (HR.5F) и достигает наивысшей точности функциональных меток при сохранении вычислительной эффективности; превосходит сильные базовые модели и Gemini 2.5 Pro по этим метрикам, сохраняя конкурентоспособность при более мягком допуске (HR3F).

Исследовательский контекст и мотивация

Определение задачи

Анализ музыкальной структуры (МС) направлен на разделение песни на функционально значимые части (такие как intro, verse, chorus и т.д.) и обнаружение их границ, что является ключевой задачей для понимания музыки и управляемого синтеза. С быстрым развитием систем музыкального синтеза использование МС в качестве структурного приоритета становится все более важным.

Существующие проблемы

Дефицит данных: открытые корпусы имеют малый размер и являются гетерогенными, например HarmonixSet содержит только 912 песен, схемы и форматы аннотаций несогласованны, доступ ограничен
Ограничения методов: многие системы обучаются с нуля, а не используют мощные самоконтролируемые/базовые аудиомодели, зависят от сложной предварительной обработки (отслеживание ритма, разделение источников)
Проблема временного разрешения: универсальные многомодальные LLM (такие как Gemini 2.5 Pro) могут генерировать аннотации структуры, но с недостаточным временным разрешением для точного обнаружения границ

Исследовательская мотивация

Данная работа направлена на решение проблемы дефицита данных в области МС и ограничений методов, предлагая простую и масштабируемую структуру, которая обучается на гетерогенном надзоре при сохранении временной точности.

Основные вклады

Предложение структуры SongFormer: объединение многоразрешающих самоконтролируемых представлений (окна 30s и 420s) для захвата мелкозернистых и долгосрочных зависимостей
Стратегия гетерогенного надзора: введение изученных встраиваний источников данных для поддержки обучения на частичных, зашумленных и несоответствующих по шаблону метках
Построение крупномасштабного набора данных: выпуск SongFormDB (более 10 000 композиций) и SongFormBench (300 экспертно проверенных эталонов)
Производительность SOTA: установление новых рекордов по строгому обнаружению границ и точности функциональных меток, превосходство над сильными базовыми моделями и Gemini 2.5 Pro

Подробное описание метода

Определение задачи

МС моделируется как задача временной аннотации, где входом является звуковая волна, а выходом — последовательность структурированных аннотаций:

{(t₀, l₀), (t₁, l₁), ..., (tₙ₋₁, lₙ₋₁), (tₙ, end)}

где tᵢ и lᵢ обозначают соответственно время начала и метку каждого сегмента.

Архитектура модели

1. Объединение многоразрешающих SSL-представлений

Локальное представление: разделение аудио на последовательные блоки по 30s для получения мелкозернистых локальных признаков
Глобальное представление: обработка длинного окна 420s для захвата общего глобального контекста
Объединение признаков: конкатенация 14 блоков по 30s с выравниванием глобального представления 420s по временному измерению, объединение представлений MuQ и MusicFM по измерению признаков
Понижающая дискретизация: снижение временного разрешения с 25 Гц до примерно 8,33 Гц через модуль остаточной понижающей дискретизации

2. Стратегия гетерогенного надзора

Встраивания источников данных: добавление изученных встраиваний источников данных к последовательности понижающе дискретизированных признаков, указывающих на источник обучающей выборки
Условное обучение: модель обучается на специфичных для источника схемах аннотаций и характеристиках шума
Фиксирование при выводе: при выводе встраивания источников данных фиксируются на высококачественном HarmonixSet

3. Кодировщик Transformer

4-слойный кодировщик Transformer с позиционным кодированием RoPE для захвата временных зависимостей
Размер скрытого слоя 512, две головы, специфичные для задачи: обнаружение границ и предсказание функциональных меток

Целевые функции обучения

Общая функция потерь:

L = λ(L_BCE + λ_TV L_TV) + (1-λ)(L_CE + λ_Focal L_Focal)

где:

Обнаружение границ: потеря бинарной кроссэнтропии + потеря полной вариации 1D, чувствительная к границам (избегание чрезмерного сглаживания на истинных границах)
Предсказание функций: потеря кроссэнтропии на уровне кадра + потеря softmax focal (внимание к неопределенным кадрам)
Гиперпараметры: λ=0,2, λ_TV=0,05, λ_Focal=0,2

Экспериментальная установка

Наборы данных

SongFormDB (обучающий набор, >10k композиций)

SongForm-HX: 512 композиций для обучения, 200 для валидации, реконструированные аудио из HarmonixSet с уточненными аннотациями
SongForm-Private: 4 314 композиций, метки структуры, полученные из текстов песен, временные метки скорректированы с помощью выравнивателя SOFA
SongForm-Hook: 5 933 композиций, точные аннотации структуры отдельных сегментов
SongForm-Gem: 4 387 композиций, охватывающих 47 языков, аннотации сгенерированы с помощью API Gemini 2.5 Pro

SongFormBench (тестовый набор, 300 композиций)

SongFormBench-HarmonixSet: 200 композиций из HarmonixSet с экспертной проверкой
SongFormBench-CN: 100 китайских песен, решающих проблему дефицита данных на китайском языке в МС

Метрики оценки

HR.5F: F-значение частоты попаданий границ в пределах 0,5 секунды (строгое обнаружение границ)
HR3F: F-значение частоты попаданий границ в пределах 3 секунд (мягкое обнаружение границ)
ACC: точность функциональных меток на уровне кадра

Детали реализации

Максимальная длина входа 420s, частота дискретизации 8,33 Гц
Границы сглажены гауссовым ядром (окно 10 кадров, примерно 2,4s)
Размер пакета 8, косинусное расписание скорости обучения (пиковое значение 1×10⁻⁴)
Одиночный GPU NVIDIA L40, усреднение по трем случайным семенам

Результаты экспериментов

Основные результаты

SongFormBench-HarmonixSet

Метод	ACC	HR.5F	HR3F
All-In-One	0.740	0.596	0.730
LinkSeg-7Labels	0.780	0.630	0.762
TA (Zhang et al.)	0.787	0.610	0.801
Gemini 2.5 Pro	0.748	0.423	0.813
SongFormer (HX)	0.795	0.703	0.784
SongFormer (HX+P+H+G)	0.807	0.696	0.780

SongFormBench-CN

Метод	ACC	HR.5F	HR3F
All-In-One	0.834	0.563	0.771
Gemini 2.5 Pro	0.806	0.412	0.833
SongFormer (HX+P+H)	0.890	0.690	0.852
SongFormer (HX+P+H+G)	0.891	0.688	0.851

Абляционные исследования

Многоразрешающие представления: объединение окон 30s и 420s показывает лучшую производительность, чем одиночное окно
Встраивания источников данных: удаление приводит к снижению ACC с 0.848 до 0.825
Transformer vs линейный слой: Transformer-бэкэнд значительно превосходит простые линейные слои
Стратегия понижающей дискретизации: умеренная понижающая дискретизация достигает оптимального баланса между эффективностью и точностью

Экспериментальные находки

Наиболее сильная точность меток: SongFormer достигает наивысшей ACC на обоих эталонах
Более точное обнаружение границ: обеспечивает более четкие и надежные предсказания границ при строгой оценке
Эффект расширения данных: добавление обучающих данных повышает робастность, но неточные аннотации слегка влияют на точность границ
Превосходство над LLM: значительное преимущество над Gemini 2.5 Pro по метрикам точности

Связанные работы

Эволюция методов МС

Традиционные методы: методы на основе правил и машинное обучение с использованием аудиопризнаков
Глубокое обучение: CNN, RNN для обнаружения границ и функциональной аннотации
Самоконтролируемое обучение: использование предварительно обученных аудиомоделей, но большинство все еще обучаются с нуля

Развитие наборов данных

HarmonixSet: 912 западных поп-композиций, высокое качество аннотаций, но малый размер
Другие наборы данных: меньший размер, несогласованные аннотации, ограниченный доступ

Инновации данной работы

По сравнению с существующими работами, SongFormer впервые систематически объединяет многоразрешающие SSL-представления и вводит стратегию гетерогенного надзора, одновременно создавая крупнейший на сегодняшний день набор данных МС.

Заключение и обсуждение

Основные выводы

SongFormer достигает производительности SOTA благодаря объединению многоразрешающих SSL и гетерогенному надзору
Крупномасштабный набор данных SongFormDB и высококачественный эталон SongFormBench способствуют развитию области
Метод значительно превосходит существующие методы по строгому обнаружению границ и точности функциональных меток

Ограничения

Компромисс качества аннотаций: введение дополнительных наборов данных улучшает общую производительность, но неточные аннотации влияют на точность границ
Вычислительная сложность: объединение многоразрешающих представлений увеличивает вычислительные затраты на извлечение признаков
Языковое покрытие: хотя включены китайские данные, покрытие других неанглийских языков остается ограниченным

Направления будущих исследований

Интеграция МС в системы управляемого музыкального синтеза и поиска музыкальной информации
Исследование анализа структуры для большего количества языков и музыкальных жанров
Изучение совместной оптимизации синтеза музыки и анализа структуры "конец в конец"

Глубокая оценка

Преимущества

Сильная техническая инновативность: объединение многоразрешающих SSL элегантно решает проблему баланса между долгосрочным и краткосрочным контекстом
Практичность стратегии гетерогенного надзора: встраивания источников данных эффективно обрабатывают несогласованность качества аннотаций
Значительный вклад данных: SongFormDB и SongFormBench заполняют пробел в области
Полные и всесторонние эксперименты: детальные абляционные исследования проверяют эффективность каждого компонента
Открытый исходный код: код, данные и модели открыто доступны для воспроизведения

Недостатки

Сложность метода: объединение нескольких SSL-моделей увеличивает сложность системы
Ограничения оценки: оценка в основном проводится на популярной музыке, покрытие других жанров (классическая музыка и т.д.) недостаточно
Анализ реального времени: отсутствует обсуждение возможности обработки в реальном времени, применимость к практическим приложениям неясна

Влияние

Академическая ценность: предоставляет новую техническую парадигму и крупномасштабные ресурсы данных для области МС
Практическая ценность: может быть непосредственно применена в системах музыкальных рекомендаций, синтеза и редактирования
Воспроизводимость: полный открытый исходный код гарантирует воспроизводимость исследований и дальнейшее развитие

Применимые сценарии

Интеллектуальные рекомендации и генерация плейлистов на платформах потокового вещания музыки
Автоматический анализ структуры и редактирование в программном обеспечении для производства музыки
Вспомогательное обучение теории структуры в музыкальном образовании
Структурные ограничения в системах управляемого музыкального синтеза

Библиография

Ключевые ссылки включают:

Набор данных HarmonixSet (Nieto et al., 2019)
Обзор анализа музыкальной структуры (Nieto et al., 2020)
Самоконтролируемые модели MuQ и MusicFM (Zhu et al., 2025; Won et al., 2024)
Связанные методы глубокого обучения (Wang et al., 2022; Kim & Nam, 2023)

Общая оценка: Это высококачественная статья с важным вкладом в область анализа музыкальной структуры. Технический подход инновативен и практичен, экспериментальный дизайн строг и всеобъемлющ, вклад набора данных значителен и способствует развитию области. Открытая стратегия также демонстрирует хороший дух академического обмена.