2025-11-19T02:46:12.920144

Beat Detection as Object Detection

Ahn, Jung
Recent beat and downbeat tracking models (e.g., RNNs, TCNs, Transformers) output frame-level activations. We propose reframing this task as object detection, where beats and downbeats are modeled as temporal "objects." Adapting the FCOS detector from computer vision to 1D audio, we replace its original backbone with WaveBeat's temporal feature extractor and add a Feature Pyramid Network to capture multi-scale temporal patterns. The model predicts overlapping beat/downbeat intervals with confidence scores, followed by non-maximum suppression (NMS) to select final predictions. This NMS step serves a similar role to DBNs in traditional trackers, but is simpler and less heuristic. Evaluated on standard music datasets, our approach achieves competitive results, showing that object detection techniques can effectively model musical beats with minimal adaptation.
academic

Отслеживание Доли как Обнаружение Объектов

Основная информация

  • ID статьи: 2510.14391
  • Название: Beat Tracking as Object Detection
  • Авторы: Jaehoon Ahn (Sogang University), Moon-Ryul Jung (Sogang University)
  • Классификация: cs.SD (Sound), cs.AI (Artificial Intelligence), cs.LG (Machine Learning)
  • Дата публикации: 16 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.14391v1

Аннотация

Недавние модели отслеживания доли и сильной доли (такие как RNNs, TCNs, Transformers) выводят активации на уровне кадра. В данной работе предлагается переопределить эту задачу как проблему обнаружения объектов, моделируя доли и сильные доли как временные "объекты". Путём адаптации детектора FCOS из компьютерного зрения к одномерному аудио, замены исходной магистральной сети на временной экстрактор признаков WaveBeat и добавления пирамиды признаков для захвата многомасштабных временных паттернов. Модель предсказывает перекрывающиеся интервалы доли/сильной доли и их оценки уверенности, затем использует немаксимальное подавление (NMS) для выбора окончательных предсказаний. Этот шаг NMS выполняет роль, аналогичную традиционным отслеживателям с DBN, но более простую и менее эвристическую. Оценка на стандартных музыкальных наборах данных показывает конкурентоспособные результаты, доказывая, что методы обнаружения объектов могут эффективно моделировать музыкальную долю с минимальной адаптацией.

Исследовательский контекст и мотивация

Определение проблемы

Отслеживание доли является важным направлением исследований в области поиска музыкальной информации (MIR), включающим вычислительное предсказание позиций доли и сильной доли. Традиционные методы развивались от ранних подходов обнаружения начала к современным методам машинного обучения, включая RNNs, LSTMs, TCNs и Transformers.

Ограничения существующих методов

  1. Сложность постобработки: Большинство современных сетей обнаружения доли производят функции активации для каждого кадра, требуя постобработки с использованием динамических байесовских сетей (DBNs) для получения окончательных позиций доли
  2. Недостатки DBN: DBNs часто дают сбой при изменении доли и смене размера, а также чрезмерно эвристичны
  3. Сложность обнаружения сильной доли: Производительность обнаружения сильной доли обычно ниже, чем обнаружение обычной доли

Исследовательская мотивация

Авторы полагают, что отслеживание доли можно рассматривать как форму обнаружения объектов в аудио, поэтому они пытаются использовать нейронные сети, специально разработанные для обнаружения объектов, чтобы улучшить отслеживание доли, особенно производительность отслеживания сильной доли.

Основной вклад

  1. Инновация парадигмы: Впервые переопределяет отслеживание доли как проблему одномерного временного обнаружения объектов, моделируя доли и сильные доли как временные интервальные объекты
  2. Адаптация архитектуры: Успешно адаптирует модель обнаружения объектов FCOS к аудиообласти, заменяя исходную магистральную сеть ResNet-50 на WaveBeat
  3. Упрощение постобработки: Заменяет традиционную постобработку DBN на NMS, предоставляя более простое и менее эвристическое решение
  4. Улучшение производительности: Достигает конкурентоспособных результатов на стандартных музыкальных наборах данных, особенно выделяясь в обнаружении сильной доли

Подробное описание метода

Определение задачи

Преобразует обнаружение доли из нулевомерной временной точки в задачу обнаружения интервалов в одномерном аудио. Входные данные представляют собой исходную звуковую волну, выходные данные — предсказания интервалов доли/сильной доли с оценками уверенности.

Архитектура модели

Общий дизайн

Модель BeatFCOS содержит следующие ключевые компоненты:

  1. Магистральная сеть WaveBeat: Заменяет исходный ResNet-50 FCOS, непосредственно обрабатывая исходную звуковую волну
  2. Пирамида признаков (FPN): Захватывает многомасштабные временные паттерны
  3. Трёхголовый детектор: Используется отдельно для классификации, регрессии и предсказания leftness

Представление интервала доли

  • Интервал доли: Временной сегмент между двумя последовательными долями
  • Интервал сильной доли: Временной сегмент между двумя последовательными сильными долями
  • Дублированное представление: Сильная доля появляется как интервал сильной доли и как обычный интервал доли

Интеграция WaveBeat и FPN

  • Удаляет финальный сверточный слой и слой sigmoid из WaveBeat
  • Передаёт выходы последних двух блоков TCN (C7 и C8) на слои P7 и P8 пирамиды признаков
  • Из-за ограничений памяти использует только выходы последних двух блоков магистрали вместо трёх в исходном FCOS

Технические инновации

1. Стратегия якорей

  • Ограничения размера: Каждый слой FPN отвечает за интервалы определённого временного масштаба
  • Стратегия подфреймов: Использует подфреймы с левым смещением вместо симметричных центральных областей, сосредоточиваясь на начальной позиции интервала

2. Механизм Leftness

Заменяет centerness в FCOS, определяется как:

leftness1D(r) = √(rright / (rleft + rright))

Подчёркивает левый край интервала доли, а не центр, что более соответствует интуиции локализации доли.

3. Функция потерь

Общая потеря состоит из трёх компонентов:

Lpoint(k,n) = Lcls(ck,n, ĉk,n, n) + 1{ck,n>0}Lreg(rk,n, r̂k,n, n) + 1{ck,n>0}Llft(rk,n, r̂k,n, n)
  • Потеря классификации: focal loss
  • Потеря регрессии: одномерная адаптированная потеря GIoU
  • Потеря leftness: потеря бинарной кроссэнтропии

Экспериментальная установка

Наборы данных

Используются те же наборы данных, что и WaveBeat:

  • Обучающий набор: Ballroom, Hainsworth, Beatles, RWC Popular
  • Тестовый набор: GTZAN, SMC
  • Формат аудио: Частота дискретизации 22,05 кГц, длина 2^21 образцов (примерно 1,6 минуты)

Метрики оценки

  • F1-оценка: Гармоническое среднее точности и полноты
  • CMLt (Continuity-based Metric allowing for Metrical Level Tolerance): Метрика непрерывности, допускающая допуск уровня размера
  • AMLt (Accuracy-based Metric allowing for Metrical Level Tolerance): Метрика точности, допускающая допуск уровня размера

Методы сравнения

  • WaveBeat (Peak-picking)
  • WaveBeat (DBN)
  • Spectral TCN
  • Hung et al. (Transformer-based)

Детали реализации

  • Оптимизатор: Adam (lr=1e-3, weight decay=1e-4)
  • Расписание скорости обучения: Снижение в 10 раз при отсутствии улучшений в течение 3 последовательных эпох
  • Размер пакета: 16
  • Среда обучения: Google Colab, NVIDIA A100 40GB GPU
  • Стратегия обучения: 8-кратная перекрёстная проверка

Результаты экспериментов

Основные результаты

На всех вариантах WaveBeat BeatFCOS показывает отличные результаты на нескольких наборах данных:

Производительность отслеживания доли

  • Набор данных Ballroom: F1=0,927, CMLt=0,873, AMLt=0,898
  • Набор данных Beatles: F1=0,903, CMLt=0,797, AMLt=0,866
  • Набор данных RWC Popular: F1=0,862, CMLt=0,763, AMLt=0,849

Производительность отслеживания сильной доли

  • Набор данных Ballroom: F1=0,807, CMLt=0,697, AMLt=0,756
  • Набор данных Beatles: F1=0,762, CMLt=0,579, AMLt=0,659
  • Набор данных RWC Popular: F1=0,779, CMLt=0,691, AMLt=0,731

Абляционные исследования

Leftness vs Centerness

Механизм Leftness значительно превосходит centerness на почти всех наборах данных и метриках, особенно при отслеживании сильной доли.

Soft-NMS vs стандартный NMS

Soft-NMS постоянно улучшает производительность, указывая на то, что он помогает сохранить действительные близкие предсказания доли, которые могут быть ошибочно подавлены стандартным NMS.

Стратегия микронастройки магистральной сети

Стратегия, которая только замораживает слои BatchNorm, позволяя обновлять веса свёртки, значительно превосходит полное замораживание магистральной сети.

Выбор порога NMS

Путём анализа гистограммы распределения IoU предсказанных интервалов порог IoU выбирается на основе данных как 0,2, избегая сетевого поиска, требуемого традиционным DBN.

Связанные работы

Традиционные методы

Ранние методы отслеживания доли основывались на обнаружении начала, оценивая позиции доли путём определения начала нот.

Методы глубокого обучения

  • RNNs/LSTMs: Обеспечивают поддержку временных зависимостей, представляя значительный прорыв по сравнению с немашинными методами обучения
  • TCNs: Используют большое количество расширенных сверточных слоёв для обеспечения большого временного контекста
  • Transformers: Изучают распределение весов важных аспектов данных последовательности

Методы постобработки

Традиционные методы широко используют DBNs для постобработки, но сталкиваются с проблемами сложной настройки параметров и высокой вычислительной стоимости.

Заключение и обсуждение

Основные выводы

  1. Парадигма обнаружения объектов может быть эффективно применена к задаче отслеживания доли
  2. Постобработка NMS проще и менее эвристична, чем традиционный DBN
  3. BeatFCOS особенно выделяется в обнаружении сильной доли
  4. Выбор гиперпараметров на основе данных более эффективен, чем сетевой поиск

Ограничения

  1. Ограничения производительности: Хотя конкурентоспособна, не превосходит методы SOTA по всем метрикам
  2. Ограничения памяти: Из-за ограничений памяти может использовать только два слоя FPN вместо трёх
  3. Зависимость от данных: Эффективность метода значительно зависит от качества обучающих данных

Будущие направления

  1. Интеграция ограничений временной смежности для лучшего обеспечения регулярного расстояния между долями
  2. Исследование обучения временных моделей на основе EM как дополнительного направления
  3. Дальнейшая оптимизация архитектуры для снижения требований к памяти

Глубокая оценка

Преимущества

  1. Высокая инновационность: Впервые вводит парадигму обнаружения объектов в отслеживание доли с новаторской идеей
  2. Твёрдая техника: Механизм leftness хорошо разработан и соответствует интуиции локализации доли
  3. Полные эксперименты: Включает подробные абляционные исследования и 8-кратную перекрёстную проверку
  4. Практическая ценность: Упрощает процесс постобработки и снижает сложность настройки параметров

Недостатки

  1. Ограниченное улучшение производительности: Прирост по сравнению с существующими методами SOTA не достаточно значительный
  2. Ограничения применимости: Проверено в основном на конкретных наборах данных, способность к обобщению требует дальнейшей проверки
  3. Недостаточный теоретический анализ: Отсутствует глубокое теоретическое объяснение того, почему обнаружение объектов подходит для отслеживания доли

Влияние

  1. Вклад методологии: Предоставляет новый подход к моделированию в области поиска музыкальной информации
  2. Вдохновение между дисциплинами: Демонстрирует потенциал применения методов компьютерного зрения в обработке аудио
  3. Инженерная ценность: Упрощённый процесс постобработки имеет практическую ценность применения

Сценарии применения

  1. Музыкальные приложения, требующие отслеживания доли в реальном времени
  2. Встроенные системы, чувствительные к сложности постобработки
  3. Задачи музыкального анализа с высокими требованиями к обнаружению сильной доли

Библиография

Статья цитирует 34 связанные работы, охватывающие отслеживание доли, обнаружение объектов, глубокое обучение и другие важные работы в нескольких областях, обеспечивая прочную теоретическую основу для исследования.