Recent beat and downbeat tracking models (e.g., RNNs, TCNs, Transformers) output frame-level activations. We propose reframing this task as object detection, where beats and downbeats are modeled as temporal "objects." Adapting the FCOS detector from computer vision to 1D audio, we replace its original backbone with WaveBeat's temporal feature extractor and add a Feature Pyramid Network to capture multi-scale temporal patterns. The model predicts overlapping beat/downbeat intervals with confidence scores, followed by non-maximum suppression (NMS) to select final predictions. This NMS step serves a similar role to DBNs in traditional trackers, but is simpler and less heuristic. Evaluated on standard music datasets, our approach achieves competitive results, showing that object detection techniques can effectively model musical beats with minimal adaptation.
Недавние модели отслеживания доли и сильной доли (такие как RNNs, TCNs, Transformers) выводят активации на уровне кадра. В данной работе предлагается переопределить эту задачу как проблему обнаружения объектов, моделируя доли и сильные доли как временные "объекты". Путём адаптации детектора FCOS из компьютерного зрения к одномерному аудио, замены исходной магистральной сети на временной экстрактор признаков WaveBeat и добавления пирамиды признаков для захвата многомасштабных временных паттернов. Модель предсказывает перекрывающиеся интервалы доли/сильной доли и их оценки уверенности, затем использует немаксимальное подавление (NMS) для выбора окончательных предсказаний. Этот шаг NMS выполняет роль, аналогичную традиционным отслеживателям с DBN, но более простую и менее эвристическую. Оценка на стандартных музыкальных наборах данных показывает конкурентоспособные результаты, доказывая, что методы обнаружения объектов могут эффективно моделировать музыкальную долю с минимальной адаптацией.
Отслеживание доли является важным направлением исследований в области поиска музыкальной информации (MIR), включающим вычислительное предсказание позиций доли и сильной доли. Традиционные методы развивались от ранних подходов обнаружения начала к современным методам машинного обучения, включая RNNs, LSTMs, TCNs и Transformers.
Сложность постобработки: Большинство современных сетей обнаружения доли производят функции активации для каждого кадра, требуя постобработки с использованием динамических байесовских сетей (DBNs) для получения окончательных позиций доли
Недостатки DBN: DBNs часто дают сбой при изменении доли и смене размера, а также чрезмерно эвристичны
Сложность обнаружения сильной доли: Производительность обнаружения сильной доли обычно ниже, чем обнаружение обычной доли
Авторы полагают, что отслеживание доли можно рассматривать как форму обнаружения объектов в аудио, поэтому они пытаются использовать нейронные сети, специально разработанные для обнаружения объектов, чтобы улучшить отслеживание доли, особенно производительность отслеживания сильной доли.
Инновация парадигмы: Впервые переопределяет отслеживание доли как проблему одномерного временного обнаружения объектов, моделируя доли и сильные доли как временные интервальные объекты
Адаптация архитектуры: Успешно адаптирует модель обнаружения объектов FCOS к аудиообласти, заменяя исходную магистральную сеть ResNet-50 на WaveBeat
Упрощение постобработки: Заменяет традиционную постобработку DBN на NMS, предоставляя более простое и менее эвристическое решение
Улучшение производительности: Достигает конкурентоспособных результатов на стандартных музыкальных наборах данных, особенно выделяясь в обнаружении сильной доли
Преобразует обнаружение доли из нулевомерной временной точки в задачу обнаружения интервалов в одномерном аудио. Входные данные представляют собой исходную звуковую волну, выходные данные — предсказания интервалов доли/сильной доли с оценками уверенности.
Soft-NMS постоянно улучшает производительность, указывая на то, что он помогает сохранить действительные близкие предсказания доли, которые могут быть ошибочно подавлены стандартным NMS.
Стратегия, которая только замораживает слои BatchNorm, позволяя обновлять веса свёртки, значительно превосходит полное замораживание магистральной сети.
Путём анализа гистограммы распределения IoU предсказанных интервалов порог IoU выбирается на основе данных как 0,2, избегая сетевого поиска, требуемого традиционным DBN.
Традиционные методы широко используют DBNs для постобработки, но сталкиваются с проблемами сложной настройки параметров и высокой вычислительной стоимости.
Статья цитирует 34 связанные работы, охватывающие отслеживание доли, обнаружение объектов, глубокое обучение и другие важные работы в нескольких областях, обеспечивая прочную теоретическую основу для исследования.