Recent beat and downbeat tracking models (e.g., RNNs, TCNs, Transformers) output frame-level activations. We propose reframing this task as object detection, where beats and downbeats are modeled as temporal "objects." Adapting the FCOS detector from computer vision to 1D audio, we replace its original backbone with WaveBeat's temporal feature extractor and add a Feature Pyramid Network to capture multi-scale temporal patterns. The model predicts overlapping beat/downbeat intervals with confidence scores, followed by non-maximum suppression (NMS) to select final predictions. This NMS step serves a similar role to DBNs in traditional trackers, but is simpler and less heuristic. Evaluated on standard music datasets, our approach achieves competitive results, showing that object detection techniques can effectively model musical beats with minimal adaptation.
Los modelos recientes de seguimiento de pulso y acento (como RNNs, TCNs, Transformers) generan valores de activación a nivel de fotograma. Este artículo propone redefinir esta tarea como un problema de detección de objetos, modelando pulsos y acentos como "objetos" temporales. Mediante la adaptación del detector FCOS de la visión por computadora a audio 1D, reemplazando la red troncal original con el extractor de características temporal de WaveBeat, y añadiendo una red de pirámide de características para capturar patrones temporales multiescala. El modelo predice intervalos de pulso/acento superpuestos y sus puntuaciones de confianza, utilizando posteriormente supresión de no máximos (NMS) para seleccionar las predicciones finales. Este paso de NMS desempeña un papel similar al de la red bayesiana dinámica (DBN) en rastreadores tradicionales, pero es más simple y menos heurístico. La evaluación en conjuntos de datos musicales estándar demuestra resultados competitivos, probando que las técnicas de detección de objetos pueden modelar efectivamente el pulso musical con adaptaciones mínimas.
El seguimiento de pulso es una dirección de investigación importante en el campo de la recuperación de información musical (MIR), incluyendo la predicción computacional de posiciones de pulso y acento. Los métodos tradicionales han evolucionado desde la detección temprana de puntos de inicio hasta técnicas modernas de aprendizaje automático, incluyendo RNNs, LSTMs, TCNs y Transformers.
Complejidad del Postprocesamiento: La mayoría de las redes modernas de detección de pulso producen funciones de activación por fotograma, requiriendo el uso de redes bayesianas dinámicas (DBNs) para postprocesamiento y producir posiciones de pulso finales
Defectos de DBN: Las DBNs tienden a fallar durante cambios de pulso y cambios de compás, siendo excesivamente heurísticas
Dificultad en Detección de Acentos: El rendimiento en detección de acentos es generalmente inferior al de detección de pulso
Los autores argumentan que el seguimiento de pulso puede considerarse una forma de detección de objetos en audio, por lo que intentan utilizar redes neuronales diseñadas específicamente para detección de objetos para mejorar el seguimiento de pulso, particularmente el rendimiento en seguimiento de acentos.
Innovación de Paradigma: Primera redefinición del seguimiento de pulso como problema de detección de objetos temporales 1D, modelando pulsos y acentos como objetos de intervalo temporal
Adaptación de Arquitectura: Adaptación exitosa del modelo de detección de objetos FCOS al dominio de audio, reemplazando la red troncal ResNet-50 original con WaveBeat
Simplificación del Postprocesamiento: Sustitución de DBN tradicional por NMS, proporcionando una solución más simple y menos heurística
Mejora de Rendimiento: Logro de resultados competitivos en conjuntos de datos musicales estándar, con desempeño particularmente destacado en detección de acentos
Conversión de la detección de pulso de punto temporal 0D a problema de detección de intervalos en audio 1D. La entrada es la forma de onda de audio crudo, y la salida son predicciones de intervalos de pulso/acento con puntuaciones de confianza.
Limitaciones de Tamaño: Cada capa FPN es responsable de intervalos de escala temporal específica
Estrategia de Submarcos: Utilización de submarcos sesgados a la izquierda en lugar de regiones centrales simétricas, enfatizando la posición inicial del intervalo
El mecanismo de Leftness supera significativamente a centerness en casi todos los conjuntos de datos e indicadores, particularmente en seguimiento de acentos.
Soft-NMS mejora consistentemente el rendimiento, indicando que ayuda a retener predicciones de pulso válidas cercanas que podrían ser suprimidas erróneamente por NMS estándar.
La estrategia de congelación solo de capas BatchNorm permitiendo actualización de pesos de convolución supera significativamente la congelación completa de la red troncal.
Mediante análisis del histograma de distribución de IoU de intervalos predichos, se selecciona un umbral de IoU de 0.2 de manera impulsada por datos, evitando la búsqueda en cuadrícula requerida por DBN tradicional.
El seguimiento de pulso temprano se basaba en detección de puntos de inicio, estimando cadenas de posiciones de pulso mediante identificación de comienzos de notas.
RNNs/LSTMs: Proporcionan soporte de dependencia temporal, representando un avance significativo respecto a métodos no basados en aprendizaje automático
TCNs: Utilizan numerosas capas de convolución dilatada proporcionando gran contexto temporal
Transformers: Aprenden asignación de pesos en aspectos importantes de datos secuenciales
Los métodos tradicionales comúnmente utilizan DBNs para postprocesamiento, pero enfrentan problemas como complejidad de ajuste de parámetros y costo computacional elevado.
El artículo cita 34 referencias relacionadas, abarcando múltiples campos incluyendo seguimiento de pulso, detección de objetos y aprendizaje profundo, proporcionando una base teórica sólida para la investigación.