2025-11-19T02:46:12.920144

Beat Detection as Object Detection

Ahn, Jung

Recent beat and downbeat tracking models (e.g., RNNs, TCNs, Transformers) output frame-level activations. We propose reframing this task as object detection, where beats and downbeats are modeled as temporal "objects." Adapting the FCOS detector from computer vision to 1D audio, we replace its original backbone with WaveBeat's temporal feature extractor and add a Feature Pyramid Network to capture multi-scale temporal patterns. The model predicts overlapping beat/downbeat intervals with confidence scores, followed by non-maximum suppression (NMS) to select final predictions. This NMS step serves a similar role to DBNs in traditional trackers, but is simpler and less heuristic. Evaluated on standard music datasets, our approach achieves competitive results, showing that object detection techniques can effectively model musical beats with minimal adaptation.

academic

Seguimiento de Pulso como Detección de Objetos

Información Básica

ID del Artículo: 2510.14391
Título: Beat Tracking as Object Detection
Autores: Jaehoon Ahn (Sogang University), Moon-Ryul Jung (Sogang University)
Clasificación: cs.SD (Sound), cs.AI (Artificial Intelligence), cs.LG (Machine Learning)
Fecha de Publicación: 16 de octubre de 2025 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.14391v1

Resumen

Los modelos recientes de seguimiento de pulso y acento (como RNNs, TCNs, Transformers) generan valores de activación a nivel de fotograma. Este artículo propone redefinir esta tarea como un problema de detección de objetos, modelando pulsos y acentos como "objetos" temporales. Mediante la adaptación del detector FCOS de la visión por computadora a audio 1D, reemplazando la red troncal original con el extractor de características temporal de WaveBeat, y añadiendo una red de pirámide de características para capturar patrones temporales multiescala. El modelo predice intervalos de pulso/acento superpuestos y sus puntuaciones de confianza, utilizando posteriormente supresión de no máximos (NMS) para seleccionar las predicciones finales. Este paso de NMS desempeña un papel similar al de la red bayesiana dinámica (DBN) en rastreadores tradicionales, pero es más simple y menos heurístico. La evaluación en conjuntos de datos musicales estándar demuestra resultados competitivos, probando que las técnicas de detección de objetos pueden modelar efectivamente el pulso musical con adaptaciones mínimas.

Contexto de Investigación y Motivación

Definición del Problema

El seguimiento de pulso es una dirección de investigación importante en el campo de la recuperación de información musical (MIR), incluyendo la predicción computacional de posiciones de pulso y acento. Los métodos tradicionales han evolucionado desde la detección temprana de puntos de inicio hasta técnicas modernas de aprendizaje automático, incluyendo RNNs, LSTMs, TCNs y Transformers.

Limitaciones de los Métodos Existentes

Complejidad del Postprocesamiento: La mayoría de las redes modernas de detección de pulso producen funciones de activación por fotograma, requiriendo el uso de redes bayesianas dinámicas (DBNs) para postprocesamiento y producir posiciones de pulso finales
Defectos de DBN: Las DBNs tienden a fallar durante cambios de pulso y cambios de compás, siendo excesivamente heurísticas
Dificultad en Detección de Acentos: El rendimiento en detección de acentos es generalmente inferior al de detección de pulso

Motivación de la Investigación

Los autores argumentan que el seguimiento de pulso puede considerarse una forma de detección de objetos en audio, por lo que intentan utilizar redes neuronales diseñadas específicamente para detección de objetos para mejorar el seguimiento de pulso, particularmente el rendimiento en seguimiento de acentos.

Contribuciones Principales

Innovación de Paradigma: Primera redefinición del seguimiento de pulso como problema de detección de objetos temporales 1D, modelando pulsos y acentos como objetos de intervalo temporal
Adaptación de Arquitectura: Adaptación exitosa del modelo de detección de objetos FCOS al dominio de audio, reemplazando la red troncal ResNet-50 original con WaveBeat
Simplificación del Postprocesamiento: Sustitución de DBN tradicional por NMS, proporcionando una solución más simple y menos heurística
Mejora de Rendimiento: Logro de resultados competitivos en conjuntos de datos musicales estándar, con desempeño particularmente destacado en detección de acentos

Explicación Detallada del Método

Definición de la Tarea

Conversión de la detección de pulso de punto temporal 0D a problema de detección de intervalos en audio 1D. La entrada es la forma de onda de audio crudo, y la salida son predicciones de intervalos de pulso/acento con puntuaciones de confianza.

Arquitectura del Modelo

Diseño General

El modelo BeatFCOS contiene los siguientes componentes clave:

Red Troncal WaveBeat: Reemplaza el ResNet-50 original de FCOS, procesando directamente formas de onda de audio crudo
Red de Pirámide de Características (FPN): Captura patrones temporales multiescala
Detector de Tres Cabezas: Utilizado respectivamente para predicción de clasificación, regresión y "leftness"

Representación de Intervalos de Pulso

Intervalo de Pulso: Segmento temporal entre dos pulsos consecutivos
Intervalo de Acento: Segmento temporal entre dos acentos consecutivos
Representación Duplicada: Los acentos aparecen tanto como intervalos de acento como intervalos de pulso ordinarios

Integración de WaveBeat y FPN

Eliminación de la capa de convolución final y sigmoid de WaveBeat
Transmisión de salidas de los últimos dos bloques TCN (C7 y C8) a las capas P7 y P8 de FPN
Debido a limitaciones de memoria, solo se utilizan salidas de los últimos dos bloques troncales en lugar de tres como en FCOS original

Puntos Técnicos de Innovación

1. Estrategia de Anclajes

Limitaciones de Tamaño: Cada capa FPN es responsable de intervalos de escala temporal específica
Estrategia de Submarcos: Utilización de submarcos sesgados a la izquierda en lugar de regiones centrales simétricas, enfatizando la posición inicial del intervalo

2. Mecanismo de Leftness

Sustitución de "centerness" en FCOS, definido como:

leftness1D(r) = √(rright / (rleft + rright))

Enfatiza el borde izquierdo del intervalo de pulso en lugar del centro, alineándose mejor con la intuición de localización de pulso.

3. Función de Pérdida

La pérdida total comprende tres componentes:

Lpoint(k,n) = Lcls(ck,n, ĉk,n, n) + 1{ck,n>0}Lreg(rk,n, r̂k,n, n) + 1{ck,n>0}Llft(rk,n, r̂k,n, n)

Pérdida de Clasificación: focal loss
Pérdida de Regresión: GIoU loss adaptado a 1D
Pérdida de Leftness: pérdida de entropía cruzada binaria

Configuración Experimental

Conjuntos de Datos

Utilización de los mismos conjuntos de datos que WaveBeat:

Conjunto de Entrenamiento: Ballroom, Hainsworth, Beatles, RWC Popular
Conjunto de Prueba: GTZAN, SMC
Formato de Audio: Frecuencia de muestreo de 22.05kHz, longitud de 2^21 muestras (aproximadamente 1.6 minutos)

Métricas de Evaluación

Puntuación F1: Media armónica de precisión y exhaustividad
CMLt (Métrica Basada en Continuidad Permitiendo Tolerancia de Nivel Métrico): Indicador de continuidad que tolera niveles de compás
AMLt (Métrica Basada en Precisión Permitiendo Tolerancia de Nivel Métrico): Indicador de precisión que tolera niveles de compás

Métodos de Comparación

WaveBeat (Peak-picking)
WaveBeat (DBN)
Spectral TCN
Hung et al. (Basado en Transformer)

Detalles de Implementación

Optimizador: Adam (lr=1e-3, weight decay=1e-4)
Planificación de Tasa de Aprendizaje: Reducción de 10 veces sin mejora durante 3 épocas consecutivas
Tamaño de Lote: 16
Entorno de Entrenamiento: Google Colab, GPU NVIDIA A100 40GB
Estrategia de Entrenamiento: Validación cruzada de 8 pliegues

Resultados Experimentales

Resultados Principales

Entre todas las variantes de WaveBeat, BeatFCOS demuestra un rendimiento excepcional en múltiples conjuntos de datos:

Rendimiento de Seguimiento de Pulso

Conjunto de Datos Ballroom: F1=0.927, CMLt=0.873, AMLt=0.898
Conjunto de Datos Beatles: F1=0.903, CMLt=0.797, AMLt=0.866
Conjunto de Datos RWC Popular: F1=0.862, CMLt=0.763, AMLt=0.849

Rendimiento de Seguimiento de Acento

Conjunto de Datos Ballroom: F1=0.807, CMLt=0.697, AMLt=0.756
Conjunto de Datos Beatles: F1=0.762, CMLt=0.579, AMLt=0.659
Conjunto de Datos RWC Popular: F1=0.779, CMLt=0.691, AMLt=0.731

Experimentos de Ablación

Leftness vs Centerness

El mecanismo de Leftness supera significativamente a centerness en casi todos los conjuntos de datos e indicadores, particularmente en seguimiento de acentos.

Soft-NMS vs NMS Estándar

Soft-NMS mejora consistentemente el rendimiento, indicando que ayuda a retener predicciones de pulso válidas cercanas que podrían ser suprimidas erróneamente por NMS estándar.

Estrategia de Ajuste Fino de la Red Troncal

La estrategia de congelación solo de capas BatchNorm permitiendo actualización de pesos de convolución supera significativamente la congelación completa de la red troncal.

Selección del Umbral de NMS

Mediante análisis del histograma de distribución de IoU de intervalos predichos, se selecciona un umbral de IoU de 0.2 de manera impulsada por datos, evitando la búsqueda en cuadrícula requerida por DBN tradicional.

Trabajo Relacionado

Métodos Tradicionales

El seguimiento de pulso temprano se basaba en detección de puntos de inicio, estimando cadenas de posiciones de pulso mediante identificación de comienzos de notas.

Métodos de Aprendizaje Profundo

RNNs/LSTMs: Proporcionan soporte de dependencia temporal, representando un avance significativo respecto a métodos no basados en aprendizaje automático
TCNs: Utilizan numerosas capas de convolución dilatada proporcionando gran contexto temporal
Transformers: Aprenden asignación de pesos en aspectos importantes de datos secuenciales

Técnicas de Postprocesamiento

Los métodos tradicionales comúnmente utilizan DBNs para postprocesamiento, pero enfrentan problemas como complejidad de ajuste de parámetros y costo computacional elevado.

Conclusiones y Discusión

Conclusiones Principales

El paradigma de detección de objetos puede aplicarse efectivamente a la tarea de seguimiento de pulso
El postprocesamiento con NMS es más simple y menos heurístico que DBN tradicional
BeatFCOS demuestra rendimiento particularmente destacado en detección de acentos
La selección de hiperparámetros impulsada por datos es más eficiente que búsqueda en cuadrícula

Limitaciones

Limitaciones de Rendimiento: Aunque competitivo, no supera consistentemente métodos SOTA en todos los indicadores
Restricciones de Memoria: Debido a limitaciones de memoria solo pueden utilizarse dos capas FPN en lugar de tres
Dependencia de Datos: La efectividad del método se ve significativamente afectada por la calidad de los datos de entrenamiento

Direcciones Futuras

Integración de restricciones de adyacencia temporal para mejor aplicación de espaciado regular de pulsos
Exploración de aprendizaje de modelos temporales basado en EM como dirección complementaria
Optimización adicional de arquitectura para reducir requisitos de memoria

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera introducción del paradigma de detección de objetos en seguimiento de pulso, con enfoque novedoso
Técnica Sólida: Diseño razonable del mecanismo de leftness, alineado con intuición de localización de pulso
Experimentación Completa: Incluye experimentos de ablación detallados y validación cruzada de 8 pliegues
Valor Práctico: Simplifica el flujo de postprocesamiento, reduciendo complejidad de ajuste de parámetros

Deficiencias

Mejora de Rendimiento Limitada: La mejora respecto a métodos SOTA existentes no es suficientemente significativa
Limitaciones de Aplicabilidad: Validación principalmente en conjuntos de datos específicos, capacidad de generalización requiere mayor demostración
Análisis Teórico Insuficiente: Falta explicación teórica profunda de por qué la detección de objetos es apropiada para seguimiento de pulso

Impacto

Contribución Metodológica: Proporciona nuevo enfoque de modelado para el campo de recuperación de información musical
Inspiración Interdisciplinaria: Demuestra potencial de aplicación de técnicas de visión por computadora en procesamiento de audio
Valor de Ingeniería: El flujo de postprocesamiento simplificado posee valor de aplicación práctica

Escenarios de Aplicación

Aplicaciones musicales que requieren detección de pulso en tiempo real
Sistemas embebidos sensibles a complejidad de postprocesamiento
Tareas de análisis musical con requisitos elevados de detección de acentos

Referencias

El artículo cita 34 referencias relacionadas, abarcando múltiples campos incluyendo seguimiento de pulso, detección de objetos y aprendizaje profundo, proporcionando una base teórica sólida para la investigación.