2025-11-19T02:46:12.920144

Beat Detection as Object Detection

Ahn, Jung
Recent beat and downbeat tracking models (e.g., RNNs, TCNs, Transformers) output frame-level activations. We propose reframing this task as object detection, where beats and downbeats are modeled as temporal "objects." Adapting the FCOS detector from computer vision to 1D audio, we replace its original backbone with WaveBeat's temporal feature extractor and add a Feature Pyramid Network to capture multi-scale temporal patterns. The model predicts overlapping beat/downbeat intervals with confidence scores, followed by non-maximum suppression (NMS) to select final predictions. This NMS step serves a similar role to DBNs in traditional trackers, but is simpler and less heuristic. Evaluated on standard music datasets, our approach achieves competitive results, showing that object detection techniques can effectively model musical beats with minimal adaptation.
academic

Seguimiento de Pulso como Detección de Objetos

Información Básica

  • ID del Artículo: 2510.14391
  • Título: Beat Tracking as Object Detection
  • Autores: Jaehoon Ahn (Sogang University), Moon-Ryul Jung (Sogang University)
  • Clasificación: cs.SD (Sound), cs.AI (Artificial Intelligence), cs.LG (Machine Learning)
  • Fecha de Publicación: 16 de octubre de 2025 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.14391v1

Resumen

Los modelos recientes de seguimiento de pulso y acento (como RNNs, TCNs, Transformers) generan valores de activación a nivel de fotograma. Este artículo propone redefinir esta tarea como un problema de detección de objetos, modelando pulsos y acentos como "objetos" temporales. Mediante la adaptación del detector FCOS de la visión por computadora a audio 1D, reemplazando la red troncal original con el extractor de características temporal de WaveBeat, y añadiendo una red de pirámide de características para capturar patrones temporales multiescala. El modelo predice intervalos de pulso/acento superpuestos y sus puntuaciones de confianza, utilizando posteriormente supresión de no máximos (NMS) para seleccionar las predicciones finales. Este paso de NMS desempeña un papel similar al de la red bayesiana dinámica (DBN) en rastreadores tradicionales, pero es más simple y menos heurístico. La evaluación en conjuntos de datos musicales estándar demuestra resultados competitivos, probando que las técnicas de detección de objetos pueden modelar efectivamente el pulso musical con adaptaciones mínimas.

Contexto de Investigación y Motivación

Definición del Problema

El seguimiento de pulso es una dirección de investigación importante en el campo de la recuperación de información musical (MIR), incluyendo la predicción computacional de posiciones de pulso y acento. Los métodos tradicionales han evolucionado desde la detección temprana de puntos de inicio hasta técnicas modernas de aprendizaje automático, incluyendo RNNs, LSTMs, TCNs y Transformers.

Limitaciones de los Métodos Existentes

  1. Complejidad del Postprocesamiento: La mayoría de las redes modernas de detección de pulso producen funciones de activación por fotograma, requiriendo el uso de redes bayesianas dinámicas (DBNs) para postprocesamiento y producir posiciones de pulso finales
  2. Defectos de DBN: Las DBNs tienden a fallar durante cambios de pulso y cambios de compás, siendo excesivamente heurísticas
  3. Dificultad en Detección de Acentos: El rendimiento en detección de acentos es generalmente inferior al de detección de pulso

Motivación de la Investigación

Los autores argumentan que el seguimiento de pulso puede considerarse una forma de detección de objetos en audio, por lo que intentan utilizar redes neuronales diseñadas específicamente para detección de objetos para mejorar el seguimiento de pulso, particularmente el rendimiento en seguimiento de acentos.

Contribuciones Principales

  1. Innovación de Paradigma: Primera redefinición del seguimiento de pulso como problema de detección de objetos temporales 1D, modelando pulsos y acentos como objetos de intervalo temporal
  2. Adaptación de Arquitectura: Adaptación exitosa del modelo de detección de objetos FCOS al dominio de audio, reemplazando la red troncal ResNet-50 original con WaveBeat
  3. Simplificación del Postprocesamiento: Sustitución de DBN tradicional por NMS, proporcionando una solución más simple y menos heurística
  4. Mejora de Rendimiento: Logro de resultados competitivos en conjuntos de datos musicales estándar, con desempeño particularmente destacado en detección de acentos

Explicación Detallada del Método

Definición de la Tarea

Conversión de la detección de pulso de punto temporal 0D a problema de detección de intervalos en audio 1D. La entrada es la forma de onda de audio crudo, y la salida son predicciones de intervalos de pulso/acento con puntuaciones de confianza.

Arquitectura del Modelo

Diseño General

El modelo BeatFCOS contiene los siguientes componentes clave:

  1. Red Troncal WaveBeat: Reemplaza el ResNet-50 original de FCOS, procesando directamente formas de onda de audio crudo
  2. Red de Pirámide de Características (FPN): Captura patrones temporales multiescala
  3. Detector de Tres Cabezas: Utilizado respectivamente para predicción de clasificación, regresión y "leftness"

Representación de Intervalos de Pulso

  • Intervalo de Pulso: Segmento temporal entre dos pulsos consecutivos
  • Intervalo de Acento: Segmento temporal entre dos acentos consecutivos
  • Representación Duplicada: Los acentos aparecen tanto como intervalos de acento como intervalos de pulso ordinarios

Integración de WaveBeat y FPN

  • Eliminación de la capa de convolución final y sigmoid de WaveBeat
  • Transmisión de salidas de los últimos dos bloques TCN (C7 y C8) a las capas P7 y P8 de FPN
  • Debido a limitaciones de memoria, solo se utilizan salidas de los últimos dos bloques troncales en lugar de tres como en FCOS original

Puntos Técnicos de Innovación

1. Estrategia de Anclajes

  • Limitaciones de Tamaño: Cada capa FPN es responsable de intervalos de escala temporal específica
  • Estrategia de Submarcos: Utilización de submarcos sesgados a la izquierda en lugar de regiones centrales simétricas, enfatizando la posición inicial del intervalo

2. Mecanismo de Leftness

Sustitución de "centerness" en FCOS, definido como:

leftness1D(r) = √(rright / (rleft + rright))

Enfatiza el borde izquierdo del intervalo de pulso en lugar del centro, alineándose mejor con la intuición de localización de pulso.

3. Función de Pérdida

La pérdida total comprende tres componentes:

Lpoint(k,n) = Lcls(ck,n, ĉk,n, n) + 1{ck,n>0}Lreg(rk,n, r̂k,n, n) + 1{ck,n>0}Llft(rk,n, r̂k,n, n)
  • Pérdida de Clasificación: focal loss
  • Pérdida de Regresión: GIoU loss adaptado a 1D
  • Pérdida de Leftness: pérdida de entropía cruzada binaria

Configuración Experimental

Conjuntos de Datos

Utilización de los mismos conjuntos de datos que WaveBeat:

  • Conjunto de Entrenamiento: Ballroom, Hainsworth, Beatles, RWC Popular
  • Conjunto de Prueba: GTZAN, SMC
  • Formato de Audio: Frecuencia de muestreo de 22.05kHz, longitud de 2^21 muestras (aproximadamente 1.6 minutos)

Métricas de Evaluación

  • Puntuación F1: Media armónica de precisión y exhaustividad
  • CMLt (Métrica Basada en Continuidad Permitiendo Tolerancia de Nivel Métrico): Indicador de continuidad que tolera niveles de compás
  • AMLt (Métrica Basada en Precisión Permitiendo Tolerancia de Nivel Métrico): Indicador de precisión que tolera niveles de compás

Métodos de Comparación

  • WaveBeat (Peak-picking)
  • WaveBeat (DBN)
  • Spectral TCN
  • Hung et al. (Basado en Transformer)

Detalles de Implementación

  • Optimizador: Adam (lr=1e-3, weight decay=1e-4)
  • Planificación de Tasa de Aprendizaje: Reducción de 10 veces sin mejora durante 3 épocas consecutivas
  • Tamaño de Lote: 16
  • Entorno de Entrenamiento: Google Colab, GPU NVIDIA A100 40GB
  • Estrategia de Entrenamiento: Validación cruzada de 8 pliegues

Resultados Experimentales

Resultados Principales

Entre todas las variantes de WaveBeat, BeatFCOS demuestra un rendimiento excepcional en múltiples conjuntos de datos:

Rendimiento de Seguimiento de Pulso

  • Conjunto de Datos Ballroom: F1=0.927, CMLt=0.873, AMLt=0.898
  • Conjunto de Datos Beatles: F1=0.903, CMLt=0.797, AMLt=0.866
  • Conjunto de Datos RWC Popular: F1=0.862, CMLt=0.763, AMLt=0.849

Rendimiento de Seguimiento de Acento

  • Conjunto de Datos Ballroom: F1=0.807, CMLt=0.697, AMLt=0.756
  • Conjunto de Datos Beatles: F1=0.762, CMLt=0.579, AMLt=0.659
  • Conjunto de Datos RWC Popular: F1=0.779, CMLt=0.691, AMLt=0.731

Experimentos de Ablación

Leftness vs Centerness

El mecanismo de Leftness supera significativamente a centerness en casi todos los conjuntos de datos e indicadores, particularmente en seguimiento de acentos.

Soft-NMS vs NMS Estándar

Soft-NMS mejora consistentemente el rendimiento, indicando que ayuda a retener predicciones de pulso válidas cercanas que podrían ser suprimidas erróneamente por NMS estándar.

Estrategia de Ajuste Fino de la Red Troncal

La estrategia de congelación solo de capas BatchNorm permitiendo actualización de pesos de convolución supera significativamente la congelación completa de la red troncal.

Selección del Umbral de NMS

Mediante análisis del histograma de distribución de IoU de intervalos predichos, se selecciona un umbral de IoU de 0.2 de manera impulsada por datos, evitando la búsqueda en cuadrícula requerida por DBN tradicional.

Trabajo Relacionado

Métodos Tradicionales

El seguimiento de pulso temprano se basaba en detección de puntos de inicio, estimando cadenas de posiciones de pulso mediante identificación de comienzos de notas.

Métodos de Aprendizaje Profundo

  • RNNs/LSTMs: Proporcionan soporte de dependencia temporal, representando un avance significativo respecto a métodos no basados en aprendizaje automático
  • TCNs: Utilizan numerosas capas de convolución dilatada proporcionando gran contexto temporal
  • Transformers: Aprenden asignación de pesos en aspectos importantes de datos secuenciales

Técnicas de Postprocesamiento

Los métodos tradicionales comúnmente utilizan DBNs para postprocesamiento, pero enfrentan problemas como complejidad de ajuste de parámetros y costo computacional elevado.

Conclusiones y Discusión

Conclusiones Principales

  1. El paradigma de detección de objetos puede aplicarse efectivamente a la tarea de seguimiento de pulso
  2. El postprocesamiento con NMS es más simple y menos heurístico que DBN tradicional
  3. BeatFCOS demuestra rendimiento particularmente destacado en detección de acentos
  4. La selección de hiperparámetros impulsada por datos es más eficiente que búsqueda en cuadrícula

Limitaciones

  1. Limitaciones de Rendimiento: Aunque competitivo, no supera consistentemente métodos SOTA en todos los indicadores
  2. Restricciones de Memoria: Debido a limitaciones de memoria solo pueden utilizarse dos capas FPN en lugar de tres
  3. Dependencia de Datos: La efectividad del método se ve significativamente afectada por la calidad de los datos de entrenamiento

Direcciones Futuras

  1. Integración de restricciones de adyacencia temporal para mejor aplicación de espaciado regular de pulsos
  2. Exploración de aprendizaje de modelos temporales basado en EM como dirección complementaria
  3. Optimización adicional de arquitectura para reducir requisitos de memoria

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera introducción del paradigma de detección de objetos en seguimiento de pulso, con enfoque novedoso
  2. Técnica Sólida: Diseño razonable del mecanismo de leftness, alineado con intuición de localización de pulso
  3. Experimentación Completa: Incluye experimentos de ablación detallados y validación cruzada de 8 pliegues
  4. Valor Práctico: Simplifica el flujo de postprocesamiento, reduciendo complejidad de ajuste de parámetros

Deficiencias

  1. Mejora de Rendimiento Limitada: La mejora respecto a métodos SOTA existentes no es suficientemente significativa
  2. Limitaciones de Aplicabilidad: Validación principalmente en conjuntos de datos específicos, capacidad de generalización requiere mayor demostración
  3. Análisis Teórico Insuficiente: Falta explicación teórica profunda de por qué la detección de objetos es apropiada para seguimiento de pulso

Impacto

  1. Contribución Metodológica: Proporciona nuevo enfoque de modelado para el campo de recuperación de información musical
  2. Inspiración Interdisciplinaria: Demuestra potencial de aplicación de técnicas de visión por computadora en procesamiento de audio
  3. Valor de Ingeniería: El flujo de postprocesamiento simplificado posee valor de aplicación práctica

Escenarios de Aplicación

  1. Aplicaciones musicales que requieren detección de pulso en tiempo real
  2. Sistemas embebidos sensibles a complejidad de postprocesamiento
  3. Tareas de análisis musical con requisitos elevados de detección de acentos

Referencias

El artículo cita 34 referencias relacionadas, abarcando múltiples campos incluyendo seguimiento de pulso, detección de objetos y aprendizaje profundo, proporcionando una base teórica sólida para la investigación.