2025-11-19T02:46:12.920144

Beat Detection as Object Detection

Ahn, Jung
Recent beat and downbeat tracking models (e.g., RNNs, TCNs, Transformers) output frame-level activations. We propose reframing this task as object detection, where beats and downbeats are modeled as temporal "objects." Adapting the FCOS detector from computer vision to 1D audio, we replace its original backbone with WaveBeat's temporal feature extractor and add a Feature Pyramid Network to capture multi-scale temporal patterns. The model predicts overlapping beat/downbeat intervals with confidence scores, followed by non-maximum suppression (NMS) to select final predictions. This NMS step serves a similar role to DBNs in traditional trackers, but is simpler and less heuristic. Evaluated on standard music datasets, our approach achieves competitive results, showing that object detection techniques can effectively model musical beats with minimal adaptation.
academic

Suivi de la Pulsation comme Détection d'Objets

Informations Fondamentales

  • ID de l'article: 2510.14391
  • Titre: Beat Tracking as Object Detection
  • Auteurs: Jaehoon Ahn (Université Sogang), Moon-Ryul Jung (Université Sogang)
  • Classification: cs.SD (Son), cs.AI (Intelligence Artificielle), cs.LG (Apprentissage Automatique)
  • Date de publication: 16 octobre 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2510.14391v1

Résumé

Les modèles récents de suivi de pulsation et de temps fort (tels que les RNNs, TCNs, Transformers) produisent des valeurs d'activation au niveau des trames. Cet article propose de redéfinir cette tâche comme un problème de détection d'objets, en modélisant les pulsations et les temps forts comme des « objets » temporels. En adaptant le détecteur FCOS de la vision par ordinateur à l'audio 1D, en remplaçant le réseau de base original par l'extracteur de caractéristiques temporelles de WaveBeat, et en ajoutant un réseau de pyramide de caractéristiques pour capturer les motifs temporels multi-échelles, le modèle prédit les intervalles de pulsation/temps fort qui se chevauchent ainsi que leurs scores de confiance. Une suppression des non-maxima (NMS) est ensuite utilisée pour sélectionner les prédictions finales. Cette étape de NMS joue un rôle similaire au réseau bayésien dynamique (DBN) dans les suivi traditionnels, mais elle est plus simple et moins heuristique. L'évaluation sur des ensembles de données musicales standard montre que cette approche obtient des résultats compétitifs, démontrant que les techniques de détection d'objets peuvent modéliser efficacement la pulsation musicale avec un minimum d'adaptation.

Contexte et Motivation de la Recherche

Définition du Problème

Le suivi de la pulsation est une direction de recherche importante dans le domaine de la récupération d'informations musicales (MIR), comprenant la prédiction computationnelle des positions de pulsation et de temps fort. Les méthodes traditionnelles ont évolué des premières techniques de détection de début vers les technologies modernes d'apprentissage automatique, incluant les RNNs, LSTMs, TCNs et Transformers.

Limitations des Méthodes Existantes

  1. Complexité du post-traitement: La plupart des réseaux modernes de détection de pulsation produisent des fonctions d'activation par trame, nécessitant un post-traitement utilisant des réseaux bayésiens dynamiques (DBNs) pour produire les positions de pulsation finales
  2. Défauts des DBNs: Les DBNs échouent facilement lors de changements de tempo et de changements de mesure, et sont trop heuristiques
  3. Difficulté de détection du temps fort: Les performances de détection du temps fort sont généralement inférieures à celles de la détection de pulsation

Motivation de la Recherche

Les auteurs considèrent que le suivi de la pulsation peut être vu comme une forme de détection d'objets dans l'audio, et tentent donc d'utiliser des réseaux de neurones spécialement conçus pour la détection d'objets afin d'améliorer le suivi de la pulsation, en particulier les performances de suivi du temps fort.

Contributions Principales

  1. Innovation de Paradigme: Première redéfinition du suivi de la pulsation comme un problème de détection d'objets temporels 1D, modélisant les pulsations et les temps forts comme des objets d'intervalle temporel
  2. Adaptation d'Architecture: Adaptation réussie du modèle de détection d'objets FCOS au domaine audio, en remplaçant le réseau de base ResNet-50 original par WaveBeat
  3. Simplification du Post-traitement: Remplacement du post-traitement DBN traditionnel par NMS, fournissant une solution plus simple et moins heuristique
  4. Amélioration des Performances: Obtention de résultats compétitifs sur des ensembles de données musicales standard, avec des performances particulièrement remarquables en détection du temps fort

Explication Détaillée de la Méthode

Définition de la Tâche

Conversion de la détection de pulsation de points temporels 0D à un problème de détection d'intervalles 1D dans l'audio. L'entrée est la forme d'onde audio brute, et la sortie est la prédiction d'intervalles de pulsation/temps fort avec scores de confiance.

Architecture du Modèle

Conception Globale

Le modèle BeatFCOS contient les composants clés suivants:

  1. Réseau de Base WaveBeat: Remplace le ResNet-50 original de FCOS, traitant directement les formes d'onde audio brutes
  2. Réseau de Pyramide de Caractéristiques (FPN): Capture les motifs temporels multi-échelles
  3. Détecteur Tri-tête: Utilisé respectivement pour la classification, la régression et la prédiction de leftness

Représentation des Intervalles de Pulsation

  • Intervalle de pulsation: Segment temporel entre deux pulsations consécutives
  • Intervalle de temps fort: Segment temporel entre deux temps forts consécutifs
  • Représentation Dupliquée: Les temps forts apparaissent à la fois comme intervalles de temps fort et comme intervalles de pulsation ordinaires

Intégration de WaveBeat et FPN

  • Suppression de la couche de convolution finale et de la couche sigmoid de WaveBeat
  • Passage des sorties des deux derniers blocs TCN (C7 et C8) aux couches P7 et P8 du FPN
  • En raison des limitations de mémoire, seules les sorties des deux derniers blocs de base sont utilisées au lieu des trois du FCOS original

Points d'Innovation Technique

1. Stratégie d'Ancrage

  • Limitations de Taille: Chaque couche FPN est responsable des intervalles d'une échelle temporelle spécifique
  • Stratégie de Sous-cadre: Utilisation de sous-cadres décalés à gauche plutôt que de régions centrales symétriques, mettant l'accent sur la position de début de l'intervalle

2. Mécanisme de Leftness

Remplace le centerness dans FCOS, défini comme:

leftness1D(r) = √(rright / (rleft + rright))

Souligne le bord gauche de l'intervalle de pulsation plutôt que le centre, ce qui correspond mieux à l'intuition de la localisation de pulsation.

3. Fonction de Perte

La perte totale comprend trois parties:

Lpoint(k,n) = Lcls(ck,n, ĉk,n, n) + 1{ck,n>0}Lreg(rk,n, r̂k,n, n) + 1{ck,n>0}Llft(rk,n, r̂k,n, n)
  • Perte de classification: focal loss
  • Perte de régression: GIoU loss adaptée 1D
  • Perte de Leftness: perte d'entropie croisée binaire

Configuration Expérimentale

Ensembles de Données

Utilisation des mêmes ensembles de données que WaveBeat:

  • Ensemble d'entraînement: Ballroom, Hainsworth, Beatles, RWC Popular
  • Ensemble de test: GTZAN, SMC
  • Format Audio: Fréquence d'échantillonnage 22,05 kHz, longueur d'échantillon 2^21 (environ 1,6 minute)

Métriques d'Évaluation

  • Score F1: Moyenne harmonique de la précision et du rappel
  • CMLt (Continuity-based Metric allowing for Metrical Level Tolerance): Métrique de continuité tolérant la hiérarchie de mesure
  • AMLt (Accuracy-based Metric allowing for Metrical Level Tolerance): Métrique de précision tolérant la hiérarchie de mesure

Méthodes de Comparaison

  • WaveBeat (Peak-picking)
  • WaveBeat (DBN)
  • Spectral TCN
  • Hung et al. (basé sur Transformer)

Détails d'Implémentation

  • Optimiseur: Adam (lr=1e-3, weight decay=1e-4)
  • Planification du Taux d'Apprentissage: Réduction d'un facteur 10 après 3 epochs sans amélioration
  • Taille de Lot: 16
  • Environnement d'Entraînement: Google Colab, GPU NVIDIA A100 40GB
  • Stratégie d'Entraînement: Validation croisée 8-fold

Résultats Expérimentaux

Résultats Principaux

Parmi toutes les variantes de WaveBeat, BeatFCOS montre des performances excellentes sur plusieurs ensembles de données:

Performances de Suivi de Pulsation

  • Ensemble de Données Ballroom: F1=0,927, CMLt=0,873, AMLt=0,898
  • Ensemble de Données Beatles: F1=0,903, CMLt=0,797, AMLt=0,866
  • Ensemble de Données RWC Popular: F1=0,862, CMLt=0,763, AMLt=0,849

Performances de Suivi du Temps Fort

  • Ensemble de Données Ballroom: F1=0,807, CMLt=0,697, AMLt=0,756
  • Ensemble de Données Beatles: F1=0,762, CMLt=0,579, AMLt=0,659
  • Ensemble de Données RWC Popular: F1=0,779, CMLt=0,691, AMLt=0,731

Études d'Ablation

Leftness vs Centerness

Le mécanisme de Leftness surpasse significativement le centerness sur presque tous les ensembles de données et métriques, particulièrement en suivi du temps fort.

Soft-NMS vs NMS Standard

Soft-NMS améliore continuellement les performances, indiquant qu'il aide à conserver les prédictions de pulsation valides à courte distance qui pourraient être incorrectement supprimées par le NMS standard.

Stratégies de Réglage Fin du Réseau de Base

La stratégie consistant à geler uniquement les couches BatchNorm tout en permettant la mise à jour des poids de convolution surpasse significativement le gel complet du réseau de base.

Sélection du Seuil NMS

En analysant l'histogramme de la distribution IoU des intervalles de prédiction, un seuil IoU de 0,2 est sélectionné de manière basée sur les données, évitant la recherche en grille requise par le DBN traditionnel.

Travaux Connexes

Méthodes Traditionnelles

Les premières techniques de suivi de pulsation étaient basées sur la détection de début, estimant les positions de pulsation en identifiant les débuts de notes.

Méthodes d'Apprentissage Profond

  • RNNs/LSTMs: Fournissent un support de dépendance temporelle, représentant une avancée significative par rapport aux méthodes non-apprentissage automatique
  • TCNs: Utilisent de nombreuses couches de convolution dilatée pour fournir un grand contexte temporel
  • Transformers: Apprennent l'attribution de poids aux aspects importants des données de séquence

Techniques de Post-traitement

Les méthodes traditionnelles utilisent généralement les DBNs pour le post-traitement, mais présentent des problèmes tels que la complexité du réglage des paramètres et le coût computationnel élevé.

Conclusions et Discussion

Conclusions Principales

  1. Le paradigme de détection d'objets peut être appliqué efficacement à la tâche de suivi de pulsation
  2. Le post-traitement NMS est plus simple et moins heuristique que le DBN traditionnel
  3. BeatFCOS montre des performances particulièrement remarquables en détection du temps fort
  4. La sélection de paramètres basée sur les données est plus efficace que la recherche en grille

Limitations

  1. Limitations de Performance: Bien que compétitif, le modèle ne surpasse pas systématiquement les méthodes SOTA sur toutes les métriques
  2. Contraintes de Mémoire: En raison des limitations de mémoire, seules deux couches FPN peuvent être utilisées au lieu de trois
  3. Dépendance aux Données: L'efficacité de la méthode est fortement influencée par la qualité des données d'entraînement

Directions Futures

  1. Intégration de contraintes d'adjacence temporelle pour mieux imposer des espacements réguliers entre pulsations
  2. Exploration de l'apprentissage de modèles temporels basés sur l'EM comme direction supplémentaire
  3. Optimisation supplémentaire de l'architecture pour réduire les besoins en mémoire

Évaluation Approfondie

Avantages

  1. Forte Innovativité: Première introduction du paradigme de détection d'objets au suivi de pulsation, approche novatrice
  2. Technique Solide: Conception raisonnée du mécanisme de leftness, conforme à l'intuition de localisation de pulsation
  3. Expérimentation Complète: Inclut des études d'ablation détaillées et une validation croisée 8-fold
  4. Valeur Pratique: Simplifie le flux de post-traitement, réduit la complexité du réglage des paramètres

Insuffisances

  1. Amélioration de Performance Limitée: L'amélioration par rapport aux méthodes SOTA existantes n'est pas suffisamment significative
  2. Limitations d'Applicabilité: Principalement validée sur des ensembles de données spécifiques, la capacité de généralisation reste à démontrer
  3. Analyse Théorique Insuffisante: Manque d'explication théorique approfondie sur les raisons pour lesquelles la détection d'objets convient au suivi de pulsation

Impact

  1. Contribution Méthodologique: Fournit une nouvelle approche de modélisation pour le domaine de la récupération d'informations musicales
  2. Inspiration Interdisciplinaire: Démontre le potentiel d'application des techniques de vision par ordinateur au traitement audio
  3. Valeur Ingénierie: Le flux de post-traitement simplifié possède une valeur d'application pratique

Scénarios d'Application

  1. Applications musicales nécessitant une détection de pulsation en temps réel
  2. Systèmes embarqués sensibles à la complexité du post-traitement
  3. Tâches d'analyse musicale avec des exigences élevées en détection du temps fort

Références Bibliographiques

L'article cite 34 travaux connexes, couvrant plusieurs domaines incluant le suivi de pulsation, la détection d'objets et l'apprentissage profond, fournissant une base théorique solide pour la recherche.