Recent beat and downbeat tracking models (e.g., RNNs, TCNs, Transformers) output frame-level activations. We propose reframing this task as object detection, where beats and downbeats are modeled as temporal "objects." Adapting the FCOS detector from computer vision to 1D audio, we replace its original backbone with WaveBeat's temporal feature extractor and add a Feature Pyramid Network to capture multi-scale temporal patterns. The model predicts overlapping beat/downbeat intervals with confidence scores, followed by non-maximum suppression (NMS) to select final predictions. This NMS step serves a similar role to DBNs in traditional trackers, but is simpler and less heuristic. Evaluated on standard music datasets, our approach achieves competitive results, showing that object detection techniques can effectively model musical beats with minimal adaptation.
Les modèles récents de suivi de pulsation et de temps fort (tels que les RNNs, TCNs, Transformers) produisent des valeurs d'activation au niveau des trames. Cet article propose de redéfinir cette tâche comme un problème de détection d'objets, en modélisant les pulsations et les temps forts comme des « objets » temporels. En adaptant le détecteur FCOS de la vision par ordinateur à l'audio 1D, en remplaçant le réseau de base original par l'extracteur de caractéristiques temporelles de WaveBeat, et en ajoutant un réseau de pyramide de caractéristiques pour capturer les motifs temporels multi-échelles, le modèle prédit les intervalles de pulsation/temps fort qui se chevauchent ainsi que leurs scores de confiance. Une suppression des non-maxima (NMS) est ensuite utilisée pour sélectionner les prédictions finales. Cette étape de NMS joue un rôle similaire au réseau bayésien dynamique (DBN) dans les suivi traditionnels, mais elle est plus simple et moins heuristique. L'évaluation sur des ensembles de données musicales standard montre que cette approche obtient des résultats compétitifs, démontrant que les techniques de détection d'objets peuvent modéliser efficacement la pulsation musicale avec un minimum d'adaptation.
Le suivi de la pulsation est une direction de recherche importante dans le domaine de la récupération d'informations musicales (MIR), comprenant la prédiction computationnelle des positions de pulsation et de temps fort. Les méthodes traditionnelles ont évolué des premières techniques de détection de début vers les technologies modernes d'apprentissage automatique, incluant les RNNs, LSTMs, TCNs et Transformers.
Complexité du post-traitement: La plupart des réseaux modernes de détection de pulsation produisent des fonctions d'activation par trame, nécessitant un post-traitement utilisant des réseaux bayésiens dynamiques (DBNs) pour produire les positions de pulsation finales
Défauts des DBNs: Les DBNs échouent facilement lors de changements de tempo et de changements de mesure, et sont trop heuristiques
Difficulté de détection du temps fort: Les performances de détection du temps fort sont généralement inférieures à celles de la détection de pulsation
Les auteurs considèrent que le suivi de la pulsation peut être vu comme une forme de détection d'objets dans l'audio, et tentent donc d'utiliser des réseaux de neurones spécialement conçus pour la détection d'objets afin d'améliorer le suivi de la pulsation, en particulier les performances de suivi du temps fort.
Innovation de Paradigme: Première redéfinition du suivi de la pulsation comme un problème de détection d'objets temporels 1D, modélisant les pulsations et les temps forts comme des objets d'intervalle temporel
Adaptation d'Architecture: Adaptation réussie du modèle de détection d'objets FCOS au domaine audio, en remplaçant le réseau de base ResNet-50 original par WaveBeat
Simplification du Post-traitement: Remplacement du post-traitement DBN traditionnel par NMS, fournissant une solution plus simple et moins heuristique
Amélioration des Performances: Obtention de résultats compétitifs sur des ensembles de données musicales standard, avec des performances particulièrement remarquables en détection du temps fort
Conversion de la détection de pulsation de points temporels 0D à un problème de détection d'intervalles 1D dans l'audio. L'entrée est la forme d'onde audio brute, et la sortie est la prédiction d'intervalles de pulsation/temps fort avec scores de confiance.
Limitations de Taille: Chaque couche FPN est responsable des intervalles d'une échelle temporelle spécifique
Stratégie de Sous-cadre: Utilisation de sous-cadres décalés à gauche plutôt que de régions centrales symétriques, mettant l'accent sur la position de début de l'intervalle
Le mécanisme de Leftness surpasse significativement le centerness sur presque tous les ensembles de données et métriques, particulièrement en suivi du temps fort.
Soft-NMS améliore continuellement les performances, indiquant qu'il aide à conserver les prédictions de pulsation valides à courte distance qui pourraient être incorrectement supprimées par le NMS standard.
La stratégie consistant à geler uniquement les couches BatchNorm tout en permettant la mise à jour des poids de convolution surpasse significativement le gel complet du réseau de base.
En analysant l'histogramme de la distribution IoU des intervalles de prédiction, un seuil IoU de 0,2 est sélectionné de manière basée sur les données, évitant la recherche en grille requise par le DBN traditionnel.
Les premières techniques de suivi de pulsation étaient basées sur la détection de début, estimant les positions de pulsation en identifiant les débuts de notes.
RNNs/LSTMs: Fournissent un support de dépendance temporelle, représentant une avancée significative par rapport aux méthodes non-apprentissage automatique
TCNs: Utilisent de nombreuses couches de convolution dilatée pour fournir un grand contexte temporel
Transformers: Apprennent l'attribution de poids aux aspects importants des données de séquence
Les méthodes traditionnelles utilisent généralement les DBNs pour le post-traitement, mais présentent des problèmes tels que la complexité du réglage des paramètres et le coût computationnel élevé.
Amélioration de Performance Limitée: L'amélioration par rapport aux méthodes SOTA existantes n'est pas suffisamment significative
Limitations d'Applicabilité: Principalement validée sur des ensembles de données spécifiques, la capacité de généralisation reste à démontrer
Analyse Théorique Insuffisante: Manque d'explication théorique approfondie sur les raisons pour lesquelles la détection d'objets convient au suivi de pulsation
L'article cite 34 travaux connexes, couvrant plusieurs domaines incluant le suivi de pulsation, la détection d'objets et l'apprentissage profond, fournissant une base théorique solide pour la recherche.