Recent beat and downbeat tracking models (e.g., RNNs, TCNs, Transformers) output frame-level activations. We propose reframing this task as object detection, where beats and downbeats are modeled as temporal "objects." Adapting the FCOS detector from computer vision to 1D audio, we replace its original backbone with WaveBeat's temporal feature extractor and add a Feature Pyramid Network to capture multi-scale temporal patterns. The model predicts overlapping beat/downbeat intervals with confidence scores, followed by non-maximum suppression (NMS) to select final predictions. This NMS step serves a similar role to DBNs in traditional trackers, but is simpler and less heuristic. Evaluated on standard music datasets, our approach achieves competitive results, showing that object detection techniques can effectively model musical beats with minimal adaptation.
Neuere Modelle zur Schlagzeit- und Taktverfolgung (wie RNNs, TCNs, Transformers) geben Frame-Level-Aktivierungswerte aus. Dieses Papier schlägt vor, diese Aufgabe als Objekterkennungsproblem neu zu definieren, wobei Schlagzeiten und Takte als zeitliche „Objekte" modelliert werden. Durch die Anpassung des FCOS-Detektors aus dem Computer Vision an 1D-Audio, den Austausch des ursprünglichen Backbone-Netzwerks durch den zeitlichen Feature-Extraktor von WaveBeat und das Hinzufügen eines Feature-Pyramiden-Netzwerks zur Erfassung von Multi-Scale-Zeitmustern. Das Modell sagt überlappende Schlagzeit-/Takt-Intervalle und deren Konfidenzscores voraus, wobei dann Non-Maximum Suppression (NMS) zur Auswahl der endgültigen Vorhersagen verwendet wird. Dieser NMS-Schritt erfüllt eine ähnliche Funktion wie der DBN in traditionellen Trackern, ist aber einfacher und weniger heuristisch. Die Bewertung auf Standard-Musikdatensätzen zeigt, dass das Verfahren wettbewerbsfähige Ergebnisse erzielt und demonstriert, dass Objekterkennungstechniken Musikschlagzeiten effektiv modellieren können und nur minimale Anpassungen erfordern.
Die Schlagzeitverfolgung ist eine wichtige Forschungsrichtung im Bereich Music Information Retrieval (MIR) und umfasst die rechnerische Vorhersage von Schlagzeit- und Taktkopfpositionen. Traditionelle Methoden haben sich von frühen Onset-Detection-Verfahren zu modernen Machine-Learning-Techniken entwickelt, einschließlich RNNs, LSTMs, TCNs und Transformers.
Komplexität der Nachbearbeitung: Die meisten modernen Schlagzeit-Erkennungsnetzwerke erzeugen Frame-weise Aktivierungsfunktionen, die eine Nachbearbeitung mit Dynamic Bayesian Networks (DBNs) erfordern, um endgültige Schlagzeitpositionen zu erzeugen
Mängel von DBNs: DBNs versagen leicht bei Schlagzeitwechseln und Taktartwechseln und sind zu heuristisch
Schwierigkeit der Taktkopferkennung: Die Leistung der Taktkopferkennung ist im Vergleich zur Schlagzeiterkennung durchweg schlechter
Die Autoren argumentieren, dass die Schlagzeitverfolgung als eine Form der Objekterkennung in Audio betrachtet werden kann, und versuchen daher, speziell für die Objekterkennung entwickelte neuronale Netze zur Verbesserung der Schlagzeitverfolgung zu nutzen, insbesondere zur Verbesserung der Taktkopfverfolgungsleistung.
Paradigmainnovation: Erstmalige Neudefinition der Schlagzeitverfolgung als 1D-zeitliches Objekterkennungsproblem, wobei Schlagzeiten und Takte als zeitliche Intervalobjekte modelliert werden
Architekturanpassung: Erfolgreiche Anpassung des FCOS-Objekterkennungsmodells an den Audio-Bereich durch Austausch des ursprünglichen ResNet-50-Backbone mit WaveBeat
Vereinfachung der Nachbearbeitung: Ersatz der traditionellen DBN-Nachbearbeitung durch NMS, was eine einfachere und weniger heuristische Lösung bietet
Leistungsverbesserung: Erreichung wettbewerbsfähiger Ergebnisse auf Standard-Musikdatensätzen, besonders hervorragende Leistung bei der Taktkopferkennung
Umwandlung der Schlagzeiterkennung von 0D-Zeitpunkten zu einem Intervallerkennungsproblem in 1D-Audio. Die Eingabe ist die rohe Audiowellenform, die Ausgabe sind Schlagzeit-/Takt-Intervallvorhersagen mit Konfidenzscores.
Soft-NMS verbessert die Leistung kontinuierlich und zeigt, dass es hilft, gültige nahe beieinander liegende Schlagzeitvorhersagen zu bewahren, die von Standard-NMS möglicherweise fälschlicherweise unterdrückt würden.
Die Strategie, nur BatchNorm-Schichten einzufrieren und Faltungsgewichte zu aktualisieren, ist deutlich überlegen gegenüber dem vollständigen Einfrieren des Backbone-Netzwerks.
Durch Analyse des Histogramms der IoU-Verteilung von Vorhersageintervallen wird der IoU-Schwellenwert datengesteuert auf 0,2 festgelegt, was die Gittersuche vermeidet, die traditionelle DBN-Methoden erfordern.
Traditionelle Methoden verwenden üblicherweise DBNs zur Nachbearbeitung, weisen aber Probleme wie komplexe Parameteroptimierung und hohe Rechenkosten auf.
Das Papier zitiert 34 verwandte Arbeiten, die wichtige Werke aus mehreren Bereichen wie Schlagzeitverfolgung, Objekterkennung und Deep Learning abdecken und eine solide theoretische Grundlage für die Forschung bieten.