2025-11-19T02:46:12.920144

Beat Detection as Object Detection

Ahn, Jung

Recent beat and downbeat tracking models (e.g., RNNs, TCNs, Transformers) output frame-level activations. We propose reframing this task as object detection, where beats and downbeats are modeled as temporal "objects." Adapting the FCOS detector from computer vision to 1D audio, we replace its original backbone with WaveBeat's temporal feature extractor and add a Feature Pyramid Network to capture multi-scale temporal patterns. The model predicts overlapping beat/downbeat intervals with confidence scores, followed by non-maximum suppression (NMS) to select final predictions. This NMS step serves a similar role to DBNs in traditional trackers, but is simpler and less heuristic. Evaluated on standard music datasets, our approach achieves competitive results, showing that object detection techniques can effectively model musical beats with minimal adaptation.

academic

Schlagzeitverfolgung als Objekterkennung

Grundlegende Informationen

Papier-ID: 2510.14391
Titel: Beat Tracking as Object Detection
Autoren: Jaehoon Ahn (Sogang University), Moon-Ryul Jung (Sogang University)
Klassifizierung: cs.SD (Sound), cs.AI (Artificial Intelligence), cs.LG (Machine Learning)
Veröffentlichungsdatum: 16. Oktober 2025 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2510.14391v1

Zusammenfassung

Neuere Modelle zur Schlagzeit- und Taktverfolgung (wie RNNs, TCNs, Transformers) geben Frame-Level-Aktivierungswerte aus. Dieses Papier schlägt vor, diese Aufgabe als Objekterkennungsproblem neu zu definieren, wobei Schlagzeiten und Takte als zeitliche „Objekte" modelliert werden. Durch die Anpassung des FCOS-Detektors aus dem Computer Vision an 1D-Audio, den Austausch des ursprünglichen Backbone-Netzwerks durch den zeitlichen Feature-Extraktor von WaveBeat und das Hinzufügen eines Feature-Pyramiden-Netzwerks zur Erfassung von Multi-Scale-Zeitmustern. Das Modell sagt überlappende Schlagzeit-/Takt-Intervalle und deren Konfidenzscores voraus, wobei dann Non-Maximum Suppression (NMS) zur Auswahl der endgültigen Vorhersagen verwendet wird. Dieser NMS-Schritt erfüllt eine ähnliche Funktion wie der DBN in traditionellen Trackern, ist aber einfacher und weniger heuristisch. Die Bewertung auf Standard-Musikdatensätzen zeigt, dass das Verfahren wettbewerbsfähige Ergebnisse erzielt und demonstriert, dass Objekterkennungstechniken Musikschlagzeiten effektiv modellieren können und nur minimale Anpassungen erfordern.

Forschungshintergrund und Motivation

Problemdefinition

Die Schlagzeitverfolgung ist eine wichtige Forschungsrichtung im Bereich Music Information Retrieval (MIR) und umfasst die rechnerische Vorhersage von Schlagzeit- und Taktkopfpositionen. Traditionelle Methoden haben sich von frühen Onset-Detection-Verfahren zu modernen Machine-Learning-Techniken entwickelt, einschließlich RNNs, LSTMs, TCNs und Transformers.

Einschränkungen bestehender Methoden

Komplexität der Nachbearbeitung: Die meisten modernen Schlagzeit-Erkennungsnetzwerke erzeugen Frame-weise Aktivierungsfunktionen, die eine Nachbearbeitung mit Dynamic Bayesian Networks (DBNs) erfordern, um endgültige Schlagzeitpositionen zu erzeugen
Mängel von DBNs: DBNs versagen leicht bei Schlagzeitwechseln und Taktartwechseln und sind zu heuristisch
Schwierigkeit der Taktkopferkennung: Die Leistung der Taktkopferkennung ist im Vergleich zur Schlagzeiterkennung durchweg schlechter

Forschungsmotivation

Die Autoren argumentieren, dass die Schlagzeitverfolgung als eine Form der Objekterkennung in Audio betrachtet werden kann, und versuchen daher, speziell für die Objekterkennung entwickelte neuronale Netze zur Verbesserung der Schlagzeitverfolgung zu nutzen, insbesondere zur Verbesserung der Taktkopfverfolgungsleistung.

Kernbeiträge

Paradigmainnovation: Erstmalige Neudefinition der Schlagzeitverfolgung als 1D-zeitliches Objekterkennungsproblem, wobei Schlagzeiten und Takte als zeitliche Intervalobjekte modelliert werden
Architekturanpassung: Erfolgreiche Anpassung des FCOS-Objekterkennungsmodells an den Audio-Bereich durch Austausch des ursprünglichen ResNet-50-Backbone mit WaveBeat
Vereinfachung der Nachbearbeitung: Ersatz der traditionellen DBN-Nachbearbeitung durch NMS, was eine einfachere und weniger heuristische Lösung bietet
Leistungsverbesserung: Erreichung wettbewerbsfähiger Ergebnisse auf Standard-Musikdatensätzen, besonders hervorragende Leistung bei der Taktkopferkennung

Methodische Details

Aufgabendefinition

Umwandlung der Schlagzeiterkennung von 0D-Zeitpunkten zu einem Intervallerkennungsproblem in 1D-Audio. Die Eingabe ist die rohe Audiowellenform, die Ausgabe sind Schlagzeit-/Takt-Intervallvorhersagen mit Konfidenzscores.

Modellarchitektur

Gesamtdesign

Das BeatFCOS-Modell enthält die folgenden Schlüsselkomponenten:

WaveBeat-Backbone-Netzwerk: Ersatz für das ursprüngliche ResNet-50 des FCOS, verarbeitet direkt rohe Audiowellenformen
Feature-Pyramiden-Netzwerk (FPN): Erfasst Multi-Scale-Zeitmuster
Drei-Kopf-Detektor: Jeweils für Klassifizierung, Regression und Leftness-Vorhersage

Schlagzeit-Intervalldarstellung

Schlagzeit-Intervall: Zeitspanne zwischen zwei aufeinanderfolgenden Schlagzeiten
Takt-Intervall: Zeitspanne zwischen zwei aufeinanderfolgenden Taktkopfpositionen
Doppelte Darstellung: Taktkopfpositionen erscheinen sowohl als Takt-Intervalle als auch als normale Schlagzeit-Intervalle

WaveBeat- und FPN-Integration

Entfernung der finalen Faltungs- und Sigmoid-Schicht von WaveBeat
Weitergabe der Ausgaben der letzten beiden TCN-Blöcke (C7 und C8) an die P7- und P8-Schichten des FPN
Aufgrund von Speicherbeschränkungen werden nur die Ausgaben der letzten zwei Backbone-Blöcke verwendet statt der drei des ursprünglichen FCOS

Technische Innovationen

1. Anker-Strategie

Größenbeschränkungen: Jede FPN-Schicht ist für Intervalle einer bestimmten Zeitskala zuständig
Sub-Frame-Strategie: Verwendung von linksgeneigten Sub-Frames statt symmetrischer zentraler Regionen, mit Fokus auf die Startposition des Intervalls

2. Leftness-Mechanismus

Ersatz für Centerness im FCOS, definiert als:

leftness1D(r) = √(rright / (rleft + rright))

Betont die linke Kante des Schlagzeit-Intervalls statt des Zentrums, was besser der Intuition der Schlagzeitlokalisierung entspricht.

3. Verlustfunktion

Der Gesamtverlust besteht aus drei Teilen:

Lpoint(k,n) = Lcls(ck,n, ĉk,n, n) + 1{ck,n>0}Lreg(rk,n, r̂k,n, n) + 1{ck,n>0}Llft(rk,n, r̂k,n, n)

Klassifizierungsverlust: Focal Loss
Regressionsverlust: 1D-angepasster GIoU Loss
Leftness-Verlust: Binärer Kreuzentropie-Verlust

Experimentelle Einrichtung

Datensätze

Verwendung derselben Datensätze wie WaveBeat:

Trainingssatz: Ballroom, Hainsworth, Beatles, RWC Popular
Testsatz: GTZAN, SMC
Audioformat: 22,05 kHz Abtastrate, 2^21 Samples Länge (ca. 1,6 Minuten)

Bewertungsmetriken

F1-Score: Harmonisches Mittel von Präzision und Recall
CMLt (Continuity-based Metric allowing for Metrical Level Tolerance): Kontinuitätsmesswert mit Toleranz für Taktartwechsel
AMLt (Accuracy-based Metric allowing for Metrical Level Tolerance): Genauigkeitsmesswert mit Toleranz für Taktartwechsel

Vergleichsmethoden

WaveBeat (Peak-picking)
WaveBeat (DBN)
Spectral TCN
Hung et al. (Transformer-basiert)

Implementierungsdetails

Optimierer: Adam (lr=1e-3, weight decay=1e-4)
Lernratenplanung: 10-fache Reduktion bei 3 aufeinanderfolgenden Epochen ohne Verbesserung
Batch-Größe: 16
Trainingsumgebung: Google Colab, NVIDIA A100 40GB GPU
Trainingsstrategie: 8-fache Kreuzvalidierung

Experimentelle Ergebnisse

Hauptergebnisse

Bei allen WaveBeat-Varianten zeigt BeatFCOS hervorragende Leistung auf mehreren Datensätzen:

Schlagzeitverfolgungsleistung

Ballroom-Datensatz: F1=0,927, CMLt=0,873, AMLt=0,898
Beatles-Datensatz: F1=0,903, CMLt=0,797, AMLt=0,866
RWC Popular-Datensatz: F1=0,862, CMLt=0,763, AMLt=0,849

Taktkopfverfolgungsleistung

Ballroom-Datensatz: F1=0,807, CMLt=0,697, AMLt=0,756
Beatles-Datensatz: F1=0,762, CMLt=0,579, AMLt=0,659
RWC Popular-Datensatz: F1=0,779, CMLt=0,691, AMLt=0,731

Ablationsstudien

Leftness vs. Centerness

Der Leftness-Mechanismus übertrifft Centerness auf nahezu allen Datensätzen und Metriken deutlich, besonders bei der Taktkopfverfolgung.

Soft-NMS vs. Standard-NMS

Soft-NMS verbessert die Leistung kontinuierlich und zeigt, dass es hilft, gültige nahe beieinander liegende Schlagzeitvorhersagen zu bewahren, die von Standard-NMS möglicherweise fälschlicherweise unterdrückt würden.

Backbone-Feinabstimmungsstrategie

Die Strategie, nur BatchNorm-Schichten einzufrieren und Faltungsgewichte zu aktualisieren, ist deutlich überlegen gegenüber dem vollständigen Einfrieren des Backbone-Netzwerks.

NMS-Schwellenwertauswahl

Durch Analyse des Histogramms der IoU-Verteilung von Vorhersageintervallen wird der IoU-Schwellenwert datengesteuert auf 0,2 festgelegt, was die Gittersuche vermeidet, die traditionelle DBN-Methoden erfordern.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Das Objekterkennungsparadigma kann effektiv auf die Schlagzeitverfolgungsaufgabe angewendet werden
NMS-Nachbearbeitung ist einfacher und weniger heuristisch als traditionelle DBN
BeatFCOS zeigt besonders hervorragende Leistung bei der Taktkopferkennung
Datengesteuerte Hyperparameter-Auswahl ist effizienter als Gittersuche

Einschränkungen

Leistungsbeschränkungen: Obwohl wettbewerbsfähig, übertrifft die Methode nicht konsistent SOTA-Methoden bei allen Metriken
Speicherbeschränkungen: Aufgrund von Speicherbeschränkungen können nur zwei FPN-Schichten statt drei verwendet werden
Datenabhängigkeit: Die Methodenleistung ist stark von der Trainings-Datenqualität abhängig

Zukünftige Richtungen

Integration von zeitlichen Nachbarschaftsbeschränkungen zur besseren Erzwingung regelmäßiger Schlagzeitabstände
Erkundung EM-basierter zeitlicher Modelllernung als ergänzende Richtung
Weitere Optimierung der Architektur zur Reduzierung des Speicherbedarfs

Tiefgreifende Bewertung

Stärken

Starke Innovativität: Erstmalige Einführung des Objekterkennungsparadigmas in die Schlagzeitverfolgung mit neuartiger Herangehensweise
Solide Technik: Vernünftiges Design des Leftness-Mechanismus, der der Schlagzeitlokalisierungslogik entspricht
Umfangreiche Experimente: Detaillierte Ablationsstudien und 8-fache Kreuzvalidierung
Praktischer Wert: Vereinfachter Nachbearbeitungsprozess mit reduzierter Komplexität der Parameteroptimierung

Mängel

Begrenzte Leistungsverbesserung: Die Verbesserung gegenüber bestehenden SOTA-Methoden ist nicht signifikant genug
Eingeschränkte Anwendbarkeit: Validierung hauptsächlich auf spezifischen Datensätzen, Generalisierungsfähigkeit muss weiter nachgewiesen werden
Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Erklärung, warum Objekterkennung für Schlagzeitverfolgung geeignet ist

Auswirkungen

Methodologischer Beitrag: Bietet neue Modellierungsansätze für das Feld Music Information Retrieval
Interdisziplinäre Inspiration: Demonstriert das Anwendungspotenzial von Computer-Vision-Techniken in der Audioverarbeitung
Ingenieurwert: Der vereinfachte Nachbearbeitungsprozess hat praktischen Anwendungswert

Anwendungsszenarien

Musikanwendungen, die Echtzeit-Schlagzeitverfolgung erfordern
Eingebettete Systeme, die gegenüber Nachbearbeitungskomplexität empfindlich sind
Musikanalysaufgaben mit hohen Anforderungen an die Taktkopferkennung

Literaturverzeichnis

Das Papier zitiert 34 verwandte Arbeiten, die wichtige Werke aus mehreren Bereichen wie Schlagzeitverfolgung, Objekterkennung und Deep Learning abdecken und eine solide theoretische Grundlage für die Forschung bieten.