2025-11-19T02:46:12.920144

Beat Detection as Object Detection

Ahn, Jung
Recent beat and downbeat tracking models (e.g., RNNs, TCNs, Transformers) output frame-level activations. We propose reframing this task as object detection, where beats and downbeats are modeled as temporal "objects." Adapting the FCOS detector from computer vision to 1D audio, we replace its original backbone with WaveBeat's temporal feature extractor and add a Feature Pyramid Network to capture multi-scale temporal patterns. The model predicts overlapping beat/downbeat intervals with confidence scores, followed by non-maximum suppression (NMS) to select final predictions. This NMS step serves a similar role to DBNs in traditional trackers, but is simpler and less heuristic. Evaluated on standard music datasets, our approach achieves competitive results, showing that object detection techniques can effectively model musical beats with minimal adaptation.
academic

Schlagzeitverfolgung als Objekterkennung

Grundlegende Informationen

  • Papier-ID: 2510.14391
  • Titel: Beat Tracking as Object Detection
  • Autoren: Jaehoon Ahn (Sogang University), Moon-Ryul Jung (Sogang University)
  • Klassifizierung: cs.SD (Sound), cs.AI (Artificial Intelligence), cs.LG (Machine Learning)
  • Veröffentlichungsdatum: 16. Oktober 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2510.14391v1

Zusammenfassung

Neuere Modelle zur Schlagzeit- und Taktverfolgung (wie RNNs, TCNs, Transformers) geben Frame-Level-Aktivierungswerte aus. Dieses Papier schlägt vor, diese Aufgabe als Objekterkennungsproblem neu zu definieren, wobei Schlagzeiten und Takte als zeitliche „Objekte" modelliert werden. Durch die Anpassung des FCOS-Detektors aus dem Computer Vision an 1D-Audio, den Austausch des ursprünglichen Backbone-Netzwerks durch den zeitlichen Feature-Extraktor von WaveBeat und das Hinzufügen eines Feature-Pyramiden-Netzwerks zur Erfassung von Multi-Scale-Zeitmustern. Das Modell sagt überlappende Schlagzeit-/Takt-Intervalle und deren Konfidenzscores voraus, wobei dann Non-Maximum Suppression (NMS) zur Auswahl der endgültigen Vorhersagen verwendet wird. Dieser NMS-Schritt erfüllt eine ähnliche Funktion wie der DBN in traditionellen Trackern, ist aber einfacher und weniger heuristisch. Die Bewertung auf Standard-Musikdatensätzen zeigt, dass das Verfahren wettbewerbsfähige Ergebnisse erzielt und demonstriert, dass Objekterkennungstechniken Musikschlagzeiten effektiv modellieren können und nur minimale Anpassungen erfordern.

Forschungshintergrund und Motivation

Problemdefinition

Die Schlagzeitverfolgung ist eine wichtige Forschungsrichtung im Bereich Music Information Retrieval (MIR) und umfasst die rechnerische Vorhersage von Schlagzeit- und Taktkopfpositionen. Traditionelle Methoden haben sich von frühen Onset-Detection-Verfahren zu modernen Machine-Learning-Techniken entwickelt, einschließlich RNNs, LSTMs, TCNs und Transformers.

Einschränkungen bestehender Methoden

  1. Komplexität der Nachbearbeitung: Die meisten modernen Schlagzeit-Erkennungsnetzwerke erzeugen Frame-weise Aktivierungsfunktionen, die eine Nachbearbeitung mit Dynamic Bayesian Networks (DBNs) erfordern, um endgültige Schlagzeitpositionen zu erzeugen
  2. Mängel von DBNs: DBNs versagen leicht bei Schlagzeitwechseln und Taktartwechseln und sind zu heuristisch
  3. Schwierigkeit der Taktkopferkennung: Die Leistung der Taktkopferkennung ist im Vergleich zur Schlagzeiterkennung durchweg schlechter

Forschungsmotivation

Die Autoren argumentieren, dass die Schlagzeitverfolgung als eine Form der Objekterkennung in Audio betrachtet werden kann, und versuchen daher, speziell für die Objekterkennung entwickelte neuronale Netze zur Verbesserung der Schlagzeitverfolgung zu nutzen, insbesondere zur Verbesserung der Taktkopfverfolgungsleistung.

Kernbeiträge

  1. Paradigmainnovation: Erstmalige Neudefinition der Schlagzeitverfolgung als 1D-zeitliches Objekterkennungsproblem, wobei Schlagzeiten und Takte als zeitliche Intervalobjekte modelliert werden
  2. Architekturanpassung: Erfolgreiche Anpassung des FCOS-Objekterkennungsmodells an den Audio-Bereich durch Austausch des ursprünglichen ResNet-50-Backbone mit WaveBeat
  3. Vereinfachung der Nachbearbeitung: Ersatz der traditionellen DBN-Nachbearbeitung durch NMS, was eine einfachere und weniger heuristische Lösung bietet
  4. Leistungsverbesserung: Erreichung wettbewerbsfähiger Ergebnisse auf Standard-Musikdatensätzen, besonders hervorragende Leistung bei der Taktkopferkennung

Methodische Details

Aufgabendefinition

Umwandlung der Schlagzeiterkennung von 0D-Zeitpunkten zu einem Intervallerkennungsproblem in 1D-Audio. Die Eingabe ist die rohe Audiowellenform, die Ausgabe sind Schlagzeit-/Takt-Intervallvorhersagen mit Konfidenzscores.

Modellarchitektur

Gesamtdesign

Das BeatFCOS-Modell enthält die folgenden Schlüsselkomponenten:

  1. WaveBeat-Backbone-Netzwerk: Ersatz für das ursprüngliche ResNet-50 des FCOS, verarbeitet direkt rohe Audiowellenformen
  2. Feature-Pyramiden-Netzwerk (FPN): Erfasst Multi-Scale-Zeitmuster
  3. Drei-Kopf-Detektor: Jeweils für Klassifizierung, Regression und Leftness-Vorhersage

Schlagzeit-Intervalldarstellung

  • Schlagzeit-Intervall: Zeitspanne zwischen zwei aufeinanderfolgenden Schlagzeiten
  • Takt-Intervall: Zeitspanne zwischen zwei aufeinanderfolgenden Taktkopfpositionen
  • Doppelte Darstellung: Taktkopfpositionen erscheinen sowohl als Takt-Intervalle als auch als normale Schlagzeit-Intervalle

WaveBeat- und FPN-Integration

  • Entfernung der finalen Faltungs- und Sigmoid-Schicht von WaveBeat
  • Weitergabe der Ausgaben der letzten beiden TCN-Blöcke (C7 und C8) an die P7- und P8-Schichten des FPN
  • Aufgrund von Speicherbeschränkungen werden nur die Ausgaben der letzten zwei Backbone-Blöcke verwendet statt der drei des ursprünglichen FCOS

Technische Innovationen

1. Anker-Strategie

  • Größenbeschränkungen: Jede FPN-Schicht ist für Intervalle einer bestimmten Zeitskala zuständig
  • Sub-Frame-Strategie: Verwendung von linksgeneigten Sub-Frames statt symmetrischer zentraler Regionen, mit Fokus auf die Startposition des Intervalls

2. Leftness-Mechanismus

Ersatz für Centerness im FCOS, definiert als:

leftness1D(r) = √(rright / (rleft + rright))

Betont die linke Kante des Schlagzeit-Intervalls statt des Zentrums, was besser der Intuition der Schlagzeitlokalisierung entspricht.

3. Verlustfunktion

Der Gesamtverlust besteht aus drei Teilen:

Lpoint(k,n) = Lcls(ck,n, ĉk,n, n) + 1{ck,n>0}Lreg(rk,n, r̂k,n, n) + 1{ck,n>0}Llft(rk,n, r̂k,n, n)
  • Klassifizierungsverlust: Focal Loss
  • Regressionsverlust: 1D-angepasster GIoU Loss
  • Leftness-Verlust: Binärer Kreuzentropie-Verlust

Experimentelle Einrichtung

Datensätze

Verwendung derselben Datensätze wie WaveBeat:

  • Trainingssatz: Ballroom, Hainsworth, Beatles, RWC Popular
  • Testsatz: GTZAN, SMC
  • Audioformat: 22,05 kHz Abtastrate, 2^21 Samples Länge (ca. 1,6 Minuten)

Bewertungsmetriken

  • F1-Score: Harmonisches Mittel von Präzision und Recall
  • CMLt (Continuity-based Metric allowing for Metrical Level Tolerance): Kontinuitätsmesswert mit Toleranz für Taktartwechsel
  • AMLt (Accuracy-based Metric allowing for Metrical Level Tolerance): Genauigkeitsmesswert mit Toleranz für Taktartwechsel

Vergleichsmethoden

  • WaveBeat (Peak-picking)
  • WaveBeat (DBN)
  • Spectral TCN
  • Hung et al. (Transformer-basiert)

Implementierungsdetails

  • Optimierer: Adam (lr=1e-3, weight decay=1e-4)
  • Lernratenplanung: 10-fache Reduktion bei 3 aufeinanderfolgenden Epochen ohne Verbesserung
  • Batch-Größe: 16
  • Trainingsumgebung: Google Colab, NVIDIA A100 40GB GPU
  • Trainingsstrategie: 8-fache Kreuzvalidierung

Experimentelle Ergebnisse

Hauptergebnisse

Bei allen WaveBeat-Varianten zeigt BeatFCOS hervorragende Leistung auf mehreren Datensätzen:

Schlagzeitverfolgungsleistung

  • Ballroom-Datensatz: F1=0,927, CMLt=0,873, AMLt=0,898
  • Beatles-Datensatz: F1=0,903, CMLt=0,797, AMLt=0,866
  • RWC Popular-Datensatz: F1=0,862, CMLt=0,763, AMLt=0,849

Taktkopfverfolgungsleistung

  • Ballroom-Datensatz: F1=0,807, CMLt=0,697, AMLt=0,756
  • Beatles-Datensatz: F1=0,762, CMLt=0,579, AMLt=0,659
  • RWC Popular-Datensatz: F1=0,779, CMLt=0,691, AMLt=0,731

Ablationsstudien

Leftness vs. Centerness

Der Leftness-Mechanismus übertrifft Centerness auf nahezu allen Datensätzen und Metriken deutlich, besonders bei der Taktkopfverfolgung.

Soft-NMS vs. Standard-NMS

Soft-NMS verbessert die Leistung kontinuierlich und zeigt, dass es hilft, gültige nahe beieinander liegende Schlagzeitvorhersagen zu bewahren, die von Standard-NMS möglicherweise fälschlicherweise unterdrückt würden.

Backbone-Feinabstimmungsstrategie

Die Strategie, nur BatchNorm-Schichten einzufrieren und Faltungsgewichte zu aktualisieren, ist deutlich überlegen gegenüber dem vollständigen Einfrieren des Backbone-Netzwerks.

NMS-Schwellenwertauswahl

Durch Analyse des Histogramms der IoU-Verteilung von Vorhersageintervallen wird der IoU-Schwellenwert datengesteuert auf 0,2 festgelegt, was die Gittersuche vermeidet, die traditionelle DBN-Methoden erfordern.

Verwandte Arbeiten

Traditionelle Methoden

Frühe Schlagzeitverfolgung basierte auf Onset-Detection, wobei Schlagzeitpositionen durch Identifizierung von Notenansätzen geschätzt wurden.

Deep-Learning-Methoden

  • RNNs/LSTMs: Bieten Unterstützung für zeitliche Abhängigkeiten und zeigen signifikante Durchbrüche gegenüber nicht-Machine-Learning-Methoden
  • TCNs: Verwenden zahlreiche dilatierte Faltungsschichten für großen zeitlichen Kontext
  • Transformers: Lernen, Gewichte für wichtige Aspekte von Sequenzdaten zuzuweisen

Nachbearbeitungstechniken

Traditionelle Methoden verwenden üblicherweise DBNs zur Nachbearbeitung, weisen aber Probleme wie komplexe Parameteroptimierung und hohe Rechenkosten auf.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Das Objekterkennungsparadigma kann effektiv auf die Schlagzeitverfolgungsaufgabe angewendet werden
  2. NMS-Nachbearbeitung ist einfacher und weniger heuristisch als traditionelle DBN
  3. BeatFCOS zeigt besonders hervorragende Leistung bei der Taktkopferkennung
  4. Datengesteuerte Hyperparameter-Auswahl ist effizienter als Gittersuche

Einschränkungen

  1. Leistungsbeschränkungen: Obwohl wettbewerbsfähig, übertrifft die Methode nicht konsistent SOTA-Methoden bei allen Metriken
  2. Speicherbeschränkungen: Aufgrund von Speicherbeschränkungen können nur zwei FPN-Schichten statt drei verwendet werden
  3. Datenabhängigkeit: Die Methodenleistung ist stark von der Trainings-Datenqualität abhängig

Zukünftige Richtungen

  1. Integration von zeitlichen Nachbarschaftsbeschränkungen zur besseren Erzwingung regelmäßiger Schlagzeitabstände
  2. Erkundung EM-basierter zeitlicher Modelllernung als ergänzende Richtung
  3. Weitere Optimierung der Architektur zur Reduzierung des Speicherbedarfs

Tiefgreifende Bewertung

Stärken

  1. Starke Innovativität: Erstmalige Einführung des Objekterkennungsparadigmas in die Schlagzeitverfolgung mit neuartiger Herangehensweise
  2. Solide Technik: Vernünftiges Design des Leftness-Mechanismus, der der Schlagzeitlokalisierungslogik entspricht
  3. Umfangreiche Experimente: Detaillierte Ablationsstudien und 8-fache Kreuzvalidierung
  4. Praktischer Wert: Vereinfachter Nachbearbeitungsprozess mit reduzierter Komplexität der Parameteroptimierung

Mängel

  1. Begrenzte Leistungsverbesserung: Die Verbesserung gegenüber bestehenden SOTA-Methoden ist nicht signifikant genug
  2. Eingeschränkte Anwendbarkeit: Validierung hauptsächlich auf spezifischen Datensätzen, Generalisierungsfähigkeit muss weiter nachgewiesen werden
  3. Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Erklärung, warum Objekterkennung für Schlagzeitverfolgung geeignet ist

Auswirkungen

  1. Methodologischer Beitrag: Bietet neue Modellierungsansätze für das Feld Music Information Retrieval
  2. Interdisziplinäre Inspiration: Demonstriert das Anwendungspotenzial von Computer-Vision-Techniken in der Audioverarbeitung
  3. Ingenieurwert: Der vereinfachte Nachbearbeitungsprozess hat praktischen Anwendungswert

Anwendungsszenarien

  1. Musikanwendungen, die Echtzeit-Schlagzeitverfolgung erfordern
  2. Eingebettete Systeme, die gegenüber Nachbearbeitungskomplexität empfindlich sind
  3. Musikanalysaufgaben mit hohen Anforderungen an die Taktkopferkennung

Literaturverzeichnis

Das Papier zitiert 34 verwandte Arbeiten, die wichtige Werke aus mehreren Bereichen wie Schlagzeitverfolgung, Objekterkennung und Deep Learning abdecken und eine solide theoretische Grundlage für die Forschung bieten.