2025-11-19T02:46:12.920144

Beat Detection as Object Detection

Ahn, Jung
Recent beat and downbeat tracking models (e.g., RNNs, TCNs, Transformers) output frame-level activations. We propose reframing this task as object detection, where beats and downbeats are modeled as temporal "objects." Adapting the FCOS detector from computer vision to 1D audio, we replace its original backbone with WaveBeat's temporal feature extractor and add a Feature Pyramid Network to capture multi-scale temporal patterns. The model predicts overlapping beat/downbeat intervals with confidence scores, followed by non-maximum suppression (NMS) to select final predictions. This NMS step serves a similar role to DBNs in traditional trackers, but is simpler and less heuristic. Evaluated on standard music datasets, our approach achieves competitive results, showing that object detection techniques can effectively model musical beats with minimal adaptation.
academic

Tracciamento del Beat come Rilevamento di Oggetti

Informazioni Fondamentali

  • ID Articolo: 2510.14391
  • Titolo: Beat Tracking as Object Detection
  • Autori: Jaehoon Ahn (Sogang University), Moon-Ryul Jung (Sogang University)
  • Classificazione: cs.SD (Sound), cs.AI (Artificial Intelligence), cs.LG (Machine Learning)
  • Data di Pubblicazione: 16 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.14391v1

Riassunto

I recenti modelli di tracciamento del beat e del battere (come RNN, TCN, Transformer) producono valori di attivazione a livello di frame. Questo articolo propone di ridefinire questo compito come un problema di rilevamento di oggetti, modellando beat e battere come "oggetti" temporali. Adattando il rilevatore FCOS dalla visione artificiale a audio 1D, sostituendo la rete backbone originale con l'estrattore di caratteristiche temporali di WaveBeat e aggiungendo una rete piramidale di caratteristiche per catturare modelli temporali multi-scala. Il modello predice intervalli di beat/battere sovrapposti e i relativi punteggi di confidenza, quindi utilizza la soppressione dei massimi non locali (NMS) per selezionare le previsioni finali. Questo passaggio NMS svolge un ruolo simile al DBN nei tracciatori tradizionali, ma è più semplice e meno euristico. La valutazione su dataset musicali standard mostra che il metodo raggiunge risultati competitivi, dimostrando che le tecniche di rilevamento di oggetti possono modellare efficacemente il beat musicale con adattamenti minimi.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il tracciamento del beat è una direzione di ricerca importante nel campo del Music Information Retrieval (MIR), includendo la previsione computazionale delle posizioni del beat e del battere. I metodi tradizionali si sono evoluti dalla rilevazione di punti di inizio iniziali alle tecniche moderne di apprendimento automatico, inclusi RNN, LSTM, TCN e Transformer.

Limitazioni dei Metodi Esistenti

  1. Complessità della Post-elaborazione: La maggior parte delle moderne reti di rilevamento del beat produce funzioni di attivazione per frame, richiedendo l'uso di Reti Bayesiane Dinamiche (DBN) per la post-elaborazione al fine di produrre le posizioni finali del beat
  2. Difetti del DBN: I DBN tendono a fallire durante i cambiamenti di tempo e di metro, e sono eccessivamente euristici
  3. Difficoltà nella Rilevazione del Battere: Le prestazioni nella rilevazione del battere sono generalmente inferiori rispetto al rilevamento del beat

Motivazione della Ricerca

Gli autori ritengono che il tracciamento del beat possa essere visto come una forma di rilevamento di oggetti nell'audio, pertanto tentano di utilizzare reti neurali specificamente progettate per il rilevamento di oggetti al fine di migliorare il tracciamento del beat, in particolare le prestazioni di tracciamento del battere.

Contributi Principali

  1. Innovazione del Paradigma: Prima ridefinizione del tracciamento del beat come problema di rilevamento di oggetti temporali 1D, modellando beat e battere come oggetti intervallari temporali
  2. Adattamento dell'Architettura: Adattamento riuscito del modello di rilevamento di oggetti FCOS al dominio audio, sostituendo la rete backbone ResNet-50 originale con WaveBeat
  3. Semplificazione della Post-elaborazione: Sostituzione della tradizionale post-elaborazione DBN con NMS, fornendo una soluzione più semplice e meno euristica
  4. Miglioramento delle Prestazioni: Raggiungimento di risultati competitivi su dataset musicali standard, con prestazioni particolarmente eccellenti nella rilevazione del battere

Dettagli del Metodo

Definizione del Compito

Conversione del rilevamento del beat da punti temporali 0D a problema di rilevamento di intervalli in audio 1D. L'input è la forma d'onda audio grezza, l'output è la previsione di intervalli di beat/battere con punteggi di confidenza.

Architettura del Modello

Progettazione Complessiva

Il modello BeatFCOS contiene i seguenti componenti chiave:

  1. Rete Backbone WaveBeat: Sostituisce il ResNet-50 originale di FCOS, elaborando direttamente forme d'onda audio grezze
  2. Rete Piramidale di Caratteristiche (FPN): Cattura modelli temporali multi-scala
  3. Rilevatore a Tre Teste: Utilizzato rispettivamente per classificazione, regressione e previsione di leftness

Rappresentazione dell'Intervallo di Beat

  • Intervallo di Beat: Segmento temporale tra due beat consecutivi
  • Intervallo di Battere: Segmento temporale tra due battere consecutivi
  • Rappresentazione Duplicata: Il battere appare sia come intervallo di battere che come intervallo di beat ordinario

Integrazione di WaveBeat e FPN

  • Rimozione del livello di convoluzione finale e sigmoid di WaveBeat
  • Passaggio dell'output degli ultimi due blocchi TCN (C7 e C8) ai livelli P7 e P8 della FPN
  • A causa dei vincoli di memoria, vengono utilizzati solo gli output degli ultimi due blocchi backbone anziché i tre dell'FCOS originale

Punti di Innovazione Tecnica

1. Strategia di Ancoraggio

  • Limitazioni di Dimensione: Ogni livello FPN è responsabile di intervalli di scala temporale specifica
  • Strategia di Sotto-frame: Utilizzo di sotto-frame con bias sinistro anziché regioni centrali simmetriche, focalizzandosi sulla posizione di inizio dell'intervallo

2. Meccanismo di Leftness

Sostituzione della centerness in FCOS, definita come:

leftness1D(r) = √(rright / (rleft + rright))

Enfatizza il bordo sinistro dell'intervallo di beat piuttosto che il centro, più in linea con l'intuizione della localizzazione del beat.

3. Funzione di Perdita

La perdita totale contiene tre componenti:

Lpoint(k,n) = Lcls(ck,n, ĉk,n, n) + 1{ck,n>0}Lreg(rk,n, r̂k,n, n) + 1{ck,n>0}Llft(rk,n, r̂k,n, n)
  • Perdita di Classificazione: focal loss
  • Perdita di Regressione: GIoU loss adattato 1D
  • Perdita di Leftness: perdita di entropia incrociata binaria

Configurazione Sperimentale

Dataset

Utilizzo degli stessi dataset di WaveBeat:

  • Set di Addestramento: Ballroom, Hainsworth, Beatles, RWC Popular
  • Set di Test: GTZAN, SMC
  • Formato Audio: Frequenza di campionamento 22.05kHz, lunghezza campione 2^21 (circa 1.6 minuti)

Metriche di Valutazione

  • Punteggio F1: Media armonica di precisione e richiamo
  • CMLt (Continuity-based Metric allowing for Metrical Level Tolerance): Metrica di continuità che tollera la tolleranza del livello metrico
  • AMLt (Accuracy-based Metric allowing for Metrical Level Tolerance): Metrica di accuratezza che tollera la tolleranza del livello metrico

Metodi di Confronto

  • WaveBeat (Peak-picking)
  • WaveBeat (DBN)
  • Spectral TCN
  • Hung et al. (Transformer-based)

Dettagli di Implementazione

  • Ottimizzatore: Adam (lr=1e-3, weight decay=1e-4)
  • Pianificazione del Tasso di Apprendimento: Riduzione di 10 volte dopo 3 epoch senza miglioramento
  • Dimensione del Batch: 16
  • Ambiente di Addestramento: Google Colab, GPU NVIDIA A100 40GB
  • Strategia di Addestramento: Convalida incrociata 8-fold

Risultati Sperimentali

Risultati Principali

Tra tutte le varianti di WaveBeat, BeatFCOS mostra prestazioni eccellenti su più dataset:

Prestazioni di Tracciamento del Beat

  • Dataset Ballroom: F1=0.927, CMLt=0.873, AMLt=0.898
  • Dataset Beatles: F1=0.903, CMLt=0.797, AMLt=0.866
  • Dataset RWC Popular: F1=0.862, CMLt=0.763, AMLt=0.849

Prestazioni di Tracciamento del Battere

  • Dataset Ballroom: F1=0.807, CMLt=0.697, AMLt=0.756
  • Dataset Beatles: F1=0.762, CMLt=0.579, AMLt=0.659
  • Dataset RWC Popular: F1=0.779, CMLt=0.691, AMLt=0.731

Esperimenti di Ablazione

Leftness vs Centerness

Il meccanismo di leftness supera significativamente centerness su quasi tutti i dataset e metriche, in particolare nel tracciamento del battere.

Soft-NMS vs NMS Standard

Soft-NMS migliora continuamente le prestazioni, suggerendo che aiuta a preservare previsioni di beat valide a breve distanza che potrebbero essere erroneamente soppresse da NMS standard.

Strategia di Messa a Punto della Rete Backbone

La strategia di congelare solo i livelli BatchNorm consentendo l'aggiornamento dei pesi di convoluzione supera significativamente il congelamento completo della rete backbone.

Selezione della Soglia NMS

Attraverso l'analisi dell'istogramma della distribuzione IoU degli intervalli predetti, la soglia IoU viene selezionata in modo guidato dai dati come 0.2, evitando la ricerca in griglia richiesta dal tradizionale DBN.

Lavori Correlati

Metodi Tradizionali

Il tracciamento del beat iniziale si basava sulla rilevazione di punti di inizio, stimando le posizioni del beat attraverso l'identificazione dell'inizio delle note.

Metodi di Apprendimento Profondo

  • RNN/LSTM: Forniscono supporto per dipendenze temporali, rappresentando un avanzamento significativo rispetto ai metodi non di apprendimento automatico
  • TCN: Utilizzano numerosi livelli di convoluzione dilatata per fornire ampio contesto temporale
  • Transformer: Imparano l'allocazione dei pesi su aspetti importanti dei dati sequenziali

Tecniche di Post-elaborazione

I metodi tradizionali utilizzano comunemente DBN per la post-elaborazione, ma presentano problemi come la complessità dell'ottimizzazione dei parametri e l'elevato costo computazionale.

Conclusioni e Discussione

Conclusioni Principali

  1. Il paradigma di rilevamento di oggetti può essere efficacemente applicato al compito di tracciamento del beat
  2. La post-elaborazione NMS è più semplice e meno euristica rispetto al tradizionale DBN
  3. BeatFCOS mostra prestazioni particolarmente eccellenti nella rilevazione del battere
  4. La selezione di iperparametri guidata dai dati è più efficiente della ricerca in griglia

Limitazioni

  1. Limitazioni di Prestazioni: Sebbene competitivo, non supera costantemente i metodi SOTA su tutte le metriche
  2. Vincoli di Memoria: A causa dei vincoli di memoria, è possibile utilizzare solo due livelli FPN anziché tre
  3. Dipendenza dai Dati: L'efficacia del metodo è fortemente influenzata dalla qualità dei dati di addestramento

Direzioni Future

  1. Integrazione di vincoli di adiacenza temporale per applicare meglio distanze regolari tra beat
  2. Esplorazione dell'apprendimento di modelli temporali basati su EM come direzione complementare
  3. Ulteriore ottimizzazione dell'architettura per ridurre i requisiti di memoria

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Prima introduzione del paradigma di rilevamento di oggetti nel tracciamento del beat, approccio innovativo
  2. Tecnica Solida: Il meccanismo di leftness è ben progettato e in linea con l'intuizione della localizzazione del beat
  3. Esperimenti Completi: Include dettagliati esperimenti di ablazione e convalida incrociata 8-fold
  4. Valore Pratico: Semplifica il flusso di post-elaborazione, riducendo la complessità dell'ottimizzazione dei parametri

Carenze

  1. Miglioramento Limitato delle Prestazioni: L'incremento rispetto ai metodi SOTA esistenti non è sufficientemente significativo
  2. Limitazioni di Applicabilità: Principalmente validato su dataset specifici, la capacità di generalizzazione richiede ulteriore verifica
  3. Analisi Teorica Insufficiente: Manca una spiegazione teorica approfondita del perché il rilevamento di oggetti sia adatto al tracciamento del beat

Impatto

  1. Contributo Metodologico: Fornisce nuovi approcci di modellazione al campo del Music Information Retrieval
  2. Ispirazione Interdisciplinare: Dimostra il potenziale di applicazione delle tecniche di visione artificiale nell'elaborazione audio
  3. Valore Ingegneristico: Il flusso di post-elaborazione semplificato ha valore di applicazione pratica

Scenari di Applicazione

  1. Applicazioni musicali che richiedono rilevamento del beat in tempo reale
  2. Sistemi embedded sensibili alla complessità della post-elaborazione
  3. Compiti di analisi musicale con elevati requisiti di rilevazione del battere

Bibliografia

L'articolo cita 34 lavori correlati, coprendo importanti contributi in più domini inclusi tracciamento del beat, rilevamento di oggetti e apprendimento profondo, fornendo una base teorica solida per la ricerca.