2025-11-19T02:46:12.920144

Beat Detection as Object Detection

Ahn, Jung

Recent beat and downbeat tracking models (e.g., RNNs, TCNs, Transformers) output frame-level activations. We propose reframing this task as object detection, where beats and downbeats are modeled as temporal "objects." Adapting the FCOS detector from computer vision to 1D audio, we replace its original backbone with WaveBeat's temporal feature extractor and add a Feature Pyramid Network to capture multi-scale temporal patterns. The model predicts overlapping beat/downbeat intervals with confidence scores, followed by non-maximum suppression (NMS) to select final predictions. This NMS step serves a similar role to DBNs in traditional trackers, but is simpler and less heuristic. Evaluated on standard music datasets, our approach achieves competitive results, showing that object detection techniques can effectively model musical beats with minimal adaptation.

academic

Tracciamento del Beat come Rilevamento di Oggetti

Informazioni Fondamentali

ID Articolo: 2510.14391
Titolo: Beat Tracking as Object Detection
Autori: Jaehoon Ahn (Sogang University), Moon-Ryul Jung (Sogang University)
Classificazione: cs.SD (Sound), cs.AI (Artificial Intelligence), cs.LG (Machine Learning)
Data di Pubblicazione: 16 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.14391v1

Riassunto

I recenti modelli di tracciamento del beat e del battere (come RNN, TCN, Transformer) producono valori di attivazione a livello di frame. Questo articolo propone di ridefinire questo compito come un problema di rilevamento di oggetti, modellando beat e battere come "oggetti" temporali. Adattando il rilevatore FCOS dalla visione artificiale a audio 1D, sostituendo la rete backbone originale con l'estrattore di caratteristiche temporali di WaveBeat e aggiungendo una rete piramidale di caratteristiche per catturare modelli temporali multi-scala. Il modello predice intervalli di beat/battere sovrapposti e i relativi punteggi di confidenza, quindi utilizza la soppressione dei massimi non locali (NMS) per selezionare le previsioni finali. Questo passaggio NMS svolge un ruolo simile al DBN nei tracciatori tradizionali, ma è più semplice e meno euristico. La valutazione su dataset musicali standard mostra che il metodo raggiunge risultati competitivi, dimostrando che le tecniche di rilevamento di oggetti possono modellare efficacemente il beat musicale con adattamenti minimi.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il tracciamento del beat è una direzione di ricerca importante nel campo del Music Information Retrieval (MIR), includendo la previsione computazionale delle posizioni del beat e del battere. I metodi tradizionali si sono evoluti dalla rilevazione di punti di inizio iniziali alle tecniche moderne di apprendimento automatico, inclusi RNN, LSTM, TCN e Transformer.

Limitazioni dei Metodi Esistenti

Complessità della Post-elaborazione: La maggior parte delle moderne reti di rilevamento del beat produce funzioni di attivazione per frame, richiedendo l'uso di Reti Bayesiane Dinamiche (DBN) per la post-elaborazione al fine di produrre le posizioni finali del beat
Difetti del DBN: I DBN tendono a fallire durante i cambiamenti di tempo e di metro, e sono eccessivamente euristici
Difficoltà nella Rilevazione del Battere: Le prestazioni nella rilevazione del battere sono generalmente inferiori rispetto al rilevamento del beat

Motivazione della Ricerca

Gli autori ritengono che il tracciamento del beat possa essere visto come una forma di rilevamento di oggetti nell'audio, pertanto tentano di utilizzare reti neurali specificamente progettate per il rilevamento di oggetti al fine di migliorare il tracciamento del beat, in particolare le prestazioni di tracciamento del battere.

Contributi Principali

Innovazione del Paradigma: Prima ridefinizione del tracciamento del beat come problema di rilevamento di oggetti temporali 1D, modellando beat e battere come oggetti intervallari temporali
Adattamento dell'Architettura: Adattamento riuscito del modello di rilevamento di oggetti FCOS al dominio audio, sostituendo la rete backbone ResNet-50 originale con WaveBeat
Semplificazione della Post-elaborazione: Sostituzione della tradizionale post-elaborazione DBN con NMS, fornendo una soluzione più semplice e meno euristica
Miglioramento delle Prestazioni: Raggiungimento di risultati competitivi su dataset musicali standard, con prestazioni particolarmente eccellenti nella rilevazione del battere

Dettagli del Metodo

Definizione del Compito

Conversione del rilevamento del beat da punti temporali 0D a problema di rilevamento di intervalli in audio 1D. L'input è la forma d'onda audio grezza, l'output è la previsione di intervalli di beat/battere con punteggi di confidenza.

Architettura del Modello

Progettazione Complessiva

Il modello BeatFCOS contiene i seguenti componenti chiave:

Rete Backbone WaveBeat: Sostituisce il ResNet-50 originale di FCOS, elaborando direttamente forme d'onda audio grezze
Rete Piramidale di Caratteristiche (FPN): Cattura modelli temporali multi-scala
Rilevatore a Tre Teste: Utilizzato rispettivamente per classificazione, regressione e previsione di leftness

Rappresentazione dell'Intervallo di Beat

Intervallo di Beat: Segmento temporale tra due beat consecutivi
Intervallo di Battere: Segmento temporale tra due battere consecutivi
Rappresentazione Duplicata: Il battere appare sia come intervallo di battere che come intervallo di beat ordinario

Integrazione di WaveBeat e FPN

Rimozione del livello di convoluzione finale e sigmoid di WaveBeat
Passaggio dell'output degli ultimi due blocchi TCN (C7 e C8) ai livelli P7 e P8 della FPN
A causa dei vincoli di memoria, vengono utilizzati solo gli output degli ultimi due blocchi backbone anziché i tre dell'FCOS originale

Punti di Innovazione Tecnica

1. Strategia di Ancoraggio

Limitazioni di Dimensione: Ogni livello FPN è responsabile di intervalli di scala temporale specifica
Strategia di Sotto-frame: Utilizzo di sotto-frame con bias sinistro anziché regioni centrali simmetriche, focalizzandosi sulla posizione di inizio dell'intervallo

2. Meccanismo di Leftness

Sostituzione della centerness in FCOS, definita come:

leftness1D(r) = √(rright / (rleft + rright))

Enfatizza il bordo sinistro dell'intervallo di beat piuttosto che il centro, più in linea con l'intuizione della localizzazione del beat.

3. Funzione di Perdita

La perdita totale contiene tre componenti:

Lpoint(k,n) = Lcls(ck,n, ĉk,n, n) + 1{ck,n>0}Lreg(rk,n, r̂k,n, n) + 1{ck,n>0}Llft(rk,n, r̂k,n, n)

Perdita di Classificazione: focal loss
Perdita di Regressione: GIoU loss adattato 1D
Perdita di Leftness: perdita di entropia incrociata binaria

Configurazione Sperimentale

Dataset

Utilizzo degli stessi dataset di WaveBeat:

Set di Addestramento: Ballroom, Hainsworth, Beatles, RWC Popular
Set di Test: GTZAN, SMC
Formato Audio: Frequenza di campionamento 22.05kHz, lunghezza campione 2^21 (circa 1.6 minuti)

Metriche di Valutazione

Punteggio F1: Media armonica di precisione e richiamo
CMLt (Continuity-based Metric allowing for Metrical Level Tolerance): Metrica di continuità che tollera la tolleranza del livello metrico
AMLt (Accuracy-based Metric allowing for Metrical Level Tolerance): Metrica di accuratezza che tollera la tolleranza del livello metrico

Metodi di Confronto

WaveBeat (Peak-picking)
WaveBeat (DBN)
Spectral TCN
Hung et al. (Transformer-based)

Dettagli di Implementazione

Ottimizzatore: Adam (lr=1e-3, weight decay=1e-4)
Pianificazione del Tasso di Apprendimento: Riduzione di 10 volte dopo 3 epoch senza miglioramento
Dimensione del Batch: 16
Ambiente di Addestramento: Google Colab, GPU NVIDIA A100 40GB
Strategia di Addestramento: Convalida incrociata 8-fold

Risultati Sperimentali

Risultati Principali

Tra tutte le varianti di WaveBeat, BeatFCOS mostra prestazioni eccellenti su più dataset:

Prestazioni di Tracciamento del Beat

Dataset Ballroom: F1=0.927, CMLt=0.873, AMLt=0.898
Dataset Beatles: F1=0.903, CMLt=0.797, AMLt=0.866
Dataset RWC Popular: F1=0.862, CMLt=0.763, AMLt=0.849

Prestazioni di Tracciamento del Battere

Dataset Ballroom: F1=0.807, CMLt=0.697, AMLt=0.756
Dataset Beatles: F1=0.762, CMLt=0.579, AMLt=0.659
Dataset RWC Popular: F1=0.779, CMLt=0.691, AMLt=0.731

Esperimenti di Ablazione

Leftness vs Centerness

Il meccanismo di leftness supera significativamente centerness su quasi tutti i dataset e metriche, in particolare nel tracciamento del battere.

Soft-NMS vs NMS Standard

Soft-NMS migliora continuamente le prestazioni, suggerendo che aiuta a preservare previsioni di beat valide a breve distanza che potrebbero essere erroneamente soppresse da NMS standard.

Strategia di Messa a Punto della Rete Backbone

La strategia di congelare solo i livelli BatchNorm consentendo l'aggiornamento dei pesi di convoluzione supera significativamente il congelamento completo della rete backbone.

Selezione della Soglia NMS

Attraverso l'analisi dell'istogramma della distribuzione IoU degli intervalli predetti, la soglia IoU viene selezionata in modo guidato dai dati come 0.2, evitando la ricerca in griglia richiesta dal tradizionale DBN.

Lavori Correlati

Metodi Tradizionali

Il tracciamento del beat iniziale si basava sulla rilevazione di punti di inizio, stimando le posizioni del beat attraverso l'identificazione dell'inizio delle note.

Metodi di Apprendimento Profondo

RNN/LSTM: Forniscono supporto per dipendenze temporali, rappresentando un avanzamento significativo rispetto ai metodi non di apprendimento automatico
TCN: Utilizzano numerosi livelli di convoluzione dilatata per fornire ampio contesto temporale
Transformer: Imparano l'allocazione dei pesi su aspetti importanti dei dati sequenziali

Tecniche di Post-elaborazione

I metodi tradizionali utilizzano comunemente DBN per la post-elaborazione, ma presentano problemi come la complessità dell'ottimizzazione dei parametri e l'elevato costo computazionale.

Conclusioni e Discussione

Conclusioni Principali

Il paradigma di rilevamento di oggetti può essere efficacemente applicato al compito di tracciamento del beat
La post-elaborazione NMS è più semplice e meno euristica rispetto al tradizionale DBN
BeatFCOS mostra prestazioni particolarmente eccellenti nella rilevazione del battere
La selezione di iperparametri guidata dai dati è più efficiente della ricerca in griglia

Limitazioni

Limitazioni di Prestazioni: Sebbene competitivo, non supera costantemente i metodi SOTA su tutte le metriche
Vincoli di Memoria: A causa dei vincoli di memoria, è possibile utilizzare solo due livelli FPN anziché tre
Dipendenza dai Dati: L'efficacia del metodo è fortemente influenzata dalla qualità dei dati di addestramento

Direzioni Future

Integrazione di vincoli di adiacenza temporale per applicare meglio distanze regolari tra beat
Esplorazione dell'apprendimento di modelli temporali basati su EM come direzione complementare
Ulteriore ottimizzazione dell'architettura per ridurre i requisiti di memoria

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Prima introduzione del paradigma di rilevamento di oggetti nel tracciamento del beat, approccio innovativo
Tecnica Solida: Il meccanismo di leftness è ben progettato e in linea con l'intuizione della localizzazione del beat
Esperimenti Completi: Include dettagliati esperimenti di ablazione e convalida incrociata 8-fold
Valore Pratico: Semplifica il flusso di post-elaborazione, riducendo la complessità dell'ottimizzazione dei parametri

Carenze

Miglioramento Limitato delle Prestazioni: L'incremento rispetto ai metodi SOTA esistenti non è sufficientemente significativo
Limitazioni di Applicabilità: Principalmente validato su dataset specifici, la capacità di generalizzazione richiede ulteriore verifica
Analisi Teorica Insufficiente: Manca una spiegazione teorica approfondita del perché il rilevamento di oggetti sia adatto al tracciamento del beat

Impatto

Contributo Metodologico: Fornisce nuovi approcci di modellazione al campo del Music Information Retrieval
Ispirazione Interdisciplinare: Dimostra il potenziale di applicazione delle tecniche di visione artificiale nell'elaborazione audio
Valore Ingegneristico: Il flusso di post-elaborazione semplificato ha valore di applicazione pratica

Scenari di Applicazione

Applicazioni musicali che richiedono rilevamento del beat in tempo reale
Sistemi embedded sensibili alla complessità della post-elaborazione
Compiti di analisi musicale con elevati requisiti di rilevazione del battere

Bibliografia

L'articolo cita 34 lavori correlati, coprendo importanti contributi in più domini inclusi tracciamento del beat, rilevamento di oggetti e apprendimento profondo, fornendo una base teorica solida per la ricerca.