Recent beat and downbeat tracking models (e.g., RNNs, TCNs, Transformers) output frame-level activations. We propose reframing this task as object detection, where beats and downbeats are modeled as temporal "objects." Adapting the FCOS detector from computer vision to 1D audio, we replace its original backbone with WaveBeat's temporal feature extractor and add a Feature Pyramid Network to capture multi-scale temporal patterns. The model predicts overlapping beat/downbeat intervals with confidence scores, followed by non-maximum suppression (NMS) to select final predictions. This NMS step serves a similar role to DBNs in traditional trackers, but is simpler and less heuristic. Evaluated on standard music datasets, our approach achieves competitive results, showing that object detection techniques can effectively model musical beats with minimal adaptation.
I recenti modelli di tracciamento del beat e del battere (come RNN, TCN, Transformer) producono valori di attivazione a livello di frame. Questo articolo propone di ridefinire questo compito come un problema di rilevamento di oggetti, modellando beat e battere come "oggetti" temporali. Adattando il rilevatore FCOS dalla visione artificiale a audio 1D, sostituendo la rete backbone originale con l'estrattore di caratteristiche temporali di WaveBeat e aggiungendo una rete piramidale di caratteristiche per catturare modelli temporali multi-scala. Il modello predice intervalli di beat/battere sovrapposti e i relativi punteggi di confidenza, quindi utilizza la soppressione dei massimi non locali (NMS) per selezionare le previsioni finali. Questo passaggio NMS svolge un ruolo simile al DBN nei tracciatori tradizionali, ma è più semplice e meno euristico. La valutazione su dataset musicali standard mostra che il metodo raggiunge risultati competitivi, dimostrando che le tecniche di rilevamento di oggetti possono modellare efficacemente il beat musicale con adattamenti minimi.
Il tracciamento del beat è una direzione di ricerca importante nel campo del Music Information Retrieval (MIR), includendo la previsione computazionale delle posizioni del beat e del battere. I metodi tradizionali si sono evoluti dalla rilevazione di punti di inizio iniziali alle tecniche moderne di apprendimento automatico, inclusi RNN, LSTM, TCN e Transformer.
Complessità della Post-elaborazione: La maggior parte delle moderne reti di rilevamento del beat produce funzioni di attivazione per frame, richiedendo l'uso di Reti Bayesiane Dinamiche (DBN) per la post-elaborazione al fine di produrre le posizioni finali del beat
Difetti del DBN: I DBN tendono a fallire durante i cambiamenti di tempo e di metro, e sono eccessivamente euristici
Difficoltà nella Rilevazione del Battere: Le prestazioni nella rilevazione del battere sono generalmente inferiori rispetto al rilevamento del beat
Gli autori ritengono che il tracciamento del beat possa essere visto come una forma di rilevamento di oggetti nell'audio, pertanto tentano di utilizzare reti neurali specificamente progettate per il rilevamento di oggetti al fine di migliorare il tracciamento del beat, in particolare le prestazioni di tracciamento del battere.
Innovazione del Paradigma: Prima ridefinizione del tracciamento del beat come problema di rilevamento di oggetti temporali 1D, modellando beat e battere come oggetti intervallari temporali
Adattamento dell'Architettura: Adattamento riuscito del modello di rilevamento di oggetti FCOS al dominio audio, sostituendo la rete backbone ResNet-50 originale con WaveBeat
Semplificazione della Post-elaborazione: Sostituzione della tradizionale post-elaborazione DBN con NMS, fornendo una soluzione più semplice e meno euristica
Miglioramento delle Prestazioni: Raggiungimento di risultati competitivi su dataset musicali standard, con prestazioni particolarmente eccellenti nella rilevazione del battere
Conversione del rilevamento del beat da punti temporali 0D a problema di rilevamento di intervalli in audio 1D. L'input è la forma d'onda audio grezza, l'output è la previsione di intervalli di beat/battere con punteggi di confidenza.
Limitazioni di Dimensione: Ogni livello FPN è responsabile di intervalli di scala temporale specifica
Strategia di Sotto-frame: Utilizzo di sotto-frame con bias sinistro anziché regioni centrali simmetriche, focalizzandosi sulla posizione di inizio dell'intervallo
Soft-NMS migliora continuamente le prestazioni, suggerendo che aiuta a preservare previsioni di beat valide a breve distanza che potrebbero essere erroneamente soppresse da NMS standard.
La strategia di congelare solo i livelli BatchNorm consentendo l'aggiornamento dei pesi di convoluzione supera significativamente il congelamento completo della rete backbone.
Attraverso l'analisi dell'istogramma della distribuzione IoU degli intervalli predetti, la soglia IoU viene selezionata in modo guidato dai dati come 0.2, evitando la ricerca in griglia richiesta dal tradizionale DBN.
Il tracciamento del beat iniziale si basava sulla rilevazione di punti di inizio, stimando le posizioni del beat attraverso l'identificazione dell'inizio delle note.
I metodi tradizionali utilizzano comunemente DBN per la post-elaborazione, ma presentano problemi come la complessità dell'ottimizzazione dei parametri e l'elevato costo computazionale.
L'articolo cita 34 lavori correlati, coprendo importanti contributi in più domini inclusi tracciamento del beat, rilevamento di oggetti e apprendimento profondo, fornendo una base teorica solida per la ricerca.