2025-11-12T08:37:10.186766

Towards Multimodal Query-Based Spatial Audio Source Extraction

Yu, Ma, Li et al.
Query-based audio source extraction seeks to recover a target source from a mixture conditioned on a query. Existing approaches are largely confined to single-channel audio, leaving the spatial information in multi-channel recordings underexploited. We introduce a query-based spatial audio source extraction framework for recovering dry target signals from first-order ambisonics (FOA) mixtures. Our method accepts either an audio prompt or a text prompt as condition input, enabling flexible end-to-end extraction. The core of our proposed model lies in a tri-axial Transformer that jointly models temporal, frequency, and spatial channel dependencies. The model uses contrastive language-audio pretraining (CLAP) embeddings to enable unified audio-text conditioning via feature-wise linear modulation (FiLM). To eliminate costly annotations and improve generalization, we propose a label-free data pipeline that dynamically generates spatial mixtures and corresponding targets for training. The result of our experiment with high separation quality demonstrates the efficacy of multimodal conditioning and tri-axial modeling. This work establishes a new paradigm for high-fidelity spatial audio separation in immersive applications.
academic

Verso l'Estrazione di Sorgenti Audio Spaziale Basata su Query Multimodale

Informazioni Fondamentali

  • ID Articolo: 2510.13308
  • Titolo: Towards Multimodal Query-Based Spatial Audio Source Extraction
  • Autori: Chenxin Yu¹, Hao Ma²*, Xu Li³, Xiao-Lei Zhang²†, Mingjie Shao⁴, Chi Zhang², Xuelong Li²†
  • Classificazione: eess.AS (Elaborazione di Segnali Audio)
  • Data di Pubblicazione: 15 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.13308

Riassunto

L'estrazione di sorgenti audio basata su query mira a recuperare la sorgente target da audio misto secondo condizioni di query specificate. I metodi esistenti sono principalmente limitati all'audio monocanale e non sfruttano adeguatamente le informazioni spaziali presenti nelle registrazioni multicanale. Questo articolo propone un framework per l'estrazione di sorgenti audio spaziale basato su query, progettato per recuperare segnali target puliti da audio misto in formato Ambisonico del Primo Ordine (FOA). Il metodo supporta sia prompt audio che prompt testuali come input condizionali, consentendo un'estrazione flessibile end-to-end. Il nucleo del modello è un Transformer triassiale che modella congiuntamente le dipendenze temporali, di frequenza e di canale spaziale. Il modello utilizza embedding CLAP (Contrastive Language-Audio Pre-training), implementando il condizionamento unificato audio-testo attraverso Feature-wise Linear Modulation (FiLM). Per eliminare i costi di annotazione elevati e migliorare la capacità di generalizzazione, viene proposta una pipeline di dati non etichettati che genera dinamicamente audio misto spaziale e target corrispondenti per l'addestramento. I risultati sperimentali dimostrano una separazione di alta qualità, confermando l'efficacia del condizionamento multimodale e della modellazione triassiale.

Contesto di Ricerca e Motivazione

Definizione del Problema

La separazione di sorgenti audio è un problema fondamentale nell'elaborazione di segnali audio, mirato a recuperare singoli eventi sonori da audio misto complesso. Con lo sviluppo di applicazioni come media immersivi, AR/VR, apparecchi acustici e interazione uomo-macchina, la domanda di elaborazione audio spazializzata è in continua crescita.

Limitazioni dei Metodi Esistenti

  1. Utilizzo insufficiente di informazioni spaziali: La maggior parte dei metodi esistenti si concentra sulla modellazione nel dominio del tempo o sulla rappresentazione tempo-frequenza, senza sfruttare adeguatamente i segnali spaziali cruciali nella percezione uditiva umana
  2. Addestramento specifico per categoria: Molti sistemi di separazione adottano un approccio di addestramento specifico per categoria, limitando la capacità di generalizzazione e l'applicabilità in scenari reali diversificati
  3. Limitazione monocanale: Sebbene alcune ricerche esplorino la separazione di suoni target utilizzando segnali multimodali, rimangono limitate all'audio monocanale
  4. Sfide in ambienti riverberanti: I metodi tradizionali di filtraggio spaziale o beamforming mostrano prestazioni scadenti in ambienti con forte riverberazione spaziale

Motivazione della Ricerca

La progettazione di un framework che catturi congiuntamente le relazioni temporali e spaziali, supportando al contempo la separazione end-to-end basata su query, rimane una sfida aperta. Questo articolo mira a colmare questo divario, proponendo metodi robusti e ad alta fedeltà per la separazione in ambienti riverberanti e acusticamente complessi.

Contributi Principali

  1. Propone il framework BSAST: Band-split Spatial Audio Separation Transformer, che modella congiuntamente i segnali temporali, di frequenza e di canale spaziale, realizzando un'estrazione robusta in condizioni riverberanti
  2. Introduce il meccanismo di condizionamento CLAP: Un meccanismo di condizionamento basato su CLAP che supporta sia query audio che testuali, andando oltre le impostazioni di categoria fissa
  3. Progetta una pipeline di dati non etichettati: Genera dinamicamente audio misto spaziale e target corrispondenti, migliorando la scalabilità dell'addestramento senza richiedere annotazioni manuali costose
  4. Stabilisce un nuovo paradigma: Crea un nuovo paradigma per la separazione audio spaziale ad alta fedeltà nelle applicazioni immersive

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato audio misto multicanale in formato FOA XRC×LX \in \mathbb{R}^{C \times L} (dove C è il numero di canali e L è il numero di campioni audio), il processo di generazione dell'audio misto è:

X=i=1MsiHi+NX = \sum_{i=1}^{M} s_i * H_i + N

dove M è il numero di sorgenti, sis_i è il segnale sorgente pulito, HiH_i è la corrispondente risposta all'impulso della stanza multicanale, * denota la convoluzione, e N rappresenta il rumore di fondo non direzionale.

L'obiettivo è stimare il segnale target pulito corrispondente dalla query q (campione audio o descrizione testuale): s^q=fθ(X,q)\hat{s}_q = f_\theta(X, q)

Architettura del Modello

1. Panoramica del Sistema

Il framework BSAST comprende quattro moduli principali:

  • Codificatore a divisione di banda: Divide lo spettro in più sottobande ed estrae embedding latenti
  • Modulo di condizionamento CLAP: Inietta la guida semantica della query tramite FiLM
  • Transformer triassiale con RoPE: Modella le relazioni di dipendenza lungo le dimensioni temporale, di frequenza e di canale
  • Modulo di stima dello spettro: Predice direttamente lo spettro target

2. Codificatore a Divisione di Banda

Adotta una strategia di divisione di banda per partizionare lo spettro di input in N sottobande non sovrapposte:

  • Converte lo spettrogramma complesso nel dominio reale (separando parte reale e immaginaria)
  • Divide in N sottobande BnRC×T×FnB_n \in \mathbb{R}^{C \times T \times F_n}
  • Ogni sottobanda genera embedding attraverso normalizzazione RMS e proiezione lineare ZnRC×T×DZ_n \in \mathbb{R}^{C \times T \times D}
  • Impila lungo l'asse della sottobanda per ottenere ZRC×T×N×DZ \in \mathbb{R}^{C \times T \times N \times D}

3. Condizionamento CLAP

Utilizza il meccanismo FiLM per iniettare embedding CLAP:

  • L'embedding CLAP eRde \in \mathbb{R}^d viene mappato a un vettore bidimensionale attraverso una rete a due strati completamente connessa
  • Viene diviso in parametri di scala γ\gamma e parametri di offset β\beta
  • Modulazione delle caratteristiche: FiLM(Z,γ,β)=γZ+β\text{FiLM}(Z,\gamma,\beta) = \gamma \odot Z + \beta

4. Transformer Triassiale con RoPE

Ogni blocco Transformer applica sequenzialmente l'attenzione assiale lungo gli assi temporale, di frequenza e di canale:

  • Utilizza RoPE per codificare le relazioni di dipendenza relativa
  • Meccanismo di attenzione multi-testa per gestire le interazioni su ogni asse
  • Connessioni residue e reti feedforward

5. Modulo di Stima dello Spettro

Predice direttamente lo spettro di ampiezza della sorgente target:

  • Ogni sottobanda genera lo spettro stimato B^n\hat{B}_n attraverso MLP
  • Concatena tutte le sottobande lungo l'asse di frequenza
  • Aggrega le informazioni multicanale attraverso un modulo di fusione di canali

Punti di Innovazione Tecnica

  1. Modellazione triassiale: Primo a modellare simultaneamente le relazioni di dipendenza nelle dimensioni temporale, di frequenza e spaziale nella separazione audio
  2. Query multimodale: Supporta uniformemente query audio e testuali, fornendo modalità di interazione flessibili
  3. Addestramento non etichettato: Genera pseudo-query attraverso perturbazione di embedding CLAP, senza richiedere dati annotati in parallelo
  4. Utilizzo di informazioni spaziali: Sfrutta pienamente i segnali spaziali nel formato FOA per la separazione di sorgenti

Configurazione Sperimentale

Dataset

Utilizza il dataset ufficiale DCASE 2025 Task 4:

  • Sorgenti pulite: Anechoic Sound Event 1K, FSD50K, dataset EARS
  • Risposte all'impulso della stanza: RIR registrate in formato FOA
  • Rumore di fondo: FOA-MEIR, FSD50K, ESC-50, DISCO
  • Specifiche audio: Frequenza di campionamento 32 kHz, quantizzazione a 16 bit
  • Audio misto: Durata di 10 secondi, fino a 3 eventi sovrapposti simultaneamente

Metriche di Valutazione

  • SI-SDR (Scale-Invariant Signal-to-Distortion Ratio)
  • SDR (Signal-to-Distortion Ratio)

Dettagli di Implementazione

  • Parametri STFT: Lunghezza finestra Hann 2048, lunghezza salto 1024
  • Divisione di banda: 25 sottobande non sovrapposte
  • Parametri del modello: Dimensione caratteristica 128, 8 blocchi Transformer, 4 teste di attenzione
  • Ottimizzatore: AdamW, tasso di apprendimento 3×10⁻⁴, decadimento del peso 1×10⁻²
  • Addestramento: Massimo 300 epoche, 2000 campioni per epoca

Obiettivo di Addestramento

Combina perdita SI-SDR e perdita di ricostruzione L1: L=LSI-SDR+λL1L = L_{\text{SI-SDR}} + \lambda L_1 dove λ=100\lambda = 100

Risultati Sperimentali

Risultati Principali

Configurazione CanaleCondizione AudioCondizione Testo
SI-SDRSDRSI-SDRSDR
wxyz (FOA completo)7.2968.5954.0985.664
w (solo canale omnidirezionale)5.8336.7854.1014.557

Scoperte Chiave:

  1. La configurazione FOA completa supera significativamente quella monocanale, confermando l'importanza delle informazioni spaziali
  2. Le prestazioni delle query audio sono superiori a quelle delle query testuali
  3. Il modello gestisce bene le query testuali anche quando addestrato solo con query audio

Esperimenti di Ablazione

Blocchi TransformerCondizione AudioCondizione Testo
SI-SDRSDRSI-SDRSDR
44.7916.2732.4353.052
66.4267.7523.8714.459
87.2968.5954.0985.664

Analisi dei Risultati:

  • L'aumento del numero di blocchi Transformer migliora continuamente le prestazioni
  • La configurazione con 8 blocchi raggiunge i migliori risultati
  • Dimostra una buona scalabilità del modello

Analisi di Casi

La Figura 2 mostra esempi di separazione utilizzando query testuali, dove il modello riesce a estrarre accuratamente suoni target come "typing" e "pouring" dall'audio misto, mantenendo alta fedeltà e chiarezza.

Lavori Correlati

Separazione di Sorgenti Audio

I metodi tradizionali si concentrano principalmente sulla separazione monocanale o stereo, con progressi nella modellazione nel dominio del tempo e nella rappresentazione tempo-frequenza, ma con utilizzo insufficiente dei segnali spaziali.

Separazione Condizionata da Query

Ricerche recenti esplorano la separazione di suoni target utilizzando segnali multimodali, ma rimangono principalmente limitate all'audio monocanale, senza sfruttare adeguatamente le informazioni spaziali.

Elaborazione Audio Spaziale

I metodi tradizionali di filtraggio spaziale e beamforming hanno prestazioni limitate in ambienti fortemente riverberanti, richiedendo metodi di apprendimento profondo più potenti.

Conclusioni e Discussione

Conclusioni Principali

  1. Il Transformer triassiale modella efficacemente le relazioni di dipendenza temporale-frequenza-spaziale
  2. Il condizionamento CLAP realizza query multimodale flessibili
  3. La pipeline di dati non etichettati migliora l'efficienza di addestramento e la capacità di generalizzazione
  4. Le informazioni spaziali sono cruciali per la separazione audio di alta qualità

Limitazioni

  1. Validato solo su formato FOA, non esteso ad altri formati multicanale
  2. Le prestazioni delle query testuali rimangono inferiori a quelle delle query audio
  3. La complessità computazionale è elevata, richiedendo ottimizzazione per applicazioni in tempo reale
  4. La robustezza in ambienti estremamente riverberanti richiede ulteriore verifica

Direzioni Future

  1. Estensione a più formati audio spaziale
  2. Miglioramento delle prestazioni di separazione per query testuali
  3. Compressione del modello e ottimizzazione dell'accelerazione
  4. Addestramento su dataset di scala più ampia

Valutazione Approfondita

Punti di Forza

  1. Forte innovazione tecnica: Primo a proporre un framework di separazione audio spaziale con modellazione triassiale
  2. Alto valore pratico: Supporta query multimodale, applicabile a applicazioni immersive
  3. Completezza del metodo: Forma una pipeline completa dalla generazione dei dati alla progettazione del modello
  4. Esperimenti sufficienti: Include esperimenti di ablazione e analisi comparative

Insufficienze

  1. Ambito di valutazione limitato: Validato solo su un dataset
  2. Efficienza computazionale: La modellazione triassiale aumenta la complessità computazionale
  3. Analisi teorica insufficiente: Manca l'analisi teorica sulla convergenza e la capacità di generalizzazione del metodo
  4. Considerazioni sulla tempestività: Non discute la fattibilità dell'elaborazione in tempo reale

Impatto

  1. Contributo accademico: Stabilisce un nuovo paradigma per la separazione audio spaziale
  2. Prospettive di applicazione: Ampie applicazioni in AR/VR, apparecchi acustici e altri campi
  3. Riproducibilità: Fornisce dettagli di implementazione dettagliati
  4. Ispirazione: Fornisce nuove prospettive per l'elaborazione audio multimodale

Scenari Applicabili

  1. Media immersivi: Elaborazione audio in ambienti VR/AR
  2. Assistenza acustica intelligente: Potenziamento del suono personalizzato
  3. Sistemi di conferenza: Separazione vocale in conferenze multi-persona
  4. Interazione robotica: Comprensione del suono in ambienti complessi

Bibliografia

L'articolo cita 27 lavori correlati, coprendo molteplici campi inclusa la separazione di sorgenti audio, l'elaborazione audio spaziale e l'apprendimento profondo, fornendo una solida base teorica per la ricerca.


Valutazione Complessiva: Questo articolo propone un framework innovativo per la separazione di sorgenti audio spaziale, con una soluzione tecnica completa e una verifica sperimentale sufficiente, realizzando progressi significativi nell'utilizzo di query multimodale e informazioni spaziali, gettando le basi per applicazioni audio immersive. Nonostante alcune limitazioni, il contributo complessivo è significativo, con importante valore accademico e prospettive di applicazione.