Query-based audio source extraction seeks to recover a target source from a mixture conditioned on a query. Existing approaches are largely confined to single-channel audio, leaving the spatial information in multi-channel recordings underexploited. We introduce a query-based spatial audio source extraction framework for recovering dry target signals from first-order ambisonics (FOA) mixtures. Our method accepts either an audio prompt or a text prompt as condition input, enabling flexible end-to-end extraction. The core of our proposed model lies in a tri-axial Transformer that jointly models temporal, frequency, and spatial channel dependencies. The model uses contrastive language-audio pretraining (CLAP) embeddings to enable unified audio-text conditioning via feature-wise linear modulation (FiLM). To eliminate costly annotations and improve generalization, we propose a label-free data pipeline that dynamically generates spatial mixtures and corresponding targets for training. The result of our experiment with high separation quality demonstrates the efficacy of multimodal conditioning and tri-axial modeling. This work establishes a new paradigm for high-fidelity spatial audio separation in immersive applications.
- ID Articolo: 2510.13308
- Titolo: Towards Multimodal Query-Based Spatial Audio Source Extraction
- Autori: Chenxin Yu¹, Hao Ma²*, Xu Li³, Xiao-Lei Zhang²†, Mingjie Shao⁴, Chi Zhang², Xuelong Li²†
- Classificazione: eess.AS (Elaborazione di Segnali Audio)
- Data di Pubblicazione: 15 ottobre 2025 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2510.13308
L'estrazione di sorgenti audio basata su query mira a recuperare la sorgente target da audio misto secondo condizioni di query specificate. I metodi esistenti sono principalmente limitati all'audio monocanale e non sfruttano adeguatamente le informazioni spaziali presenti nelle registrazioni multicanale. Questo articolo propone un framework per l'estrazione di sorgenti audio spaziale basato su query, progettato per recuperare segnali target puliti da audio misto in formato Ambisonico del Primo Ordine (FOA). Il metodo supporta sia prompt audio che prompt testuali come input condizionali, consentendo un'estrazione flessibile end-to-end. Il nucleo del modello è un Transformer triassiale che modella congiuntamente le dipendenze temporali, di frequenza e di canale spaziale. Il modello utilizza embedding CLAP (Contrastive Language-Audio Pre-training), implementando il condizionamento unificato audio-testo attraverso Feature-wise Linear Modulation (FiLM). Per eliminare i costi di annotazione elevati e migliorare la capacità di generalizzazione, viene proposta una pipeline di dati non etichettati che genera dinamicamente audio misto spaziale e target corrispondenti per l'addestramento. I risultati sperimentali dimostrano una separazione di alta qualità, confermando l'efficacia del condizionamento multimodale e della modellazione triassiale.
La separazione di sorgenti audio è un problema fondamentale nell'elaborazione di segnali audio, mirato a recuperare singoli eventi sonori da audio misto complesso. Con lo sviluppo di applicazioni come media immersivi, AR/VR, apparecchi acustici e interazione uomo-macchina, la domanda di elaborazione audio spazializzata è in continua crescita.
- Utilizzo insufficiente di informazioni spaziali: La maggior parte dei metodi esistenti si concentra sulla modellazione nel dominio del tempo o sulla rappresentazione tempo-frequenza, senza sfruttare adeguatamente i segnali spaziali cruciali nella percezione uditiva umana
- Addestramento specifico per categoria: Molti sistemi di separazione adottano un approccio di addestramento specifico per categoria, limitando la capacità di generalizzazione e l'applicabilità in scenari reali diversificati
- Limitazione monocanale: Sebbene alcune ricerche esplorino la separazione di suoni target utilizzando segnali multimodali, rimangono limitate all'audio monocanale
- Sfide in ambienti riverberanti: I metodi tradizionali di filtraggio spaziale o beamforming mostrano prestazioni scadenti in ambienti con forte riverberazione spaziale
La progettazione di un framework che catturi congiuntamente le relazioni temporali e spaziali, supportando al contempo la separazione end-to-end basata su query, rimane una sfida aperta. Questo articolo mira a colmare questo divario, proponendo metodi robusti e ad alta fedeltà per la separazione in ambienti riverberanti e acusticamente complessi.
- Propone il framework BSAST: Band-split Spatial Audio Separation Transformer, che modella congiuntamente i segnali temporali, di frequenza e di canale spaziale, realizzando un'estrazione robusta in condizioni riverberanti
- Introduce il meccanismo di condizionamento CLAP: Un meccanismo di condizionamento basato su CLAP che supporta sia query audio che testuali, andando oltre le impostazioni di categoria fissa
- Progetta una pipeline di dati non etichettati: Genera dinamicamente audio misto spaziale e target corrispondenti, migliorando la scalabilità dell'addestramento senza richiedere annotazioni manuali costose
- Stabilisce un nuovo paradigma: Crea un nuovo paradigma per la separazione audio spaziale ad alta fedeltà nelle applicazioni immersive
Dato audio misto multicanale in formato FOA X∈RC×L (dove C è il numero di canali e L è il numero di campioni audio), il processo di generazione dell'audio misto è:
X=∑i=1Msi∗Hi+N
dove M è il numero di sorgenti, si è il segnale sorgente pulito, Hi è la corrispondente risposta all'impulso della stanza multicanale, * denota la convoluzione, e N rappresenta il rumore di fondo non direzionale.
L'obiettivo è stimare il segnale target pulito corrispondente dalla query q (campione audio o descrizione testuale):
s^q=fθ(X,q)
Il framework BSAST comprende quattro moduli principali:
- Codificatore a divisione di banda: Divide lo spettro in più sottobande ed estrae embedding latenti
- Modulo di condizionamento CLAP: Inietta la guida semantica della query tramite FiLM
- Transformer triassiale con RoPE: Modella le relazioni di dipendenza lungo le dimensioni temporale, di frequenza e di canale
- Modulo di stima dello spettro: Predice direttamente lo spettro target
Adotta una strategia di divisione di banda per partizionare lo spettro di input in N sottobande non sovrapposte:
- Converte lo spettrogramma complesso nel dominio reale (separando parte reale e immaginaria)
- Divide in N sottobande Bn∈RC×T×Fn
- Ogni sottobanda genera embedding attraverso normalizzazione RMS e proiezione lineare Zn∈RC×T×D
- Impila lungo l'asse della sottobanda per ottenere Z∈RC×T×N×D
Utilizza il meccanismo FiLM per iniettare embedding CLAP:
- L'embedding CLAP e∈Rd viene mappato a un vettore bidimensionale attraverso una rete a due strati completamente connessa
- Viene diviso in parametri di scala γ e parametri di offset β
- Modulazione delle caratteristiche: FiLM(Z,γ,β)=γ⊙Z+β
Ogni blocco Transformer applica sequenzialmente l'attenzione assiale lungo gli assi temporale, di frequenza e di canale:
- Utilizza RoPE per codificare le relazioni di dipendenza relativa
- Meccanismo di attenzione multi-testa per gestire le interazioni su ogni asse
- Connessioni residue e reti feedforward
Predice direttamente lo spettro di ampiezza della sorgente target:
- Ogni sottobanda genera lo spettro stimato B^n attraverso MLP
- Concatena tutte le sottobande lungo l'asse di frequenza
- Aggrega le informazioni multicanale attraverso un modulo di fusione di canali
- Modellazione triassiale: Primo a modellare simultaneamente le relazioni di dipendenza nelle dimensioni temporale, di frequenza e spaziale nella separazione audio
- Query multimodale: Supporta uniformemente query audio e testuali, fornendo modalità di interazione flessibili
- Addestramento non etichettato: Genera pseudo-query attraverso perturbazione di embedding CLAP, senza richiedere dati annotati in parallelo
- Utilizzo di informazioni spaziali: Sfrutta pienamente i segnali spaziali nel formato FOA per la separazione di sorgenti
Utilizza il dataset ufficiale DCASE 2025 Task 4:
- Sorgenti pulite: Anechoic Sound Event 1K, FSD50K, dataset EARS
- Risposte all'impulso della stanza: RIR registrate in formato FOA
- Rumore di fondo: FOA-MEIR, FSD50K, ESC-50, DISCO
- Specifiche audio: Frequenza di campionamento 32 kHz, quantizzazione a 16 bit
- Audio misto: Durata di 10 secondi, fino a 3 eventi sovrapposti simultaneamente
- SI-SDR (Scale-Invariant Signal-to-Distortion Ratio)
- SDR (Signal-to-Distortion Ratio)
- Parametri STFT: Lunghezza finestra Hann 2048, lunghezza salto 1024
- Divisione di banda: 25 sottobande non sovrapposte
- Parametri del modello: Dimensione caratteristica 128, 8 blocchi Transformer, 4 teste di attenzione
- Ottimizzatore: AdamW, tasso di apprendimento 3×10⁻⁴, decadimento del peso 1×10⁻²
- Addestramento: Massimo 300 epoche, 2000 campioni per epoca
Combina perdita SI-SDR e perdita di ricostruzione L1:
L=LSI-SDR+λL1
dove λ=100
| Configurazione Canale | Condizione Audio | | Condizione Testo | |
|---|
| SI-SDR | SDR | SI-SDR | SDR |
| wxyz (FOA completo) | 7.296 | 8.595 | 4.098 | 5.664 |
| w (solo canale omnidirezionale) | 5.833 | 6.785 | 4.101 | 4.557 |
Scoperte Chiave:
- La configurazione FOA completa supera significativamente quella monocanale, confermando l'importanza delle informazioni spaziali
- Le prestazioni delle query audio sono superiori a quelle delle query testuali
- Il modello gestisce bene le query testuali anche quando addestrato solo con query audio
| Blocchi Transformer | Condizione Audio | | Condizione Testo | |
|---|
| SI-SDR | SDR | SI-SDR | SDR |
| 4 | 4.791 | 6.273 | 2.435 | 3.052 |
| 6 | 6.426 | 7.752 | 3.871 | 4.459 |
| 8 | 7.296 | 8.595 | 4.098 | 5.664 |
Analisi dei Risultati:
- L'aumento del numero di blocchi Transformer migliora continuamente le prestazioni
- La configurazione con 8 blocchi raggiunge i migliori risultati
- Dimostra una buona scalabilità del modello
La Figura 2 mostra esempi di separazione utilizzando query testuali, dove il modello riesce a estrarre accuratamente suoni target come "typing" e "pouring" dall'audio misto, mantenendo alta fedeltà e chiarezza.
I metodi tradizionali si concentrano principalmente sulla separazione monocanale o stereo, con progressi nella modellazione nel dominio del tempo e nella rappresentazione tempo-frequenza, ma con utilizzo insufficiente dei segnali spaziali.
Ricerche recenti esplorano la separazione di suoni target utilizzando segnali multimodali, ma rimangono principalmente limitate all'audio monocanale, senza sfruttare adeguatamente le informazioni spaziali.
I metodi tradizionali di filtraggio spaziale e beamforming hanno prestazioni limitate in ambienti fortemente riverberanti, richiedendo metodi di apprendimento profondo più potenti.
- Il Transformer triassiale modella efficacemente le relazioni di dipendenza temporale-frequenza-spaziale
- Il condizionamento CLAP realizza query multimodale flessibili
- La pipeline di dati non etichettati migliora l'efficienza di addestramento e la capacità di generalizzazione
- Le informazioni spaziali sono cruciali per la separazione audio di alta qualità
- Validato solo su formato FOA, non esteso ad altri formati multicanale
- Le prestazioni delle query testuali rimangono inferiori a quelle delle query audio
- La complessità computazionale è elevata, richiedendo ottimizzazione per applicazioni in tempo reale
- La robustezza in ambienti estremamente riverberanti richiede ulteriore verifica
- Estensione a più formati audio spaziale
- Miglioramento delle prestazioni di separazione per query testuali
- Compressione del modello e ottimizzazione dell'accelerazione
- Addestramento su dataset di scala più ampia
- Forte innovazione tecnica: Primo a proporre un framework di separazione audio spaziale con modellazione triassiale
- Alto valore pratico: Supporta query multimodale, applicabile a applicazioni immersive
- Completezza del metodo: Forma una pipeline completa dalla generazione dei dati alla progettazione del modello
- Esperimenti sufficienti: Include esperimenti di ablazione e analisi comparative
- Ambito di valutazione limitato: Validato solo su un dataset
- Efficienza computazionale: La modellazione triassiale aumenta la complessità computazionale
- Analisi teorica insufficiente: Manca l'analisi teorica sulla convergenza e la capacità di generalizzazione del metodo
- Considerazioni sulla tempestività: Non discute la fattibilità dell'elaborazione in tempo reale
- Contributo accademico: Stabilisce un nuovo paradigma per la separazione audio spaziale
- Prospettive di applicazione: Ampie applicazioni in AR/VR, apparecchi acustici e altri campi
- Riproducibilità: Fornisce dettagli di implementazione dettagliati
- Ispirazione: Fornisce nuove prospettive per l'elaborazione audio multimodale
- Media immersivi: Elaborazione audio in ambienti VR/AR
- Assistenza acustica intelligente: Potenziamento del suono personalizzato
- Sistemi di conferenza: Separazione vocale in conferenze multi-persona
- Interazione robotica: Comprensione del suono in ambienti complessi
L'articolo cita 27 lavori correlati, coprendo molteplici campi inclusa la separazione di sorgenti audio, l'elaborazione audio spaziale e l'apprendimento profondo, fornendo una solida base teorica per la ricerca.
Valutazione Complessiva: Questo articolo propone un framework innovativo per la separazione di sorgenti audio spaziale, con una soluzione tecnica completa e una verifica sperimentale sufficiente, realizzando progressi significativi nell'utilizzo di query multimodale e informazioni spaziali, gettando le basi per applicazioni audio immersive. Nonostante alcune limitazioni, il contributo complessivo è significativo, con importante valore accademico e prospettive di applicazione.