2025-11-12T08:37:10.186766

Towards Multimodal Query-Based Spatial Audio Source Extraction

Yu, Ma, Li et al.

Query-based audio source extraction seeks to recover a target source from a mixture conditioned on a query. Existing approaches are largely confined to single-channel audio, leaving the spatial information in multi-channel recordings underexploited. We introduce a query-based spatial audio source extraction framework for recovering dry target signals from first-order ambisonics (FOA) mixtures. Our method accepts either an audio prompt or a text prompt as condition input, enabling flexible end-to-end extraction. The core of our proposed model lies in a tri-axial Transformer that jointly models temporal, frequency, and spatial channel dependencies. The model uses contrastive language-audio pretraining (CLAP) embeddings to enable unified audio-text conditioning via feature-wise linear modulation (FiLM). To eliminate costly annotations and improve generalization, we propose a label-free data pipeline that dynamically generates spatial mixtures and corresponding targets for training. The result of our experiment with high separation quality demonstrates the efficacy of multimodal conditioning and tri-axial modeling. This work establishes a new paradigm for high-fidelity spatial audio separation in immersive applications.

academic

Verso l'Estrazione di Sorgenti Audio Spaziale Basata su Query Multimodale

Informazioni Fondamentali

ID Articolo: 2510.13308
Titolo: Towards Multimodal Query-Based Spatial Audio Source Extraction
Autori: Chenxin Yu¹, Hao Ma²*, Xu Li³, Xiao-Lei Zhang²†, Mingjie Shao⁴, Chi Zhang², Xuelong Li²†
Classificazione: eess.AS (Elaborazione di Segnali Audio)
Data di Pubblicazione: 15 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.13308

Riassunto

L'estrazione di sorgenti audio basata su query mira a recuperare la sorgente target da audio misto secondo condizioni di query specificate. I metodi esistenti sono principalmente limitati all'audio monocanale e non sfruttano adeguatamente le informazioni spaziali presenti nelle registrazioni multicanale. Questo articolo propone un framework per l'estrazione di sorgenti audio spaziale basato su query, progettato per recuperare segnali target puliti da audio misto in formato Ambisonico del Primo Ordine (FOA). Il metodo supporta sia prompt audio che prompt testuali come input condizionali, consentendo un'estrazione flessibile end-to-end. Il nucleo del modello è un Transformer triassiale che modella congiuntamente le dipendenze temporali, di frequenza e di canale spaziale. Il modello utilizza embedding CLAP (Contrastive Language-Audio Pre-training), implementando il condizionamento unificato audio-testo attraverso Feature-wise Linear Modulation (FiLM). Per eliminare i costi di annotazione elevati e migliorare la capacità di generalizzazione, viene proposta una pipeline di dati non etichettati che genera dinamicamente audio misto spaziale e target corrispondenti per l'addestramento. I risultati sperimentali dimostrano una separazione di alta qualità, confermando l'efficacia del condizionamento multimodale e della modellazione triassiale.

Contesto di Ricerca e Motivazione

Definizione del Problema

La separazione di sorgenti audio è un problema fondamentale nell'elaborazione di segnali audio, mirato a recuperare singoli eventi sonori da audio misto complesso. Con lo sviluppo di applicazioni come media immersivi, AR/VR, apparecchi acustici e interazione uomo-macchina, la domanda di elaborazione audio spazializzata è in continua crescita.

Limitazioni dei Metodi Esistenti

Utilizzo insufficiente di informazioni spaziali: La maggior parte dei metodi esistenti si concentra sulla modellazione nel dominio del tempo o sulla rappresentazione tempo-frequenza, senza sfruttare adeguatamente i segnali spaziali cruciali nella percezione uditiva umana
Addestramento specifico per categoria: Molti sistemi di separazione adottano un approccio di addestramento specifico per categoria, limitando la capacità di generalizzazione e l'applicabilità in scenari reali diversificati
Limitazione monocanale: Sebbene alcune ricerche esplorino la separazione di suoni target utilizzando segnali multimodali, rimangono limitate all'audio monocanale
Sfide in ambienti riverberanti: I metodi tradizionali di filtraggio spaziale o beamforming mostrano prestazioni scadenti in ambienti con forte riverberazione spaziale

Motivazione della Ricerca

La progettazione di un framework che catturi congiuntamente le relazioni temporali e spaziali, supportando al contempo la separazione end-to-end basata su query, rimane una sfida aperta. Questo articolo mira a colmare questo divario, proponendo metodi robusti e ad alta fedeltà per la separazione in ambienti riverberanti e acusticamente complessi.

Contributi Principali

Propone il framework BSAST: Band-split Spatial Audio Separation Transformer, che modella congiuntamente i segnali temporali, di frequenza e di canale spaziale, realizzando un'estrazione robusta in condizioni riverberanti
Introduce il meccanismo di condizionamento CLAP: Un meccanismo di condizionamento basato su CLAP che supporta sia query audio che testuali, andando oltre le impostazioni di categoria fissa
Progetta una pipeline di dati non etichettati: Genera dinamicamente audio misto spaziale e target corrispondenti, migliorando la scalabilità dell'addestramento senza richiedere annotazioni manuali costose
Stabilisce un nuovo paradigma: Crea un nuovo paradigma per la separazione audio spaziale ad alta fedeltà nelle applicazioni immersive

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato audio misto multicanale in formato FOA $X \in \mathbb{R}^{C \times L}$ (dove C è il numero di canali e L è il numero di campioni audio), il processo di generazione dell'audio misto è:

$X = \sum_{i=1}^{M} s_i * H_i + N$

dove M è il numero di sorgenti, $s_i$ è il segnale sorgente pulito, $H_i$ è la corrispondente risposta all'impulso della stanza multicanale, * denota la convoluzione, e N rappresenta il rumore di fondo non direzionale.

L'obiettivo è stimare il segnale target pulito corrispondente dalla query q (campione audio o descrizione testuale): $\hat{s}_q = f_\theta(X, q)$

Architettura del Modello

1. Panoramica del Sistema

Il framework BSAST comprende quattro moduli principali:

Codificatore a divisione di banda: Divide lo spettro in più sottobande ed estrae embedding latenti
Modulo di condizionamento CLAP: Inietta la guida semantica della query tramite FiLM
Transformer triassiale con RoPE: Modella le relazioni di dipendenza lungo le dimensioni temporale, di frequenza e di canale
Modulo di stima dello spettro: Predice direttamente lo spettro target

2. Codificatore a Divisione di Banda

Adotta una strategia di divisione di banda per partizionare lo spettro di input in N sottobande non sovrapposte:

Converte lo spettrogramma complesso nel dominio reale (separando parte reale e immaginaria)
Divide in N sottobande $B_n \in \mathbb{R}^{C \times T \times F_n}$
Ogni sottobanda genera embedding attraverso normalizzazione RMS e proiezione lineare $Z_n \in \mathbb{R}^{C \times T \times D}$
Impila lungo l'asse della sottobanda per ottenere $Z \in \mathbb{R}^{C \times T \times N \times D}$

3. Condizionamento CLAP

Utilizza il meccanismo FiLM per iniettare embedding CLAP:

L'embedding CLAP $e \in \mathbb{R}^d$ viene mappato a un vettore bidimensionale attraverso una rete a due strati completamente connessa
Viene diviso in parametri di scala $\gamma$ e parametri di offset $\beta$
Modulazione delle caratteristiche: $\text{FiLM}(Z,\gamma,\beta) = \gamma \odot Z + \beta$

4. Transformer Triassiale con RoPE

Ogni blocco Transformer applica sequenzialmente l'attenzione assiale lungo gli assi temporale, di frequenza e di canale:

Utilizza RoPE per codificare le relazioni di dipendenza relativa
Meccanismo di attenzione multi-testa per gestire le interazioni su ogni asse
Connessioni residue e reti feedforward

5. Modulo di Stima dello Spettro

Predice direttamente lo spettro di ampiezza della sorgente target:

Ogni sottobanda genera lo spettro stimato $\hat{B}_n$ attraverso MLP
Concatena tutte le sottobande lungo l'asse di frequenza
Aggrega le informazioni multicanale attraverso un modulo di fusione di canali

Punti di Innovazione Tecnica

Modellazione triassiale: Primo a modellare simultaneamente le relazioni di dipendenza nelle dimensioni temporale, di frequenza e spaziale nella separazione audio
Query multimodale: Supporta uniformemente query audio e testuali, fornendo modalità di interazione flessibili
Addestramento non etichettato: Genera pseudo-query attraverso perturbazione di embedding CLAP, senza richiedere dati annotati in parallelo
Utilizzo di informazioni spaziali: Sfrutta pienamente i segnali spaziali nel formato FOA per la separazione di sorgenti

Configurazione Sperimentale

Dataset

Utilizza il dataset ufficiale DCASE 2025 Task 4:

Sorgenti pulite: Anechoic Sound Event 1K, FSD50K, dataset EARS
Risposte all'impulso della stanza: RIR registrate in formato FOA
Rumore di fondo: FOA-MEIR, FSD50K, ESC-50, DISCO
Specifiche audio: Frequenza di campionamento 32 kHz, quantizzazione a 16 bit
Audio misto: Durata di 10 secondi, fino a 3 eventi sovrapposti simultaneamente

Metriche di Valutazione

SI-SDR (Scale-Invariant Signal-to-Distortion Ratio)
SDR (Signal-to-Distortion Ratio)

Dettagli di Implementazione

Parametri STFT: Lunghezza finestra Hann 2048, lunghezza salto 1024
Divisione di banda: 25 sottobande non sovrapposte
Parametri del modello: Dimensione caratteristica 128, 8 blocchi Transformer, 4 teste di attenzione
Ottimizzatore: AdamW, tasso di apprendimento 3×10⁻⁴, decadimento del peso 1×10⁻²
Addestramento: Massimo 300 epoche, 2000 campioni per epoca

Obiettivo di Addestramento

Combina perdita SI-SDR e perdita di ricostruzione L1: $L = L_{\text{SI-SDR}} + \lambda L_1$ dove $\lambda = 100$

Risultati Sperimentali

Risultati Principali

Configurazione Canale	Condizione Audio		Condizione Testo
	SI-SDR	SDR	SI-SDR	SDR
wxyz (FOA completo)	7.296	8.595	4.098	5.664
w (solo canale omnidirezionale)	5.833	6.785	4.101	4.557

Scoperte Chiave:

La configurazione FOA completa supera significativamente quella monocanale, confermando l'importanza delle informazioni spaziali
Le prestazioni delle query audio sono superiori a quelle delle query testuali
Il modello gestisce bene le query testuali anche quando addestrato solo con query audio

Esperimenti di Ablazione

Blocchi Transformer	Condizione Audio		Condizione Testo
	SI-SDR	SDR	SI-SDR	SDR
4	4.791	6.273	2.435	3.052
6	6.426	7.752	3.871	4.459
8	7.296	8.595	4.098	5.664

Analisi dei Risultati:

L'aumento del numero di blocchi Transformer migliora continuamente le prestazioni
La configurazione con 8 blocchi raggiunge i migliori risultati
Dimostra una buona scalabilità del modello

Analisi di Casi

La Figura 2 mostra esempi di separazione utilizzando query testuali, dove il modello riesce a estrarre accuratamente suoni target come "typing" e "pouring" dall'audio misto, mantenendo alta fedeltà e chiarezza.

Lavori Correlati

Separazione di Sorgenti Audio

I metodi tradizionali si concentrano principalmente sulla separazione monocanale o stereo, con progressi nella modellazione nel dominio del tempo e nella rappresentazione tempo-frequenza, ma con utilizzo insufficiente dei segnali spaziali.

Separazione Condizionata da Query

Ricerche recenti esplorano la separazione di suoni target utilizzando segnali multimodali, ma rimangono principalmente limitate all'audio monocanale, senza sfruttare adeguatamente le informazioni spaziali.

Elaborazione Audio Spaziale

I metodi tradizionali di filtraggio spaziale e beamforming hanno prestazioni limitate in ambienti fortemente riverberanti, richiedendo metodi di apprendimento profondo più potenti.

Conclusioni e Discussione

Conclusioni Principali

Il Transformer triassiale modella efficacemente le relazioni di dipendenza temporale-frequenza-spaziale
Il condizionamento CLAP realizza query multimodale flessibili
La pipeline di dati non etichettati migliora l'efficienza di addestramento e la capacità di generalizzazione
Le informazioni spaziali sono cruciali per la separazione audio di alta qualità

Limitazioni

Validato solo su formato FOA, non esteso ad altri formati multicanale
Le prestazioni delle query testuali rimangono inferiori a quelle delle query audio
La complessità computazionale è elevata, richiedendo ottimizzazione per applicazioni in tempo reale
La robustezza in ambienti estremamente riverberanti richiede ulteriore verifica

Direzioni Future

Estensione a più formati audio spaziale
Miglioramento delle prestazioni di separazione per query testuali
Compressione del modello e ottimizzazione dell'accelerazione
Addestramento su dataset di scala più ampia

Valutazione Approfondita

Punti di Forza

Forte innovazione tecnica: Primo a proporre un framework di separazione audio spaziale con modellazione triassiale
Alto valore pratico: Supporta query multimodale, applicabile a applicazioni immersive
Completezza del metodo: Forma una pipeline completa dalla generazione dei dati alla progettazione del modello
Esperimenti sufficienti: Include esperimenti di ablazione e analisi comparative

Insufficienze

Ambito di valutazione limitato: Validato solo su un dataset
Efficienza computazionale: La modellazione triassiale aumenta la complessità computazionale
Analisi teorica insufficiente: Manca l'analisi teorica sulla convergenza e la capacità di generalizzazione del metodo
Considerazioni sulla tempestività: Non discute la fattibilità dell'elaborazione in tempo reale

Impatto

Contributo accademico: Stabilisce un nuovo paradigma per la separazione audio spaziale
Prospettive di applicazione: Ampie applicazioni in AR/VR, apparecchi acustici e altri campi
Riproducibilità: Fornisce dettagli di implementazione dettagliati
Ispirazione: Fornisce nuove prospettive per l'elaborazione audio multimodale

Scenari Applicabili

Media immersivi: Elaborazione audio in ambienti VR/AR
Assistenza acustica intelligente: Potenziamento del suono personalizzato
Sistemi di conferenza: Separazione vocale in conferenze multi-persona
Interazione robotica: Comprensione del suono in ambienti complessi

Bibliografia

L'articolo cita 27 lavori correlati, coprendo molteplici campi inclusa la separazione di sorgenti audio, l'elaborazione audio spaziale e l'apprendimento profondo, fornendo una solida base teorica per la ricerca.

Valutazione Complessiva: Questo articolo propone un framework innovativo per la separazione di sorgenti audio spaziale, con una soluzione tecnica completa e una verifica sperimentale sufficiente, realizzando progressi significativi nell'utilizzo di query multimodale e informazioni spaziali, gettando le basi per applicazioni audio immersive. Nonostante alcune limitazioni, il contributo complessivo è significativo, con importante valore accademico e prospettive di applicazione.