Spatially-Augmented Sequence-to-Sequence Neural Diarization for Meetings
Li, Cheng, Zhang et al.
This paper proposes a Spatially-Augmented Sequence-to-Sequence Neural Diarization (SA-S2SND) framework, which integrates direction-of-arrival (DOA) cues estimated by SRP-DNN into the S2SND backbone. A two-stage training strategy is adopted: the model is first trained with single-channel audio and DOA features, and then further optimized with multi-channel inputs under DOA guidance. In addition, a simulated DOA generation scheme is introduced to alleviate dependence on matched multi-channel corpora. On the AliMeeting dataset, SA-S2SND consistently outperform the S2SND baseline, achieving a 7.4% relative DER reduction in the offline mode and over 19% improvement when combined with channel attention. These results demonstrate that spatial cues are highly complementary to cross-channel modeling, yielding good performance in both online and offline settings.
academic
Diarizzazione Neurale Sequence-to-Sequence Aumentata Spazialmente per Riunioni
Questo articolo propone un framework di diarizzazione neurale sequence-to-sequence aumentato spazialmente (SA-S2SND), che integra i segnali di direzione di arrivo (DOA) stimati tramite SRP-DNN nella rete principale S2SND. Viene adottata una strategia di addestramento in due fasi: il modello viene prima addestrato utilizzando audio monocanale e caratteristiche DOA, quindi ulteriormente ottimizzato utilizzando input multicanale sotto guida DOA. Inoltre, viene introdotto uno schema di generazione DOA simulato per ridurre la dipendenza da corpora multicanale corrispondenti. Sul dataset AliMeeting, SA-S2SND supera costantemente la linea di base S2SND, raggiungendo una riduzione relativa del DER del 7,4% in modalità offline, con miglioramenti superiori al 19% se combinato con attenzione ai canali. Questi risultati dimostrano che i segnali spaziali e la modellazione cross-canale sono altamente complementari, producendo buone prestazioni sia in configurazioni online che offline.
La diarizzazione del parlante mira a rispondere alla domanda "chi sta parlando e quando", ed è un passo di pre-elaborazione fondamentale per compiti a valle come il riconoscimento vocale. Nonostante i progressi significativi in questo campo, la diarizzazione del parlante in scenari di riunione rimane impegnativa, principalmente per i seguenti motivi:
Voce sovrapposta: più oratori parlano simultaneamente
Embedding del parlante inaffidabili: difficoltà nell'estrazione delle caratteristiche del parlante in ambienti rumorosi
Riverbero: distorsione acustica causata da ambienti interni
Metodi modulari iniziali: dividono l'audio in brevi enunciati e raggruppano tramite somiglianza di embedding del parlante, presupponendo che ogni segmento contenga un solo oratore, con scarso rendimento su voce sovrapposta
Separazione neurale end-to-end (EEND): affronta il problema della sovrapposizione, ma dipende ancora principalmente da embedding acustici
Separazione sequence-to-sequence (S2SND): progresso nella separazione online, ma manca di informazioni spaziali esplicite
La maggior parte dei metodi esistenti si basa esclusivamente su embedding acustici, che spesso risultano inaffidabili in riunioni reali. La domanda chiave è: come sfruttare i segnali spaziali delle registrazioni multicanale per migliorare la diarizzazione del parlante?
Propone il framework SA-S2SND: integra il DOA derivato da DNN come input spaziale esplicito in S2SND, per diarizzazione del parlante online e offline
Progetta il metodo DOA simulato: disaccoppia i segnali spaziali dalla progettazione dell'array, consentendo di sfruttare efficacemente le informazioni spaziali senza richiedere grandi corpora multicanale
Verifica l'efficacia: convalida SA-S2SND sul dataset AliMeeting, mostrando miglioramenti coerenti del DER rispetto alla linea di base S2SND in entrambe le modalità
Strategia di addestramento in due fasi: addestra prima con audio monocanale, quindi estende a multicanale, garantendo un percorso coerente dalla modellazione puramente acustica a quella aumentata spazialmente
L'obiettivo del compito di diarizzazione del parlante è determinare l'identità di ogni oratore attivo in ogni segmento temporale dall'audio multi-oratore. L'input è un segnale audio multicanale, l'output è l'etichetta di attività del parlante e la rappresentazione del parlante per ogni frame temporale.
Adotta SRP-DNN per la stima robusta del DOA multi-sorgente:
Idea Centrale: apprende le differenze di fase del percorso diretto (DP-IPDs), per la k-esima sorgente, il DOA è rappresentato come:
θk=[θelek,θazik]T
Obiettivo di Addestramento: somma vettoriale DP-IPD ponderata:
Rmm′(n)=∑k=1Kβk(n)rmm′(θk(n))
Costruzione dello Spettro Spaziale:
P′(θ;n)=M(M−1)F2∑m=1M−1∑m′=m+1Mℜ{R^mm′(n)Hrmm′(θ)}
Localizzazione Multi-Sorgente: adotta una strategia iterativa di rilevamento-rimozione (IDL) per gestire scenari multi-oratore.
Codificatore: Conformer per la modellazione delle dipendenze a lungo raggio
Decodificatore di Rappresentazione: genera embedding target Ê
Decodificatore di Rilevamento: predice l'attività Ŷ
Modalità di Integrazione DOA:
X=X+LinearRA→RD(interpolate(O))/D
dove O ∈ R^{T''×A} è la matrice di probabilità DOA, integrata nella rappresentazione del codificatore tramite interpolazione del vicino più prossimo e proiezione lineare.
Miglioramento Coerente: l'aggiunta di DOA porta miglioramenti in tutte le configurazioni
Monocanale: online 4,2%↓, offline 7,4%↓
Multicanale: online 12,9%↓, offline 15,2%↓
Vantaggio in Scenari Multi-Oratore: i miglioramenti sono più significativi nello scenario 2+ oratori, dimostrando robustezza in condizioni di conversazione complessa
Complementarità: l'attenzione ai canali e il DOA sono altamente complementari
L'attenzione ai canali cattura la correlazione
Il DOA fornisce segnali spaziali espliciti
Efficienza dei Parametri: il modello ottimale (E4) raggiunge guadagni relativi del 19,3%/20,3% rispetto alla linea di base (E1), con numero di parametri comparabile a SOTA
Rispetto ai lavori esistenti, questo articolo integra per la prima volta efficacemente i segnali DOA espliciti nel framework di diarizzazione sequence-to-sequence, e propone una strategia simulata che riduce la dipendenza da corpora multicanale.
L'articolo cita 37 lavori correlati, coprendo aree chiave come la diarizzazione del parlante, l'elaborazione di segnali multicanale e l'apprendimento profondo, fornendo una base teorica solida per la ricerca.
Valutazione Complessiva: questo è un articolo di ricerca di alta qualità che propone un metodo innovativo per l'utilizzo di informazioni spaziali nel campo della diarizzazione del parlante. La progettazione sperimentale è rigorosa, i risultati sono convincenti e ha un buon valore pratico e impatto accademico. L'innovazione principale consiste nell'integrare efficacemente i segnali DOA espliciti nel framework sequence-to-sequence e nel risolvere il problema della scarsità di dati multicanale attraverso una strategia di addestramento elegante.