2025-11-14T05:22:11.004755

Spatially-Augmented Sequence-to-Sequence Neural Diarization for Meetings

Li, Cheng, Zhang et al.

This paper proposes a Spatially-Augmented Sequence-to-Sequence Neural Diarization (SA-S2SND) framework, which integrates direction-of-arrival (DOA) cues estimated by SRP-DNN into the S2SND backbone. A two-stage training strategy is adopted: the model is first trained with single-channel audio and DOA features, and then further optimized with multi-channel inputs under DOA guidance. In addition, a simulated DOA generation scheme is introduced to alleviate dependence on matched multi-channel corpora. On the AliMeeting dataset, SA-S2SND consistently outperform the S2SND baseline, achieving a 7.4% relative DER reduction in the offline mode and over 19% improvement when combined with channel attention. These results demonstrate that spatial cues are highly complementary to cross-channel modeling, yielding good performance in both online and offline settings.

academic

Diarizzazione Neurale Sequence-to-Sequence Aumentata Spazialmente per Riunioni

Informazioni Fondamentali

ID Articolo: 2510.09505
Titolo: Spatially-Augmented Sequence-to-Sequence Neural Diarization for Meetings
Autori: Li Li, Ming Cheng, Hongyu Zhang, Juan Liu, Ming Li
Classificazione: eess.AS (Elaborazione Audio e Voce)
Data di Pubblicazione: 10 ottobre 2025
Link Articolo: https://arxiv.org/abs/2510.09505v1

Riassunto

Questo articolo propone un framework di diarizzazione neurale sequence-to-sequence aumentato spazialmente (SA-S2SND), che integra i segnali di direzione di arrivo (DOA) stimati tramite SRP-DNN nella rete principale S2SND. Viene adottata una strategia di addestramento in due fasi: il modello viene prima addestrato utilizzando audio monocanale e caratteristiche DOA, quindi ulteriormente ottimizzato utilizzando input multicanale sotto guida DOA. Inoltre, viene introdotto uno schema di generazione DOA simulato per ridurre la dipendenza da corpora multicanale corrispondenti. Sul dataset AliMeeting, SA-S2SND supera costantemente la linea di base S2SND, raggiungendo una riduzione relativa del DER del 7,4% in modalità offline, con miglioramenti superiori al 19% se combinato con attenzione ai canali. Questi risultati dimostrano che i segnali spaziali e la modellazione cross-canale sono altamente complementari, producendo buone prestazioni sia in configurazioni online che offline.

Contesto di Ricerca e Motivazione

Problema Centrale

La diarizzazione del parlante mira a rispondere alla domanda "chi sta parlando e quando", ed è un passo di pre-elaborazione fondamentale per compiti a valle come il riconoscimento vocale. Nonostante i progressi significativi in questo campo, la diarizzazione del parlante in scenari di riunione rimane impegnativa, principalmente per i seguenti motivi:

Voce sovrapposta: più oratori parlano simultaneamente
Embedding del parlante inaffidabili: difficoltà nell'estrazione delle caratteristiche del parlante in ambienti rumorosi
Riverbero: distorsione acustica causata da ambienti interni

Limitazioni dei Metodi Esistenti

Metodi modulari iniziali: dividono l'audio in brevi enunciati e raggruppano tramite somiglianza di embedding del parlante, presupponendo che ogni segmento contenga un solo oratore, con scarso rendimento su voce sovrapposta
Separazione neurale end-to-end (EEND): affronta il problema della sovrapposizione, ma dipende ancora principalmente da embedding acustici
Separazione sequence-to-sequence (S2SND): progresso nella separazione online, ma manca di informazioni spaziali esplicite

Motivazione della Ricerca

La maggior parte dei metodi esistenti si basa esclusivamente su embedding acustici, che spesso risultano inaffidabili in riunioni reali. La domanda chiave è: come sfruttare i segnali spaziali delle registrazioni multicanale per migliorare la diarizzazione del parlante?

Contributi Principali

Propone il framework SA-S2SND: integra il DOA derivato da DNN come input spaziale esplicito in S2SND, per diarizzazione del parlante online e offline
Progetta il metodo DOA simulato: disaccoppia i segnali spaziali dalla progettazione dell'array, consentendo di sfruttare efficacemente le informazioni spaziali senza richiedere grandi corpora multicanale
Verifica l'efficacia: convalida SA-S2SND sul dataset AliMeeting, mostrando miglioramenti coerenti del DER rispetto alla linea di base S2SND in entrambe le modalità
Strategia di addestramento in due fasi: addestra prima con audio monocanale, quindi estende a multicanale, garantendo un percorso coerente dalla modellazione puramente acustica a quella aumentata spazialmente

Spiegazione Dettagliata del Metodo

Definizione del Compito

L'obiettivo del compito di diarizzazione del parlante è determinare l'identità di ogni oratore attivo in ogni segmento temporale dall'audio multi-oratore. L'input è un segnale audio multicanale, l'output è l'etichetta di attività del parlante e la rappresentazione del parlante per ogni frame temporale.

Architettura del Modello

1. Modulo di Stima DOA (SRP-DNN)

Adotta SRP-DNN per la stima robusta del DOA multi-sorgente:

Idea Centrale: apprende le differenze di fase del percorso diretto (DP-IPDs), per la k-esima sorgente, il DOA è rappresentato come: $\theta_k = [\theta_{ele}^k, \theta_{azi}^k]^T$

Obiettivo di Addestramento: somma vettoriale DP-IPD ponderata: $R_{mm'}(n) = \sum_{k=1}^K \beta_k(n) r_{mm'}(\theta_k(n))$

Costruzione dello Spettro Spaziale: $P'(\theta;n) = \frac{2}{M(M-1)F} \sum_{m=1}^{M-1} \sum_{m'=m+1}^M \Re\{R̂_{mm'}(n)^H r_{mm'}(\theta)\}$

Localizzazione Multi-Sorgente: adotta una strategia iterativa di rilevamento-rimozione (IDL) per gestire scenari multi-oratore.

2. Architettura SA-S2SND

Basata sulla rete principale S2SND, contiene quattro moduli principali:

Estrattore: ResNet + pooling statistico segmentato (SSP)
Codificatore: Conformer per la modellazione delle dipendenze a lungo raggio
Decodificatore di Rappresentazione: genera embedding target Ê
Decodificatore di Rilevamento: predice l'attività Ŷ

Modalità di Integrazione DOA: $X = X + \text{Linear}_{R^A \rightarrow R^D}(\text{interpolate}(O))/\sqrt{D}$

dove O ∈ R^{T''×A} è la matrice di probabilità DOA, integrata nella rappresentazione del codificatore tramite interpolazione del vicino più prossimo e proiezione lineare.

Punti di Innovazione Tecnica

Iniezione di Segnali Spaziali Espliciti: diversamente dalla fusione cieca, utilizza direttamente la stima DOA per fornire prove direzionali
Strategia DOA Simulato:
- Voce multicanale reale + DOA stimato da SRP-DNN
- Voce multicanale simulata + pseudo-DOA generato casualmente
Addestramento in Due Fasi:
- Parte A: modello monocanale + DOA multicanale (fasi 1-3)
- Parte B: modello multicanale + DOA multicanale (fasi 4-5)

Configurazione Sperimentale

Dataset

Dati Simulati: VoxCeleb2 (1M enunciati, 6.112 oratori) per la generazione di miscele online
Dati Reali: AliMeeting (set di addestramento 104,75h, set di valutazione 4h, set di test 10h)
- Array a 8 canali in campo lontano e registrazione indossabile
- Utilizza segnali di array in campo lontano dopo de-riverbero NARA-WPE

Metriche di Valutazione

DER (Diarization Error Rate): senza VAD Oracle e tolleranza
Prestazioni riportate separatamente per scenari 1-2 oratori e 2+ oratori
Confronto delle prestazioni in modalità online e offline

Metodi di Confronto

Linea di base S2SND (versioni monocanale e multicanale)
BUT System (stato dell'arte)
Diverse dimensioni di modello: Small (16,56M parametri) e Medium (45,96M parametri)

Dettagli di Implementazione

Elaborazione Audio: finestra 8s, sovrapposizione 2s, 80 filtri log-Mel
Addestramento: ottimizzatore AdamW, perdita BCE + ArcFace
Inferenza: finestra scorrevole a livello di blocco, latenza online 0,8s
Hardware: due GPU RTX-A6000

Risultati Sperimentali

Risultati Principali

Modello	Canali	DOA	DER Totale (Online%)	DER Totale (Offline%)
S2SND	1	✗	16,03	13,59
SA-S2SND	1	✓	15,35	12,59
S2SND	8	✗	14,85	12,79
SA-S2SND	8	✓	12,93	10,84

Risultati Chiave

Miglioramento Coerente: l'aggiunta di DOA porta miglioramenti in tutte le configurazioni
- Monocanale: online 4,2%↓, offline 7,4%↓
- Multicanale: online 12,9%↓, offline 15,2%↓
Vantaggio in Scenari Multi-Oratore: i miglioramenti sono più significativi nello scenario 2+ oratori, dimostrando robustezza in condizioni di conversazione complessa
Complementarità: l'attenzione ai canali e il DOA sono altamente complementari
- L'attenzione ai canali cattura la correlazione
- Il DOA fornisce segnali spaziali espliciti
Efficienza dei Parametri: il modello ottimale (E4) raggiunge guadagni relativi del 19,3%/20,3% rispetto alla linea di base (E1), con numero di parametri comparabile a SOTA

Analisi DOA

Nel set di addestramento AliMeeting, solo il 5,98% della durata coinvolge più di due oratori simultanei
I dati simulati mostrano errori DOA trascurabili
Nei dati di riunione reali, la stima dell'azimut fornisce una chiara distinzione tra diversi oratori

Lavori Correlati

Evoluzione della Diarizzazione del Parlante

Metodi Modulari: metodi tradizionali basati su clustering
Separazione Neurale End-to-End (EEND): compito di predizione multi-etichetta
Rilevamento di Attività Vocale del Parlante Bersaglio (TSVAD): combina metodi modulari e neurali
Separazione Sequence-to-Sequence (S2SND): supporta la separazione online

Modalità di Elaborazione Multicanale

Miglioramento Vocale: beamforming, ecc., ma potrebbe introdurre distorsione
Fusione di Canali: moduli di attenzione aggregano segnali, ma di solito fusione cieca
Caratteristiche Esplicite: stima DOA, ecc., fornisce prove direzionali dirette

Vantaggi di Questo Articolo

Rispetto ai lavori esistenti, questo articolo integra per la prima volta efficacemente i segnali DOA espliciti nel framework di diarizzazione sequence-to-sequence, e propone una strategia simulata che riduce la dipendenza da corpora multicanale.

Conclusioni e Discussione

Conclusioni Principali

Efficacia dei Segnali Spaziali: i segnali DOA migliorano significativamente le prestazioni di diarizzazione
Complementarità: le informazioni spaziali e la modellazione cross-canale sono altamente complementari
Praticità: mostra buone prestazioni sia in configurazioni online che offline
Capacità di Generalizzazione: la strategia DOA simulato riduce la dipendenza da configurazioni di array specifiche

Limitazioni

Limitazione Multi-Oratore: la strategia IDL di SRP-DNN traccia al massimo due oratori
Dipendenza dall'Array: richiede ri-addestramento di SRP-DNN per adattarsi a diverse configurazioni di array
Complessità Computazionale: aggiunge sovraccarico computazionale della stima DOA

Direzioni Future

Robustezza DOA Multi-Oratore: migliorare la gestione di più di due oratori simultanei
Strategia di Addestramento Congiunto: esplorare l'addestramento end-to-end della stima DOA e della diarizzazione
Miglioramento delle Prestazioni del Sistema: ottimizzare ulteriormente le prestazioni complessive del sistema

Valutazione Approfondita

Punti di Forza

Forte Innovatività:
- Primo a integrare efficacemente i segnali DOA espliciti nel framework S2SND
- Propone una strategia DOA simulato, risolvendo il problema della scarsità di dati multicanale
- Progettazione ragionevole della strategia di addestramento in due fasi
Esperimenti Completi:
- Valutazione completa su dataset standard
- Fornisce esperimenti di ablazione dettagliati e analisi
- Confronto equo con metodi SOTA
Tecnica Solida:
- La modalità di integrazione DOA è simile alla codifica posizionale, con design elegante
- Affronta il problema dell'adattamento dell'array multicanale
- Supporta sia applicazioni online che offline
Alto Valore Pratico:
- Miglioramenti significativi delle prestazioni (fino a 19%+ di miglioramento relativo)
- Buona efficienza dei parametri
- Estendibile a diverse configurazioni di array

Insufficienze

Limitazioni del Metodo:
- Dipende dalla limitazione a due oratori di SRP-DNN
- Richiede ri-addestramento del modulo DOA per diversi array
- La realismo del DOA simulato necessita di ulteriore verifica
Portata Sperimentale:
- Convalidazione solo sul dataset AliMeeting
- Manca analisi di robustezza in diverse condizioni acustiche
- Non fornisce analisi di complessità computazionale
Analisi Teorica Insufficiente:
- Manca spiegazione teorica del perché i segnali DOA siano efficaci
- Non analizza le prestazioni in diverse condizioni di rumore e riverbero

Impatto

Contributo Accademico: fornisce nuove prospettive per l'utilizzo di informazioni spaziali nel campo della diarizzazione
Valore Pratico: applicabile direttamente a sistemi di trascrizione di riunioni
Riproducibilità: fornisce dettagli di implementazione dettagliati, facilitando la riproduzione

Scenari Applicabili

Trascrizione di Riunioni: diarizzazione del parlante in tempo reale e offline per riunioni multi-persona
Sistemi di Riunioni Intelligenti: riconoscimento vocale integrato per la comprensione end-to-end delle riunioni
Elaborazione Vocale Multicanale: qualsiasi compito di separazione vocale che necessiti di sfruttare informazioni spaziali

Bibliografia

L'articolo cita 37 lavori correlati, coprendo aree chiave come la diarizzazione del parlante, l'elaborazione di segnali multicanale e l'apprendimento profondo, fornendo una base teorica solida per la ricerca.

Valutazione Complessiva: questo è un articolo di ricerca di alta qualità che propone un metodo innovativo per l'utilizzo di informazioni spaziali nel campo della diarizzazione del parlante. La progettazione sperimentale è rigorosa, i risultati sono convincenti e ha un buon valore pratico e impatto accademico. L'innovazione principale consiste nell'integrare efficacemente i segnali DOA espliciti nel framework sequence-to-sequence e nel risolvere il problema della scarsità di dati multicanale attraverso una strategia di addestramento elegante.