Spatially-Augmented Sequence-to-Sequence Neural Diarization for Meetings
Li, Cheng, Zhang et al.
This paper proposes a Spatially-Augmented Sequence-to-Sequence Neural Diarization (SA-S2SND) framework, which integrates direction-of-arrival (DOA) cues estimated by SRP-DNN into the S2SND backbone. A two-stage training strategy is adopted: the model is first trained with single-channel audio and DOA features, and then further optimized with multi-channel inputs under DOA guidance. In addition, a simulated DOA generation scheme is introduced to alleviate dependence on matched multi-channel corpora. On the AliMeeting dataset, SA-S2SND consistently outperform the S2SND baseline, achieving a 7.4% relative DER reduction in the offline mode and over 19% improvement when combined with channel attention. These results demonstrate that spatial cues are highly complementary to cross-channel modeling, yielding good performance in both online and offline settings.
academic
Räumlich erweiterte Sequenz-zu-Sequenz-Neuronale Sprecherdiarisierung für Meetings
In diesem Artikel wird ein räumlich erweitertes Sequenz-zu-Sequenz-Neuronales-Diarisierungs-Framework (SA-S2SND) vorgestellt, das Einfallswinkel-Hinweise (DOA) integriert, die durch SRP-DNN geschätzt werden, in das S2SND-Backbone-Netzwerk. Eine zweistufige Trainingstrategie wird angewendet: Das Modell wird zunächst mit Einkanalton und DOA-Merkmalen trainiert, dann mit Mehrkanal-Eingaben unter DOA-Anleitung weiter optimiert. Darüber hinaus wird ein simuliertes DOA-Generierungsschema eingeführt, um die Abhängigkeit von abgestimmten Mehrkanal-Korpora zu verringern. Auf dem AliMeeting-Datensatz übertrifft SA-S2SND durchgehend die S2SND-Baseline und erreicht eine relative DER-Reduktion von 7,4% im Offline-Modus, mit einer Verbesserung von über 19% in Kombination mit Kanal-Aufmerksamkeit. Diese Ergebnisse zeigen, dass räumliche Hinweise und kanalübergreifende Modellierung hochgradig komplementär sind und in Online- und Offline-Einstellungen gute Leistungen erbringen.
Die Sprecherdiarisierung zielt darauf ab, die Frage „Wer spricht wann?" zu beantworten und ist ein grundlegender Vorverarbeitungsschritt für nachgelagerte Aufgaben wie Spracherkennung. Trotz erheblicher Fortschritte in diesem Bereich bleibt die Sprecherdiarisierung in Meeting-Szenarien herausfordernd, hauptsächlich aus folgenden Gründen:
Überlappende Sprache: Mehrere Sprecher sprechen gleichzeitig
Unzuverlässige Sprecher-Embeddings: Schwierigkeiten bei der Sprechermerkmalsextraktion in lauten Umgebungen
Frühe modulare Ansätze: Teilen Audio in kurze Äußerungen auf und clustern durch Sprecher-Ähnlichkeit, gehen davon aus, dass jedes Segment nur einen Sprecher enthält, zeigen schlechte Leistung bei überlappender Sprache
End-to-End-Neuronale Diarisierung (EEND): Löst zwar das Überlappungsproblem, verlässt sich aber hauptsächlich auf akustische Embeddings
Sequenz-zu-Sequenz-Diarisierung (S2SND): Fortschritte bei der Online-Diarisierung, aber es fehlen explizite räumliche Informationen
Die meisten bestehenden Methoden verlassen sich nur auf akustische Embeddings, die in echten Meetings oft unzuverlässig sind. Die Schlüsselfrage lautet: Wie können räumliche Hinweise aus Mehrkanal-Aufnahmen zur Verbesserung der Sprecherdiarisierung genutzt werden?
Vorstellung des SA-S2SND-Frameworks: Integration von DNN-abgeleiteten DOA als explizite räumliche Eingaben in S2SND für Online- und Offline-Sprecherdiarisierung
Entwurf der simulierten DOA-Methode: Entkopplung räumlicher Hinweise von Arraykonfiguration, effektive Nutzung räumlicher Informationen ohne große Mehrkanal-Korpora
Validierung der Wirksamkeit: Validierung von SA-S2SND auf dem AliMeeting-Datensatz, zeigt konsistente DER-Verbesserungen gegenüber S2SND-Baseline in beiden Modi
Zweistufige Trainingstrategie: Zunächst Training mit Einkanalton, dann Erweiterung auf Mehrkanal, gewährleistet konsistenten Weg von reiner Akustik zu räumlich erweiterter Modellierung
Das Ziel der Sprecherdiarisierungsaufgabe besteht darin, aus Mehrsprachenaudio die Identität jedes in jedem Zeitsegment aktiven Sprechers zu bestimmen. Die Eingabe ist ein Mehrkanal-Audiosignal, die Ausgabe sind Sprecher-Aktivitätskennzeichnungen und Sprecher-Darstellungen für jeden Zeitrahmen.
wobei O ∈ R^{T''×A} die DOA-Wahrscheinlichkeitsmatrix ist, die durch Nächste-Nachbar-Interpolation und lineare Projektion in die Encoder-Darstellung integriert wird.
Konsistente Verbesserung: Das Hinzufügen von DOA bringt Verbesserungen in allen Konfigurationen
Einkanalversion: Online 4,2%↓, Offline 7,4%↓
Mehrkanal-Version: Online 12,9%↓, Offline 15,2%↓
Vorteil bei Mehrspracheszenarien: Verbesserungen sind in 2+-Sprecher-Szenarien signifikanter und zeigen Robustheit unter komplexen Gesprächsbedingungen
Komplementarität: Kanal-Aufmerksamkeit und DOA sind hochgradig komplementär
Kanal-Aufmerksamkeit erfasst Korrelationen
DOA bietet explizite räumliche Hinweise
Parametereffizient: Bestes Modell (E4) erreicht 19,3%/20,3% relative Gewinne gegenüber Baseline (E1) mit vergleichbarer Parameterzahl zu SOTA
Im Vergleich zu bestehenden Arbeiten integriert dieser Artikel erstmals explizite DOA-Hinweise effektiv in ein Sequenz-zu-Sequenz-Diarisierungs-Framework und schlägt eine simulierte Strategie vor, die die Abhängigkeit von Mehrkanal-Korpora verringert.
Der Artikel zitiert 36 relevante Literaturquellen, die wichtige Arbeiten in den Schlüsselbereichen Sprecherdiarisierung, Mehrkanal-Signalverarbeitung und Deep Learning abdecken und eine solide theoretische Grundlage für die Forschung bieten.
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Methode zur Nutzung räumlicher Informationen in der Sprecherdiarisierung vorschlägt. Das Experimentdesign ist streng, die Ergebnisse überzeugend und der praktische Wert ist hoch. Die Hauptinnovation liegt in der effektiven Integration expliziter DOA-Hinweise in das Sequenz-zu-Sequenz-Framework und der cleveren Trainingstrategie zur Lösung des Mehrkanal-Datenproblems.