Spatially-Augmented Sequence-to-Sequence Neural Diarization for Meetings
Li, Cheng, Zhang et al.
This paper proposes a Spatially-Augmented Sequence-to-Sequence Neural Diarization (SA-S2SND) framework, which integrates direction-of-arrival (DOA) cues estimated by SRP-DNN into the S2SND backbone. A two-stage training strategy is adopted: the model is first trained with single-channel audio and DOA features, and then further optimized with multi-channel inputs under DOA guidance. In addition, a simulated DOA generation scheme is introduced to alleviate dependence on matched multi-channel corpora. On the AliMeeting dataset, SA-S2SND consistently outperform the S2SND baseline, achieving a 7.4% relative DER reduction in the offline mode and over 19% improvement when combined with channel attention. These results demonstrate that spatial cues are highly complementary to cross-channel modeling, yielding good performance in both online and offline settings.
academic
Diarisation Neuronale Séquence-à-Séquence Augmentée Spatialement pour les Réunions
Cet article propose un cadre de diarisation neuronale séquence-à-séquence augmenté spatialement (SA-S2SND), qui intègre les indices de direction d'arrivée (DOA) estimés par SRP-DNN dans le réseau principal S2SND. Une stratégie d'entraînement en deux étapes est adoptée : le modèle est d'abord entraîné avec l'audio monocanal et les caractéristiques DOA, puis optimisé davantage avec des entrées multicanales sous la guidance DOA. De plus, un schéma de génération DOA simulée est introduit pour réduire la dépendance aux corpus multicanaux appariés. Sur l'ensemble de données AliMeeting, SA-S2SND surpasse systématiquement la ligne de base S2SND, réalisant une réduction relative du DER de 7,4 % en mode hors ligne, avec une amélioration supérieure à 19 % lorsqu'elle est combinée avec l'attention sur les canaux. Ces résultats démontrent que les indices spatiaux et la modélisation inter-canaux sont hautement complémentaires, produisant d'excellentes performances dans les paramètres en ligne et hors ligne.
La diarisation des locuteurs vise à répondre à la question « qui parle et quand », constituant une étape de prétraitement fondamentale pour les tâches en aval telles que la reconnaissance vocale. Bien que des progrès significatifs aient été réalisés dans ce domaine, la diarisation des locuteurs dans les scénarios de réunion reste un défi, principalement en raison de :
Parole chevauchée : plusieurs locuteurs parlant simultanément
Plongements de locuteurs peu fiables : difficulté d'extraction des caractéristiques des locuteurs dans les environnements bruyants
Réverbération : distorsion acoustique causée par l'environnement intérieur
Approches modulaires précoces : partitionnent l'audio en énoncés courts et effectuent un regroupement par similarité d'plongement de locuteur, en supposant que chaque segment ne contient qu'un seul locuteur, avec des performances médiocres sur la parole chevauchée
Séparation neuronale de bout en bout (EEND) : bien qu'elle résout le problème du chevauchement, elle dépend toujours principalement des plongements acoustiques
Séparation séquence-à-séquence (S2SND) : progrès dans la séparation en ligne, mais manque d'informations spatiales explicites
La plupart des méthodes existantes ne dépendent que des plongements acoustiques, qui s'avèrent souvent peu fiables dans les réunions réelles. La question clé est : comment exploiter les indices spatiaux des enregistrements multicanaux pour améliorer la diarisation des locuteurs ?
Proposition du cadre SA-S2SND : intègre le DOA dérivé du DNN comme entrée spatiale explicite dans S2SND pour la diarisation en ligne et hors ligne
Conception de la méthode DOA simulée : découple les indices spatiaux de la conception des réseaux, permettant l'exploitation efficace des informations spatiales sans grands corpus multicanaux
Validation de l'efficacité : valide SA-S2SND sur l'ensemble de données AliMeeting, montrant une amélioration DER cohérente par rapport à la ligne de base S2SND dans les deux modes
Stratégie d'entraînement en deux étapes : entraîne d'abord avec l'audio monocanal, puis s'étend au multicanal, assurant un chemin cohérent de la modélisation purement acoustique à la modélisation augmentée spatiale
L'objectif de la tâche de diarisation des locuteurs est de déterminer l'identité de chaque locuteur actif pour chaque segment temporel à partir d'audio multi-locuteurs. L'entrée est un signal audio multicanal, et la sortie est l'étiquette d'activité du locuteur et la représentation du locuteur pour chaque trame temporelle.
Utilise SRP-DNN pour l'estimation robuste du DOA multi-source :
Idée centrale : apprendre les différences de phase du trajet direct (DP-IPDs), pour la k-ième source, le DOA est représenté comme :
θk=[θelek,θazik]T
Objectif d'entraînement : somme pondérée du vecteur IPD du trajet direct :
Rmm′(n)=∑k=1Kβk(n)rmm′(θk(n))
Construction du spectre spatial :
P′(θ;n)=M(M−1)F2∑m=1M−1∑m′=m+1Mℜ{R^mm′(n)Hrmm′(θ)}
Localisation multi-source : utilise une stratégie itérative de détection-suppression (IDL) pour traiter les scénarios multi-locuteurs.
Basée sur le réseau principal S2SND, comprenant quatre modules principaux :
Extracteur : ResNet + mise en commun statistique segmentée (SSP)
Encodeur : Conformer modélisant les dépendances à long terme
Décodeur de représentation : génère l'plongement cible Ê
Décodeur de détection : prédit l'activité Ŷ
Méthode d'intégration DOA :
X=X+LinearRA→RD(interpolate(O))/D
où O ∈ R^{T''×A} est la matrice de probabilité DOA, fusionnée dans la représentation de l'encodeur via interpolation au plus proche voisin et projection linéaire.
Injection d'indices spatiaux explicites : contrairement à la fusion aveugle, utilise directement l'estimation DOA pour fournir des preuves directionnelles
Stratégie DOA simulée :
Parole multicanale réelle + DOA estimé par SRP-DNN
Parole multicanale simulée + pseudo-DOA généré aléatoirement
Entraînement en deux étapes :
Partie A : modèle monocanal + DOA multicanal (étapes 1-3)
Partie B : modèle multicanal + DOA multicanal (étapes 4-5)
Amélioration cohérente : l'ajout de DOA apporte une amélioration dans toutes les configurations
Monocanal : en ligne 4,2%↓, hors ligne 7,4%↓
Multicanal : en ligne 12,9%↓, hors ligne 15,2%↓
Avantage dans les scénarios multi-locuteurs : l'amélioration est plus significative dans les scénarios à 2+ locuteurs, démontrant la robustesse dans les conditions de conversation complexe
Complémentarité : l'attention sur les canaux et le DOA sont hautement complémentaires
L'attention sur les canaux capture les corrélations
Le DOA fournit des indices spatiaux explicites
Efficacité des paramètres : le meilleur modèle (E4) obtient un gain relatif de 19,3%/20,3% par rapport à la ligne de base (E1), avec un nombre de paramètres comparable à l'état de l'art
Par rapport aux travaux existants, cet article intègre pour la première fois efficacement les indices DOA explicites dans un cadre de diarisation séquence-à-séquence, et propose une stratégie simulée réduisant la dépendance aux corpus multicanaux.
L'article cite 36 références pertinentes, couvrant les travaux importants dans les domaines clés de la diarisation, du traitement de signaux multicanaux et de l'apprentissage profond, fournissant une base théorique solide pour la recherche.
Évaluation Globale : Ceci est un article de recherche de haute qualité proposant une méthode innovante d'exploitation des informations spatiales dans le domaine de la diarisation. La conception expérimentale est rigoureuse, les résultats sont convaincants et la valeur pratique est excellente. L'innovation principale réside dans l'intégration efficace des indices DOA explicites dans un cadre séquence-à-séquence, et la résolution ingénieuse du problème de rareté des données multicanales par une stratégie d'entraînement judicieuse.