2025-11-14T05:22:11.004755

Spatially-Augmented Sequence-to-Sequence Neural Diarization for Meetings

Li, Cheng, Zhang et al.

This paper proposes a Spatially-Augmented Sequence-to-Sequence Neural Diarization (SA-S2SND) framework, which integrates direction-of-arrival (DOA) cues estimated by SRP-DNN into the S2SND backbone. A two-stage training strategy is adopted: the model is first trained with single-channel audio and DOA features, and then further optimized with multi-channel inputs under DOA guidance. In addition, a simulated DOA generation scheme is introduced to alleviate dependence on matched multi-channel corpora. On the AliMeeting dataset, SA-S2SND consistently outperform the S2SND baseline, achieving a 7.4% relative DER reduction in the offline mode and over 19% improvement when combined with channel attention. These results demonstrate that spatial cues are highly complementary to cross-channel modeling, yielding good performance in both online and offline settings.

academic

Diarisation Neuronale Séquence-à-Séquence Augmentée Spatialement pour les Réunions

Informations Fondamentales

ID de l'article : 2510.09505
Titre : Spatially-Augmented Sequence-to-Sequence Neural Diarization for Meetings
Auteurs : Li Li, Ming Cheng, Hongyu Zhang, Juan Liu, Ming Li
Classification : eess.AS (Traitement Audio et Parole)
Date de publication : 10 octobre 2025
Lien de l'article : https://arxiv.org/abs/2510.09505v1

Résumé

Cet article propose un cadre de diarisation neuronale séquence-à-séquence augmenté spatialement (SA-S2SND), qui intègre les indices de direction d'arrivée (DOA) estimés par SRP-DNN dans le réseau principal S2SND. Une stratégie d'entraînement en deux étapes est adoptée : le modèle est d'abord entraîné avec l'audio monocanal et les caractéristiques DOA, puis optimisé davantage avec des entrées multicanales sous la guidance DOA. De plus, un schéma de génération DOA simulée est introduit pour réduire la dépendance aux corpus multicanaux appariés. Sur l'ensemble de données AliMeeting, SA-S2SND surpasse systématiquement la ligne de base S2SND, réalisant une réduction relative du DER de 7,4 % en mode hors ligne, avec une amélioration supérieure à 19 % lorsqu'elle est combinée avec l'attention sur les canaux. Ces résultats démontrent que les indices spatiaux et la modélisation inter-canaux sont hautement complémentaires, produisant d'excellentes performances dans les paramètres en ligne et hors ligne.

Contexte et Motivation de la Recherche

Problème Central

La diarisation des locuteurs vise à répondre à la question « qui parle et quand », constituant une étape de prétraitement fondamentale pour les tâches en aval telles que la reconnaissance vocale. Bien que des progrès significatifs aient été réalisés dans ce domaine, la diarisation des locuteurs dans les scénarios de réunion reste un défi, principalement en raison de :

Parole chevauchée : plusieurs locuteurs parlant simultanément
Plongements de locuteurs peu fiables : difficulté d'extraction des caractéristiques des locuteurs dans les environnements bruyants
Réverbération : distorsion acoustique causée par l'environnement intérieur

Limitations des Méthodes Existantes

Approches modulaires précoces : partitionnent l'audio en énoncés courts et effectuent un regroupement par similarité d'plongement de locuteur, en supposant que chaque segment ne contient qu'un seul locuteur, avec des performances médiocres sur la parole chevauchée
Séparation neuronale de bout en bout (EEND) : bien qu'elle résout le problème du chevauchement, elle dépend toujours principalement des plongements acoustiques
Séparation séquence-à-séquence (S2SND) : progrès dans la séparation en ligne, mais manque d'informations spatiales explicites

Motivation de la Recherche

La plupart des méthodes existantes ne dépendent que des plongements acoustiques, qui s'avèrent souvent peu fiables dans les réunions réelles. La question clé est : comment exploiter les indices spatiaux des enregistrements multicanaux pour améliorer la diarisation des locuteurs ?

Contributions Principales

Proposition du cadre SA-S2SND : intègre le DOA dérivé du DNN comme entrée spatiale explicite dans S2SND pour la diarisation en ligne et hors ligne
Conception de la méthode DOA simulée : découple les indices spatiaux de la conception des réseaux, permettant l'exploitation efficace des informations spatiales sans grands corpus multicanaux
Validation de l'efficacité : valide SA-S2SND sur l'ensemble de données AliMeeting, montrant une amélioration DER cohérente par rapport à la ligne de base S2SND dans les deux modes
Stratégie d'entraînement en deux étapes : entraîne d'abord avec l'audio monocanal, puis s'étend au multicanal, assurant un chemin cohérent de la modélisation purement acoustique à la modélisation augmentée spatiale

Explication Détaillée de la Méthode

Définition de la Tâche

L'objectif de la tâche de diarisation des locuteurs est de déterminer l'identité de chaque locuteur actif pour chaque segment temporel à partir d'audio multi-locuteurs. L'entrée est un signal audio multicanal, et la sortie est l'étiquette d'activité du locuteur et la représentation du locuteur pour chaque trame temporelle.

Architecture du Modèle

1. Module d'Estimation DOA (SRP-DNN)

Utilise SRP-DNN pour l'estimation robuste du DOA multi-source :

Idée centrale : apprendre les différences de phase du trajet direct (DP-IPDs), pour la k-ième source, le DOA est représenté comme : $\theta_k = [\theta_{ele}^k, \theta_{azi}^k]^T$

Objectif d'entraînement : somme pondérée du vecteur IPD du trajet direct : $R_{mm'}(n) = \sum_{k=1}^K \beta_k(n) r_{mm'}(\theta_k(n))$

Construction du spectre spatial : $P'(\theta;n) = \frac{2}{M(M-1)F} \sum_{m=1}^{M-1} \sum_{m'=m+1}^M \Re\{R̂_{mm'}(n)^H r_{mm'}(\theta)\}$

Localisation multi-source : utilise une stratégie itérative de détection-suppression (IDL) pour traiter les scénarios multi-locuteurs.

2. Architecture SA-S2SND

Basée sur le réseau principal S2SND, comprenant quatre modules principaux :

Extracteur : ResNet + mise en commun statistique segmentée (SSP)
Encodeur : Conformer modélisant les dépendances à long terme
Décodeur de représentation : génère l'plongement cible Ê
Décodeur de détection : prédit l'activité Ŷ

Méthode d'intégration DOA : $X = X + \text{Linear}_{R^A \rightarrow R^D}(\text{interpolate}(O))/\sqrt{D}$

où O ∈ R^{T''×A} est la matrice de probabilité DOA, fusionnée dans la représentation de l'encodeur via interpolation au plus proche voisin et projection linéaire.

Points d'Innovation Technique

Injection d'indices spatiaux explicites : contrairement à la fusion aveugle, utilise directement l'estimation DOA pour fournir des preuves directionnelles
Stratégie DOA simulée :
- Parole multicanale réelle + DOA estimé par SRP-DNN
- Parole multicanale simulée + pseudo-DOA généré aléatoirement
Entraînement en deux étapes :
- Partie A : modèle monocanal + DOA multicanal (étapes 1-3)
- Partie B : modèle multicanal + DOA multicanal (étapes 4-5)

Configuration Expérimentale

Ensemble de Données

Données simulées : VoxCeleb2 (1M énoncés, 6 112 locuteurs) pour la génération de mélange en ligne
Données réelles : AliMeeting (ensemble d'entraînement 104,75h, ensemble d'évaluation 4h, ensemble de test 10h)
- Réseau à 8 canaux en champ lointain et enregistrement portatif
- Utilise les signaux de réseau en champ lointain après déréverbération NARA-WPE

Métriques d'Évaluation

DER (Taux d'Erreur de Diarisation) : sans VAD Oracle et avec tolérance
Rapporte séparément les performances pour les scénarios à 1-2 locuteurs et 2+ locuteurs
Comparaison des performances en mode en ligne et hors ligne

Méthodes de Comparaison

Ligne de base S2SND (versions monocanal et multicanal)
Système BUT (état de l'art)
Différentes tailles de modèle : Small (16,56M paramètres) et Medium (45,96M paramètres)

Détails d'Implémentation

Traitement audio : fenêtre de 8s, chevauchement de 2s, banc de filtres log-Mel de 80 dimensions
Entraînement : optimiseur AdamW, perte BCE + ArcFace
Inférence : fenêtre glissante au niveau des blocs, latence en ligne de 0,8s
Matériel : deux GPU RTX-A6000

Résultats Expérimentaux

Résultats Principaux

Modèle	Canaux	DOA	DER Total (En ligne %)	DER Total (Hors ligne %)
S2SND	1	✗	16,03	13,59
SA-S2SND	1	✓	15,35	12,59
S2SND	8	✗	14,85	12,79
SA-S2SND	8	✓	12,93	10,84

Découvertes Clés

Amélioration cohérente : l'ajout de DOA apporte une amélioration dans toutes les configurations
- Monocanal : en ligne 4,2%↓, hors ligne 7,4%↓
- Multicanal : en ligne 12,9%↓, hors ligne 15,2%↓
Avantage dans les scénarios multi-locuteurs : l'amélioration est plus significative dans les scénarios à 2+ locuteurs, démontrant la robustesse dans les conditions de conversation complexe
Complémentarité : l'attention sur les canaux et le DOA sont hautement complémentaires
- L'attention sur les canaux capture les corrélations
- Le DOA fournit des indices spatiaux explicites
Efficacité des paramètres : le meilleur modèle (E4) obtient un gain relatif de 19,3%/20,3% par rapport à la ligne de base (E1), avec un nombre de paramètres comparable à l'état de l'art

Analyse DOA

Dans l'ensemble d'entraînement AliMeeting, seulement 5,98 % de la durée implique plus de deux locuteurs simultanés
Les données simulées montrent une erreur DOA négligeable
Dans les données de réunion réelles, l'estimation de l'azimut fournit une distinction claire entre les différents locuteurs

Travaux Connexes

Évolution de la Diarisation des Locuteurs

Méthodes modulaires : approches traditionnelles basées sur le regroupement
Séparation neuronale de bout en bout (EEND) : tâche de prédiction multi-étiquette
Détection d'activité vocale du locuteur cible (TSVAD) : combinaison des méthodes modulaires et neuronales
Séparation séquence-à-séquence (S2SND) : support de la séparation en ligne

Approches de Traitement Multicanal

Amélioration vocale : formation de faisceaux, etc., mais peut introduire des distorsions
Fusion de canaux : modules d'attention agrégeant les signaux, mais généralement fusion aveugle
Caractéristiques explicites : estimation DOA, etc., fournissant des preuves directionnelles directes

Avantages de Cet Article

Par rapport aux travaux existants, cet article intègre pour la première fois efficacement les indices DOA explicites dans un cadre de diarisation séquence-à-séquence, et propose une stratégie simulée réduisant la dépendance aux corpus multicanaux.

Conclusion et Discussion

Conclusions Principales

Efficacité des indices spatiaux : les indices DOA améliorent significativement les performances de diarisation
Complémentarité : les informations spatiales et la modélisation inter-canaux sont hautement complémentaires
Praticité : performances excellentes dans les paramètres en ligne et hors ligne
Capacité de généralisation : la stratégie DOA simulée réduit la dépendance aux configurations de réseau spécifiques

Limitations

Limitation multi-locuteurs : la stratégie IDL de SRP-DNN suit au maximum deux locuteurs
Dépendance au réseau : nécessite un réentraînement de SRP-DNN pour s'adapter à différentes configurations de réseau
Complexité computationnelle : ajoute une surcharge computationnelle pour l'estimation DOA

Directions Futures

Robustesse DOA multi-locuteurs : améliorer la capacité de traitement de plus de deux locuteurs simultanés
Stratégies d'entraînement conjoint : explorer l'entraînement de bout en bout de l'estimation DOA et de la diarisation
Amélioration des performances système : optimiser davantage les performances globales du système

Évaluation Approfondie

Points Forts

Innovation forte :
- Première intégration efficace d'indices DOA explicites dans le cadre S2SND
- Proposition d'une stratégie DOA simulée, résolvant la rareté des données multicanales
- Conception judicieuse de la stratégie d'entraînement en deux étapes
Expérimentation complète :
- Évaluation complète sur un ensemble de données standard
- Fourniture d'expériences d'ablation détaillées et d'analyses
- Comparaison équitable avec les méthodes de l'état de l'art
Technique solide :
- Méthode d'intégration DOA similaire à l'encodage de position, conception ingénieuse
- Traitement du problème d'adaptation des réseaux multicanaux
- Support des deux scénarios d'application en ligne et hors ligne
Valeur pratique élevée :
- Améliorations de performance significatives (jusqu'à 19 %+ d'amélioration relative)
- Bonne efficacité des paramètres
- Extensible à différentes configurations de réseau

Insuffisances

Limitations de la méthode :
- Dépendance à la limitation de deux locuteurs de SRP-DNN
- Nécessite un réentraînement du module DOA pour différents réseaux
- La réalité de la DOA simulée nécessite une vérification
Portée expérimentale :
- Validation uniquement sur l'ensemble de données AliMeeting
- Manque d'analyse de robustesse dans différentes conditions acoustiques
- Pas d'analyse de complexité computationnelle fournie
Analyse théorique insuffisante :
- Manque d'explication théorique sur l'efficacité des indices DOA
- Pas d'analyse des performances dans différentes conditions de bruit et de réverbération

Impact

Contribution académique : fournit une nouvelle perspective d'exploitation des informations spatiales dans le domaine de la diarisation
Valeur pratique : peut être directement appliquée aux systèmes de transcription de réunions
Reproductibilité : fournit des détails d'implémentation détaillés, facilitant la reproduction

Scénarios Applicables

Transcription de réunions : diarisation en temps réel et hors ligne de réunions multi-personnes
Systèmes de réunions intelligents : compréhension de réunions de bout en bout combinée avec la reconnaissance vocale
Traitement vocal multicanal : toute tâche de séparation vocale nécessitant l'exploitation d'informations spatiales

Références

L'article cite 36 références pertinentes, couvrant les travaux importants dans les domaines clés de la diarisation, du traitement de signaux multicanaux et de l'apprentissage profond, fournissant une base théorique solide pour la recherche.

Évaluation Globale : Ceci est un article de recherche de haute qualité proposant une méthode innovante d'exploitation des informations spatiales dans le domaine de la diarisation. La conception expérimentale est rigoureuse, les résultats sont convaincants et la valeur pratique est excellente. L'innovation principale réside dans l'intégration efficace des indices DOA explicites dans un cadre séquence-à-séquence, et la résolution ingénieuse du problème de rareté des données multicanales par une stratégie d'entraînement judicieuse.