This paper introduces a new training strategy to improve speech dereverberation systems in an unsupervised manner using only reverberant speech. Most existing algorithms rely on paired dry/reverberant data, which is difficult to obtain. Our approach uses limited acoustic information, like the reverberation time (RT60), to train a dereverberation system. Experimental results demonstrate that our method achieves more consistent performance across various objective metrics than the state-of-the-art.
academic
Déréverbération non-supervisée de la parole par modèle hybride
Cet article propose une nouvelle stratégie d'entraînement permettant d'améliorer les systèmes de déréverbération de la parole de manière non-supervisée en utilisant uniquement de la parole réverbérée. Les algorithmes existants dépendent principalement de données appariées propres/réverbérées, qui sont difficiles à obtenir. La méthode proposée utilise des informations acoustiques limitées (telles que le temps de réverbération RT60) pour entraîner le système de déréverbération. Les résultats expérimentaux montrent que cette approche offre des performances plus cohérentes que les méthodes de pointe sur diverses métriques objectives.
Problème fondamental : Dans les environnements intérieurs, les signaux de parole sont affectés par les réflexions des murs et la diffraction des obstacles, produisant un phénomène de réverbération qui réduit l'intelligibilité des enregistrements vocaux. Il est nécessaire de développer des méthodes de déréverbération pour atténuer cet effet.
Importance du problème : La réverbération affecte gravement la qualité et l'intelligibilité de la parole. Des techniques efficaces de déréverbération sont nécessaires dans les applications telles que la reconnaissance vocale et les systèmes de communication.
Limitations des méthodes existantes :
Les méthodes discriminatives nécessitent de grandes quantités de données appariées (propre, réverbérée), difficiles à obtenir
Les méthodes génératives, bien que moins supervisées, nécessitent toujours des données de parole propre, qui sont encore plus difficiles à obtenir que les données réverbérées
Les méthodes telles que MetricGAN-U, bien qu'utilisant uniquement des signaux réverbérés, sont basées sur l'optimisation d'une seule métrique, ce qui ne garantit pas des performances globales suffisantes
Motivation de la recherche : Développer une méthode de déréverbération non-supervisée utilisant uniquement de la parole réverbérée, en exploitant des informations acoustiques limitées telles que le temps de réverbération pour l'entraînement.
Proposition d'un cadre d'entraînement auto-supervisé pour la réverbération : Utilisation innovante du modèle de réverbération pour superviser l'entraînement des réseaux de neurones profonds, plutôt que la supervision traditionnelle basée sur des métriques
Conception d'une stratégie d'entraînement sensible au temps de réverbération : Combinaison de modèles acoustiques et d'apprentissage profond, utilisant des paramètres tels que RT60 pour guider l'entraînement
Réalisation de performances plus cohérentes : Surpassement des méthodes basées sur la supervision métrique sur plusieurs métriques objectives
Fourniture d'une implémentation open-source : Publication du code, des modèles pré-entraînés et des exemples pour faciliter la reproduction de la recherche
Entrée : Signal de parole réverbérée Y
Sortie : Signal de parole propre estimé Ŝ
Contrainte : Lors de l'entraînement, utilisation uniquement de signaux réverbérés, sans nécessité de données appariées propres/réverbérées
Stratégie auto-supervisée pour la réverbération : Contrairement à la supervision traditionnelle basée sur des métriques, utilisation directe du modèle physique de réverbération pour la supervision
Convolution temps-fréquence inter-bande : Implémentation d'une opération de convolution temps-fréquence différentiable, facilitant la rétropropagation du gradient
Fonction de perte de correspondance de réverbération :
L = ∑|Ŷ_{f,t} - Y_{f,t}|² + λ|log((1+γ|Ŷ_{f,t}|)/(1+γ|Y_{f,t}|))|²
Avantage de cohérence : La méthode proposée surpasse la ligne de base SRMR sur les trois métriques SISDR, ESTOI et WB-PESQ
Limitations de la ligne de base : La ligne de base MetricGAN-U offre les meilleures performances sur la métrique SRMR, mais les performances se dégradent sur les autres métriques, tombant même en dessous du signal réverbéré original
Robustesse de l'estimation : La version aveugle supervisée offre des performances presque identiques à la version faiblement supervisée, démontrant la robustesse de la méthode aux erreurs d'estimation de RT60
Adaptabilité du modèle : BiLSTM montre une dégradation de performance plus faible lors du passage de la supervision forte à la supervision faible, probablement parce qu'il traite uniquement les masques d'amplitude et est moins sensible aux perturbations de phase
La supervision auto-supervisée par réverbération réalise des améliorations de performance plus cohérentes que la supervision auto-supervisée par métrique
La méthode améliore les performances sur plusieurs métriques objectives, évitant les limitations de l'optimisation d'une seule métrique
L'estimation aveugle de RT60 n'affecte pas significativement les performances, renforçant l'applicabilité pratique de la méthode
Complexité du modèle : Comparée aux méthodes purement pilotées par les données, nécessite des composants supplémentaires de modélisation de la réverbération
Dépendance aux paramètres : Bien que l'estimation aveugle soit possible, la méthode dépend toujours de la précision des paramètres acoustiques tels que RT60
Simplification du modèle de réverbération : Le modèle de Polack utilisé est un modèle de réverbération simplifié qui peut ne pas correspondre complètement aux environnements réels
Sensibilité de phase : Les méthodes de spectre complexe (telles que FSN) sont plus sensibles aux perturbations de phase du modèle de réverbération
L'article cite les travaux importants du domaine connexe, notamment :
Les fondations théoriques classiques du modèle de réverbération de Polack
Les méthodes traditionnelles de déréverbération telles que WPE
Les méthodes non-supervisées récentes telles que MetricGAN-U
Les modèles avancés d'amélioration de la parole tels que FullSubNet
Les algorithmes d'estimation aveugle des paramètres de réverbération
Cet article propose un cadre innovant de déréverbération non-supervisée de la parole, combinant intelligemment la modélisation acoustique et l'apprentissage profond pour trouver un bon équilibre entre applicabilité pratique et performance. Bien qu'il existe un écart par rapport aux méthodes fortement supervisées, il fournit une solution précieuse pour résoudre le problème pratique de l'acquisition difficile de données dans les applications réelles.