Speech Enhancement and Dereverberation with Diffusion-based Generative Models
Richter, Welker, Lemercier et al.
In this work, we build upon our previous publication and use diffusion-based generative models for speech enhancement. We present a detailed overview of the diffusion process that is based on a stochastic differential equation and delve into an extensive theoretical examination of its implications. Opposed to usual conditional generation tasks, we do not start the reverse process from pure Gaussian noise but from a mixture of noisy speech and Gaussian noise. This matches our forward process which moves from clean speech to noisy speech by including a drift term. We show that this procedure enables using only 30 diffusion steps to generate high-quality clean speech estimates. By adapting the network architecture, we are able to significantly improve the speech enhancement performance, indicating that the network, rather than the formalism, was the main limitation of our original approach. In an extensive cross-dataset evaluation, we show that the improved method can compete with recent discriminative models and achieves better generalization when evaluating on a different corpus than used for training. We complement the results with an instrumental evaluation using real-world noisy recordings and a listening experiment, in which our proposed method is rated best. Examining different sampler configurations for solving the reverse process allows us to balance the performance and computational speed of the proposed method. Moreover, we show that the proposed method is also suitable for dereverberation and thus not limited to additive background noise removal. Code and audio examples are available online, see https://github.com/sp-uhh/sgmse.
academic
Mejora del Habla y Dereverbración con Modelos Generativos Basados en Difusión
Este artículo se basa en trabajos anteriores de los autores, utilizando modelos generativos basados en difusión para la mejora del habla. El artículo detalla el proceso de difusión basado en ecuaciones diferenciales estocásticas (EDE) y realiza un análisis teórico profundo. A diferencia de las tareas generativas condicionales convencionales, este trabajo no comienza el proceso inverso a partir de ruido gaussiano puro, sino de una mezcla de habla ruidosa y ruido gaussiano. Esto coincide con el proceso directo que contiene un término de deriva, que transforma el habla limpia en habla ruidosa. La investigación demuestra que el método puede generar estimaciones de habla limpia de alta calidad con solo 30 pasos de difusión. Mediante la mejora de la arquitectura de la red, se logró un aumento significativo en el rendimiento de la mejora del habla, lo que indica que la red, en lugar de la metodología formal, es el factor limitante principal del método original.
La mejora del habla tiene como objetivo recuperar la señal de habla limpia a partir de grabaciones de audio afectadas por ruido acústico o reverberación. Este es un problema clásico de procesamiento de señales con aplicaciones importantes en comunicaciones telefónicas, dispositivos de audición asistida, reconocimiento de voz y otros campos.
Este trabajo tiene como objetivo diseñar un modelo de difusión puramente generativo que, mediante el aprendizaje de la distribución previa del habla limpia, logre una mejora del habla y dereverbración de alta calidad en el dominio STFT complejo.
Proceso de Difusión EDE Innovador: Propone una ecuación diferencial estocástica que contiene un término de deriva, permitiendo que el proceso directo transforme el habla limpia en habla ruidosa
Arquitectura de Red Mejorada: Adopta la arquitectura NCSN++ en lugar de la U-Net compleja original, mejorando significativamente el rendimiento
Marco Unificado: Un único marco puede manejar tanto tareas de mejora del habla como de dereverbración
Evaluación Integral: Incluye evaluación entre conjuntos de datos, pruebas en datos reales y experimentos de escucha subjetiva
Optimización de Eficiencia: Equilibra rendimiento y velocidad computacional mediante diferentes configuraciones de muestreo
Análisis Teórico: Proporciona derivaciones y análisis teóricos detallados del proceso de difusión
El artículo opera en el dominio STFT complejo, utilizando una transformación de compresión de magnitud:
c~=β∣c∣αei∠(c)
donde α∈(0,1] es el exponente de compresión y β∈R+ es el factor de escala.
En condiciones no coincidentes (entrenamiento en VB-DMD, prueba en WSJ0-CHiME3), SGMSE+ supera a otros métodos en todas las métricas, demostrando una capacidad de generalización superior.
Los resultados del experimento MUSHRA muestran que SGMSE+ obtiene la puntuación más alta, particularmente demostrando robustez excepcional en condiciones no coincidentes.
El artículo cita numerosos trabajos relacionados, incluyendo principalmente:
Song et al. (2021): Score-based generative modeling through stochastic differential equations
Lu et al. (2022): Conditional diffusion probabilistic model for speech enhancement
Vincent (2011): A connection between score matching and denoising autoencoders
Anderson (1982): Reverse-time diffusion equation models
Evaluación General: Este es un artículo de investigación de alta calidad que demuestra excelencia en innovación teórica, diseño metodológico y verificación experimental. El artículo aplica exitosamente modelos de difusión a tareas de mejora del habla, logrando mediante diseño ingenioso de EDE y mejora de arquitectura de red un rendimiento comparable a modelos discriminativos, mientras demuestra capacidad de generalización superior. A pesar de problemas de eficiencia computacional y artefactos, sus contribuciones teóricas y valor práctico lo convierten en un trabajo importante en este campo.