2025-11-14T00:52:10.685423

Speech Enhancement and Dereverberation with Diffusion-based Generative Models

Richter, Welker, Lemercier et al.

In this work, we build upon our previous publication and use diffusion-based generative models for speech enhancement. We present a detailed overview of the diffusion process that is based on a stochastic differential equation and delve into an extensive theoretical examination of its implications. Opposed to usual conditional generation tasks, we do not start the reverse process from pure Gaussian noise but from a mixture of noisy speech and Gaussian noise. This matches our forward process which moves from clean speech to noisy speech by including a drift term. We show that this procedure enables using only 30 diffusion steps to generate high-quality clean speech estimates. By adapting the network architecture, we are able to significantly improve the speech enhancement performance, indicating that the network, rather than the formalism, was the main limitation of our original approach. In an extensive cross-dataset evaluation, we show that the improved method can compete with recent discriminative models and achieves better generalization when evaluating on a different corpus than used for training. We complement the results with an instrumental evaluation using real-world noisy recordings and a listening experiment, in which our proposed method is rated best. Examining different sampler configurations for solving the reverse process allows us to balance the performance and computational speed of the proposed method. Moreover, we show that the proposed method is also suitable for dereverberation and thus not limited to additive background noise removal. Code and audio examples are available online, see https://github.com/sp-uhh/sgmse.

academic

Mejora del Habla y Dereverbración con Modelos Generativos Basados en Difusión

Información Básica

ID del Artículo: 2208.05830
Título: Speech Enhancement and Dereverberation with Diffusion-based Generative Models
Autores: Julius Richter, Simon Welker, Jean-Marie Lemercier, Bunlong Lay, Timo Gerkmann
Clasificación: eess.AS (Procesamiento de Audio y Habla), cs.LG (Aprendizaje Automático), cs.SD (Sonido)
Fecha de Publicación: Agosto de 2022 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2208.05830
Enlace del Código: https://github.com/sp-uhh/sgmse

Resumen

Este artículo se basa en trabajos anteriores de los autores, utilizando modelos generativos basados en difusión para la mejora del habla. El artículo detalla el proceso de difusión basado en ecuaciones diferenciales estocásticas (EDE) y realiza un análisis teórico profundo. A diferencia de las tareas generativas condicionales convencionales, este trabajo no comienza el proceso inverso a partir de ruido gaussiano puro, sino de una mezcla de habla ruidosa y ruido gaussiano. Esto coincide con el proceso directo que contiene un término de deriva, que transforma el habla limpia en habla ruidosa. La investigación demuestra que el método puede generar estimaciones de habla limpia de alta calidad con solo 30 pasos de difusión. Mediante la mejora de la arquitectura de la red, se logró un aumento significativo en el rendimiento de la mejora del habla, lo que indica que la red, en lugar de la metodología formal, es el factor limitante principal del método original.

Contexto de Investigación y Motivación

Definición del Problema

La mejora del habla tiene como objetivo recuperar la señal de habla limpia a partir de grabaciones de audio afectadas por ruido acústico o reverberación. Este es un problema clásico de procesamiento de señales con aplicaciones importantes en comunicaciones telefónicas, dispositivos de audición asistida, reconocimiento de voz y otros campos.

Limitaciones de los Métodos Existentes

Limitaciones de los Modelos Discriminativos:
- Dificultad para cubrir todas las condiciones acústicas posibles en los datos de entrenamiento
- Posible generación de distorsiones de habla no naturales
- Capacidad de generalización limitada
Problemas de los Modelos Generativos VAE:
- Limitaciones de reducción de dimensionalidad en la capa latente
- Sensibilidad del codificador a entradas ruidosas
- Dependencia de modelos de ruido lineal
Insuficiencias de los Modelos de Difusión Existentes:
- CDiffuSE requiere estimación explícita del ruido ambiental
- Preservación deficiente de información de alta frecuencia

Motivación de la Investigación

Este trabajo tiene como objetivo diseñar un modelo de difusión puramente generativo que, mediante el aprendizaje de la distribución previa del habla limpia, logre una mejora del habla y dereverbración de alta calidad en el dominio STFT complejo.

Contribuciones Principales

Proceso de Difusión EDE Innovador: Propone una ecuación diferencial estocástica que contiene un término de deriva, permitiendo que el proceso directo transforme el habla limpia en habla ruidosa
Arquitectura de Red Mejorada: Adopta la arquitectura NCSN++ en lugar de la U-Net compleja original, mejorando significativamente el rendimiento
Marco Unificado: Un único marco puede manejar tanto tareas de mejora del habla como de dereverbración
Evaluación Integral: Incluye evaluación entre conjuntos de datos, pruebas en datos reales y experimentos de escucha subjetiva
Optimización de Eficiencia: Equilibra rendimiento y velocidad computacional mediante diferentes configuraciones de muestreo
Análisis Teórico: Proporciona derivaciones y análisis teóricos detallados del proceso de difusión

Explicación Detallada del Método

Definición de la Tarea

Entrada: Señal de habla ruidosa/reverberante $y$
Salida: Señal de habla limpia $x_0$
Restricción: Mantener la naturalidad e inteligibilidad del habla

Representación de Datos

El artículo opera en el dominio STFT complejo, utilizando una transformación de compresión de magnitud: $\tilde{c} = \beta|c|^{\alpha}e^{i\angle(c)}$ donde $\alpha \in (0,1]$ es el exponente de compresión y $\beta \in \mathbb{R}^+$ es el factor de escala.

Diseño de Ecuaciones Diferenciales Estocásticas

Proceso Directo

Se define la EDE lineal: $dx_t = f(x_t, y)dt + g(t)dw$

donde:

Coeficiente de deriva: $f(x_t, y) = \gamma(y - x_t)$
Coeficiente de difusión: $g(t) = \sigma_{min}\left(\frac{\sigma_{max}}{\sigma_{min}}\right)^t\sqrt{2\log\left(\frac{\sigma_{max}}{\sigma_{min}}\right)}$

Proceso Inverso

La EDE inversa correspondiente es: $dx_t = [f(x_t, y) - g(t)^2s_\theta(x_t, y, t)]dt + g(t)d\bar{w}$

donde $s_\theta(x_t, y, t)$ es la función de puntuación que debe aprenderse.

Objetivo de Entrenamiento

Basado en coincidencia de puntuación de desruido, el objetivo de entrenamiento es: $\arg\min_\theta \mathbb{E}_{t,(x_0,y),z,x_t|(x_0,y)}\left[\left\|s_\theta(x_t, y, t) + \frac{z}{\sigma(t)}\right\|_2^2\right]$

Arquitectura de la Red

Se adopta la arquitectura NCSN++, con características principales:

Estructura U-Net de Múltiples Resoluciones
Rutas de Crecimiento Progresivo
Mecanismo de Atención Global
Incrustación Temporal: Codificación de información temporal mediante incrustación de Fourier
Bloques Residuales: Bloques de red residual basados en BigGAN

Configuración Experimental

Conjuntos de Datos

WSJ0-CHiME3: Utiliza habla limpia de WSJ0 y ruido de CHiME3, rango SNR 0-20dB
VB-DMD (VoiceBank-DEMAND): Conjunto de datos de referencia estándar para mejora del habla
WSJ0-REVERB: Datos de reverberación simulados mediante pyroomacoustics, rango T60 0.4-1.0 segundos

Métricas de Evaluación

Métricas de Referencia Completa: POLQA, PESQ, ESTOI, SI-SDR, SI-SIR, SI-SAR
Métricas sin Referencia: DNSMOS, SIG, BAK, OVRL, WVMOS

Métodos de Comparación

Modelos Generativos: STCN, DVAE, CDiffuSE, SGMSE (versión original)
Modelos Discriminativos: MetricGAN+, Conv-TasNet, GaGNet, TCN+SA+S

Detalles de Implementación

Parámetros STFT: longitud de ventana 510, salto 128, ventana de Hann
Parámetros EDE: $\sigma_{min}=0.05$ , $\sigma_{max}=0.5$ , $\gamma=1.5$
Entrenamiento: 4×Quadro RTX 6000, 160 épocas, tasa de aprendizaje $10^{-4}$
Muestreo: 30 pasos de proceso inverso, muestreador predictor-corrector

Resultados Experimentales

Resultados Principales

Rendimiento de Mejora del Habla (WSJ0-CHiME3)

Método	Conjunto de Entrenamiento	POLQA	PESQ	SI-SDR
SGMSE+	WSJ0-C3	3.73	2.96	18.3
Conv-TasNet	WSJ0-C3	3.65	2.99	19.9
MetricGAN+	WSJ0-C3	3.52	3.03	10.5
CDiffuSE	WSJ0-C3	3.08	2.27	9.2

Capacidad de Generalización Entre Conjuntos de Datos

En condiciones no coincidentes (entrenamiento en VB-DMD, prueba en WSJ0-CHiME3), SGMSE+ supera a otros métodos en todas las métricas, demostrando una capacidad de generalización superior.

Rendimiento de Dereverbración (WSJ0-REVERB)

Método	POLQA	PESQ	SI-SDR
SGMSE+	3.24	2.66	1.6
Conv-TasNet	2.41	1.84	1.6
GaGNet	2.62	1.98	-0.6

Experimentos de Ablación

Optimización de Configuración del Muestreador

Muestreador Predictor-Corrector: Un paso de corrección logra el mejor equilibrio de rendimiento
Selección de Pasos: 30 pasos alcanzan saturación de rendimiento
Eficiencia Computacional: RTF de 1.77 (1.77 veces el procesamiento en tiempo real)

Efecto de Mejora de Arquitectura

En comparación con SGMSE original, SGMSE+ mejora 0.75 en POLQA y 0.68 en PESQ, demostrando la importancia de la arquitectura de la red.

Experimentos de Escucha Subjetiva

Los resultados del experimento MUSHRA muestran que SGMSE+ obtiene la puntuación más alta, particularmente demostrando robustez excepcional en condiciones no coincidentes.

Evaluación en Datos Reales

En datos de ruido real del DNS Challenge 2020, SGMSE+ demuestra el mejor rendimiento en todas las métricas sin referencia.

Trabajo Relacionado

Enfoques de Modelos Discriminativos

Enmascaramiento Tiempo-Frecuencia: Aprendizaje de enmascaramiento binario ideal o enmascaramiento de razón
Mapeo Espectral Complejo: Estimación directa de coeficientes STFT complejos
Métodos en Dominio del Tiempo: Procesamiento de forma de onda de extremo a extremo

Enfoques de Modelos Generativos

Basados en VAE: Aprendizaje de distribución previa del habla, pero limitado por reducción de dimensionalidad en espacio latente
Métodos GAN: Estimación de densidad implícita, pero entrenamiento inestable
Modelos de Difusión: Surgimiento reciente, dividido en dos categorías: regeneración y modelado directo

Aplicaciones de Modelos de Difusión en Habla

Regeneración de Habla: Métodos como CDiffuSE
Modelado Directo: Métodos de serie SGMSE en este trabajo

Conclusiones y Discusión

Conclusiones Principales

La arquitectura de red mejorada es el factor clave para la mejora del rendimiento
Los modelos generativos superan a los modelos discriminativos en generalización entre conjuntos de datos
Un único marco puede manejar efectivamente múltiples tareas de recuperación de habla
El proceso de difusión de 30 pasos puede lograr generación de habla de alta calidad

Limitaciones

Complejidad Computacional: Mayor carga computacional en comparación con modelos discriminativos
Artefactos: Posibles artefactos de "vocalización" en SNR muy bajo
Modelado de Fase: Efecto limitado de mejora de fase en modelado complejo
Sensibilidad de Parámetros: Requiere ajuste cuidadoso de parámetros EDE

Direcciones Futuras

Incorporación de detección de actividad de voz e información de fonemas condicional
Exploración de estrategias de muestreo más eficientes
Investigación de mejora de fase con longitudes de marco más cortas
Extensión a otras tareas de recuperación de habla

Evaluación Profunda

Fortalezas

Contribución Teórica: Proporciona derivaciones y análisis teóricos completos de EDE
Innovación Metodológica: Diseño ingenioso del término de deriva para adaptación de tareas
Experimentación Integral: Incluye evaluación entre conjuntos de datos, datos reales y evaluación subjetiva
Valor Práctico: Código de código abierto, facilitando reproducción y aplicación
Escritura Clara: Derivaciones teóricas detalladas y diseño experimental razonable

Insuficiencias

Eficiencia Computacional: RTF de 1.77, con mejora necesaria en procesamiento en tiempo real
Problema de Artefactos: Artefactos de "vocalización" en SNR bajo requieren solución
Ajuste de Parámetros: Los parámetros EDE requieren optimización específica del conjunto de datos
Análisis Teórico: Análisis insuficiente del impacto de desajuste entre procesos directo e inverso

Impacto

Valor Académico: Proporciona referencia importante para aplicación de modelos de difusión en procesamiento de habla
Valor Práctico: Logra rendimiento competitivo en múltiples conjuntos de datos de referencia
Reproducibilidad: Proporciona código completo y muestras de audio
Inspiración: Proporciona marco genérico para otras tareas de recuperación de habla

Escenarios Aplicables

Mejora del Habla: Comunicaciones telefónicas, dispositivos de audición asistida
Dereverbración: Procesamiento posterior de grabaciones de habla en interiores
Restauración de Habla: Restauración de grabaciones históricas
Preprocesamiento: Procesamiento frontal de sistemas de reconocimiento de voz

Referencias

El artículo cita numerosos trabajos relacionados, incluyendo principalmente:

Song et al. (2021): Score-based generative modeling through stochastic differential equations
Lu et al. (2022): Conditional diffusion probabilistic model for speech enhancement
Vincent (2011): A connection between score matching and denoising autoencoders
Anderson (1982): Reverse-time diffusion equation models

Evaluación General: Este es un artículo de investigación de alta calidad que demuestra excelencia en innovación teórica, diseño metodológico y verificación experimental. El artículo aplica exitosamente modelos de difusión a tareas de mejora del habla, logrando mediante diseño ingenioso de EDE y mejora de arquitectura de red un rendimiento comparable a modelos discriminativos, mientras demuestra capacidad de generalización superior. A pesar de problemas de eficiencia computacional y artefactos, sus contribuciones teóricas y valor práctico lo convierten en un trabajo importante en este campo.