2025-11-14T00:52:10.685423

Speech Enhancement and Dereverberation with Diffusion-based Generative Models

Richter, Welker, Lemercier et al.
In this work, we build upon our previous publication and use diffusion-based generative models for speech enhancement. We present a detailed overview of the diffusion process that is based on a stochastic differential equation and delve into an extensive theoretical examination of its implications. Opposed to usual conditional generation tasks, we do not start the reverse process from pure Gaussian noise but from a mixture of noisy speech and Gaussian noise. This matches our forward process which moves from clean speech to noisy speech by including a drift term. We show that this procedure enables using only 30 diffusion steps to generate high-quality clean speech estimates. By adapting the network architecture, we are able to significantly improve the speech enhancement performance, indicating that the network, rather than the formalism, was the main limitation of our original approach. In an extensive cross-dataset evaluation, we show that the improved method can compete with recent discriminative models and achieves better generalization when evaluating on a different corpus than used for training. We complement the results with an instrumental evaluation using real-world noisy recordings and a listening experiment, in which our proposed method is rated best. Examining different sampler configurations for solving the reverse process allows us to balance the performance and computational speed of the proposed method. Moreover, we show that the proposed method is also suitable for dereverberation and thus not limited to additive background noise removal. Code and audio examples are available online, see https://github.com/sp-uhh/sgmse.
academic

Mejora del Habla y Dereverbración con Modelos Generativos Basados en Difusión

Información Básica

  • ID del Artículo: 2208.05830
  • Título: Speech Enhancement and Dereverberation with Diffusion-based Generative Models
  • Autores: Julius Richter, Simon Welker, Jean-Marie Lemercier, Bunlong Lay, Timo Gerkmann
  • Clasificación: eess.AS (Procesamiento de Audio y Habla), cs.LG (Aprendizaje Automático), cs.SD (Sonido)
  • Fecha de Publicación: Agosto de 2022 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2208.05830
  • Enlace del Código: https://github.com/sp-uhh/sgmse

Resumen

Este artículo se basa en trabajos anteriores de los autores, utilizando modelos generativos basados en difusión para la mejora del habla. El artículo detalla el proceso de difusión basado en ecuaciones diferenciales estocásticas (EDE) y realiza un análisis teórico profundo. A diferencia de las tareas generativas condicionales convencionales, este trabajo no comienza el proceso inverso a partir de ruido gaussiano puro, sino de una mezcla de habla ruidosa y ruido gaussiano. Esto coincide con el proceso directo que contiene un término de deriva, que transforma el habla limpia en habla ruidosa. La investigación demuestra que el método puede generar estimaciones de habla limpia de alta calidad con solo 30 pasos de difusión. Mediante la mejora de la arquitectura de la red, se logró un aumento significativo en el rendimiento de la mejora del habla, lo que indica que la red, en lugar de la metodología formal, es el factor limitante principal del método original.

Contexto de Investigación y Motivación

Definición del Problema

La mejora del habla tiene como objetivo recuperar la señal de habla limpia a partir de grabaciones de audio afectadas por ruido acústico o reverberación. Este es un problema clásico de procesamiento de señales con aplicaciones importantes en comunicaciones telefónicas, dispositivos de audición asistida, reconocimiento de voz y otros campos.

Limitaciones de los Métodos Existentes

  1. Limitaciones de los Modelos Discriminativos:
    • Dificultad para cubrir todas las condiciones acústicas posibles en los datos de entrenamiento
    • Posible generación de distorsiones de habla no naturales
    • Capacidad de generalización limitada
  2. Problemas de los Modelos Generativos VAE:
    • Limitaciones de reducción de dimensionalidad en la capa latente
    • Sensibilidad del codificador a entradas ruidosas
    • Dependencia de modelos de ruido lineal
  3. Insuficiencias de los Modelos de Difusión Existentes:
    • CDiffuSE requiere estimación explícita del ruido ambiental
    • Preservación deficiente de información de alta frecuencia

Motivación de la Investigación

Este trabajo tiene como objetivo diseñar un modelo de difusión puramente generativo que, mediante el aprendizaje de la distribución previa del habla limpia, logre una mejora del habla y dereverbración de alta calidad en el dominio STFT complejo.

Contribuciones Principales

  1. Proceso de Difusión EDE Innovador: Propone una ecuación diferencial estocástica que contiene un término de deriva, permitiendo que el proceso directo transforme el habla limpia en habla ruidosa
  2. Arquitectura de Red Mejorada: Adopta la arquitectura NCSN++ en lugar de la U-Net compleja original, mejorando significativamente el rendimiento
  3. Marco Unificado: Un único marco puede manejar tanto tareas de mejora del habla como de dereverbración
  4. Evaluación Integral: Incluye evaluación entre conjuntos de datos, pruebas en datos reales y experimentos de escucha subjetiva
  5. Optimización de Eficiencia: Equilibra rendimiento y velocidad computacional mediante diferentes configuraciones de muestreo
  6. Análisis Teórico: Proporciona derivaciones y análisis teóricos detallados del proceso de difusión

Explicación Detallada del Método

Definición de la Tarea

  • Entrada: Señal de habla ruidosa/reverberante yy
  • Salida: Señal de habla limpia x0x_0
  • Restricción: Mantener la naturalidad e inteligibilidad del habla

Representación de Datos

El artículo opera en el dominio STFT complejo, utilizando una transformación de compresión de magnitud: c~=βcαei(c)\tilde{c} = \beta|c|^{\alpha}e^{i\angle(c)} donde α(0,1]\alpha \in (0,1] es el exponente de compresión y βR+\beta \in \mathbb{R}^+ es el factor de escala.

Diseño de Ecuaciones Diferenciales Estocásticas

Proceso Directo

Se define la EDE lineal: dxt=f(xt,y)dt+g(t)dwdx_t = f(x_t, y)dt + g(t)dw

donde:

  • Coeficiente de deriva: f(xt,y)=γ(yxt)f(x_t, y) = \gamma(y - x_t)
  • Coeficiente de difusión: g(t)=σmin(σmaxσmin)t2log(σmaxσmin)g(t) = \sigma_{min}\left(\frac{\sigma_{max}}{\sigma_{min}}\right)^t\sqrt{2\log\left(\frac{\sigma_{max}}{\sigma_{min}}\right)}

Proceso Inverso

La EDE inversa correspondiente es: dxt=[f(xt,y)g(t)2sθ(xt,y,t)]dt+g(t)dwˉdx_t = [f(x_t, y) - g(t)^2s_\theta(x_t, y, t)]dt + g(t)d\bar{w}

donde sθ(xt,y,t)s_\theta(x_t, y, t) es la función de puntuación que debe aprenderse.

Objetivo de Entrenamiento

Basado en coincidencia de puntuación de desruido, el objetivo de entrenamiento es: argminθEt,(x0,y),z,xt(x0,y)[sθ(xt,y,t)+zσ(t)22]\arg\min_\theta \mathbb{E}_{t,(x_0,y),z,x_t|(x_0,y)}\left[\left\|s_\theta(x_t, y, t) + \frac{z}{\sigma(t)}\right\|_2^2\right]

Arquitectura de la Red

Se adopta la arquitectura NCSN++, con características principales:

  1. Estructura U-Net de Múltiples Resoluciones
  2. Rutas de Crecimiento Progresivo
  3. Mecanismo de Atención Global
  4. Incrustación Temporal: Codificación de información temporal mediante incrustación de Fourier
  5. Bloques Residuales: Bloques de red residual basados en BigGAN

Configuración Experimental

Conjuntos de Datos

  1. WSJ0-CHiME3: Utiliza habla limpia de WSJ0 y ruido de CHiME3, rango SNR 0-20dB
  2. VB-DMD (VoiceBank-DEMAND): Conjunto de datos de referencia estándar para mejora del habla
  3. WSJ0-REVERB: Datos de reverberación simulados mediante pyroomacoustics, rango T60 0.4-1.0 segundos

Métricas de Evaluación

  • Métricas de Referencia Completa: POLQA, PESQ, ESTOI, SI-SDR, SI-SIR, SI-SAR
  • Métricas sin Referencia: DNSMOS, SIG, BAK, OVRL, WVMOS

Métodos de Comparación

  • Modelos Generativos: STCN, DVAE, CDiffuSE, SGMSE (versión original)
  • Modelos Discriminativos: MetricGAN+, Conv-TasNet, GaGNet, TCN+SA+S

Detalles de Implementación

  • Parámetros STFT: longitud de ventana 510, salto 128, ventana de Hann
  • Parámetros EDE: σmin=0.05\sigma_{min}=0.05, σmax=0.5\sigma_{max}=0.5, γ=1.5\gamma=1.5
  • Entrenamiento: 4×Quadro RTX 6000, 160 épocas, tasa de aprendizaje 10410^{-4}
  • Muestreo: 30 pasos de proceso inverso, muestreador predictor-corrector

Resultados Experimentales

Resultados Principales

Rendimiento de Mejora del Habla (WSJ0-CHiME3)

MétodoConjunto de EntrenamientoPOLQAPESQSI-SDR
SGMSE+WSJ0-C33.732.9618.3
Conv-TasNetWSJ0-C33.652.9919.9
MetricGAN+WSJ0-C33.523.0310.5
CDiffuSEWSJ0-C33.082.279.2

Capacidad de Generalización Entre Conjuntos de Datos

En condiciones no coincidentes (entrenamiento en VB-DMD, prueba en WSJ0-CHiME3), SGMSE+ supera a otros métodos en todas las métricas, demostrando una capacidad de generalización superior.

Rendimiento de Dereverbración (WSJ0-REVERB)

MétodoPOLQAPESQSI-SDR
SGMSE+3.242.661.6
Conv-TasNet2.411.841.6
GaGNet2.621.98-0.6

Experimentos de Ablación

Optimización de Configuración del Muestreador

  • Muestreador Predictor-Corrector: Un paso de corrección logra el mejor equilibrio de rendimiento
  • Selección de Pasos: 30 pasos alcanzan saturación de rendimiento
  • Eficiencia Computacional: RTF de 1.77 (1.77 veces el procesamiento en tiempo real)

Efecto de Mejora de Arquitectura

En comparación con SGMSE original, SGMSE+ mejora 0.75 en POLQA y 0.68 en PESQ, demostrando la importancia de la arquitectura de la red.

Experimentos de Escucha Subjetiva

Los resultados del experimento MUSHRA muestran que SGMSE+ obtiene la puntuación más alta, particularmente demostrando robustez excepcional en condiciones no coincidentes.

Evaluación en Datos Reales

En datos de ruido real del DNS Challenge 2020, SGMSE+ demuestra el mejor rendimiento en todas las métricas sin referencia.

Trabajo Relacionado

Enfoques de Modelos Discriminativos

  • Enmascaramiento Tiempo-Frecuencia: Aprendizaje de enmascaramiento binario ideal o enmascaramiento de razón
  • Mapeo Espectral Complejo: Estimación directa de coeficientes STFT complejos
  • Métodos en Dominio del Tiempo: Procesamiento de forma de onda de extremo a extremo

Enfoques de Modelos Generativos

  • Basados en VAE: Aprendizaje de distribución previa del habla, pero limitado por reducción de dimensionalidad en espacio latente
  • Métodos GAN: Estimación de densidad implícita, pero entrenamiento inestable
  • Modelos de Difusión: Surgimiento reciente, dividido en dos categorías: regeneración y modelado directo

Aplicaciones de Modelos de Difusión en Habla

  • Regeneración de Habla: Métodos como CDiffuSE
  • Modelado Directo: Métodos de serie SGMSE en este trabajo

Conclusiones y Discusión

Conclusiones Principales

  1. La arquitectura de red mejorada es el factor clave para la mejora del rendimiento
  2. Los modelos generativos superan a los modelos discriminativos en generalización entre conjuntos de datos
  3. Un único marco puede manejar efectivamente múltiples tareas de recuperación de habla
  4. El proceso de difusión de 30 pasos puede lograr generación de habla de alta calidad

Limitaciones

  1. Complejidad Computacional: Mayor carga computacional en comparación con modelos discriminativos
  2. Artefactos: Posibles artefactos de "vocalización" en SNR muy bajo
  3. Modelado de Fase: Efecto limitado de mejora de fase en modelado complejo
  4. Sensibilidad de Parámetros: Requiere ajuste cuidadoso de parámetros EDE

Direcciones Futuras

  1. Incorporación de detección de actividad de voz e información de fonemas condicional
  2. Exploración de estrategias de muestreo más eficientes
  3. Investigación de mejora de fase con longitudes de marco más cortas
  4. Extensión a otras tareas de recuperación de habla

Evaluación Profunda

Fortalezas

  1. Contribución Teórica: Proporciona derivaciones y análisis teóricos completos de EDE
  2. Innovación Metodológica: Diseño ingenioso del término de deriva para adaptación de tareas
  3. Experimentación Integral: Incluye evaluación entre conjuntos de datos, datos reales y evaluación subjetiva
  4. Valor Práctico: Código de código abierto, facilitando reproducción y aplicación
  5. Escritura Clara: Derivaciones teóricas detalladas y diseño experimental razonable

Insuficiencias

  1. Eficiencia Computacional: RTF de 1.77, con mejora necesaria en procesamiento en tiempo real
  2. Problema de Artefactos: Artefactos de "vocalización" en SNR bajo requieren solución
  3. Ajuste de Parámetros: Los parámetros EDE requieren optimización específica del conjunto de datos
  4. Análisis Teórico: Análisis insuficiente del impacto de desajuste entre procesos directo e inverso

Impacto

  1. Valor Académico: Proporciona referencia importante para aplicación de modelos de difusión en procesamiento de habla
  2. Valor Práctico: Logra rendimiento competitivo en múltiples conjuntos de datos de referencia
  3. Reproducibilidad: Proporciona código completo y muestras de audio
  4. Inspiración: Proporciona marco genérico para otras tareas de recuperación de habla

Escenarios Aplicables

  1. Mejora del Habla: Comunicaciones telefónicas, dispositivos de audición asistida
  2. Dereverbración: Procesamiento posterior de grabaciones de habla en interiores
  3. Restauración de Habla: Restauración de grabaciones históricas
  4. Preprocesamiento: Procesamiento frontal de sistemas de reconocimiento de voz

Referencias

El artículo cita numerosos trabajos relacionados, incluyendo principalmente:

  • Song et al. (2021): Score-based generative modeling through stochastic differential equations
  • Lu et al. (2022): Conditional diffusion probabilistic model for speech enhancement
  • Vincent (2011): A connection between score matching and denoising autoencoders
  • Anderson (1982): Reverse-time diffusion equation models

Evaluación General: Este es un artículo de investigación de alta calidad que demuestra excelencia en innovación teórica, diseño metodológico y verificación experimental. El artículo aplica exitosamente modelos de difusión a tareas de mejora del habla, logrando mediante diseño ingenioso de EDE y mejora de arquitectura de red un rendimiento comparable a modelos discriminativos, mientras demuestra capacidad de generalización superior. A pesar de problemas de eficiencia computacional y artefactos, sus contribuciones teóricas y valor práctico lo convierten en un trabajo importante en este campo.