2025-11-14T00:52:10.685423

Speech Enhancement and Dereverberation with Diffusion-based Generative Models

Richter, Welker, Lemercier et al.

In this work, we build upon our previous publication and use diffusion-based generative models for speech enhancement. We present a detailed overview of the diffusion process that is based on a stochastic differential equation and delve into an extensive theoretical examination of its implications. Opposed to usual conditional generation tasks, we do not start the reverse process from pure Gaussian noise but from a mixture of noisy speech and Gaussian noise. This matches our forward process which moves from clean speech to noisy speech by including a drift term. We show that this procedure enables using only 30 diffusion steps to generate high-quality clean speech estimates. By adapting the network architecture, we are able to significantly improve the speech enhancement performance, indicating that the network, rather than the formalism, was the main limitation of our original approach. In an extensive cross-dataset evaluation, we show that the improved method can compete with recent discriminative models and achieves better generalization when evaluating on a different corpus than used for training. We complement the results with an instrumental evaluation using real-world noisy recordings and a listening experiment, in which our proposed method is rated best. Examining different sampler configurations for solving the reverse process allows us to balance the performance and computational speed of the proposed method. Moreover, we show that the proposed method is also suitable for dereverberation and thus not limited to additive background noise removal. Code and audio examples are available online, see https://github.com/sp-uhh/sgmse.

academic

Speech Enhancement and Dereverberation with Diffusion-based Generative Models

基本信息

论文ID: 2208.05830
标题: Speech Enhancement and Dereverberation with Diffusion-based Generative Models
作者: Julius Richter, Simon Welker, Jean-Marie Lemercier, Bunlong Lay, Timo Gerkmann
分类: eess.AS (Audio and Speech Processing), cs.LG (Machine Learning), cs.SD (Sound)
发表时间: 2022年8月 (arXiv预印本)
论文链接: https://arxiv.org/abs/2208.05830
代码链接: https://github.com/sp-uhh/sgmse

摘要

本文基于作者之前的工作，使用基于扩散的生成模型进行语音增强。论文详细介绍了基于随机微分方程的扩散过程，并深入进行了理论分析。与常规条件生成任务不同，本文不从纯高斯噪声开始反向过程，而是从噪声语音和高斯噪声的混合开始。这与包含漂移项的前向过程相匹配，该过程从干净语音转向噪声语音。研究表明，该方法仅需30个扩散步骤即可生成高质量的干净语音估计。通过改进网络架构，显著提升了语音增强性能，表明网络而非形式化方法是原始方法的主要限制因素。

研究背景与动机

问题定义

语音增强旨在从受到声学噪声或混响影响的音频录音中恢复干净的语音信号。这是一个经典的信号处理问题，在电话通信、助听设备、语音识别等领域具有重要应用价值。

现有方法局限性

判别模型的局限性：
- 难以覆盖训练数据中的所有可能声学条件
- 可能产生不自然的语音失真
- 泛化能力有限
VAE生成模型的问题：
- 潜在层的降维限制
- 编码器对噪声输入敏感
- 依赖于线性噪声模型
现有扩散模型的不足：
- CDiffuSE需要显式估计环境噪声
- 高频信息保存不佳

研究动机

本文旨在设计一个纯生成的扩散模型，通过学习干净语音的先验分布，在复数STFT域内实现高质量的语音增强和去混响。

核心贡献

创新的SDE扩散过程：提出了包含漂移项的随机微分方程，使前向过程从干净语音转向噪声语音
改进的网络架构：采用NCSN++架构替代原始的复数U-Net，显著提升性能
统一框架：同一框架可处理语音增强和去混响两种任务
全面评估：包括跨数据集评估、真实数据测试和主观听力实验
效率优化：通过不同采样器配置平衡性能与计算速度
理论分析：提供了扩散过程的详细理论推导和分析

方法详解

任务定义

输入：噪声/混响语音信号 $y$
输出：干净语音信号 $x_0$
约束：保持语音的自然性和可懂度

数据表示

论文在复数STFT域操作，使用幅度压缩变换： $\tilde{c} = \beta|c|^{\alpha}e^{i\angle(c)}$ 其中 $\alpha \in (0,1]$ 是压缩指数， $\beta \in \mathbb{R}^+$ 是缩放因子。

随机微分方程设计

前向过程

定义线性SDE： $dx_t = f(x_t, y)dt + g(t)dw$

其中：

漂移系数： $f(x_t, y) = \gamma(y - x_t)$
扩散系数： $g(t) = \sigma_{min}\left(\frac{\sigma_{max}}{\sigma_{min}}\right)^t\sqrt{2\log\left(\frac{\sigma_{max}}{\sigma_{min}}\right)}$

反向过程

对应的反向SDE为： $dx_t = [f(x_t, y) - g(t)^2s_\theta(x_t, y, t)]dt + g(t)d\bar{w}$

其中 $s_\theta(x_t, y, t)$ 是需要学习的分数函数。

训练目标

基于去噪分数匹配，训练目标为： $\arg\min_\theta \mathbb{E}_{t,(x_0,y),z,x_t|(x_0,y)}\left[\left\|s_\theta(x_t, y, t) + \frac{z}{\sigma(t)}\right\|_2^2\right]$

网络架构

采用NCSN++架构，主要特点：

多分辨率U-Net结构
渐进式增长路径
全局注意力机制
时间嵌入：使用Fourier嵌入编码时间信息
残差块：基于BigGAN的残差网络块

实验设置

数据集

WSJ0-CHiME3：使用WSJ0干净语音和CHiME3噪声，SNR范围0-20dB
VB-DMD (VoiceBank-DEMAND)：标准语音增强基准数据集
WSJ0-REVERB：使用pyroomacoustics模拟的混响数据，T60范围0.4-1.0秒

评价指标

全参考指标：POLQA, PESQ, ESTOI, SI-SDR, SI-SIR, SI-SAR
无参考指标：DNSMOS, SIG, BAK, OVRL, WVMOS

对比方法

生成模型：STCN, DVAE, CDiffuSE, SGMSE (原版)
判别模型：MetricGAN+, Conv-TasNet, GaGNet, TCN+SA+S

实现细节

STFT参数：窗长510，跳跃长度128，Hann窗
SDE参数： $\sigma_{min}=0.05$ , $\sigma_{max}=0.5$ , $\gamma=1.5$
训练：4×Quadro RTX 6000，160个epoch，学习率 $10^{-4}$
采样：30步反向过程，预测-校正采样器

实验结果

主要结果

语音增强性能 (WSJ0-CHiME3)

方法	训练集	POLQA	PESQ	SI-SDR
SGMSE+	WSJ0-C3	3.73	2.96	18.3
Conv-TasNet	WSJ0-C3	3.65	2.99	19.9
MetricGAN+	WSJ0-C3	3.52	3.03	10.5
CDiffuSE	WSJ0-C3	3.08	2.27	9.2

跨数据集泛化能力

在不匹配条件下（VB-DMD训练，WSJ0-CHiME3测试），SGMSE+在所有指标上均优于其他方法，显示出优异的泛化能力。

去混响性能 (WSJ0-REVERB)

方法	POLQA	PESQ	SI-SDR
SGMSE+	3.24	2.66	1.6
Conv-TasNet	2.41	1.84	1.6
GaGNet	2.62	1.98	-0.6

消融实验

采样器配置优化

预测-校正采样器：1个校正步骤达到最佳性能平衡
步数选择：30步达到性能饱和
计算效率：RTF为1.77（实时处理的1.77倍）

架构改进效果

相比原始SGMSE，SGMSE+在POLQA上提升0.75，在PESQ上提升0.68，证明网络架构的重要性。

主观听力实验

MUSHRA实验结果显示，SGMSE+获得最高评分，特别是在不匹配条件下表现出色的鲁棒性。

真实数据评估

在DNS Challenge 2020真实噪声数据上，SGMSE+在所有无参考指标上均表现最佳。

结论与讨论

主要结论

改进的网络架构是性能提升的关键因素
生成模型在跨数据集泛化上优于判别模型
同一框架可有效处理多种语音恢复任务
30步扩散过程可达到高质量语音生成

局限性

计算复杂度：相比判别模型计算量较大
人工产物：在极低SNR下可能产生"发声"伪影
相位建模：复数建模的相位提升效果有限
参数敏感性：需要仔细调节SDE参数

未来方向

加入语音活动检测和音素信息条件化
探索更高效的采样策略
研究更短帧长下的相位增强
扩展到其他语音恢复任务

深度评价

优点

理论贡献：提供了完整的SDE理论推导和分析
方法创新：巧妙的漂移项设计实现任务适应
实验全面：包含跨数据集、真实数据和主观评估
实用价值：代码开源，便于复现和应用
写作清晰：理论推导详细，实验设计合理

不足

计算效率：RTF为1.77，实时性有待提升
伪影问题：低SNR下的"发声"伪影需要解决
参数调节：SDE参数需要针对数据集优化
理论分析：前后向过程不匹配的影响分析不够深入

影响力

学术价值：为扩散模型在语音处理中的应用提供了重要参考
实用价值：在多个基准数据集上达到竞争性能
可复现性：提供完整代码和音频样例
启发性：为其他语音恢复任务提供了通用框架

适用场景

语音增强：电话通信、助听设备
去混响：室内语音录音后处理
语音恢复：历史录音修复
预处理：语音识别系统的前端处理

参考文献

论文引用了大量相关工作，主要包括：

Song et al. (2021): Score-based generative modeling through stochastic differential equations
Lu et al. (2022): Conditional diffusion probabilistic model for speech enhancement
Vincent (2011): A connection between score matching and denoising autoencoders
Anderson (1982): Reverse-time diffusion equation models

总体评价：这是一篇高质量的研究论文，在理论创新、方法设计和实验验证方面都表现出色。论文成功地将扩散模型应用于语音增强任务，通过巧妙的SDE设计和网络架构改进，实现了与判别模型相当的性能，同时在泛化能力上表现更优。尽管存在计算效率和伪影问题，但其理论贡献和实用价值使其成为该领域的重要工作。