2025-11-16T04:37:12.332621

DÃ©rÃ©verbÃ©ration non-supervisÃ©e de la parole par modÃ¨le hybride

Bahrman, Fontaine, Richard

This paper introduces a new training strategy to improve speech dereverberation systems in an unsupervised manner using only reverberant speech. Most existing algorithms rely on paired dry/reverberant data, which is difficult to obtain. Our approach uses limited acoustic information, like the reverberation time (RT60), to train a dereverberation system. Experimental results demonstrate that our method achieves more consistent performance across various objective metrics than the state-of-the-art.

academic

Déréverbération non-supervisée de la parole par modèle hybride

基本信息

论文ID: 2510.09025
标题: Déréverbération non-supervisée de la parole par modèle hybride (Unsupervised Speech Dereverberation with Hybrid Model)
作者: Louis Bahrman, Mathieu Fontaine, Gaël Richard (LTCI, Télécom Paris, Institut Polytechnique de Paris)
分类: cs.SD cs.AI eess.AS
发表时间: 2025年10月10日
论文链接: https://arxiv.org/abs/2510.09025

摘要

本文提出了一种新的训练策略，仅使用混响语音以无监督方式改进语音去混响系统。现有算法大多依赖于成对的干净/混响数据，这种数据很难获得。该方法使用有限的声学信息（如混响时间RT60）来训练去混响系统。实验结果表明，该方法在各种客观指标上比最先进的方法具有更一致的性能。

研究背景与动机

核心问题：在室内环境中，语音信号会受到墙壁反射和障碍物衍射的影响，产生混响现象，降低语音录音的可懂度，需要开发去混响方法来减轻这种影响。
问题重要性：混响严重影响语音质量和可懂度，在语音识别、通信系统等应用中需要有效的去混响技术。
现有方法局限性：
- 判别式方法需要大量成对的(干净，混响)数据，难以获得
- 生成式方法虽然监督较少，但仍需要干净语音数据，而干净数据比混响数据更难获得
- MetricGAN-U等方法虽然只使用混响信号，但基于单一指标优化，性能不够全面
研究动机：开发一种仅使用混响语音的无监督去混响方法，利用混响时间等有限声学信息进行训练。

核心贡献

提出了混响自监督训练框架：创新性地使用混响模型来监督深度神经网络的训练，而非传统的指标监督
设计了混响时间感知的训练策略：结合声学模型和深度学习，利用RT60等参数指导训练
实现了更一致的性能提升：在多个客观指标上均优于基于指标监督的方法
提供开源实现：发布了代码、预训练模型和示例，促进研究复现

混响分析器A：从混响信号估计声学参数（主要是RT60）
RIS合成器S：根据声学参数合成房间脉冲响应
卷积模型C：在时频域进行跨频带卷积

2. 混响模型

信号模型：

y(n) = (s ⋆ h)(n)

其中y是混响信号，s是干净信号，h是房间脉冲响应(RIS)。

Polack混响模型：

h_l(n) = b(n)e^(-3ln(10)n/(RT60·f_s))

其中b(n)~N(0,σ²)是白噪声，RT60是混响时间。

3. 时频域卷积

在短时傅里叶变换(STFT)域中，卷积表示为：

Y_{f,t} = ∑∑ H_{f,f',t'} S_{f',t-t'}

4. RIS合成器

合成的RIS定义为：

S(Θ)(n) = {
  |b(n)|e^(-3ln(10)n/(RT60·f_s)), n > n_m
  1,                               n = 0  
  0,                               其他
}

技术创新点

混响自监督策略：不同于传统的指标监督，直接使用物理混响模型进行监督
跨频带时频卷积：实现了可微分的时频域卷积操作，便于梯度反向传播
混响匹配损失函数：

L = ∑|Ŷ_{f,t} - Y_{f,t}|² + λ|log((1+γ|Ŷ_{f,t}|)/(1+γ|Y_{f,t}|))|²

实验设置

数据集

训练数据：WSJ1数据集的头戴式麦克风录音，73小时音频，60307个片段
RIS数据：使用pyroomacoustics生成32000个RIS，来自2000个模拟房间
房间参数：
- 尺寸：5,10×5,10×2.5,4 m³
- RT60：0.2,1.0 s
- 源-麦克风距离：0.75,2.5 m

评价指标

SISDR：尺度不变信号失真比
ESTOI：扩展短时客观可懂度
WB-PESQ：宽带感知语音质量评估
SRMR：语音与混响能量比

对比方法

强监督方法：使用成对数据训练的FullSubNet和BiLSTM
弱监督方法：使用oracle RT60的版本
盲监督方法：使用估计RT60的完全无监督版本
基线方法：MetricGAN-U (BiLSTM+SRMR)

实现细节

音频处理：16kHz采样，512点Hann窗，50%重叠
优化器：Adam优化器
停止准则：基于验证集SISDR指标
模型：FullSubNet (FSN)和BiLSTM两种神经网络架构

实验结果

主要结果

模型	监督方式	SISDR	ESTOI	WB-PESQ	SRMR
FSN	强监督	5.6±3.9	0.84±0.10	2.55±0.67	8.2±3.5
FSN	弱监督	2.9±3.5	0.71±0.15	1.78±0.70	6.9±2.8
FSN	盲监督(提出)	2.8±3.4	0.71±0.15	1.78±0.70	6.9±2.8
BiLSTM	强监督	1.3±4.3	0.78±0.12	2.25±0.78	7.9±3.0
BiLSTM	弱监督	1.6±3.7	0.71±0.15	1.84±0.74	6.9±2.8
BiLSTM	盲监督(提出)	1.5±3.7	0.71±0.15	1.84±0.74	6.9±2.8
BiLSTM	SRMR基线	-1.5±3.5	0.64±0.18	1.78±0.72	10.9±4.3
-	混响信号	-1.3±3.5	0.69±0.16	1.75±0.74	6.9±2.9