This paper introduces a new training strategy to improve speech dereverberation systems in an unsupervised manner using only reverberant speech. Most existing algorithms rely on paired dry/reverberant data, which is difficult to obtain. Our approach uses limited acoustic information, like the reverberation time (RT60), to train a dereverberation system. Experimental results demonstrate that our method achieves more consistent performance across various objective metrics than the state-of-the-art.
论文ID : 2510.09025标题 : Déréverbération non-supervisée de la parole par modèle hybride (Unsupervised Speech Dereverberation with Hybrid Model)作者 : Louis Bahrman, Mathieu Fontaine, Gaël Richard (LTCI, Télécom Paris, Institut Polytechnique de Paris)分类 : cs.SD cs.AI eess.AS发表时间 : 2025年10月10日论文链接 : https://arxiv.org/abs/2510.09025 本文提出了一种新的训练策略,仅使用混响语音以无监督方式改进语音去混响系统。现有算法大多依赖于成对的干净/混响数据,这种数据很难获得。该方法使用有限的声学信息(如混响时间RT60)来训练去混响系统。实验结果表明,该方法在各种客观指标上比最先进的方法具有更一致的性能。
核心问题 :在室内环境中,语音信号会受到墙壁反射和障碍物衍射的影响,产生混响现象,降低语音录音的可懂度,需要开发去混响方法来减轻这种影响。问题重要性 :混响严重影响语音质量和可懂度,在语音识别、通信系统等应用中需要有效的去混响技术。现有方法局限性 :判别式方法需要大量成对的(干净,混响)数据,难以获得 生成式方法虽然监督较少,但仍需要干净语音数据,而干净数据比混响数据更难获得 MetricGAN-U等方法虽然只使用混响信号,但基于单一指标优化,性能不够全面 研究动机 :开发一种仅使用混响语音的无监督去混响方法,利用混响时间等有限声学信息进行训练。提出了混响自监督训练框架 :创新性地使用混响模型来监督深度神经网络的训练,而非传统的指标监督设计了混响时间感知的训练策略 :结合声学模型和深度学习,利用RT60等参数指导训练实现了更一致的性能提升 :在多个客观指标上均优于基于指标监督的方法提供开源实现 :发布了代码、预训练模型和示例,促进研究复现输入 :混响语音信号Y
输出 :估计的干净语音信号Ŝ
约束 :训练时仅使用混响信号,不需要成对的干净/混响数据
方法包含三个主要组件:
混响分析器A :从混响信号估计声学参数(主要是RT60)RIS合成器S :根据声学参数合成房间脉冲响应卷积模型C :在时频域进行跨频带卷积信号模型 :
其中y是混响信号,s是干净信号,h是房间脉冲响应(RIS)。
Polack混响模型 :
h_l(n) = b(n)e^(-3ln(10)n/(RT60·f_s))
其中b(n)~N(0,σ²)是白噪声,RT60是混响时间。
在短时傅里叶变换(STFT)域中,卷积表示为:
Y_{f,t} = ∑∑ H_{f,f',t'} S_{f',t-t'}
合成的RIS定义为:
S(Θ)(n) = {
|b(n)|e^(-3ln(10)n/(RT60·f_s)), n > n_m
1, n = 0
0, 其他
}
混响自监督策略 :不同于传统的指标监督,直接使用物理混响模型进行监督跨频带时频卷积 :实现了可微分的时频域卷积操作,便于梯度反向传播混响匹配损失函数 :L = ∑|Ŷ_{f,t} - Y_{f,t}|² + λ|log((1+γ|Ŷ_{f,t}|)/(1+γ|Y_{f,t}|))|²
训练数据 :WSJ1数据集的头戴式麦克风录音,73小时音频,60307个片段RIS数据 :使用pyroomacoustics生成32000个RIS,来自2000个模拟房间房间参数 :
尺寸:5,10 ×5,10 ×2.5,4 m³ RT60:0.2,1.0 s 源-麦克风距离:0.75,2.5 m SISDR :尺度不变信号失真比ESTOI :扩展短时客观可懂度WB-PESQ :宽带感知语音质量评估SRMR :语音与混响能量比强监督方法 :使用成对数据训练的FullSubNet和BiLSTM弱监督方法 :使用oracle RT60的版本盲监督方法 :使用估计RT60的完全无监督版本基线方法 :MetricGAN-U (BiLSTM+SRMR)音频处理 :16kHz采样,512点Hann窗,50%重叠优化器 :Adam优化器停止准则 :基于验证集SISDR指标模型 :FullSubNet (FSN)和BiLSTM两种神经网络架构模型 监督方式 SISDR ESTOI WB-PESQ SRMR FSN 强监督 5.6±3.9 0.84±0.10 2.55±0.67 8.2±3.5 FSN 弱监督 2.9±3.5 0.71±0.15 1.78±0.70 6.9±2.8 FSN 盲监督(提出) 2.8±3.4 0.71±0.15 1.78±0.70 6.9±2.8 BiLSTM 强监督 1.3±4.3 0.78±0.12 2.25±0.78 7.9±3.0 BiLSTM 弱监督 1.6±3.7 0.71±0.15 1.84±0.74 6.9±2.8 BiLSTM 盲监督(提出) 1.5±3.7 0.71±0.15 1.84±0.74 6.9±2.8 BiLSTM SRMR基线 -1.5±3.5 0.64±0.18 1.78±0.72 10.9±4.3 - 混响信号 -1.3±3.5 0.69±0.16 1.75±0.74 6.9±2.9
一致性优势 :提出的方法在SISDR、ESTOI、WB-PESQ三个指标上均优于SRMR基线基线局限性 :MetricGAN-U基线在SRMR指标上表现最佳,但在其他指标上性能下降,甚至低于原始混响信号估计鲁棒性 :盲监督版本与弱监督版本性能几乎相同,说明方法对RT60估计误差具有鲁棒性模型适应性 :BiLSTM在从强监督到弱监督的性能下降更小,可能因为其仅处理幅度掩码,对相位扰动不敏感统计信号处理 :如加权预测误差(WPE)方法卷积传输函数近似 :在子带中建模混响为滤波过程判别式方法 :直接预测干净信号或复数掩码生成式方法 :如变分自编码器学习干净语音分布混合方法 :结合传统模型和深度学习,如USDNetMetricGAN-U :使用对抗网络优化特定指标扩散模型方法 :如BUDDy使用扩散模型进行盲去混响混响自监督比指标自监督能实现更一致的性能提升 该方法在多个客观指标上均有改善,避免了单一指标优化的局限性 盲估计RT60不会显著影响性能,增强了方法的实用性 模型复杂度 :相比纯数据驱动方法,需要额外的混响建模组件参数依赖 :虽然可以盲估计,但仍依赖于RT60等声学参数的准确性混响模型简化 :使用的Polack模型是简化的混响模型,可能不完全符合真实环境相位敏感性 :复数谱方法(如FSN)对混响模型的相位扰动更敏感生成式扩展 :将方法应用于生成式模型以更好地考虑概率性RIS模型更复杂混响模型 :考虑更精确的混响物理模型多通道扩展 :扩展到多麦克风场景实时应用 :优化计算效率以支持实时处理创新性强 :首次提出混响自监督的训练策略,技术路线新颖实用价值高 :解决了获取成对训练数据困难的实际问题实验充分 :在多个指标和模型架构上进行了全面评估开源贡献 :提供完整的代码和模型,促进研究复现理论基础扎实 :基于成熟的声学混响理论性能差距 :与强监督方法仍有明显性能差距评估局限 :仅在模拟数据上评估,缺乏真实环境验证参数敏感性分析不足 :对混响模型参数的敏感性分析有限计算开销 :训练时需要额外的混响建模计算学术贡献 :为语音去混响提供了新的无监督训练范式实用价值 :降低了高质量去混响系统的数据需求可复现性 :开源代码和详细实验设置保证了可复现性启发意义 :为其他语音增强任务提供了物理模型监督的思路数据稀缺场景 :缺乏成对训练数据的应用环境特定声学环境 :已知基本声学参数的固定环境快速部署 :需要快速适应新环境的系统研究原型 :作为更复杂系统的基础组件论文引用了相关领域的重要工作,包括:
Polack混响模型的经典理论基础 WPE等传统去混响方法 MetricGAN-U等最新无监督方法 FullSubNet等先进的语音增强模型 混响参数盲估计的相关算法 该论文提出了一个创新的无监督语音去混响框架,通过巧妙结合声学建模和深度学习,在实用性和性能之间找到了良好的平衡点。虽然与强监督方法仍有差距,但为解决实际应用中的数据获取难题提供了有价值的解决方案。