Speech Enhancement and Dereverberation with Diffusion-based Generative Models
Richter, Welker, Lemercier et al.
In this work, we build upon our previous publication and use diffusion-based generative models for speech enhancement. We present a detailed overview of the diffusion process that is based on a stochastic differential equation and delve into an extensive theoretical examination of its implications. Opposed to usual conditional generation tasks, we do not start the reverse process from pure Gaussian noise but from a mixture of noisy speech and Gaussian noise. This matches our forward process which moves from clean speech to noisy speech by including a drift term. We show that this procedure enables using only 30 diffusion steps to generate high-quality clean speech estimates. By adapting the network architecture, we are able to significantly improve the speech enhancement performance, indicating that the network, rather than the formalism, was the main limitation of our original approach. In an extensive cross-dataset evaluation, we show that the improved method can compete with recent discriminative models and achieves better generalization when evaluating on a different corpus than used for training. We complement the results with an instrumental evaluation using real-world noisy recordings and a listening experiment, in which our proposed method is rated best. Examining different sampler configurations for solving the reverse process allows us to balance the performance and computational speed of the proposed method. Moreover, we show that the proposed method is also suitable for dereverberation and thus not limited to additive background noise removal. Code and audio examples are available online, see https://github.com/sp-uhh/sgmse.
본 논문은 저자들의 이전 연구를 기반으로 확산 기반 생성 모델을 이용한 음성 향상을 수행합니다. 논문은 확률 미분방정식(SDE) 기반의 확산 과정을 상세히 소개하고 심층적인 이론 분석을 제공합니다. 기존의 조건부 생성 작업과 달리, 본 논문은 순수 가우시안 노이즈에서 시작하는 역과정 대신 노이즈 음성과 가우시안 노이즈의 혼합에서 시작합니다. 이는 드리프트 항을 포함하는 정방향 과정과 일치하며, 이 과정은 깨끗한 음성에서 노이즈 음성으로 변환됩니다. 연구 결과에 따르면 이 방법은 단 30개의 확산 단계만으로 고품질의 깨끗한 음성 추정을 생성할 수 있습니다. 네트워크 아키텍처 개선을 통해 음성 향상 성능이 크게 향상되었으며, 이는 네트워크가 원래 방법의 주요 제한 요소임을 보여줍니다.
종합 평가: 이는 이론적 혁신, 방법론 설계 및 실험 검증 측면에서 모두 우수한 고품질 연구 논문입니다. 논문은 확산 모델을 음성 향상 작업에 성공적으로 적용하였으며, 영리한 SDE 설계와 네트워크 아키텍처 개선을 통해 판별 모델과 동등한 성능을 달성하면서도 일반화 능력에서 더 우수한 성능을 보여줍니다. 계산 효율성과 아티팩트 문제가 존재하지만, 이론적 기여와 실용적 가치는 이를 이 분야의 중요한 연구로 만듭니다.