2025-11-14T00:52:10.685423

Speech Enhancement and Dereverberation with Diffusion-based Generative Models

Richter, Welker, Lemercier et al.

In this work, we build upon our previous publication and use diffusion-based generative models for speech enhancement. We present a detailed overview of the diffusion process that is based on a stochastic differential equation and delve into an extensive theoretical examination of its implications. Opposed to usual conditional generation tasks, we do not start the reverse process from pure Gaussian noise but from a mixture of noisy speech and Gaussian noise. This matches our forward process which moves from clean speech to noisy speech by including a drift term. We show that this procedure enables using only 30 diffusion steps to generate high-quality clean speech estimates. By adapting the network architecture, we are able to significantly improve the speech enhancement performance, indicating that the network, rather than the formalism, was the main limitation of our original approach. In an extensive cross-dataset evaluation, we show that the improved method can compete with recent discriminative models and achieves better generalization when evaluating on a different corpus than used for training. We complement the results with an instrumental evaluation using real-world noisy recordings and a listening experiment, in which our proposed method is rated best. Examining different sampler configurations for solving the reverse process allows us to balance the performance and computational speed of the proposed method. Moreover, we show that the proposed method is also suitable for dereverberation and thus not limited to additive background noise removal. Code and audio examples are available online, see https://github.com/sp-uhh/sgmse.

academic

확산 기반 생성 모델을 이용한 음성 향상 및 잔향 제거

기본 정보

논문 ID: 2208.05830
제목: Speech Enhancement and Dereverberation with Diffusion-based Generative Models
저자: Julius Richter, Simon Welker, Jean-Marie Lemercier, Bunlong Lay, Timo Gerkmann
분류: eess.AS (음성 및 음향 신호 처리), cs.LG (기계학습), cs.SD (음향)
발표 시간: 2022년 8월 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2208.05830
코드 링크: https://github.com/sp-uhh/sgmse

초록

본 논문은 저자들의 이전 연구를 기반으로 확산 기반 생성 모델을 이용한 음성 향상을 수행합니다. 논문은 확률 미분방정식(SDE) 기반의 확산 과정을 상세히 소개하고 심층적인 이론 분석을 제공합니다. 기존의 조건부 생성 작업과 달리, 본 논문은 순수 가우시안 노이즈에서 시작하는 역과정 대신 노이즈 음성과 가우시안 노이즈의 혼합에서 시작합니다. 이는 드리프트 항을 포함하는 정방향 과정과 일치하며, 이 과정은 깨끗한 음성에서 노이즈 음성으로 변환됩니다. 연구 결과에 따르면 이 방법은 단 30개의 확산 단계만으로 고품질의 깨끗한 음성 추정을 생성할 수 있습니다. 네트워크 아키텍처 개선을 통해 음성 향상 성능이 크게 향상되었으며, 이는 네트워크가 원래 방법의 주요 제한 요소임을 보여줍니다.

연구 배경 및 동기

문제 정의

음성 향상은 음향 노이즈 또는 잔향의 영향을 받은 오디오 녹음에서 깨끗한 음성 신호를 복원하는 것을 목표로 합니다. 이는 전화 통신, 보청기, 음성 인식 등의 분야에서 중요한 응용 가치를 가지는 고전적인 신호 처리 문제입니다.

기존 방법의 한계

판별 모델의 한계:
- 훈련 데이터의 모든 가능한 음향 조건을 포함하기 어려움
- 부자연스러운 음성 왜곡 발생 가능성
- 제한된 일반화 능력
VAE 생성 모델의 문제:
- 잠재층의 차원 축소 제약
- 노이즈 입력에 대한 인코더의 민감성
- 선형 노이즈 모델에 대한 의존성
기존 확산 모델의 부족:
- CDiffuSE는 환경 노이즈의 명시적 추정 필요
- 고주파 정보 보존 부족

연구 동기

본 논문은 깨끗한 음성의 사전 분포를 학습하여 복소수 STFT 영역에서 고품질의 음성 향상 및 잔향 제거를 구현하는 순수 생성 확산 모델을 설계하는 것을 목표로 합니다.

핵심 기여

혁신적인 SDE 확산 과정: 드리프트 항을 포함하는 확률 미분방정식을 제안하여 정방향 과정이 깨끗한 음성에서 노이즈 음성으로 변환되도록 함
개선된 네트워크 아키텍처: 원래의 복소수 U-Net을 대신하여 NCSN++ 아키텍처를 채택하여 성능을 크게 향상
통합 프레임워크: 동일한 프레임워크로 음성 향상 및 잔향 제거 두 가지 작업을 처리
포괄적 평가: 교차 데이터셋 평가, 실제 데이터 테스트 및 주관적 청취 실험 포함
효율성 최적화: 다양한 샘플러 구성을 통해 성능과 계산 속도의 균형 조정
이론 분석: 확산 과정의 상세한 이론적 유도 및 분석 제공

방법론 상세 설명

작업 정의

입력: 노이즈/잔향 음성 신호 $y$
출력: 깨끗한 음성 신호 $x_0$
제약: 음성의 자연성과 명확성 유지

데이터 표현

논문은 복소수 STFT 영역에서 작동하며 진폭 압축 변환을 사용합니다: $\tilde{c} = \beta|c|^{\alpha}e^{i\angle(c)}$ 여기서 $\alpha \in (0,1]$ 는 압축 지수이고 $\beta \in \mathbb{R}^+$ 는 스케일링 인수입니다.

확률 미분방정식 설계

정방향 과정

선형 SDE를 정의합니다: $dx_t = f(x_t, y)dt + g(t)dw$

여기서:

드리프트 계수: $f(x_t, y) = \gamma(y - x_t)$
확산 계수: $g(t) = \sigma_{min}\left(\frac{\sigma_{max}}{\sigma_{min}}\right)^t\sqrt{2\log\left(\frac{\sigma_{max}}{\sigma_{min}}\right)}$

역방향 과정

해당하는 역방향 SDE는: $dx_t = [f(x_t, y) - g(t)^2s_\theta(x_t, y, t)]dt + g(t)d\bar{w}$

여기서 $s_\theta(x_t, y, t)$ 는 학습해야 할 스코어 함수입니다.

훈련 목표

노이징 스코어 매칭을 기반으로 한 훈련 목표는: $\arg\min_\theta \mathbb{E}_{t,(x_0,y),z,x_t|(x_0,y)}\left[\left\|s_\theta(x_t, y, t) + \frac{z}{\sigma(t)}\right\|_2^2\right]$

네트워크 아키텍처

NCSN++ 아키텍처를 채택하며, 주요 특징은:

다중 해상도 U-Net 구조
점진적 성장 경로
전역 주의 메커니즘
시간 임베딩: 푸리에 임베딩을 사용하여 시간 정보 인코딩
잔차 블록: BigGAN 기반의 잔차 네트워크 블록

실험 설정

데이터셋

WSJ0-CHiME3: WSJ0 깨끗한 음성과 CHiME3 노이즈 사용, SNR 범위 0-20dB
VB-DMD (VoiceBank-DEMAND): 표준 음성 향상 벤치마크 데이터셋
WSJ0-REVERB: pyroomacoustics로 시뮬레이션된 잔향 데이터, T60 범위 0.4-1.0초

평가 지표

전체 참조 지표: POLQA, PESQ, ESTOI, SI-SDR, SI-SIR, SI-SAR
참조 없는 지표: DNSMOS, SIG, BAK, OVRL, WVMOS

비교 방법

생성 모델: STCN, DVAE, CDiffuSE, SGMSE (원본)
판별 모델: MetricGAN+, Conv-TasNet, GaGNet, TCN+SA+S

구현 세부사항

STFT 매개변수: 윈도우 길이 510, 홉 길이 128, Hann 윈도우
SDE 매개변수: $\sigma_{min}=0.05$ , $\sigma_{max}=0.5$ , $\gamma=1.5$
훈련: 4×Quadro RTX 6000, 160 에포크, 학습률 $10^{-4}$
샘플링: 30단계 역방향 과정, 예측-보정 샘플러

실험 결과

주요 결과

음성 향상 성능 (WSJ0-CHiME3)

방법	훈련 집합	POLQA	PESQ	SI-SDR
SGMSE+	WSJ0-C3	3.73	2.96	18.3
Conv-TasNet	WSJ0-C3	3.65	2.99	19.9
MetricGAN+	WSJ0-C3	3.52	3.03	10.5
CDiffuSE	WSJ0-C3	3.08	2.27	9.2

교차 데이터셋 일반화 능력

불일치 조건 하에서 (VB-DMD 훈련, WSJ0-CHiME3 테스트), SGMSE+는 모든 지표에서 다른 방법을 능가하며 우수한 일반화 능력을 보여줍니다.

잔향 제거 성능 (WSJ0-REVERB)

방법	POLQA	PESQ	SI-SDR
SGMSE+	3.24	2.66	1.6
Conv-TasNet	2.41	1.84	1.6
GaGNet	2.62	1.98	-0.6

제거 실험

샘플러 구성 최적화

예측-보정 샘플러: 1개의 보정 단계로 최적의 성능 균형 달성
단계 선택: 30단계에서 성능 포화
계산 효율성: RTF는 1.77 (실시간 처리의 1.77배)

아키텍처 개선 효과

원본 SGMSE와 비교하여 SGMSE+는 POLQA에서 0.75 향상, PESQ에서 0.68 향상을 달성하여 네트워크 아키텍처의 중요성을 증명합니다.

주관적 청취 실험

MUSHRA 실험 결과는 SGMSE+가 최고 점수를 획득했으며, 특히 불일치 조건에서 우수한 견고성을 보여줍니다.

실제 데이터 평가

DNS Challenge 2020 실제 노이즈 데이터에서 SGMSE+는 모든 참조 없는 지표에서 최고의 성능을 보입니다.

결론 및 논의

주요 결론

개선된 네트워크 아키텍처는 성능 향상의 핵심 요소
생성 모델은 교차 데이터셋 일반화에서 판별 모델보다 우수
동일한 프레임워크는 다양한 음성 복원 작업을 효과적으로 처리
30단계 확산 과정으로 고품질 음성 생성 달성 가능

한계

계산 복잡도: 판별 모델 대비 계산량 많음
인공물: 극저 SNR에서 "음성화" 아티팩트 발생 가능성
위상 모델링: 복소수 모델링의 위상 향상 효과 제한적
매개변수 민감성: SDE 매개변수의 신중한 조정 필요

향후 방향

음성 활동 감지 및 음소 정보 조건화 추가
더 효율적인 샘플링 전략 탐색
더 짧은 프레임 길이에서의 위상 향상 연구
다른 음성 복원 작업으로 확장

심층 평가

장점

이론적 기여: 완전한 SDE 이론 유도 및 분석 제공
방법론 혁신: 드리프트 항의 영리한 설계로 작업 적응 구현
포괄적 실험: 교차 데이터셋, 실제 데이터 및 주관적 평가 포함
실용적 가치: 오픈소스 코드로 재현 및 응용 용이
명확한 작성: 상세한 이론 유도 및 합리적인 실험 설계

부족점

계산 효율성: RTF 1.77로 실시간성 개선 필요
아티팩트 문제: 저 SNR에서의 "음성화" 아티팩트 해결 필요
매개변수 조정: SDE 매개변수가 데이터셋별 최적화 필요
이론 분석: 정방향-역방향 과정 불일치의 영향 분석 부족

영향력

학술적 가치: 확산 모델의 음성 처리 응용에 중요한 참고 자료 제공
실용적 가치: 여러 벤치마크 데이터셋에서 경쟁력 있는 성능 달성
재현성: 완전한 코드 및 음성 샘플 제공
영감: 다른 음성 복원 작업을 위한 통용 프레임워크 제공

적용 분야

음성 향상: 전화 통신, 보청기
잔향 제거: 실내 음성 녹음 후처리
음성 복원: 역사적 녹음 복원
전처리: 음성 인식 시스템의 프론트엔드 처리

참고문헌

논문은 많은 관련 연구를 인용하며, 주요 내용은 다음을 포함합니다:

Song et al. (2021): 확률 미분방정식을 통한 스코어 기반 생성 모델링
Lu et al. (2022): 음성 향상을 위한 조건부 확산 확률 모델
Vincent (2011): 스코어 매칭과 노이징 오토인코더 간의 연결
Anderson (1982): 역시간 확산 방정식 모델

종합 평가: 이는 이론적 혁신, 방법론 설계 및 실험 검증 측면에서 모두 우수한 고품질 연구 논문입니다. 논문은 확산 모델을 음성 향상 작업에 성공적으로 적용하였으며, 영리한 SDE 설계와 네트워크 아키텍처 개선을 통해 판별 모델과 동등한 성능을 달성하면서도 일반화 능력에서 더 우수한 성능을 보여줍니다. 계산 효율성과 아티팩트 문제가 존재하지만, 이론적 기여와 실용적 가치는 이를 이 분야의 중요한 연구로 만듭니다.