2025-11-14T00:52:10.685423

Speech Enhancement and Dereverberation with Diffusion-based Generative Models

Richter, Welker, Lemercier et al.
In this work, we build upon our previous publication and use diffusion-based generative models for speech enhancement. We present a detailed overview of the diffusion process that is based on a stochastic differential equation and delve into an extensive theoretical examination of its implications. Opposed to usual conditional generation tasks, we do not start the reverse process from pure Gaussian noise but from a mixture of noisy speech and Gaussian noise. This matches our forward process which moves from clean speech to noisy speech by including a drift term. We show that this procedure enables using only 30 diffusion steps to generate high-quality clean speech estimates. By adapting the network architecture, we are able to significantly improve the speech enhancement performance, indicating that the network, rather than the formalism, was the main limitation of our original approach. In an extensive cross-dataset evaluation, we show that the improved method can compete with recent discriminative models and achieves better generalization when evaluating on a different corpus than used for training. We complement the results with an instrumental evaluation using real-world noisy recordings and a listening experiment, in which our proposed method is rated best. Examining different sampler configurations for solving the reverse process allows us to balance the performance and computational speed of the proposed method. Moreover, we show that the proposed method is also suitable for dereverberation and thus not limited to additive background noise removal. Code and audio examples are available online, see https://github.com/sp-uhh/sgmse.
academic

확산 기반 생성 모델을 이용한 음성 향상 및 잔향 제거

기본 정보

  • 논문 ID: 2208.05830
  • 제목: Speech Enhancement and Dereverberation with Diffusion-based Generative Models
  • 저자: Julius Richter, Simon Welker, Jean-Marie Lemercier, Bunlong Lay, Timo Gerkmann
  • 분류: eess.AS (음성 및 음향 신호 처리), cs.LG (기계학습), cs.SD (음향)
  • 발표 시간: 2022년 8월 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2208.05830
  • 코드 링크: https://github.com/sp-uhh/sgmse

초록

본 논문은 저자들의 이전 연구를 기반으로 확산 기반 생성 모델을 이용한 음성 향상을 수행합니다. 논문은 확률 미분방정식(SDE) 기반의 확산 과정을 상세히 소개하고 심층적인 이론 분석을 제공합니다. 기존의 조건부 생성 작업과 달리, 본 논문은 순수 가우시안 노이즈에서 시작하는 역과정 대신 노이즈 음성과 가우시안 노이즈의 혼합에서 시작합니다. 이는 드리프트 항을 포함하는 정방향 과정과 일치하며, 이 과정은 깨끗한 음성에서 노이즈 음성으로 변환됩니다. 연구 결과에 따르면 이 방법은 단 30개의 확산 단계만으로 고품질의 깨끗한 음성 추정을 생성할 수 있습니다. 네트워크 아키텍처 개선을 통해 음성 향상 성능이 크게 향상되었으며, 이는 네트워크가 원래 방법의 주요 제한 요소임을 보여줍니다.

연구 배경 및 동기

문제 정의

음성 향상은 음향 노이즈 또는 잔향의 영향을 받은 오디오 녹음에서 깨끗한 음성 신호를 복원하는 것을 목표로 합니다. 이는 전화 통신, 보청기, 음성 인식 등의 분야에서 중요한 응용 가치를 가지는 고전적인 신호 처리 문제입니다.

기존 방법의 한계

  1. 판별 모델의 한계:
    • 훈련 데이터의 모든 가능한 음향 조건을 포함하기 어려움
    • 부자연스러운 음성 왜곡 발생 가능성
    • 제한된 일반화 능력
  2. VAE 생성 모델의 문제:
    • 잠재층의 차원 축소 제약
    • 노이즈 입력에 대한 인코더의 민감성
    • 선형 노이즈 모델에 대한 의존성
  3. 기존 확산 모델의 부족:
    • CDiffuSE는 환경 노이즈의 명시적 추정 필요
    • 고주파 정보 보존 부족

연구 동기

본 논문은 깨끗한 음성의 사전 분포를 학습하여 복소수 STFT 영역에서 고품질의 음성 향상 및 잔향 제거를 구현하는 순수 생성 확산 모델을 설계하는 것을 목표로 합니다.

핵심 기여

  1. 혁신적인 SDE 확산 과정: 드리프트 항을 포함하는 확률 미분방정식을 제안하여 정방향 과정이 깨끗한 음성에서 노이즈 음성으로 변환되도록 함
  2. 개선된 네트워크 아키텍처: 원래의 복소수 U-Net을 대신하여 NCSN++ 아키텍처를 채택하여 성능을 크게 향상
  3. 통합 프레임워크: 동일한 프레임워크로 음성 향상 및 잔향 제거 두 가지 작업을 처리
  4. 포괄적 평가: 교차 데이터셋 평가, 실제 데이터 테스트 및 주관적 청취 실험 포함
  5. 효율성 최적화: 다양한 샘플러 구성을 통해 성능과 계산 속도의 균형 조정
  6. 이론 분석: 확산 과정의 상세한 이론적 유도 및 분석 제공

방법론 상세 설명

작업 정의

  • 입력: 노이즈/잔향 음성 신호 yy
  • 출력: 깨끗한 음성 신호 x0x_0
  • 제약: 음성의 자연성과 명확성 유지

데이터 표현

논문은 복소수 STFT 영역에서 작동하며 진폭 압축 변환을 사용합니다: c~=βcαei(c)\tilde{c} = \beta|c|^{\alpha}e^{i\angle(c)} 여기서 α(0,1]\alpha \in (0,1]는 압축 지수이고 βR+\beta \in \mathbb{R}^+는 스케일링 인수입니다.

확률 미분방정식 설계

정방향 과정

선형 SDE를 정의합니다: dxt=f(xt,y)dt+g(t)dwdx_t = f(x_t, y)dt + g(t)dw

여기서:

  • 드리프트 계수: f(xt,y)=γ(yxt)f(x_t, y) = \gamma(y - x_t)
  • 확산 계수: g(t)=σmin(σmaxσmin)t2log(σmaxσmin)g(t) = \sigma_{min}\left(\frac{\sigma_{max}}{\sigma_{min}}\right)^t\sqrt{2\log\left(\frac{\sigma_{max}}{\sigma_{min}}\right)}

역방향 과정

해당하는 역방향 SDE는: dxt=[f(xt,y)g(t)2sθ(xt,y,t)]dt+g(t)dwˉdx_t = [f(x_t, y) - g(t)^2s_\theta(x_t, y, t)]dt + g(t)d\bar{w}

여기서 sθ(xt,y,t)s_\theta(x_t, y, t)는 학습해야 할 스코어 함수입니다.

훈련 목표

노이징 스코어 매칭을 기반으로 한 훈련 목표는: argminθEt,(x0,y),z,xt(x0,y)[sθ(xt,y,t)+zσ(t)22]\arg\min_\theta \mathbb{E}_{t,(x_0,y),z,x_t|(x_0,y)}\left[\left\|s_\theta(x_t, y, t) + \frac{z}{\sigma(t)}\right\|_2^2\right]

네트워크 아키텍처

NCSN++ 아키텍처를 채택하며, 주요 특징은:

  1. 다중 해상도 U-Net 구조
  2. 점진적 성장 경로
  3. 전역 주의 메커니즘
  4. 시간 임베딩: 푸리에 임베딩을 사용하여 시간 정보 인코딩
  5. 잔차 블록: BigGAN 기반의 잔차 네트워크 블록

실험 설정

데이터셋

  1. WSJ0-CHiME3: WSJ0 깨끗한 음성과 CHiME3 노이즈 사용, SNR 범위 0-20dB
  2. VB-DMD (VoiceBank-DEMAND): 표준 음성 향상 벤치마크 데이터셋
  3. WSJ0-REVERB: pyroomacoustics로 시뮬레이션된 잔향 데이터, T60 범위 0.4-1.0초

평가 지표

  • 전체 참조 지표: POLQA, PESQ, ESTOI, SI-SDR, SI-SIR, SI-SAR
  • 참조 없는 지표: DNSMOS, SIG, BAK, OVRL, WVMOS

비교 방법

  • 생성 모델: STCN, DVAE, CDiffuSE, SGMSE (원본)
  • 판별 모델: MetricGAN+, Conv-TasNet, GaGNet, TCN+SA+S

구현 세부사항

  • STFT 매개변수: 윈도우 길이 510, 홉 길이 128, Hann 윈도우
  • SDE 매개변수: σmin=0.05\sigma_{min}=0.05, σmax=0.5\sigma_{max}=0.5, γ=1.5\gamma=1.5
  • 훈련: 4×Quadro RTX 6000, 160 에포크, 학습률 10410^{-4}
  • 샘플링: 30단계 역방향 과정, 예측-보정 샘플러

실험 결과

주요 결과

음성 향상 성능 (WSJ0-CHiME3)

방법훈련 집합POLQAPESQSI-SDR
SGMSE+WSJ0-C33.732.9618.3
Conv-TasNetWSJ0-C33.652.9919.9
MetricGAN+WSJ0-C33.523.0310.5
CDiffuSEWSJ0-C33.082.279.2

교차 데이터셋 일반화 능력

불일치 조건 하에서 (VB-DMD 훈련, WSJ0-CHiME3 테스트), SGMSE+는 모든 지표에서 다른 방법을 능가하며 우수한 일반화 능력을 보여줍니다.

잔향 제거 성능 (WSJ0-REVERB)

방법POLQAPESQSI-SDR
SGMSE+3.242.661.6
Conv-TasNet2.411.841.6
GaGNet2.621.98-0.6

제거 실험

샘플러 구성 최적화

  • 예측-보정 샘플러: 1개의 보정 단계로 최적의 성능 균형 달성
  • 단계 선택: 30단계에서 성능 포화
  • 계산 효율성: RTF는 1.77 (실시간 처리의 1.77배)

아키텍처 개선 효과

원본 SGMSE와 비교하여 SGMSE+는 POLQA에서 0.75 향상, PESQ에서 0.68 향상을 달성하여 네트워크 아키텍처의 중요성을 증명합니다.

주관적 청취 실험

MUSHRA 실험 결과는 SGMSE+가 최고 점수를 획득했으며, 특히 불일치 조건에서 우수한 견고성을 보여줍니다.

실제 데이터 평가

DNS Challenge 2020 실제 노이즈 데이터에서 SGMSE+는 모든 참조 없는 지표에서 최고의 성능을 보입니다.

관련 연구

판별 모델 방법

  • 시간-주파수 마스킹: 이상적 이진 마스킹 또는 비율 마스킹 학습
  • 복소수 스펙트럼 매핑: 복소수 STFT 계수의 직접 추정
  • 시간 영역 방법: 엔드-투-엔드 파형 처리

생성 모델 방법

  • VAE 기반: 음성 사전 분포 학습, 하지만 잠재 공간 차원 축소로 제한됨
  • GAN 방법: 암시적 밀도 추정, 하지만 훈련 불안정성
  • 확산 모델: 최근 부상, 재생성 및 직접 모델링 두 가지로 분류

음성에서의 확산 모델 응용

  • 음성 재생성: CDiffuSE 등의 방법
  • 직접 모델링: 본 논문의 SGMSE 시리즈 방법

결론 및 논의

주요 결론

  1. 개선된 네트워크 아키텍처는 성능 향상의 핵심 요소
  2. 생성 모델은 교차 데이터셋 일반화에서 판별 모델보다 우수
  3. 동일한 프레임워크는 다양한 음성 복원 작업을 효과적으로 처리
  4. 30단계 확산 과정으로 고품질 음성 생성 달성 가능

한계

  1. 계산 복잡도: 판별 모델 대비 계산량 많음
  2. 인공물: 극저 SNR에서 "음성화" 아티팩트 발생 가능성
  3. 위상 모델링: 복소수 모델링의 위상 향상 효과 제한적
  4. 매개변수 민감성: SDE 매개변수의 신중한 조정 필요

향후 방향

  1. 음성 활동 감지 및 음소 정보 조건화 추가
  2. 더 효율적인 샘플링 전략 탐색
  3. 더 짧은 프레임 길이에서의 위상 향상 연구
  4. 다른 음성 복원 작업으로 확장

심층 평가

장점

  1. 이론적 기여: 완전한 SDE 이론 유도 및 분석 제공
  2. 방법론 혁신: 드리프트 항의 영리한 설계로 작업 적응 구현
  3. 포괄적 실험: 교차 데이터셋, 실제 데이터 및 주관적 평가 포함
  4. 실용적 가치: 오픈소스 코드로 재현 및 응용 용이
  5. 명확한 작성: 상세한 이론 유도 및 합리적인 실험 설계

부족점

  1. 계산 효율성: RTF 1.77로 실시간성 개선 필요
  2. 아티팩트 문제: 저 SNR에서의 "음성화" 아티팩트 해결 필요
  3. 매개변수 조정: SDE 매개변수가 데이터셋별 최적화 필요
  4. 이론 분석: 정방향-역방향 과정 불일치의 영향 분석 부족

영향력

  1. 학술적 가치: 확산 모델의 음성 처리 응용에 중요한 참고 자료 제공
  2. 실용적 가치: 여러 벤치마크 데이터셋에서 경쟁력 있는 성능 달성
  3. 재현성: 완전한 코드 및 음성 샘플 제공
  4. 영감: 다른 음성 복원 작업을 위한 통용 프레임워크 제공

적용 분야

  1. 음성 향상: 전화 통신, 보청기
  2. 잔향 제거: 실내 음성 녹음 후처리
  3. 음성 복원: 역사적 녹음 복원
  4. 전처리: 음성 인식 시스템의 프론트엔드 처리

참고문헌

논문은 많은 관련 연구를 인용하며, 주요 내용은 다음을 포함합니다:

  • Song et al. (2021): 확률 미분방정식을 통한 스코어 기반 생성 모델링
  • Lu et al. (2022): 음성 향상을 위한 조건부 확산 확률 모델
  • Vincent (2011): 스코어 매칭과 노이징 오토인코더 간의 연결
  • Anderson (1982): 역시간 확산 방정식 모델

종합 평가: 이는 이론적 혁신, 방법론 설계 및 실험 검증 측면에서 모두 우수한 고품질 연구 논문입니다. 논문은 확산 모델을 음성 향상 작업에 성공적으로 적용하였으며, 영리한 SDE 설계와 네트워크 아키텍처 개선을 통해 판별 모델과 동등한 성능을 달성하면서도 일반화 능력에서 더 우수한 성능을 보여줍니다. 계산 효율성과 아티팩트 문제가 존재하지만, 이론적 기여와 실용적 가치는 이를 이 분야의 중요한 연구로 만듭니다.