This paper introduces a new training strategy to improve speech dereverberation systems in an unsupervised manner using only reverberant speech. Most existing algorithms rely on paired dry/reverberant data, which is difficult to obtain. Our approach uses limited acoustic information, like the reverberation time (RT60), to train a dereverberation system. Experimental results demonstrate that our method achieves more consistent performance across various objective metrics than the state-of-the-art.
논문 ID : 2510.09025제목 : Déréverbération non-supervisée de la parole par modèle hybride (하이브리드 모델을 이용한 비지도 음성 역혼향 제거)저자 : Louis Bahrman, Mathieu Fontaine, Gaël Richard (LTCI, Télécom Paris, Institut Polytechnique de Paris)분류 : cs.SD cs.AI eess.AS발표 시간 : 2025년 10월 10일논문 링크 : https://arxiv.org/abs/2510.09025 본 논문은 혼향 음성만을 사용하여 비지도 방식으로 음성 역혼향 제거 시스템을 개선하는 새로운 훈련 전략을 제안한다. 기존 알고리즘은 대부분 쌍을 이루는 깨끗한/혼향 데이터에 의존하는데, 이러한 데이터는 획득이 어렵다. 본 방법은 혼향 시간(RT60) 같은 제한된 음향 정보를 사용하여 역혼향 제거 시스템을 훈련한다. 실험 결과는 본 방법이 다양한 객관적 지표에서 최첨단 방법보다 더 일관된 성능을 보임을 나타낸다.
핵심 문제 : 실내 환경에서 음성 신호는 벽면 반사 및 장애물 회절의 영향을 받아 혼향 현상이 발생하며, 이는 음성 녹음의 명료성을 저하시킨다. 이러한 영향을 완화하기 위해 역혼향 제거 방법 개발이 필요하다.문제의 중요성 : 혼향은 음성 품질과 명료성에 심각한 영향을 미치며, 음성 인식, 통신 시스템 등의 응용에서 효과적인 역혼향 제거 기술이 필요하다.기존 방법의 한계 :판별식 방법은 대량의 쌍을 이루는 (깨끗함, 혼향) 데이터를 필요로 하며 획득이 어렵다 생성식 방법은 감독이 적지만 여전히 깨끗한 음성 데이터를 필요로 하며, 깨끗한 데이터는 혼향 데이터보다 획득이 더 어렵다 MetricGAN-U 등의 방법은 혼향 신호만 사용하지만 단일 지표 최적화에 기반하여 성능이 충분히 포괄적이지 않다 연구 동기 : 혼향 음성만을 사용하는 비지도 역혼향 제거 방법을 개발하고, 혼향 시간 등의 제한된 음향 정보를 활용하여 훈련한다.혼향 자기지도 훈련 프레임워크 제안 : 혼향 모델을 사용하여 깊은 신경망 훈련을 감독하는 혁신적 방법으로, 기존의 지표 감독과 다르다혼향 시간 인식 훈련 전략 설계 : 음향 모델과 깊은 학습을 결합하고 RT60 등의 매개변수를 활용하여 훈련을 지도한다더욱 일관된 성능 향상 달성 : 여러 객관적 지표에서 지표 감독 기반 방법을 능가한다오픈소스 구현 제공 : 코드, 사전 훈련된 모델 및 예제를 공개하여 연구 재현을 촉진한다입력 : 혼향 음성 신호 Y
출력 : 추정된 깨끗한 음성 신호 Ŝ
제약 : 훈련 시 혼향 신호만 사용하며, 쌍을 이루는 깨끗한/혼향 데이터가 필요하지 않다
방법은 세 가지 주요 구성 요소를 포함한다:
혼향 분석기 A : 혼향 신호에서 음향 매개변수(주로 RT60) 추정RIS 합성기 S : 음향 매개변수에 따라 방 임펄스 응답 합성컨볼루션 모델 C : 시간-주파수 영역에서 대역 간 컨볼루션 수행신호 모델 :
여기서 y는 혼향 신호, s는 깨끗한 신호, h는 방 임펄스 응답(RIS)이다.
Polack 혼향 모델 :
h_l(n) = b(n)e^(-3ln(10)n/(RT60·f_s))
여기서 b(n)~N(0,σ²)는 백색 잡음이고 RT60은 혼향 시간이다.
단시간 푸리에 변환(STFT) 영역에서 컨볼루션은 다음과 같이 표현된다:
Y_{f,t} = ∑∑ H_{f,f',t'} S_{f',t-t'}
합성된 RIS는 다음과 같이 정의된다:
S(Θ)(n) = {
|b(n)|e^(-3ln(10)n/(RT60·f_s)), n > n_m
1, n = 0
0, 기타
}
혼향 자기지도 전략 : 기존의 지표 감독과 달리 물리적 혼향 모델을 직접 사용하여 감독한다대역 간 시간-주파수 컨볼루션 : 미분 가능한 시간-주파수 영역 컨볼루션 연산을 구현하여 기울기 역전파를 용이하게 한다혼향 매칭 손실 함수 :L = ∑|Ŷ_{f,t} - Y_{f,t}|² + λ|log((1+γ|Ŷ_{f,t}|)/(1+γ|Y_{f,t}|))|²
훈련 데이터 : WSJ1 데이터셋의 헤드셋 마이크 녹음, 73시간 오디오, 60,307개 세그먼트RIS 데이터 : pyroomacoustics를 사용하여 생성한 32,000개 RIS, 2,000개 시뮬레이션 방에서 생성방 매개변수 :
크기: 5,10 ×5,10 ×2.5,4 m³ RT60: 0.2,1.0 s 음원-마이크 거리: 0.75,2.5 m SISDR : 스케일 불변 신호 왜곡 비ESTOI : 확장 단시간 객관적 명료도WB-PESQ : 광대역 지각 음성 품질 평가SRMR : 음성 대 혼향 에너지 비강한 감독 방법 : 쌍을 이루는 데이터로 훈련한 FullSubNet 및 BiLSTM약한 감독 방법 : 오라클 RT60을 사용하는 버전맹 감독 방법 : 추정된 RT60을 사용하는 완전 비지도 버전기준선 방법 : MetricGAN-U (BiLSTM+SRMR)오디오 처리 : 16kHz 샘플링, 512포인트 Hann 윈도우, 50% 중첩최적화기 : Adam 최적화기중지 기준 : 검증 세트 SISDR 지표 기반모델 : FullSubNet (FSN) 및 BiLSTM 두 가지 신경망 아키텍처모델 감독 방식 SISDR ESTOI WB-PESQ SRMR FSN 강한 감독 5.6±3.9 0.84±0.10 2.55±0.67 8.2±3.5 FSN 약한 감독 2.9±3.5 0.71±0.15 1.78±0.70 6.9±2.8 FSN 맹 감독(제안) 2.8±3.4 0.71±0.15 1.78±0.70 6.9±2.8 BiLSTM 강한 감독 1.3±4.3 0.78±0.12 2.25±0.78 7.9±3.0 BiLSTM 약한 감독 1.6±3.7 0.71±0.15 1.84±0.74 6.9±2.8 BiLSTM 맹 감독(제안) 1.5±3.7 0.71±0.15 1.84±0.74 6.9±2.8 BiLSTM SRMR 기준선 -1.5±3.5 0.64±0.18 1.78±0.72 10.9±4.3 - 혼향 신호 -1.3±3.5 0.69±0.16 1.75±0.74 6.9±2.9
일관성 우위 : 제안된 방법은 SISDR, ESTOI, WB-PESQ 세 지표에서 모두 SRMR 기준선을 능가한다기준선 한계 : MetricGAN-U 기준선은 SRMR 지표에서 최고 성능을 보이지만 다른 지표에서는 성능이 저하되며, 심지어 원본 혼향 신호보다 낮다추정 견고성 : 맹 감독 버전과 약한 감독 버전의 성능이 거의 동일하며, 이는 방법이 RT60 추정 오류에 견고함을 보여준다모델 적응성 : BiLSTM은 강한 감독에서 약한 감독으로의 성능 저하가 더 작으며, 이는 진폭 마스크만 처리하기 때문에 위상 왜곡에 덜 민감할 수 있다통계 신호 처리 : 가중 예측 오류(WPE) 방법 등컨볼루션 전달 함수 근사 : 부대역에서 혼향을 필터링 과정으로 모델링판별식 방법 : 깨끗한 신호 또는 복소 마스크 직접 예측생성식 방법 : 변분 자동 인코더를 사용한 깨끗한 음성 분포 학습하이브리드 방법 : 전통적 모델과 깊은 학습 결합, 예: USDNetMetricGAN-U : 대적 네트워크를 사용한 특정 지표 최적화확산 모델 방법 : BUDDy 등 확산 모델을 사용한 맹 역혼향 제거혼향 자기지도는 지표 자기지도보다 더 일관된 성능 향상을 달성한다 본 방법은 여러 객관적 지표에서 개선을 이루며, 단일 지표 최적화의 한계를 피한다 맹 RT60 추정은 성능에 크게 영향을 미치지 않으며, 방법의 실용성을 강화한다 모델 복잡성 : 순수 데이터 기반 방법에 비해 추가 혼향 모델링 구성 요소가 필요하다매개변수 의존성 : 맹 추정이 가능하지만 여전히 RT60 등 음향 매개변수의 정확성에 의존한다혼향 모델 단순화 : 사용된 Polack 모델은 단순화된 혼향 모델이며 실제 환경과 완전히 일치하지 않을 수 있다위상 민감성 : 복소 스펙트럼 방법(예: FSN)은 혼향 모델의 위상 왜곡에 더 민감하다생성식 확장 : 방법을 생성식 모델에 적용하여 확률적 RIS 모델을 더 잘 고려한다더 복잡한 혼향 모델 : 더 정확한 혼향 물리 모델을 고려한다다중 채널 확장 : 다중 마이크 시나리오로 확장한다실시간 응용 : 실시간 처리를 지원하기 위해 계산 효율성을 최적화한다높은 혁신성 : 혼향 자기지도 훈련 전략을 처음 제안하며 기술 경로가 참신하다높은 실용 가치 : 쌍을 이루는 훈련 데이터 획득의 어려움이라는 실제 문제를 해결한다충분한 실험 : 여러 지표 및 모델 아키텍처에서 포괄적 평가를 수행한다오픈소스 기여 : 완전한 코드 및 모델을 제공하여 연구 재현을 촉진한다견고한 이론적 기초 : 성숙한 음향 혼향 이론에 기반한다성능 격차 : 강한 감독 방법과 여전히 명백한 성능 차이가 있다평가 한계 : 시뮬레이션 데이터에서만 평가하며 실제 환경 검증이 부족하다매개변수 민감성 분석 부족 : 혼향 모델 매개변수에 대한 민감성 분석이 제한적이다계산 오버헤드 : 훈련 시 추가 혼향 모델링 계산이 필요하다학술 기여 : 음성 역혼향 제거를 위한 새로운 비지도 훈련 패러다임을 제공한다실용 가치 : 고품질 역혼향 제거 시스템의 데이터 요구사항을 감소시킨다재현성 : 오픈소스 코드 및 상세한 실험 설정으로 재현성을 보장한다영감 제공 : 다른 음성 향상 작업에 물리 모델 감독의 아이디어를 제공한다데이터 부족 시나리오 : 쌍을 이루는 훈련 데이터가 부족한 응용 환경특정 음향 환경 : 기본 음향 매개변수가 알려진 고정 환경빠른 배포 : 새로운 환경에 빠르게 적응해야 하는 시스템연구 프로토타입 : 더 복잡한 시스템의 기초 구성 요소로 사용논문은 관련 분야의 중요한 연구를 인용하며, 다음을 포함한다:
Polack 혼향 모델의 고전 이론적 기초 WPE 등 전통적 역혼향 제거 방법 MetricGAN-U 등 최신 비지도 방법 FullSubNet 등 선진 음성 향상 모델 혼향 매개변수 맹 추정 관련 알고리즘 본 논문은 음향 모델링과 깊은 학습을 교묘하게 결합하여 실용성과 성능 사이의 좋은 균형점을 찾는 혁신적인 비지도 음성 역혼향 제거 프레임워크를 제안한다. 강한 감독 방법과 비교하면 여전히 차이가 있지만, 실제 응용에서의 데이터 획득 어려움을 해결하기 위한 가치 있는 솔루션을 제공한다.