Effects of automotive microphone frequency response characteristics and noise conditions on speech and ASR quality -- an experimental evaluation
Buccoli, Du, Soendergaard et al.
Upon choosing microphones for automotive hands-free communication or Automatic Speech Recognition (ASR) applications, OEMs typically specify wideband, super wideband or even fullband requirements following established standard recommendations (e.g., ITU-P.1110, ITU-P.1120). In practice, it is often challenging to achieve the preferred bandwidth for an automotive microphone when considering limitations and constraints on microphone placement inside the cabin, and the automotive grade environmental robustness requirements. On the other hand, there seems to be no consensus or sufficient data on the effect of each microphone characteristic on the actual performance. As an attempt to answer this question, we used noise signals recorded in real vehicles and under various driving conditions to experimentally study the relationship between the microphones' characteristics and the final audio quality of speech communication and performance of ASR engines. We focus on how variations in microphone bandwidth and amplitude frequency response shapes affect the perceptual speech quality. The speech quality results are compared by using ETSI TS 103 281 metrics (S-MOS, N-MOS, G-MOS) and ancillary metrics such as SNR. The ASR results are evaluated with standard metrics such as Word Error Rate (WER). Findings from this study provide knowledge in the understanding of what microphone frequency response characteristics are more relevant for audio quality and choice of proper microphone specifications, particularly for automotive applications.
academic
자동차 마이크로폰 주파수 응답 특성 및 잡음 조건이 음성 및 ASR 품질에 미치는 영향 -- 실험적 평가
본 연구는 자동차 핸즈프리 통신 및 자동 음성 인식(ASR) 응용 분야에서 마이크로폰 선택의 핵심 문제를 다루기 위해, 마이크로폰 주파수 응답 특성과 음성 품질 및 ASR 성능 간의 관계를 실험적 방법으로 조사한다. 본 연구는 실제 차량 환경에서 녹음한 잡음 신호를 사용하여 마이크로폰 대역폭 및 진폭-주파수 응답 형태 변화가 지각된 음성 품질에 미치는 영향을 평가한다. 음성 품질 평가는 ETSI TS 103 281 표준의 S-MOS, N-MOS, G-MOS 지표 및 SNR 등 보조 지표를 채택하고, ASR 성능은 단어 오류율(WER)로 평가한다. 연구 결과는 마이크로폰 주파수 응답 특성이 오디오 품질에 미치는 영향을 이해하는 데 중요한 지식을 제공하며, 특히 자동차 응용 분야에서의 마이크로폰 사양 선택에 대한 지침을 제공한다.
자동차 OEM 제조사는 핸즈프리 통신 또는 ASR 응용 분야용 마이크로폰을 선택할 때, 일반적으로 ITU-P.1110, ITU-P.1120 등 표준의 권장사항에 따라 광대역, 초광대역 또는 전대역 사양을 요구한다. 그러나 실제 응용에서는 차량 내 마이크로폰 설치 위치의 제약 및 자동차급 환경 견고성 요구사항을 고려할 때, 이상적인 대역폭 사양을 구현하기 어렵다.
본 연구는 ITU-T P.501, ETSI TS 103 281, ITU-P.1100 등 다양한 중요 국제 표준 및 자동차 마이크로폰 성능 평가 분야의 Du 등의 개척적 연구를 포함한 다수의 중요 표준 문서 및 선행 연구 작업을 인용한다. 이러한 참고문헌들은 본 연구에 견고한 이론적 기초 및 방법론적 지도를 제공한다.