Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing
Cheng, Lu, Yang et al.
Effectively distinguishing the pronunciation correlations between different written texts is a significant issue in linguistic acoustics. Traditionally, such pronunciation correlations are obtained through manually designed pronunciation lexicons. In this paper, we propose a data-driven method to automatically acquire these pronunciation correlations, called automatic text pronunciation correlation (ATPC). The supervision required for this method is consistent with the supervision needed for training end-to-end automatic speech recognition (E2E-ASR) systems, i.e., speech and corresponding text annotations. First, the iteratively-trained timestamp estimator (ITSE) algorithm is employed to align the speech with their corresponding annotated text symbols. Then, a speech encoder is used to convert the speech into speech embeddings. Finally, we compare the speech embeddings distances of different text symbols to obtain ATPC. Experimental results on Mandarin show that ATPC enhances E2E-ASR performance in contextual biasing and holds promise for dialects or languages lacking artificial pronunciation lexicons.
서로 다른 문자 텍스트 간의 발음 상관관계를 효과적으로 구분하는 것은 언어 음향학의 중요한 문제입니다. 전통적으로 이러한 발음 상관관계는 인공적으로 설계된 발음 사전을 통해 획득되었습니다. 본 논문은 자동 텍스트 발음 상관관계(ATPC)라고 불리는 이러한 발음 상관관계를 자동으로 획득하기 위한 데이터 기반 방법을 제안합니다. 이 방법에 필요한 감독은 종단 간 자동 음성 인식(E2E-ASR) 시스템 훈련에 필요한 감독과 동일합니다. 즉, 음성 및 해당 텍스트 주석입니다. 먼저 반복 훈련 타임스탬프 추정기(ITSE) 알고리즘을 사용하여 음성을 해당 주석 텍스트 기호와 정렬합니다. 그 다음 음성 인코더를 사용하여 음성을 음성 임베딩으로 변환합니다. 마지막으로 서로 다른 텍스트 기호의 음성 임베딩 거리를 비교하여 ATPC를 획득합니다. 중국어에 대한 실험 결과는 ATPC가 문맥 편향에서 E2E-ASR의 성능을 향상시키며, 인공 발음 사전이 부족한 방언 또는 언어에 희망을 제공함을 보여줍니다.