2025-11-18T18:10:21.509375

Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing

Cheng, Lu, Yang et al.

Effectively distinguishing the pronunciation correlations between different written texts is a significant issue in linguistic acoustics. Traditionally, such pronunciation correlations are obtained through manually designed pronunciation lexicons. In this paper, we propose a data-driven method to automatically acquire these pronunciation correlations, called automatic text pronunciation correlation (ATPC). The supervision required for this method is consistent with the supervision needed for training end-to-end automatic speech recognition (E2E-ASR) systems, i.e., speech and corresponding text annotations. First, the iteratively-trained timestamp estimator (ITSE) algorithm is employed to align the speech with their corresponding annotated text symbols. Then, a speech encoder is used to convert the speech into speech embeddings. Finally, we compare the speech embeddings distances of different text symbols to obtain ATPC. Experimental results on Mandarin show that ATPC enhances E2E-ASR performance in contextual biasing and holds promise for dialects or languages lacking artificial pronunciation lexicons.

academic

자동 텍스트 발음 상관관계 생성 및 문맥 편향 적용

기본 정보

논문 ID: 2501.00804
제목: Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing
저자: Gaofeng Cheng, Haitian Lu, Chengxu Yang, Xuyang Wang, Ta Li, Yonghong Yan
분류: eess.AS (음성 및 음향 처리), cs.CL (계산 언어학)
발표 시간: 2025년 1월 1일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2501.00804

초록

서로 다른 문자 텍스트 간의 발음 상관관계를 효과적으로 구분하는 것은 언어 음향학의 중요한 문제입니다. 전통적으로 이러한 발음 상관관계는 인공적으로 설계된 발음 사전을 통해 획득되었습니다. 본 논문은 자동 텍스트 발음 상관관계(ATPC)라고 불리는 이러한 발음 상관관계를 자동으로 획득하기 위한 데이터 기반 방법을 제안합니다. 이 방법에 필요한 감독은 종단 간 자동 음성 인식(E2E-ASR) 시스템 훈련에 필요한 감독과 동일합니다. 즉, 음성 및 해당 텍스트 주석입니다. 먼저 반복 훈련 타임스탬프 추정기(ITSE) 알고리즘을 사용하여 음성을 해당 주석 텍스트 기호와 정렬합니다. 그 다음 음성 인코더를 사용하여 음성을 음성 임베딩으로 변환합니다. 마지막으로 서로 다른 텍스트 기호의 음성 임베딩 거리를 비교하여 ATPC를 획득합니다. 중국어에 대한 실험 결과는 ATPC가 문맥 편향에서 E2E-ASR의 성능을 향상시키며, 인공 발음 사전이 부족한 방언 또는 언어에 희망을 제공함을 보여줍니다.

연구 배경 및 동기

문제 정의

본 연구가 해결하려는 핵심 문제는 텍스트 기호 간의 발음 상관관계를 자동으로 획득하는 방법입니다. 이는 언어 음향학에서 중요한 과제입니다. 전통적인 방법은 인공적으로 설계된 발음 사전에 의존하여 이러한 상관관계를 구축하지만, 이 방법에는 명백한 한계가 있습니다.

문제의 중요성

발음 상관관계는 여러 언어 처리 작업에서 핵심적인 역할을 합니다:

자동 음성 인식(ASR): 정확한 발음 모델링은 인식 정확도에 매우 중요합니다
텍스트 음성 변환(TTS): 자연스러운 음성 생성을 위해 정확한 발음 정보가 필요합니다
문맥 편향 인식: 특정 어휘를 처리하기 위해 세밀한 발음 상관관계 이해가 필요합니다

기존 방법의 한계

인공 사전 의존성: 전통적인 방법은 대량의 인공 구축 발음 사전이 필요합니다
언어 특이성: 각 언어마다 전문적인 사전 설계가 필요합니다
노동 집약적: 인공 구축 과정이 시간과 노력이 많이 소요됩니다
불충분한 커버리지: 방언 변형 및 전문 용어를 포함하기 어렵습니다

연구 동기

E2E-ASR 모델은 음성-텍스트 모델링에서 상당한 진전을 이루었지만, 특히 문맥 편향이 필요한 시나리오에서 텍스트-텍스트 발음 상관관계를 효과적으로 모델링하는 데는 여전히 부족합니다.

핵심 기여

ATPC 방법 제안: 인공 발음 사전이 필요 없는 데이터 기반 자동 텍스트 발음 상관관계 생성 방법을 처음으로 제안합니다
통합 감독 프레임워크: E2E-ASR과 동일한 감독 신호(음성-텍스트 쌍)를 사용하여 추가 주석 비용을 줄입니다
3단계 생성 프로세스: 정렬, 임베딩 추출 및 상관관계 계산을 포함한 완전한 ATPC 생성 파이프라인을 설계합니다
실험 검증: 중국어 데이터셋에서 문맥 편향 작업에서 ATPC의 효과를 검증합니다
오픈소스 리소스: 중국어 ATPC 행렬을 공개 리소스로 제공합니다

방법 상세 설명

작업 정의

입력: 음성 신호 및 해당 텍스트 주석
출력: 텍스트 기호 간의 발음 상관관계 행렬
제약: 추가 발음 사전 또는 전문가 지식이 필요 없습니다

모델 아키텍처

ATPC 생성은 세 가지 주요 단계를 포함합니다:

1. ITSE 기반 텍스트-음성 정렬

목적: 각 문자의 정확한 시작 및 종료 타임스탬프 획득
방법: 반복 훈련 타임스탬프 추정기(ITSE) 알고리즘 사용
장점:
- CTC에 비해 정확한 시작/종료 타임스탬프 제공
- GMM-HMM과 달리 발음 사전이 필요 없음
- E2E-ASR 기반 토큰 수준 정렬

2. 음성 임베딩 추출 및 분할

임베딩 추출: 다국어 음성 표현 모델을 사용하여 전체 문장 임베딩 추출
모델 선택: XLSR-53의 다양한 계층 및 IPA 미세조정 버전 실험
분할 전략: 음성 분할이 아닌 정렬 결과에 따라 임베딩 분할
주파수 설정: 50Hz 추출 주파수(20ms마다 1프레임)

3. 발음 상관관계 계산

거리 측정: 동적 시간 규정(DTW) 알고리즘 채택
임베딩 집합 구축: 각 문자마다 무작위로 E=100개 임베딩 선택
필터링 전략: 3회 미만으로 나타나는 문자 삭제
거리 계산:

Dist(cj, ck) = (1/(M×N)) × Σ(m=1 to M)Σ(n=1 to N) DTW(V^m_j, W^n_k)

여기서 cj와 ck는 각각 j번째와 k번째 문자를 나타내고, M과 N은 해당 문자의 임베딩 수입니다.

기술 혁신 포인트

사전 없는 정렬: ITSE 알고리즘은 발음 사전 없이 정확한 정렬을 구현합니다
임베딩 분할 전략: 음성 공간이 아닌 임베딩 공간에서 분할하여 문맥 정보 보존
DTW 거리 측정: 서로 다른 길이의 임베딩 간 거리 계산을 효과적으로 처리
다국어 사전 훈련: 다국어 모델의 교차 언어 표현 능력 활용

실험 설정

데이터셋

BABEL 부분집합: 음성 표현 모델 훈련용
- 23개 언어의 다국어 대화 전화 음성 코퍼스 포함
- 언어: 광동어, 아삼어, 벵골어, 파슈토어 등
Aishell-2 훈련 집합: ITSE 훈련 및 ATPC 생성용
- 중국어 음성 코퍼스
- 교차 언어 성능 검증
Aishell-1 문맥 편향 데이터셋: ATPC 효과 평가용
- 개발 집합: 1334개 문장, 600개 핫워드
- 테스트 집합: 235개 문장, 161개 핫워드

평가 지표

발음 구분 능력:
- 동음이의어와 비동음이의어의 DTW 거리
- 상대 차이도(Relative Disparity)
문맥 편향 성능:
- 문자 오류율(CER)
- 편향 문자 오류율(B-CER)
- 비편향 문자 오류율(U-CER)
- 핫워드 재현율/정밀도/F1 점수(R/P/F)

비교 방법

얕은 융합: WFST 기반 문맥 디코딩 그래프 방법
깊은 편향: AED-CTC 구조 기반 문맥 구문 예측 네트워크(CPPN)
인공 사전: 수작업으로 제작된 발음 사전을 사용한 방법

구현 세부사항

백본 모델: XLSR-53, BABEL IPA 인식 작업에서 미세조정
임베딩 계층 선택: 15번째 계층 임베딩이 최고 성능
거리 함수: 코사인 거리가 유클리드 거리보다 우수
임계값 설정: 문맥 편향 임계값 1.07
행렬 규모: 3711×3711 ATPC 행렬

실험 결과

주요 결과

발음 구분 능력 평가

모델	유클리드 거리	코사인 거리	상대 차이도
XLSR-layer15	동음:105.67, 비동음:131.66	동음:0.183, 비동음:0.258	19.7% / 29.1%
IPA-layer15	동음:394.47, 비동음:499.87	동음:0.136, 비동음:0.191	21.1% / 28.8%

주요 발견:

IPA 미세조정 모델이 XLSR-53보다 발음 구분에서 일관되게 우수
15번째 계층 임베딩이 대부분의 경우 최고 성능
코사인 거리가 유클리드 거리보다 일관되게 우수

문맥 편향 효과

방법	CER (U-CER/B-CER)	F1 점수 (재현율/정밀도)
기준선	13.8 (7.3/41.8)	44 (28/99)
ATPC	12.0 (7.3/32.4)	68 (53/96)
C-g + ATPC	10.3 (7.7/21.5)	80 (70/94)
C-g + 인공 사전	8.9 (7.4/15.3)	86 (77/98)

성능 향상:

기준선 대비 CER 상대 감소 13.0%
B-CER 상대 감소 22.5%
핫워드 재현율 25% 향상
F1 점수 24% 향상

소거 실험

다양한 계층 임베딩 비교

실험 결과 15번째 계층 임베딩이 발음 구분 작업에서 최고 성능을 보였으며, 이는 해당 계층이 음향 특성, 음성 특성, 어휘 정체성 및 어휘 의미 정보 간의 최적 균형을 달성했기 때문일 수 있습니다.

거리 함수 비교

코사인 거리는 모든 구성에서 유클리드 거리보다 우수하며, 상대 차이도가 현저히 향상됩니다(예: IPA-layer15에서 21.1%에서 28.8%로 향상).

사례 분석

ATPC 행렬 시각화

시각화 분석을 통해 다음을 발견했습니다:

동음이의어 "刮"(gua1)과 "瓜"(gua1) 간의 DTW 거리가 낮음
비동음이의어 "爱"(ai4)과 "途"(tu2) 간의 DTW 거리가 높음
행렬 전체가 중국어 문자 간의 발음 상관관계를 반영

실험 발견

교차 언어 전이 능력: 다국어 데이터에서 사전 훈련된 모델이 중국어로 효과적으로 전이
계층별 표현 차이: 서로 다른 계층이 다양한 유형의 정보를 인코딩하며, 중간 계층이 발음 모델링에 더 적합
거리 측정의 중요성: 코사인 거리가 발음 유사성을 더 잘 포착
실용성 검증: ATPC가 플러그 앤 플레이 모듈로서 ASR 성능을 효과적으로 향상

결론 및 논의

주요 결론

방법의 효과성: ATPC가 인공 사전 없이 발음 상관관계의 자동 생성을 성공적으로 구현
성능 향상: 문맥 편향 작업에서 상당한 개선 달성
실용적 가치: 발음 리소스가 부족한 언어/방언에 대한 솔루션 제공
플러그 앤 플레이: 플러그인 모듈로서 기존 ASR 시스템에 쉽게 통합

한계

성능 격차: 인공 사전과 비교하면 여전히 성능 격차 존재
데이터 의존성: 상관관계 품질을 보장하기 위해 충분한 훈련 데이터 필요
계산 복잡도: DTW 계산 및 대규모 행렬 저장의 오버헤드
언어 특이성: 주로 중국어에서 검증되었으며, 다른 언어의 일반화 능력은 미검증

향후 방향

다국어 확장: 더 많은 언어 및 방언에서 ATPC 생성 및 적용
OOV 처리: 어휘 외 문자 또는 단어의 과제 해결
데이터 규모: 더 큰 데이터셋을 활용하여 ATPC의 견고성 강화
리소스 표준화: ATPC를 공개 음성 리소스의 표준으로 추진 및 지속적 업데이트

심층 평가

장점

높은 혁신성: 완전히 데이터 기반의 발음 상관관계 생성 방법을 처음으로 제안
높은 실용적 가치: 리소스 부족 언어의 실제 문제 해결
완전한 방법: 종단 간 솔루션 제공
충분한 실험: 다각도에서 방법의 효과성 검증
오픈소스 기여: 재현 가능한 구현 및 공개 리소스 제공

부족한 점

이론 분석 부족: 이 방법이 왜 효과적인지에 대한 심층 이론적 설명 부족
평가 한계: 주로 중국어에서 평가되었으며, 다국어 일반화 능력이 충분히 검증되지 않음
계산 효율성: DTW 계산의 시간 복잡도가 높음
오류 분석 부재: 실패 사례 및 오류 패턴에 대한 심층 분석 부족

영향력

학술적 기여: 발음 모델링 분야에 새로운 연구 방향 제시
실제 응용: 리소스 부족 언어의 ASR 시스템에 중요한 가치
기술 보급: 방법이 단순하고 구현하기 쉬워 보급이 용이
리소스 공유: 오픈소스 ATPC 행렬이 커뮤니티에 가치 있는 리소스 제공

적용 시나리오

리소스 부족 언어: 발음 사전이 없는 언어 또는 방언
빠른 배포: ASR 시스템을 빠르게 구축해야 하는 시나리오
문맥 편향: 전문 용어 또는 핫워드를 처리해야 하는 응용
다국어 시스템: 통합 다국어 음성 처리 시스템 구축

참고문헌

논문은 26개의 중요 문헌을 인용하며, 다음을 포함합니다:

음성 인식 및 TTS의 고전 연구
종단 간 ASR의 최신 진전
문맥 편향 관련 연구
음성 표현 학습의 최첨단 성과
다국어 음성 처리의 중요 기여

종합 평가: 이는 발음 상관관계 모델링의 실제 문제를 해결하기 위한 혁신적인 데이터 기반 방법을 제안한 중요한 실용적 가치의 연구 작업입니다. 이론적 깊이와 다국어 검증 측면에서 개선의 여지가 있지만, 방법의 단순성과 실용성으로 인해 좋은 응용 전망을 가지고 있습니다.