2025-11-18T18:10:21.509375

Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing

Cheng, Lu, Yang et al.

Effectively distinguishing the pronunciation correlations between different written texts is a significant issue in linguistic acoustics. Traditionally, such pronunciation correlations are obtained through manually designed pronunciation lexicons. In this paper, we propose a data-driven method to automatically acquire these pronunciation correlations, called automatic text pronunciation correlation (ATPC). The supervision required for this method is consistent with the supervision needed for training end-to-end automatic speech recognition (E2E-ASR) systems, i.e., speech and corresponding text annotations. First, the iteratively-trained timestamp estimator (ITSE) algorithm is employed to align the speech with their corresponding annotated text symbols. Then, a speech encoder is used to convert the speech into speech embeddings. Finally, we compare the speech embeddings distances of different text symbols to obtain ATPC. Experimental results on Mandarin show that ATPC enhances E2E-ASR performance in contextual biasing and holds promise for dialects or languages lacking artificial pronunciation lexicons.

academic

Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing

基本信息

论文ID: 2501.00804
标题: Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing
作者: Gaofeng Cheng, Haitian Lu, Chengxu Yang, Xuyang Wang, Ta Li, Yonghong Yan
分类: eess.AS (Audio and Speech Processing), cs.CL (Computational Linguistics)
发表时间: 2025年1月1日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2501.00804

摘要

有效区分不同书面文本之间的发音关联是语言声学中的重要问题。传统上，这种发音关联通过人工设计的发音词典获得。本文提出了一种数据驱动的方法来自动获取这些发音关联，称为自动文本发音关联(ATPC)。该方法所需的监督与训练端到端自动语音识别(E2E-ASR)系统的监督一致，即语音和对应的文本标注。首先，采用迭代训练时间戳估计器(ITSE)算法将语音与其对应的标注文本符号对齐。然后，使用语音编码器将语音转换为语音嵌入。最后，通过比较不同文本符号的语音嵌入距离来获得ATPC。在中文上的实验结果表明，ATPC增强了E2E-ASR在上下文偏置中的性能，并为缺乏人工发音词典的方言或语言提供了希望。

研究背景与动机

问题定义

该研究要解决的核心问题是如何自动获取文本符号之间的发音关联性，这在语言声学中是一个重要挑战。传统方法依赖人工设计的发音词典来建立这种关联，但这种方法存在明显局限性。

问题重要性

发音关联在多个语言处理任务中发挥关键作用：

自动语音识别(ASR)：准确的发音建模对识别精度至关重要
文本转语音(TTS)：需要准确的发音信息生成自然语音
上下文偏置识别：需要细致的发音关联理解来处理特定词汇

现有方法局限性

人工词典依赖：传统方法需要大量人工构建的发音词典
语言特异性：每种语言都需要专门的词典设计
劳动密集：人工构建过程耗时耗力
覆盖不足：难以涵盖方言变体和专业词汇

研究动机

E2E-ASR模型虽然在语音到文本建模上取得显著进展，但在有效建模文本到文本发音关联方面仍存在不足，特别是在需要细致发音理解的上下文偏置场景中。

核心贡献

提出ATPC方法：首次提出数据驱动的自动文本发音关联生成方法，无需人工发音词典
统一监督框架：使用与E2E-ASR相同的监督信号（语音-文本对），降低了额外标注成本
三阶段生成流程：设计了完整的ATPC生成管道，包括对齐、嵌入提取和关联计算
实验验证：在中文数据集上验证了ATPC在上下文偏置任务中的有效性
开源资源：提供中文ATPC矩阵作为公共资源

方法详解

任务定义

输入：语音信号和对应的文本标注
输出：文本符号间的发音关联矩阵
约束：无需额外的发音词典或专家知识

模型架构

ATPC生成包含三个主要阶段：

1. ITSE-based文本-语音对齐

目的：获得每个字符的精确起止时间戳
方法：使用迭代训练时间戳估计器(ITSE)算法
优势：
- 相比CTC提供精确的起止时间戳
- 相比GMM-HMM无需发音词典
- 基于E2E-ASR进行token级对齐

2. 语音嵌入提取与分割

嵌入提取：使用多语言语音表示模型提取整句嵌入
模型选择：实验了不同层的XLSR-53和IPA微调版本
分割策略：根据对齐结果对嵌入进行分割而非音频分割
频率设置：50Hz提取频率（每20ms一帧）

3. 发音关联计算

距离度量：采用动态时间规整(DTW)算法
嵌入集构建：每个字符随机选择E=100个嵌入
过滤策略：删除出现次数少于3次的字符
距离计算：

Dist(cj, ck) = (1/(M×N)) × Σ(m=1 to M)Σ(n=1 to N) DTW(V^m_j, W^n_k)

其中cj和ck表示第j个和第k个字符，M和N分别是对应字符的嵌入数量。

技术创新点

无词典对齐：ITSE算法实现了无需发音词典的精确对齐
嵌入分割策略：在嵌入空间而非音频空间进行分割，保留上下文信息
DTW距离度量：有效处理不同长度嵌入间的距离计算
多语言预训练：利用多语言模型的跨语言表示能力

实验设置

数据集

BABEL子集：用于训练语音表示模型
- 包含23种语言的多语言对话电话语音语料
- 语言包括：粤语、阿萨姆语、孟加拉语、普什图语等
Aishell-2训练集：用于训练ITSE和生成ATPC
- 中文语音语料库
- 验证跨语言性能
Aishell-1上下文偏置数据集：用于评估ATPC效果
- 开发集：1334句，600个热词
- 测试集：235句，161个热词

评价指标

发音区分能力：
- 同音词与非同音词的DTW距离
- 相对差异度(Relative Disparity)
上下文偏置性能：
- 字符错误率(CER)
- 偏置字符错误率(B-CER)
- 非偏置字符错误率(U-CER)
- 热词召回率/精确率/F1分数(R/P/F)

对比方法

浅层融合：基于WFST的上下文解码图方法
深层偏置：基于AED-CTC结构的上下文短语预测网络(CPPN)
人工词典：使用手工制作发音词典的方法

实现细节

骨干模型：XLSR-53，在BABEL IPA识别任务上微调
嵌入层选择：第15层嵌入表现最佳
距离函数：余弦距离优于欧几里得距离
阈值设置：上下文偏置阈值为1.07
矩阵规模：3711×3711的ATPC矩阵

实验结果

主要结果

发音区分能力评估

模型	欧几里得距离	余弦距离	相对差异度
XLSR-layer15	同音词:105.67, 非同音词:131.66	同音词:0.183, 非同音词:0.258	19.7% / 29.1%
IPA-layer15	同音词:394.47, 非同音词:499.87	同音词:0.136, 非同音词:0.191	21.1% / 28.8%