2025-11-18T18:10:21.509375

Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing

Cheng, Lu, Yang et al.
Effectively distinguishing the pronunciation correlations between different written texts is a significant issue in linguistic acoustics. Traditionally, such pronunciation correlations are obtained through manually designed pronunciation lexicons. In this paper, we propose a data-driven method to automatically acquire these pronunciation correlations, called automatic text pronunciation correlation (ATPC). The supervision required for this method is consistent with the supervision needed for training end-to-end automatic speech recognition (E2E-ASR) systems, i.e., speech and corresponding text annotations. First, the iteratively-trained timestamp estimator (ITSE) algorithm is employed to align the speech with their corresponding annotated text symbols. Then, a speech encoder is used to convert the speech into speech embeddings. Finally, we compare the speech embeddings distances of different text symbols to obtain ATPC. Experimental results on Mandarin show that ATPC enhances E2E-ASR performance in contextual biasing and holds promise for dialects or languages lacking artificial pronunciation lexicons.
academic

Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing

基本信息

  • 论文ID: 2501.00804
  • 标题: Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing
  • 作者: Gaofeng Cheng, Haitian Lu, Chengxu Yang, Xuyang Wang, Ta Li, Yonghong Yan
  • 分类: eess.AS (Audio and Speech Processing), cs.CL (Computational Linguistics)
  • 发表时间: 2025年1月1日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2501.00804

摘要

有效区分不同书面文本之间的发音关联是语言声学中的重要问题。传统上,这种发音关联通过人工设计的发音词典获得。本文提出了一种数据驱动的方法来自动获取这些发音关联,称为自动文本发音关联(ATPC)。该方法所需的监督与训练端到端自动语音识别(E2E-ASR)系统的监督一致,即语音和对应的文本标注。首先,采用迭代训练时间戳估计器(ITSE)算法将语音与其对应的标注文本符号对齐。然后,使用语音编码器将语音转换为语音嵌入。最后,通过比较不同文本符号的语音嵌入距离来获得ATPC。在中文上的实验结果表明,ATPC增强了E2E-ASR在上下文偏置中的性能,并为缺乏人工发音词典的方言或语言提供了希望。

研究背景与动机

问题定义

该研究要解决的核心问题是如何自动获取文本符号之间的发音关联性,这在语言声学中是一个重要挑战。传统方法依赖人工设计的发音词典来建立这种关联,但这种方法存在明显局限性。

问题重要性

发音关联在多个语言处理任务中发挥关键作用:

  1. 自动语音识别(ASR):准确的发音建模对识别精度至关重要
  2. 文本转语音(TTS):需要准确的发音信息生成自然语音
  3. 上下文偏置识别:需要细致的发音关联理解来处理特定词汇

现有方法局限性

  1. 人工词典依赖:传统方法需要大量人工构建的发音词典
  2. 语言特异性:每种语言都需要专门的词典设计
  3. 劳动密集:人工构建过程耗时耗力
  4. 覆盖不足:难以涵盖方言变体和专业词汇

研究动机

E2E-ASR模型虽然在语音到文本建模上取得显著进展,但在有效建模文本到文本发音关联方面仍存在不足,特别是在需要细致发音理解的上下文偏置场景中。

核心贡献

  1. 提出ATPC方法:首次提出数据驱动的自动文本发音关联生成方法,无需人工发音词典
  2. 统一监督框架:使用与E2E-ASR相同的监督信号(语音-文本对),降低了额外标注成本
  3. 三阶段生成流程:设计了完整的ATPC生成管道,包括对齐、嵌入提取和关联计算
  4. 实验验证:在中文数据集上验证了ATPC在上下文偏置任务中的有效性
  5. 开源资源:提供中文ATPC矩阵作为公共资源

方法详解

任务定义

输入:语音信号和对应的文本标注
输出:文本符号间的发音关联矩阵
约束:无需额外的发音词典或专家知识

模型架构

ATPC生成包含三个主要阶段:

1. ITSE-based文本-语音对齐

  • 目的:获得每个字符的精确起止时间戳
  • 方法:使用迭代训练时间戳估计器(ITSE)算法
  • 优势
    • 相比CTC提供精确的起止时间戳
    • 相比GMM-HMM无需发音词典
    • 基于E2E-ASR进行token级对齐

2. 语音嵌入提取与分割

  • 嵌入提取:使用多语言语音表示模型提取整句嵌入
  • 模型选择:实验了不同层的XLSR-53和IPA微调版本
  • 分割策略:根据对齐结果对嵌入进行分割而非音频分割
  • 频率设置:50Hz提取频率(每20ms一帧)

3. 发音关联计算

  • 距离度量:采用动态时间规整(DTW)算法
  • 嵌入集构建:每个字符随机选择E=100个嵌入
  • 过滤策略:删除出现次数少于3次的字符
  • 距离计算
Dist(cj, ck) = (1/(M×N)) × Σ(m=1 to M)Σ(n=1 to N) DTW(V^m_j, W^n_k)

其中cj和ck表示第j个和第k个字符,M和N分别是对应字符的嵌入数量。

技术创新点

  1. 无词典对齐:ITSE算法实现了无需发音词典的精确对齐
  2. 嵌入分割策略:在嵌入空间而非音频空间进行分割,保留上下文信息
  3. DTW距离度量:有效处理不同长度嵌入间的距离计算
  4. 多语言预训练:利用多语言模型的跨语言表示能力

实验设置

数据集

  1. BABEL子集:用于训练语音表示模型
    • 包含23种语言的多语言对话电话语音语料
    • 语言包括:粤语、阿萨姆语、孟加拉语、普什图语等
  2. Aishell-2训练集:用于训练ITSE和生成ATPC
    • 中文语音语料库
    • 验证跨语言性能
  3. Aishell-1上下文偏置数据集:用于评估ATPC效果
    • 开发集:1334句,600个热词
    • 测试集:235句,161个热词

评价指标

  1. 发音区分能力
    • 同音词与非同音词的DTW距离
    • 相对差异度(Relative Disparity)
  2. 上下文偏置性能
    • 字符错误率(CER)
    • 偏置字符错误率(B-CER)
    • 非偏置字符错误率(U-CER)
    • 热词召回率/精确率/F1分数(R/P/F)

对比方法

  1. 浅层融合:基于WFST的上下文解码图方法
  2. 深层偏置:基于AED-CTC结构的上下文短语预测网络(CPPN)
  3. 人工词典:使用手工制作发音词典的方法

实现细节

  • 骨干模型:XLSR-53,在BABEL IPA识别任务上微调
  • 嵌入层选择:第15层嵌入表现最佳
  • 距离函数:余弦距离优于欧几里得距离
  • 阈值设置:上下文偏置阈值为1.07
  • 矩阵规模:3711×3711的ATPC矩阵

实验结果

主要结果

发音区分能力评估

模型欧几里得距离余弦距离相对差异度
XLSR-layer15同音词:105.67, 非同音词:131.66同音词:0.183, 非同音词:0.25819.7% / 29.1%
IPA-layer15同音词:394.47, 非同音词:499.87同音词:0.136, 非同音词:0.19121.1% / 28.8%

关键发现

  • IPA微调模型在发音区分上一致优于XLSR-53
  • 第15层嵌入在多数情况下表现最佳
  • 余弦距离一致优于欧几里得距离

上下文偏置效果

方法CER (U-CER/B-CER)F1分数 (召回/精确)
基线13.8 (7.3/41.8)44 (28/99)
ATPC12.0 (7.3/32.4)68 (53/96)
C-g + ATPC10.3 (7.7/21.5)80 (70/94)
C-g + 人工词典8.9 (7.4/15.3)86 (77/98)

性能提升

  • 相比基线,CER相对降低13.0%
  • B-CER相对降低22.5%
  • 热词召回率提升25%
  • F1分数提升24%

消融实验

不同层嵌入比较

实验表明第15层嵌入在发音区分任务中表现最优,这可能是因为该层在声学特征、语音特征、词汇身份和词汇语义信息之间达到了最佳平衡。

距离函数比较

余弦距离在所有配置下都优于欧几里得距离,相对差异度提升显著(如IPA-layer15从21.1%提升到28.8%)。

案例分析

ATPC矩阵可视化

通过可视化分析发现:

  • 同音词"刮"(gua1)和"瓜"(gua1)之间的DTW距离较低
  • 非同音词"爱"(ai4)和"途"(tu2)之间的DTW距离较高
  • 矩阵整体反映了中文字符间的发音关联性

实验发现

  1. 跨语言迁移能力:在多语言数据上预训练的模型能有效迁移到中文
  2. 层级表示差异:不同层编码不同类型的信息,中间层更适合发音建模
  3. 距离度量重要性:余弦距离更适合捕捉发音相似性
  4. 实用性验证:ATPC作为即插即用模块能有效提升ASR性能

相关工作

发音建模研究

传统发音建模主要依赖:

  1. HMM-GMM系统:需要详细的发音词典和音素对齐
  2. 深度学习方法:仍然依赖人工构建的发音资源
  3. 端到端系统:虽然减少了对中间表示的依赖,但在发音关联建模上仍有不足

上下文偏置方法

  1. 浅层融合:在解码阶段融合上下文信息
  2. 深层偏置:在模型内部集成上下文感知机制
  3. 本文贡献:提供了新的发音关联建模方式

语音表示学习

  1. 自监督学习:wav2vec、XLSR等模型提供了强大的语音表示
  2. 多语言模型:为跨语言发音建模提供了基础
  3. 层级分析:不同层捕捉不同抽象层次的信息

结论与讨论

主要结论

  1. 方法有效性:ATPC成功实现了无需人工词典的发音关联自动生成
  2. 性能提升:在上下文偏置任务中取得显著改进
  3. 实用价值:为缺乏发音资源的语言/方言提供了解决方案
  4. 即插即用:作为插件模块易于集成到现有ASR系统

局限性

  1. 性能差距:与人工词典相比仍有性能差距
  2. 数据依赖:需要足够的训练数据来保证关联质量
  3. 计算复杂度:DTW计算和大规模矩阵存储的开销
  4. 语言特异性:主要在中文上验证,其他语言的泛化能力待验证

未来方向

  1. 多语言扩展:在更多语言和方言上生成和应用ATPC
  2. OOV处理:处理词汇表外字符或词汇的挑战
  3. 数据规模:利用更大数据集增强ATPC的鲁棒性
  4. 资源标准化:推进ATPC作为公共语音资源的标准化和持续更新

深度评价

优点

  1. 创新性强:首次提出完全数据驱动的发音关联生成方法
  2. 实用价值高:解决了资源稀缺语言的实际问题
  3. 方法完整:提供了端到端的解决方案
  4. 实验充分:多角度验证了方法的有效性
  5. 开源贡献:提供了可复现的实现和公共资源

不足

  1. 理论分析不足:缺乏对为什么该方法有效的深入理论解释
  2. 评估局限:主要在中文上评估,多语言泛化能力未充分验证
  3. 计算效率:DTW计算的时间复杂度较高
  4. 错误分析缺失:未深入分析失败案例和错误模式

影响力

  1. 学术贡献:为发音建模领域提供了新的研究方向
  2. 实际应用:对资源稀缺语言的ASR系统具有重要价值
  3. 技术推广:方法简单易实现,便于推广应用
  4. 资源共享:开源的ATPC矩阵为社区提供了有价值的资源

适用场景

  1. 资源稀缺语言:缺乏发音词典的语言或方言
  2. 快速部署:需要快速构建ASR系统的场景
  3. 上下文偏置:需要处理专业词汇或热词的应用
  4. 多语言系统:构建统一的多语言语音处理系统

参考文献

论文引用了26篇重要文献,涵盖:

  • 语音识别和TTS的经典工作
  • 端到端ASR的最新进展
  • 上下文偏置的相关研究
  • 语音表示学习的前沿成果
  • 多语言语音处理的重要贡献

总体评价:这是一篇具有重要实用价值的研究工作,提出了创新的数据驱动方法来解决发音关联建模的实际问题。虽然在理论深度和多语言验证方面还有提升空间,但其方法的简洁性和实用性使其具有良好的应用前景。