2025-11-17T09:16:13.954696

CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR

Zhou, Jia, Sari et al.

CTC compressor can be an effective approach to integrate audio encoders to decoder-only models, which has gained growing interest for different speech applications. In this work, we propose a novel CTC compressor based joint speech and text training (CJST) framework for decoder-only ASR. CJST matches speech and text modalities from both directions by exploring a simple modality adaptor and several features of the CTC compressor, including sequence compression, on-the-fly forced peaky alignment and CTC class embeddings. Experimental results on the Librispeech and TED-LIUM2 corpora show that the proposed CJST achieves an effective text injection without the need of duration handling, leading to the best performance for both in-domain and cross-domain scenarios. We also provide a comprehensive study on CTC compressor, covering various compression modes, edge case handling and behavior under both clean and noisy data conditions, which reveals the most robust setting to use CTC compressor for decoder-only models.

academic

CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR

基本信息

论文ID: 2411.07607
标题: CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR
作者: Wei Zhou, Junteng Jia, Leda Sari, Jay Mahadeokar, Ozlem Kalinli (Meta AI)
分类: eess.AS cs.LG cs.SD
发表时间: 2024年11月 (arXiv预印本)
论文链接: https://arxiv.org/abs/2411.07607

摘要

CTC compressor可以作为将音频编码器集成到仅解码器模型中的有效方法，在不同语音应用中获得了越来越多的关注。本文提出了一种新颖的基于CTC compressor的语音文本联合训练(CJST)框架，用于仅解码器ASR。CJST通过探索简单的模态适配器和CTC compressor的几个特性（包括序列压缩、在线强制峰值对齐和CTC类嵌入），从两个方向匹配语音和文本模态。在Librispeech和TED-LIUM2语料库上的实验结果表明，所提出的CJST在无需处理持续时间的情况下实现了有效的文本注入，在域内和跨域场景下都达到了最佳性能。

研究背景与动机

问题定义

随着大语言模型(LLM)的巨大成功，仅解码器架构被广泛应用于各种语音应用。然而，如何有效地将语音信息集成到仅解码器模型中，以及如何进行语音文本联合训练以提升ASR性能，仍然是一个挑战性问题。

研究动机

集成挑战: 将连续的声学嵌入有效集成到仅解码器模型中需要合适的适配器方法
模态匹配: 语音和文本模态在序列长度和表示空间上存在显著差异，需要有效的对齐机制
文本注入: 在生产级别的ASR模型中，如何在不使用外部语言模型的情况下有效利用文本数据提升性能

现有方法局限性

简单适配器: 传统的时间缩减层+线性投影方法缺乏内容感知的压缩能力
RNN-T方法: 现有的联合训练方法主要针对RNN-T模型，需要复杂的持续时间处理
CTC compressor敏感性: 现有CTC compressor方法在噪声数据上表现不稳定

核心贡献

提出CJST框架: 基于CTC compressor的新颖语音文本联合训练框架，实现双向模态匹配
扩展CTC compressor: 全面研究了CTC compressor的各种压缩模式、边界情况处理和在清洁/噪声数据下的行为
无需持续时间处理: 通过在线强制峰值对齐和CTC类嵌入实现有效文本注入，无需复杂的持续时间建模
性能提升: 在域内和跨域场景下均取得最佳性能，相比基线实现约6%的相对改进

方法详解

任务定义

本文研究仅解码器架构的自动语音识别任务，输入为语音特征序列，输出为对应的文本转录。同时考虑如何利用配对的语音-文本数据和纯文本数据进行联合训练。

扩展的CTC Compressor

压缩模式

论文研究了四种CTC compressor压缩模式：

空白预测移除: 基于贪心CTC预测，移除所有空白帧
相同预测平均: 对相同预测的相邻帧进行平均
空白概率移除: 移除空白概率高于预定义阈值的所有帧
组合模式: 先应用空白概率移除，再应用相同预测平均

边界情况处理

针对CTC compressor可能产生空输出的问题，提出两种解决方案：

Empty Skip: 在训练中跳过这些utterances，推理时直接输出EOS
Empty Fallback: 将所有编码器输出平均为单帧，然后正常进行训练和推理

嵌入共享

探索CTC类嵌入与文本嵌入的共享机制，通过CTC目标函数使音频编码器输出更接近文本嵌入。

CJST框架

配对数据处理

对于配对的语音-文本数据：

通过模型前向传播进行常规ASR训练
利用压缩后的声学嵌入h'和CTC概率进行强制峰值对齐
通过MSE损失训练模态适配器，使h'与伪声学嵌入h'_text对齐

纯文本数据处理

对于纯文本数据：

基于记录的长度比率R_len(h', y)随机插入空白符号
通过CTC嵌入和模态适配器生成伪声学提示h'_text
使用ASR目标函数训练解码器模型
对h'_text应用20%的随机掩码以保持学习难度

模态适配器

使用简单的Conformer层作为模态适配器，包含单个注意力头、卷积核大小为3，不进行前馈模块的维度提升。

实验设置

数据集

Librispeech: 960小时的清洁语音数据
内部数据: 2M小时的多样化声学条件数据，包含速度扰动、模拟混响和随机背景噪声
文本数据: Librispeech和TED-LIUM2的LM训练文本数据

模型配置

解码器: 12层LLaMA解码器，768隐藏维度，12个注意力头
音频编码器: 24层Conformer，512隐藏维度，8个注意力头
词汇表: 每个数据集使用4k SentencePiece单元

训练策略

音频编码器预训练200k步
全模型训练：Librispeech 200k步，内部数据500k步
联合训练中语音和文本损失权重均为1.0
辅助CTC损失权重为0.5

评价指标

使用词错误率(WER)作为主要评价指标，在测试集上报告性能。

实验结果

CTC Compressor综合评估

Librispeech结果 (表I)

所有CTC compressor方法均优于简单适配器方法
空白概率移除(阈值0.95)表现最佳：test-clean 2.17%, test-other 4.94%
嵌入共享在某些情况下有帮助，但不够一致

内部数据结果 (表II)

基于贪心预测的方法在噪声数据上表现较差
空白概率移除(阈值0.95)最为鲁棒：12.85% WER
Empty fallback方案优于empty skip方案

联合训练结果

从零开始训练 (表III)

在Librispeech上的结果：

基线适配器: test-clean 3.38%, test-other 5.63%
LM-like文本注入: test-clean 2.54%, test-other 5.26%
CJST: test-clean 2.09%, test-other 4.71%

继续训练 (表IV)

使用域内和跨域文本数据：

CJST在所有场景下均取得最佳性能
跨域TED-LIUM2测试集：从11.45%降至10.14%
相比基线实现约6%的相对改进

关键发现

空白概率移除是最鲁棒的压缩模式
LM-like训练已经相当有效，为强基线
CJST在所有场景下均能带来进一步改进
CTC compressor对数据质量敏感，需要合适的配置

相关工作

仅解码器语音模型

早期工作使用简单适配器集成音频编码器
近期研究探索离散音频token方法
本文专注于连续表示的ASR任务

CTC Compressor

最初用于注意力机制的语音翻译
扩展至仅解码器模型的语音翻译
本文首次系统研究其在ASR中的应用

语音文本联合训练

传统方法主要针对RNN-T模型
包括JOIST、textogram、MAESTRO等方法
本文首次针对仅解码器ASR提出有效解决方案

结论与讨论

主要结论

CJST框架有效: 通过双向模态匹配实现了有效的文本注入
CTC compressor配置关键: 空白概率移除(高阈值)最为鲁棒
无需持续时间处理: 通过强制对齐和CTC嵌入避免了复杂的持续时间建模
一致性改进: 在域内和跨域场景下均取得显著提升

局限性

计算开销: 在线强制对齐增加了训练时的计算成本
数据依赖: CTC compressor的性能高度依赖于数据质量
参数敏感: 需要仔细调整空白概率阈值等超参数
评估范围: 主要在英语数据上评估，多语言泛化性未知

未来方向

探索更高效的在线对齐方法
研究在多语言和低资源场景下的表现
结合离散音频token的混合方法
优化CTC compressor的鲁棒性

深度评价

优点

方法创新: 首次将CTC compressor用于仅解码器ASR的语音文本联合训练
系统性研究: 对CTC compressor进行了全面的实验分析
实用价值: 无需持续时间处理，简化了实现复杂度
实验充分: 在多个数据集和场景下验证了方法的有效性
写作清晰: 论文结构清晰，技术细节描述详尽

不足

理论分析不足: 缺乏对为什么CJST有效的深入理论分析
计算成本: 未详细分析训练和推理时的计算开销
超参数敏感: 方法涉及多个超参数，调优复杂度较高
评估局限: 主要在英语数据上评估，缺乏多语言验证

影响力

学术贡献: 为仅解码器ASR的文本注入提供了新的思路
实用价值: 方法相对简单，易于在生产环境中部署
可复现性: 提供了详细的实现细节和超参数设置
启发性: 为CTC compressor的进一步研究提供了有价值的洞察

适用场景

生产级ASR: 适合不能使用外部语言模型的场景
跨域适应: 特别适合需要快速适应新领域的应用
资源受限: 相比复杂的持续时间建模方法更加高效
联合训练: 适合有大量文本数据但语音数据相对有限的场景

参考文献

论文引用了32篇相关文献，涵盖了大语言模型、仅解码器架构、CTC方法、语音识别和联合训练等多个相关领域的重要工作，为研究提供了坚实的理论基础。

总体评价: 这是一篇高质量的技术论文，提出了创新的CJST框架，解决了仅解码器ASR中语音文本联合训练的重要问题。论文的实验设计充分，结果令人信服，对该领域具有重要的学术和实用价值。