2025-11-12T14:58:10.472282

Automatic Speech Recognition in the Modern Era: Architectures, Training, and Evaluation

Nayeem, Tabrej, Deb et al.

Automatic Speech Recognition (ASR) has undergone a profound transformation over the past decade, driven by advances in deep learning. This survey provides a comprehensive overview of the modern era of ASR, charting its evolution from traditional hybrid systems, such as Gaussian Mixture Model-Hidden Markov Models (GMM-HMMs) and Deep Neural Network-HMMs (DNN-HMMs), to the now-dominant end-to-end neural architectures. We systematically review the foundational end-to-end paradigms: Connectionist Temporal Classification (CTC), attention-based encoder-decoder models, and the Recurrent Neural Network Transducer (RNN-T), which established the groundwork for fully integrated speech-to-text systems. We then detail the subsequent architectural shift towards Transformer and Conformer models, which leverage self-attention to capture long-range dependencies with high computational efficiency. A central theme of this survey is the parallel revolution in training paradigms. We examine the progression from fully supervised learning, augmented by techniques like SpecAugment, to the rise of self-supervised learning (SSL) with foundation models such as wav2vec 2.0, which drastically reduce the reliance on transcribed data. Furthermore, we analyze the impact of largescale, weakly supervised models like Whisper, which achieve unprecedented robustness through massive data diversity. The paper also covers essential ecosystem components, including key datasets and benchmarks (e.g., LibriSpeech, Switchboard, CHiME), standard evaluation metrics (e.g., Word Error Rate), and critical considerations for real-world deployment, such as streaming inference, on-device efficiency, and the ethical imperatives of fairness and robustness. We conclude by outlining open challenges and future research directions.

academic

Automatic Speech Recognition in the Modern Era: Architectures, Training, and Evaluation

基本信息

论文ID: 2510.12827
标题: Automatic Speech Recognition in the Modern Era: Architectures, Training, and Evaluation
作者: Md Shamse Tabrej, Kabbojit Jit Deb, Md. Azizul Hakim, Shaonti Goswami (Delhi Technological University), Md. Nayeem (National University of Bangladesh)
分类: eess.AS cs.AI cs.SD
发表时间: 2025年10月11日（arXiv预印本）
论文链接: https://arxiv.org/abs/2510.12827

摘要

本文提供了现代自动语音识别(ASR)的全面综述，追踪了其从传统混合系统（如GMM-HMM和DNN-HMM）向端到端神经架构的演进。论文系统回顾了三种基础端到端范式：连接主义时间分类(CTC)、基于注意力的编码器-解码器模型和循环神经网络转换器(RNN-T)，并详述了向Transformer和Conformer模型的架构转变。文章重点分析了训练范式的革命，从完全监督学习到自监督学习（如wav2vec 2.0）和大规模弱监督模型（如Whisper）的兴起。此外，还涵盖了关键数据集、评估指标以及实际部署中的流式推理、设备端效率和公平性等考虑。

研究背景与动机

1. 要解决的问题

自动语音识别领域正经历从传统统计方法向深度学习的根本性转变，需要系统性地梳理和分析现代ASR的发展脉络、核心技术和未来趋势。

2. 问题的重要性

ASR是现代人机交互的基石，广泛应用于语音助手、听写软件、车载控制系统等
深度学习的快速发展使ASR性能显著提升，但技术发展迅速，需要及时的综合性总结
端到端架构和新训练范式的出现改变了ASR的开发模式

3. 现有方法的局限性

传统混合系统（GMM-HMM, DNN-HMM）结构复杂，需要独立训练多个组件
模块化设计导致误差传播，需要领域专家知识
现有综述多关注早期技术，缺乏对Transformer时代和自监督学习的系统性分析

4. 研究动机

提供一个聚焦于现代ASR的全面参考，整合架构演进、训练范式革命、部署实践和伦理考量四个关键维度。

核心贡献

系统性架构回顾：全面分析了主流端到端ASR架构，包括CTC、AED、RNN-T以及最新的Transformer和Conformer模型
训练范式深度分析：详细追踪了从监督学习到自监督学习和弱监督学习的演进过程
生态系统全景梳理：综合总结了关键数据集、基准测试和评估指标
实践部署指导：分析了流式推理、设备端处理等实际部署挑战和伦理考量

方法详解

任务定义

ASR任务定义为将可变长度的音频输入序列X = (x₁, ..., xₜ)转换为可变长度的文本输出序列Y = (y₁, ..., yᵤ)的映射过程。

核心架构分析

1. 连接主义时间分类（CTC）

核心思想：通过引入"空白"符号ε解决对齐问题
优势：非自回归特性，支持并行计算，训练和推理速度快
劣势：条件独立假设限制了语言建模能力
损失函数：通过动态规划算法计算所有有效对齐路径的概率和

2. 基于注意力的编码器-解码器（AED）

编码器：将音频特征映射为高级表示H = (h₁, ..., hₜ')
解码器：自回归生成输出序列，通过注意力机制学习软对齐
优势：直接建模输出序列概率，包含隐式语言模型
劣势：自回归特性导致解码速度较慢

3. 循环神经网络转换器（RNN-T）

三组件架构：
- 声学编码器：处理音频输入
- 预测网络：作为内部语言模型
- 联合网络：结合两者输出产生最终预测
优势：天然支持流式处理，结合了CTC和AED的优点

4. Transformer和Conformer架构

Transformer：利用自注意力机制捕获长程依赖
Conformer：结合自注意力和卷积，建模全局和局部上下文
结构：采用"马卡龙"式结构，包含前馈模块、多头自注意力、卷积模块

训练范式演进

1. 监督学习与数据增强

SpecAugment：直接在对数梅尔频谱图上进行增强
- 时间扭曲：随机变形时间轴
- 频率掩蔽：掩蔽连续频率通道
- 时间掩蔽：掩蔽连续时间步

2. 自监督学习（SSL）

wav2vec 2.0框架：
- 预训练：在大量无标注音频上训练，使用对比学习任务
- 微调：在少量标注数据上微调特定任务
数据效率：仅需10分钟标注数据即可达到SOTA性能

3. 大规模弱监督

Whisper模型：在68万小时多语言网络数据上训练
零样本性能：无需微调即可在多个基准上取得竞争性能

实验设置

数据集概览

数据集	时长(小时)	说话人数	领域特点
LibriSpeech	960	2484	英语有声读物
Switchboard	300	543	英语电话对话
TED-LIUM 3	452	2351	英语演讲，多样口音
CHiME-6	50	20	噪声环境，远场麦克风
Common Voice 17.0	>20000	>100k	众包，124种语言

评价指标

词错误率（WER）：WER = (S + D + I) / N
- S：替换错误，D：删除错误，I：插入错误，N：参考词总数
字符错误率（CER）：适用于非空格分隔语言
实时性指标：
- 延迟：从说话到转录完成的时间
- 实时因子（RTF）：处理时间与音频时长的比值

实验结果

LibriSpeech基准性能

模型	test-clean	test-other	备注
Conformer-T (with LM)	1.9%	3.9%	非流式，外部语言模型
wav2vec 2.0 (LARGE, with LM)	1.8%	3.3%	自监督预训练
Whisper (large-v2)	2.7%	5.0%	零样本性能
Streaming Conformer	2.72%	6.47%	流式处理