2025-11-12T14:58:10.472282

Automatic Speech Recognition in the Modern Era: Architectures, Training, and Evaluation

Nayeem, Tabrej, Deb et al.

Automatic Speech Recognition (ASR) has undergone a profound transformation over the past decade, driven by advances in deep learning. This survey provides a comprehensive overview of the modern era of ASR, charting its evolution from traditional hybrid systems, such as Gaussian Mixture Model-Hidden Markov Models (GMM-HMMs) and Deep Neural Network-HMMs (DNN-HMMs), to the now-dominant end-to-end neural architectures. We systematically review the foundational end-to-end paradigms: Connectionist Temporal Classification (CTC), attention-based encoder-decoder models, and the Recurrent Neural Network Transducer (RNN-T), which established the groundwork for fully integrated speech-to-text systems. We then detail the subsequent architectural shift towards Transformer and Conformer models, which leverage self-attention to capture long-range dependencies with high computational efficiency. A central theme of this survey is the parallel revolution in training paradigms. We examine the progression from fully supervised learning, augmented by techniques like SpecAugment, to the rise of self-supervised learning (SSL) with foundation models such as wav2vec 2.0, which drastically reduce the reliance on transcribed data. Furthermore, we analyze the impact of largescale, weakly supervised models like Whisper, which achieve unprecedented robustness through massive data diversity. The paper also covers essential ecosystem components, including key datasets and benchmarks (e.g., LibriSpeech, Switchboard, CHiME), standard evaluation metrics (e.g., Word Error Rate), and critical considerations for real-world deployment, such as streaming inference, on-device efficiency, and the ethical imperatives of fairness and robustness. We conclude by outlining open challenges and future research directions.

academic

Автоматическое распознавание речи в современную эпоху: архитектуры, обучение и оценка

Основная информация

ID статьи: 2510.12827
Название: Automatic Speech Recognition in the Modern Era: Architectures, Training, and Evaluation
Авторы: Md Shamse Tabrej, Kabbojit Jit Deb, Md. Azizul Hakim, Shaonti Goswami (Delhi Technological University), Md. Nayeem (National University of Bangladesh)
Классификация: eess.AS cs.AI cs.SD
Дата публикации: 11 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.12827

Аннотация

В данной статье представлен всеобъемлющий обзор современного автоматического распознавания речи (ASR), отслеживающий его эволюцию от традиционных гибридных систем (таких как GMM-HMM и DNN-HMM) к сквозным нейросетевым архитектурам. Статья систематически рассматривает три основные сквозные парадигмы: классификация временных последовательностей (CTC), модели кодировщик-декодировщик на основе внимания и рекуррентные нейросетевые трансформеры (RNN-T), а также детально описывает архитектурный переход к моделям Transformer и Conformer. Статья сосредоточена на анализе революции в парадигмах обучения, начиная от полностью контролируемого обучения и переходя к появлению самоконтролируемого обучения (такого как wav2vec 2.0) и крупномасштабных слабо контролируемых моделей (таких как Whisper). Кроме того, охватываются ключевые наборы данных, метрики оценки, а также практические соображения при развертывании, включая потоковый вывод, эффективность на устройстве и справедливость.

Исследовательский контекст и мотивация

1. Проблемы, которые необходимо решить

Область автоматического распознавания речи переживает фундаментальный переход от традиционных статистических методов к глубокому обучению, требующий систематического анализа развития, основных технологий и тенденций современного ASR.

2. Важность проблемы

ASR является основой современного взаимодействия человека и машины, широко применяется в голосовых помощниках, программах диктовки, системах управления автомобилем и т.д.
Быстрое развитие глубокого обучения значительно повысило производительность ASR, но технологическое развитие происходит быстро, требуя своевременного комплексного резюме
Появление сквозных архитектур и новых парадигм обучения изменило модель разработки ASR

3. Ограничения существующих методов

Традиционные гибридные системы (GMM-HMM, DNN-HMM) имеют сложную структуру, требующую независимого обучения нескольких компонентов
Модульная конструкция приводит к распространению ошибок и требует знаний экспертов в предметной области
Существующие обзоры в основном сосредоточены на ранних технологиях, не хватает систематического анализа эпохи Transformer и самоконтролируемого обучения

4. Исследовательская мотивация

Предоставить всеобъемлющий справочник, сосредоточенный на современном ASR, интегрирующий четыре ключевых измерения: эволюцию архитектуры, революцию в парадигмах обучения, практику развертывания и этические соображения.

Основные вклады

Систематический обзор архитектур: всеобъемлющий анализ основных сквозных архитектур ASR, включая CTC, AED, RNN-T, а также новейшие модели Transformer и Conformer
Глубокий анализ парадигм обучения: детальное отслеживание эволюции от контролируемого обучения к самоконтролируемому и слабо контролируемому обучению
Обзор экосистемы: комплексное резюме ключевых наборов данных, тестовых показателей и метрик оценки
Руководство по практическому развертыванию: анализ практических проблем развертывания, таких как потоковый вывод и обработка на устройстве, а также этические соображения

Подробное описание методов

Определение задачи

Задача ASR определяется как процесс отображения входной последовательности аудио переменной длины X = (x₁, ..., xₜ) в выходную последовательность текста переменной длины Y = (y₁, ..., yᵤ).

Анализ основных архитектур

1. Классификация временных последовательностей (CTC)

Основная идея: решение проблемы выравнивания путем введения символа "пусто" ε
Преимущества: неавторегрессивная природа, поддержка параллельных вычислений, быстрое обучение и вывод
Недостатки: предположение об условной независимости ограничивает способность языкового моделирования
Функция потерь: вычисление суммы вероятностей всех допустимых путей выравнивания с использованием динамического программирования

2. Кодировщик-декодировщик на основе внимания (AED)

Кодировщик: отображение звуковых признаков в высокоуровневое представление H = (h₁, ..., hₜ')
Декодировщик: авторегрессивное генерирование выходной последовательности с изучением мягкого выравнивания через механизм внимания
Преимущества: прямое моделирование вероятности выходной последовательности, включает неявную языковую модель
Недостатки: авторегрессивная природа приводит к более медленному декодированию

3. Рекуррентный нейросетевой трансформер (RNN-T)

Трёхкомпонентная архитектура:
- Акустический кодировщик: обработка звукового входа
- Сеть предсказания: функционирует как внутренняя языковая модель
- Объединённая сеть: объединение выходов обоих компонентов для получения окончательного предсказания
Преимущества: естественная поддержка потокового процесса, объединение преимуществ CTC и AED

4. Архитектуры Transformer и Conformer

Transformer: использование механизма самовнимания для захвата долгосрочных зависимостей
Conformer: объединение самовнимания и свёртки для моделирования глобального и локального контекста
Структура: применение "макаронной" структуры, включающей модули прямого распространения, многоголовое самовнимание, модули свёртки

Эволюция парадигм обучения

1. Контролируемое обучение и увеличение данных

SpecAugment: прямое увеличение на логарифмических мел-спектрограммах
- Временное искажение: случайная деформация временной оси
- Маскирование частоты: маскирование непрерывных частотных каналов
- Маскирование времени: маскирование непрерывных временных шагов

2. Самоконтролируемое обучение (SSL)

Фреймворк wav2vec 2.0:
- Предварительное обучение: обучение на больших объёмах немаркированного аудио с использованием задачи контрастивного обучения
- Тонкая настройка: тонкая настройка на небольшом количестве размеченных данных для конкретной задачи
Эффективность данных: достижение производительности SOTA с использованием только 10 минут размеченных данных

3. Крупномасштабное слабо контролируемое обучение

Модель Whisper: обучение на 680 тысячах часов многоязычных веб-данных
Производительность с нулевым примером: достижение конкурентоспособной производительности на нескольких тестовых показателях без тонкой настройки

Экспериментальная установка

Обзор наборов данных

Набор данных	Продолжительность (часы)	Количество говорящих	Особенности домена
LibriSpeech	960	2484	Английские аудиокниги
Switchboard	300	543	Английские телефонные разговоры
TED-LIUM 3	452	2351	Английские выступления, разнообразные акценты
CHiME-6	50	20	Шумная среда, дальние микрофоны
Common Voice 17.0	>20000	>100k	Краудсорсинг, 124 языка

Метрики оценки

Коэффициент ошибок слов (WER): WER = (S + D + I) / N
- S: ошибки замены, D: ошибки удаления, I: ошибки вставки, N: общее количество слов в эталоне
Коэффициент ошибок символов (CER): применимо к языкам без разделения пробелами
Метрики реального времени:
- Задержка: время от начала речи до завершения транскрипции
- Коэффициент реального времени (RTF): отношение времени обработки к продолжительности аудио

Результаты экспериментов

Производительность на тестовом наборе LibriSpeech

Модель	test-clean	test-other	Примечания
Conformer-T (с языковой моделью)	1.9%	3.9%	Непотоковая, внешняя языковая модель
wav2vec 2.0 (LARGE, с языковой моделью)	1.8%	3.3%	Самоконтролируемое предварительное обучение
Whisper (large-v2)	2.7%	5.0%	Производительность с нулевым примером
Потоковый Conformer	2.72%	6.47%	Потоковая обработка

Ключевые выводы

Прорыв в самоконтролируемом обучении: wav2vec 2.0 значительно снижает зависимость от размеченных данных
Эффективность крупномасштабного слабо контролируемого обучения: Whisper демонстрирует отличную производительность в условиях нулевого примера
Компромисс между потоковой и непотоковой обработкой: потоковые модели показывают немного сниженную производительность при сохранении реального времени

Связанные работы

Линия развития

Ранние обзоры: в основном сосредоточены на системах GMM-HMM и первоначальной интеграции нейросетей
Эпоха глубокого обучения: основное внимание на сравнении гибридных DNN-HMM и первого поколения сквозных моделей
Современное развитие: установление архитектуры Transformer и появление самоконтролируемого/слабо контролируемого обучения

Позиционирование данной статьи

Сосредоточение на современном ASR, доминируемом Transformer, и обучении с самоконтролем/слабым контролем
Интеграция четырёх измерений: архитектура, обучение, развертывание и этика
Предоставление практического руководства по развертыванию и перспективного анализа

Практические соображения при развертывании

Потоковый ASR

Технические проблемы: требуется обработка в реальном времени, минимизация задержки
Решения:
- Монотонное выравнивание RNN-T
- Механизм блочного внимания Transformer
- Обнаружение речевой активности (VAD) и определение конечных точек

Обработка на устройстве

Преимущества: защита конфиденциальности, низкая задержка, доступность в автономном режиме
Проблемы: ограничения вычислительных ресурсов и памяти
Методы оптимизации:
- Квантизация: снижение числовой точности (INT8)
- Обрезка: удаление избыточных соединений

Надёжность и справедливость

Акустическая надёжность

Проблемы: фоновый шум, реверберация и другие акустические искажения
Решения: многоусловное обучение, формирование луча, крупномасштабные разнообразные данные

Демографические предубеждения

Проявления проблемы:
- Предубеждение по акценту и диалекту: стандартный акцент vs местный акцент
- Гендерное предубеждение: более высокая частота ошибок для женской речи
- Возрастное предубеждение: трудности при распознавании речи детей и пожилых людей
Коренные причины: недостаточная репрезентативность обучающих данных
Стратегии смягчения: сбор разнообразных наборов данных, справедливое обучение с учётом предубеждений

Открытые проблемы и будущие направления

1. Многоязычный ASR и переключение кода

Проблемы: нехватка данных для языков с низкими ресурсами, сложность переключения кода
Направления: многоязычные модели, трансфер-обучение между языками

2. Приватизированная персонализация

Требования: адаптация к специфическому словарю и акценту пользователя
Ограничения: защита конфиденциальности пользователя
Решения: тонкая настройка на устройстве, федеративное обучение

3. Оценка за пределами WER

Ограничения: WER игнорирует различия в семантическом влиянии
Направления развития: оценка семантической корректности, методы оценки без разметки

4. Смежные технологии обработки речи

Распознавание эмоций в речи: определение эмоционального состояния говорящего
Технологическая синергия: взаимное обогащение ASR и других задач речевого интеллекта

Выводы и обсуждение

Основные выводы

Эволюция архитектуры: скачкообразное развитие от RNN к Transformer/Conformer
Революция в обучении: самоконтролируемое и слабо контролируемое обучение коренным образом изменили требования к данным
Прогресс в практическом применении: технологии потокового процесса и развертывания на устройстве становятся всё более зрелыми
Социальная ответственность: справедливость и надёжность становятся важными соображениями

Ограничения

Область охвата обзора: в основном сосредоточен на английском ASR, ограниченное покрытие многоязычности
Глубина технологии: обсуждение некоторых передовых технологических деталей недостаточно глубоко
Экспериментальная проверка: как обзорная статья, не хватает оригинальной экспериментальной проверки

Будущие направления

Технологическое слияние: многомодальное, многозадачное обучение
Оптимизация эффективности: более эффективные методы сжатия и ускорения моделей
Этический ИИ: более справедливые и интерпретируемые системы ASR

Углубленная оценка

Преимущества

Полнота: охватывает все важные аспекты современного ASR
Систематичность: логичная структура, постепенное развитие от архитектуры к приложениям
Практичность: не только теоретический анализ, но и руководство по развертыванию
Перспективность: глубокое размышление о будущих направлениях развития
Открытость: подчёркивание открытых инструментов и воспроизводимых исследований

Недостатки

Ограниченная оригинальность: как обзорная статья, не хватает оригинальных технологических вкладов
Отсутствие экспериментов: нет новых экспериментальных проверок или сравнительного анализа
Недостаточная глубина: обсуждение некоторых технологических деталей относительно поверхностно
Актуальность: некоторые цитируемые источники новые, но не хватает самых последних достижений

Влияние

Научная ценность: предоставляет важный справочник для исследователей ASR
Образовательное значение: подходит в качестве вводного и продвинутого учебного материала в этой области
Практическое руководство: имеет руководящую ценность для промышленного развертывания систем ASR
Воспроизводимость: предоставляет богатый набор ссылок на открытые инструменты

Применимые сценарии

Введение в исследования: важный справочник для новых исследователей в области ASR
Выбор технологии: помощь инженерам в выборе архитектур и методов обучения ASR
Академическое преподавание: учебный материал для соответствующих курсов
Анализ промышленности: понимание тенденций развития технологии ASR

Библиография

Статья цитирует 45 важных источников, охватывающих развитие от классических работ по CTC и механизмам внимания до новейших работ по wav2vec 2.0 и Whisper, предоставляя читателям полную линию развития технологии.

Общая оценка: Это высококачественная обзорная статья по ASR, систематически отслеживающая развитие современного ASR, особенно предоставляющая глубокий анализ сквозных архитектур и новых парадигм обучения. Хотя как обзорная статья она не содержит оригинальных технологических вкладов, её полнота, систематичность и практичность делают её важным справочником в этой области.