Automatic Speech Recognition (ASR) has undergone a profound transformation over the past decade, driven by advances in deep learning. This survey provides a comprehensive overview of the modern era of ASR, charting its evolution from traditional hybrid systems, such as Gaussian Mixture Model-Hidden Markov Models (GMM-HMMs) and Deep Neural Network-HMMs (DNN-HMMs), to the now-dominant end-to-end neural architectures. We systematically review the foundational end-to-end paradigms: Connectionist Temporal Classification (CTC), attention-based encoder-decoder models, and the Recurrent Neural Network Transducer (RNN-T), which established the groundwork for fully integrated speech-to-text systems. We then detail the subsequent architectural shift towards Transformer and Conformer models, which leverage self-attention to capture long-range dependencies with high computational efficiency. A central theme of this survey is the parallel revolution in training paradigms. We examine the progression from fully supervised learning, augmented by techniques like SpecAugment, to the rise of self-supervised learning (SSL) with foundation models such as wav2vec 2.0, which drastically reduce the reliance on transcribed data. Furthermore, we analyze the impact of largescale, weakly supervised models like Whisper, which achieve unprecedented robustness through massive data diversity. The paper also covers essential ecosystem components, including key datasets and benchmarks (e.g., LibriSpeech, Switchboard, CHiME), standard evaluation metrics (e.g., Word Error Rate), and critical considerations for real-world deployment, such as streaming inference, on-device efficiency, and the ethical imperatives of fairness and robustness. We conclude by outlining open challenges and future research directions.
academic- ID статьи: 2510.12827
- Название: Automatic Speech Recognition in the Modern Era: Architectures, Training, and Evaluation
- Авторы: Md Shamse Tabrej, Kabbojit Jit Deb, Md. Azizul Hakim, Shaonti Goswami (Delhi Technological University), Md. Nayeem (National University of Bangladesh)
- Классификация: eess.AS cs.AI cs.SD
- Дата публикации: 11 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.12827
В данной статье представлен всеобъемлющий обзор современного автоматического распознавания речи (ASR), отслеживающий его эволюцию от традиционных гибридных систем (таких как GMM-HMM и DNN-HMM) к сквозным нейросетевым архитектурам. Статья систематически рассматривает три основные сквозные парадигмы: классификация временных последовательностей (CTC), модели кодировщик-декодировщик на основе внимания и рекуррентные нейросетевые трансформеры (RNN-T), а также детально описывает архитектурный переход к моделям Transformer и Conformer. Статья сосредоточена на анализе революции в парадигмах обучения, начиная от полностью контролируемого обучения и переходя к появлению самоконтролируемого обучения (такого как wav2vec 2.0) и крупномасштабных слабо контролируемых моделей (таких как Whisper). Кроме того, охватываются ключевые наборы данных, метрики оценки, а также практические соображения при развертывании, включая потоковый вывод, эффективность на устройстве и справедливость.
Область автоматического распознавания речи переживает фундаментальный переход от традиционных статистических методов к глубокому обучению, требующий систематического анализа развития, основных технологий и тенденций современного ASR.
- ASR является основой современного взаимодействия человека и машины, широко применяется в голосовых помощниках, программах диктовки, системах управления автомобилем и т.д.
- Быстрое развитие глубокого обучения значительно повысило производительность ASR, но технологическое развитие происходит быстро, требуя своевременного комплексного резюме
- Появление сквозных архитектур и новых парадигм обучения изменило модель разработки ASR
- Традиционные гибридные системы (GMM-HMM, DNN-HMM) имеют сложную структуру, требующую независимого обучения нескольких компонентов
- Модульная конструкция приводит к распространению ошибок и требует знаний экспертов в предметной области
- Существующие обзоры в основном сосредоточены на ранних технологиях, не хватает систематического анализа эпохи Transformer и самоконтролируемого обучения
Предоставить всеобъемлющий справочник, сосредоточенный на современном ASR, интегрирующий четыре ключевых измерения: эволюцию архитектуры, революцию в парадигмах обучения, практику развертывания и этические соображения.
- Систематический обзор архитектур: всеобъемлющий анализ основных сквозных архитектур ASR, включая CTC, AED, RNN-T, а также новейшие модели Transformer и Conformer
- Глубокий анализ парадигм обучения: детальное отслеживание эволюции от контролируемого обучения к самоконтролируемому и слабо контролируемому обучению
- Обзор экосистемы: комплексное резюме ключевых наборов данных, тестовых показателей и метрик оценки
- Руководство по практическому развертыванию: анализ практических проблем развертывания, таких как потоковый вывод и обработка на устройстве, а также этические соображения
Задача ASR определяется как процесс отображения входной последовательности аудио переменной длины X = (x₁, ..., xₜ) в выходную последовательность текста переменной длины Y = (y₁, ..., yᵤ).
- Основная идея: решение проблемы выравнивания путем введения символа "пусто" ε
- Преимущества: неавторегрессивная природа, поддержка параллельных вычислений, быстрое обучение и вывод
- Недостатки: предположение об условной независимости ограничивает способность языкового моделирования
- Функция потерь: вычисление суммы вероятностей всех допустимых путей выравнивания с использованием динамического программирования
- Кодировщик: отображение звуковых признаков в высокоуровневое представление H = (h₁, ..., hₜ')
- Декодировщик: авторегрессивное генерирование выходной последовательности с изучением мягкого выравнивания через механизм внимания
- Преимущества: прямое моделирование вероятности выходной последовательности, включает неявную языковую модель
- Недостатки: авторегрессивная природа приводит к более медленному декодированию
- Трёхкомпонентная архитектура:
- Акустический кодировщик: обработка звукового входа
- Сеть предсказания: функционирует как внутренняя языковая модель
- Объединённая сеть: объединение выходов обоих компонентов для получения окончательного предсказания
- Преимущества: естественная поддержка потокового процесса, объединение преимуществ CTC и AED
- Transformer: использование механизма самовнимания для захвата долгосрочных зависимостей
- Conformer: объединение самовнимания и свёртки для моделирования глобального и локального контекста
- Структура: применение "макаронной" структуры, включающей модули прямого распространения, многоголовое самовнимание, модули свёртки
- SpecAugment: прямое увеличение на логарифмических мел-спектрограммах
- Временное искажение: случайная деформация временной оси
- Маскирование частоты: маскирование непрерывных частотных каналов
- Маскирование времени: маскирование непрерывных временных шагов
- Фреймворк wav2vec 2.0:
- Предварительное обучение: обучение на больших объёмах немаркированного аудио с использованием задачи контрастивного обучения
- Тонкая настройка: тонкая настройка на небольшом количестве размеченных данных для конкретной задачи
- Эффективность данных: достижение производительности SOTA с использованием только 10 минут размеченных данных
- Модель Whisper: обучение на 680 тысячах часов многоязычных веб-данных
- Производительность с нулевым примером: достижение конкурентоспособной производительности на нескольких тестовых показателях без тонкой настройки
| Набор данных | Продолжительность (часы) | Количество говорящих | Особенности домена |
|---|
| LibriSpeech | 960 | 2484 | Английские аудиокниги |
| Switchboard | 300 | 543 | Английские телефонные разговоры |
| TED-LIUM 3 | 452 | 2351 | Английские выступления, разнообразные акценты |
| CHiME-6 | 50 | 20 | Шумная среда, дальние микрофоны |
| Common Voice 17.0 | >20000 | >100k | Краудсорсинг, 124 языка |
- Коэффициент ошибок слов (WER): WER = (S + D + I) / N
- S: ошибки замены, D: ошибки удаления, I: ошибки вставки, N: общее количество слов в эталоне
- Коэффициент ошибок символов (CER): применимо к языкам без разделения пробелами
- Метрики реального времени:
- Задержка: время от начала речи до завершения транскрипции
- Коэффициент реального времени (RTF): отношение времени обработки к продолжительности аудио
| Модель | test-clean | test-other | Примечания |
|---|
| Conformer-T (с языковой моделью) | 1.9% | 3.9% | Непотоковая, внешняя языковая модель |
| wav2vec 2.0 (LARGE, с языковой моделью) | 1.8% | 3.3% | Самоконтролируемое предварительное обучение |
| Whisper (large-v2) | 2.7% | 5.0% | Производительность с нулевым примером |
| Потоковый Conformer | 2.72% | 6.47% | Потоковая обработка |
- Прорыв в самоконтролируемом обучении: wav2vec 2.0 значительно снижает зависимость от размеченных данных
- Эффективность крупномасштабного слабо контролируемого обучения: Whisper демонстрирует отличную производительность в условиях нулевого примера
- Компромисс между потоковой и непотоковой обработкой: потоковые модели показывают немного сниженную производительность при сохранении реального времени
- Ранние обзоры: в основном сосредоточены на системах GMM-HMM и первоначальной интеграции нейросетей
- Эпоха глубокого обучения: основное внимание на сравнении гибридных DNN-HMM и первого поколения сквозных моделей
- Современное развитие: установление архитектуры Transformer и появление самоконтролируемого/слабо контролируемого обучения
- Сосредоточение на современном ASR, доминируемом Transformer, и обучении с самоконтролем/слабым контролем
- Интеграция четырёх измерений: архитектура, обучение, развертывание и этика
- Предоставление практического руководства по развертыванию и перспективного анализа
- Технические проблемы: требуется обработка в реальном времени, минимизация задержки
- Решения:
- Монотонное выравнивание RNN-T
- Механизм блочного внимания Transformer
- Обнаружение речевой активности (VAD) и определение конечных точек
- Преимущества: защита конфиденциальности, низкая задержка, доступность в автономном режиме
- Проблемы: ограничения вычислительных ресурсов и памяти
- Методы оптимизации:
- Квантизация: снижение числовой точности (INT8)
- Обрезка: удаление избыточных соединений
- Проблемы: фоновый шум, реверберация и другие акустические искажения
- Решения: многоусловное обучение, формирование луча, крупномасштабные разнообразные данные
- Проявления проблемы:
- Предубеждение по акценту и диалекту: стандартный акцент vs местный акцент
- Гендерное предубеждение: более высокая частота ошибок для женской речи
- Возрастное предубеждение: трудности при распознавании речи детей и пожилых людей
- Коренные причины: недостаточная репрезентативность обучающих данных
- Стратегии смягчения: сбор разнообразных наборов данных, справедливое обучение с учётом предубеждений
- Проблемы: нехватка данных для языков с низкими ресурсами, сложность переключения кода
- Направления: многоязычные модели, трансфер-обучение между языками
- Требования: адаптация к специфическому словарю и акценту пользователя
- Ограничения: защита конфиденциальности пользователя
- Решения: тонкая настройка на устройстве, федеративное обучение
- Ограничения: WER игнорирует различия в семантическом влиянии
- Направления развития: оценка семантической корректности, методы оценки без разметки
- Распознавание эмоций в речи: определение эмоционального состояния говорящего
- Технологическая синергия: взаимное обогащение ASR и других задач речевого интеллекта
- Эволюция архитектуры: скачкообразное развитие от RNN к Transformer/Conformer
- Революция в обучении: самоконтролируемое и слабо контролируемое обучение коренным образом изменили требования к данным
- Прогресс в практическом применении: технологии потокового процесса и развертывания на устройстве становятся всё более зрелыми
- Социальная ответственность: справедливость и надёжность становятся важными соображениями
- Область охвата обзора: в основном сосредоточен на английском ASR, ограниченное покрытие многоязычности
- Глубина технологии: обсуждение некоторых передовых технологических деталей недостаточно глубоко
- Экспериментальная проверка: как обзорная статья, не хватает оригинальной экспериментальной проверки
- Технологическое слияние: многомодальное, многозадачное обучение
- Оптимизация эффективности: более эффективные методы сжатия и ускорения моделей
- Этический ИИ: более справедливые и интерпретируемые системы ASR
- Полнота: охватывает все важные аспекты современного ASR
- Систематичность: логичная структура, постепенное развитие от архитектуры к приложениям
- Практичность: не только теоретический анализ, но и руководство по развертыванию
- Перспективность: глубокое размышление о будущих направлениях развития
- Открытость: подчёркивание открытых инструментов и воспроизводимых исследований
- Ограниченная оригинальность: как обзорная статья, не хватает оригинальных технологических вкладов
- Отсутствие экспериментов: нет новых экспериментальных проверок или сравнительного анализа
- Недостаточная глубина: обсуждение некоторых технологических деталей относительно поверхностно
- Актуальность: некоторые цитируемые источники новые, но не хватает самых последних достижений
- Научная ценность: предоставляет важный справочник для исследователей ASR
- Образовательное значение: подходит в качестве вводного и продвинутого учебного материала в этой области
- Практическое руководство: имеет руководящую ценность для промышленного развертывания систем ASR
- Воспроизводимость: предоставляет богатый набор ссылок на открытые инструменты
- Введение в исследования: важный справочник для новых исследователей в области ASR
- Выбор технологии: помощь инженерам в выборе архитектур и методов обучения ASR
- Академическое преподавание: учебный материал для соответствующих курсов
- Анализ промышленности: понимание тенденций развития технологии ASR
Статья цитирует 45 важных источников, охватывающих развитие от классических работ по CTC и механизмам внимания до новейших работ по wav2vec 2.0 и Whisper, предоставляя читателям полную линию развития технологии.
Общая оценка: Это высококачественная обзорная статья по ASR, систематически отслеживающая развитие современного ASR, особенно предоставляющая глубокий анализ сквозных архитектур и новых парадигм обучения. Хотя как обзорная статья она не содержит оригинальных технологических вкладов, её полнота, систематичность и практичность делают её важным справочником в этой области.