Effects of automotive microphone frequency response characteristics and noise conditions on speech and ASR quality -- an experimental evaluation
Buccoli, Du, Soendergaard et al.
Upon choosing microphones for automotive hands-free communication or Automatic Speech Recognition (ASR) applications, OEMs typically specify wideband, super wideband or even fullband requirements following established standard recommendations (e.g., ITU-P.1110, ITU-P.1120). In practice, it is often challenging to achieve the preferred bandwidth for an automotive microphone when considering limitations and constraints on microphone placement inside the cabin, and the automotive grade environmental robustness requirements. On the other hand, there seems to be no consensus or sufficient data on the effect of each microphone characteristic on the actual performance. As an attempt to answer this question, we used noise signals recorded in real vehicles and under various driving conditions to experimentally study the relationship between the microphones' characteristics and the final audio quality of speech communication and performance of ASR engines. We focus on how variations in microphone bandwidth and amplitude frequency response shapes affect the perceptual speech quality. The speech quality results are compared by using ETSI TS 103 281 metrics (S-MOS, N-MOS, G-MOS) and ancillary metrics such as SNR. The ASR results are evaluated with standard metrics such as Word Error Rate (WER). Findings from this study provide knowledge in the understanding of what microphone frequency response characteristics are more relevant for audio quality and choice of proper microphone specifications, particularly for automotive applications.
academic
Влияние характеристик частотной характеристики автомобильного микрофона и условий шума на качество речи и производительность ASR -- экспериментальная оценка
Название: Effects of automotive microphone frequency response characteristics and noise conditions on speech and ASR quality -- an experimental evaluation
Авторы: Michele Buccoli, Yu Du, Jacob Soendergaard, Simone Shawn Cazzaniga
Классификация: eess.AS (Электротехника и системные науки - обработка аудио и речи), cs.SD (Информатика - звук)
Время публикации/конференция: AES 159-я конвенция, 23-25 октября, Лонг-Бич, Калифорния, США (Express Paper)
Данное исследование посвящено критическому вопросу выбора микрофона для автомобильной громкой связи и приложений автоматического распознавания речи (ASR). Методом экспериментального исследования изучается взаимосвязь между характеристиками частотной характеристики микрофона и качеством речи, а также производительностью ASR. Исследование использует сигналы шума, записанные в реальных условиях автомобиля, для оценки влияния полосы пропускания микрофона и формы амплитудно-частотной характеристики на воспринимаемое качество речи. Оценка качества речи проводится с использованием показателей S-MOS, N-MOS, G-MOS в соответствии со стандартом ETSI TS 103 281, а также вспомогательных показателей, таких как SNR. Производительность ASR оценивается через коэффициент ошибок слов (WER). Результаты исследования предоставляют важные знания для понимания влияния характеристик частотной характеристики микрофона на качество звука, особенно для руководства выбором спецификаций микрофонов в автомобильных приложениях.
При выборе микрофонов для приложений громкой связи или ASR автомобильные производители обычно следуют рекомендациям стандартов ITU-P.1110, ITU-P.1120 и других, требующих широкополосных, сверхширокополосных или даже полнополосных спецификаций. Однако в практических приложениях, учитывая ограничения по расположению микрофонов в салоне автомобиля и строгие требования к надежности в автомобильной среде, сложно достичь идеальных спецификаций полосы пропускания.
Отсутствие консенсуса: В отрасли отсутствует консенсус и достаточные данные о влиянии различных характеристик микрофонов на фактическую производительность
Практические ограничения: Расположение микрофонов в салоне ограничено, требования к окружающей среде строги
Оптимизация производительности: Необходимо понимание того, какие характеристики микрофонов более критичны для качества звука и производительности ASR
Существующие исследования в основном основаны на конкретных типах автомобильных микрофонов, исследовательское пространство ограничено присущими этим микрофонам характеристиками и не демонстрирует общих тенденций влияния изменений характеристик микрофонов на качество речи и ASR.
Создание систематической оценочной базы: Разработана экспериментальная платформа для оценки влияния характеристик частотной характеристики микрофонов на качество речи и производительность ASR
Комплексный анализ характеристик: Систематическое исследование влияния полосы пропускания микрофонов, пиков частотной характеристики и других характеристик на производительность
Многомерная оценка: Одновременная оценка качества речи в человеко-человеческой коммуникации (H2H) и производительности ASR в человеко-машинном взаимодействии (H2M)
Верификация в реальной среде: Использование записей шума из реальных автомобилей для верификации
Стандартизированные показатели оценки: Применение оценок MOS в соответствии со стандартом ETSI и стандартных показателей оценки ASR
Исследование влияния характеристик частотной характеристики микрофонов (полоса пропускания, пиковая частота, добротность) на качество речи (S-MOS, N-MOS) и производительность ASR (WER) при различных типах автомобилей и условиях шума.
Условия шума: холостой ход (низкая скорость вентилятора), город (60 км/ч, средняя скорость вентилятора), высокая скорость (120 км/ч, низкая скорость вентилятора)
Конфигурации микрофонов: 113 практических конфигураций, выбранных из 225 возможных комбинаций
Систематическое параметризованное исследование: Первое систематическое параметризованное исследование влияния характеристик микрофонов на производительность в автомобильных приложениях
Данные из реальной среды: Использование импульсных характеристик и данных шума, записанных в реальных условиях автомобиля
Двойная система оценки: Одновременная оценка качества речи и производительности ASR, обеспечивающая комплексное представление производительности
Стандартизированная методология: Строгое соответствие стандартам ITU и ETSI при проведении оценки
Значительное влияние типа шума: S-MOS и N-MOS значительно снижаются с увеличением уровня фонового шума (p-значение близко к 0)
Ограниченное влияние типа автомобиля: Значения S-MOS между различными типами автомобилей очень близки, N-MOS имеет некоторые различия, но без явной тенденции
Наихудшая производительность малого кроссовера: Наименьшее отношение сигнал-шум при условиях высокоскоростного шума
Влияние низкой частоты среза: Значения S-MOS при частотах среза 20 Гц и 100 Гц схожи и выше, чем при 350 Гц
Слабое влияние высокой частоты среза: При одинаковой низкой частоте среза ограничение полосы пропускания на высоких частотах оказывает минимальное влияние на S-MOS
Статистическая значимость: p-значение изменения низкой частоты среза близко к 0 (F-статистика = 1174), p-значение высокой частоты среза составляет 0,755 (F-статистика = 0,47)
Слабое влияние характеристик микрофона: Характеристики частотной характеристики микрофонов не оказывают значительного влияния на производительность ASR
Доминирующее влияние типа шума: Тип шума является основным фактором, влияющим на WER
Возможные причины: Механизм ASR устойчив к изменениям частотной характеристики речевого сигнала, или тестовая речь может присутствовать в обучающем наборе
Du и др. (2019): Первое исследование связи между тремя типами автомобильных микрофонов и опытом пользователя, использующее SII и субъективные слуховые тесты
Du (2023): Расширенное исследование, включающее объективную и субъективную оценку четкости и качества речи
Maver и др. (2024): Исследование производительности акустического интерфейса при четырех различных типах автомобильных микрофонов и местах установки
Расширение диапазона типов автомобилей: Включение большего количества типов автомобилей для анализа влияния объективных характеристик автомобилей (размер, класс, RT60)
Разделение влияния шума и типа автомобиля: Создание комбинаций всех типов автомобилей и шумов вождения для эффективного разделения влияющих факторов
Исследование характеристик говорящих: Исследование взаимодействия между характеристиками говорящих (такими как основная частота) и характеристиками микрофонов
Разнообразие дизайна фильтров: Исследование влияния фильтров различных порядков и различных амплитуд пиков
Специализированные механизмы ASR: Оценка производительности специализированных автомобильных механизмов ASR
Обработка акустического интерфейса: Комплексная оценка с использованием коммерческих систем обработки акустического интерфейса
Сильная методологическая инновация: Первое систематическое параметризованное исследование влияния характеристик автомобильных микрофонов, заполняющее исследовательский пробел
Строгий экспериментальный дизайн: Соответствие международным стандартам, использование данных из реальной среды, научно обоснованный экспериментальный дизайн
Полная система оценки: Одновременное рассмотрение качества речи и производительности ASR, обеспечивающее комплексное представление производительности
Высокая практическая ценность: Результаты исследования непосредственно направляют выбор микрофонов и определение спецификаций в автомобильной промышленности
Достаточный статистический анализ: Использование методов ANOVA и других методов для проверки статистической значимости результатов
Ограниченная репрезентативность выборки: Три типа автомобилей имеют ограниченную репрезентативность, что может повлиять на универсальность выводов
Ограничения оценки ASR: Использование только одного универсального механизма ASR может не отражать характеристики профессиональных автомобильных систем ASR
Ограничение пространства параметров: Хотя комбинации параметров фильтров охватывают распространенные случаи, остается место для оптимизации
Отсутствие субъективной оценки: Использование только объективных показателей, отсутствие субъективной оценки реальными пользователями
Упрощение факторов окружающей среды: Не учитываются влияния температуры, влажности и других факторов окружающей среды на производительность микрофонов
Данное исследование ссылается на множество важных международных стандартов и предыдущих исследовательских работ, включая документы стандартов ITU-T P.501, ETSI TS 103 281, ITU-P.1100 и другие, а также пионерские работы Du и других авторов в области оценки производительности автомобильных микрофонов. Эти ссылки предоставляют прочную теоретическую основу и методологическое руководство для данного исследования.