2025-11-13T22:49:11.191086

Effects of automotive microphone frequency response characteristics and noise conditions on speech and ASR quality -- an experimental evaluation

Buccoli, Du, Soendergaard et al.
Upon choosing microphones for automotive hands-free communication or Automatic Speech Recognition (ASR) applications, OEMs typically specify wideband, super wideband or even fullband requirements following established standard recommendations (e.g., ITU-P.1110, ITU-P.1120). In practice, it is often challenging to achieve the preferred bandwidth for an automotive microphone when considering limitations and constraints on microphone placement inside the cabin, and the automotive grade environmental robustness requirements. On the other hand, there seems to be no consensus or sufficient data on the effect of each microphone characteristic on the actual performance. As an attempt to answer this question, we used noise signals recorded in real vehicles and under various driving conditions to experimentally study the relationship between the microphones' characteristics and the final audio quality of speech communication and performance of ASR engines. We focus on how variations in microphone bandwidth and amplitude frequency response shapes affect the perceptual speech quality. The speech quality results are compared by using ETSI TS 103 281 metrics (S-MOS, N-MOS, G-MOS) and ancillary metrics such as SNR. The ASR results are evaluated with standard metrics such as Word Error Rate (WER). Findings from this study provide knowledge in the understanding of what microphone frequency response characteristics are more relevant for audio quality and choice of proper microphone specifications, particularly for automotive applications.
academic

Влияние характеристик частотной характеристики автомобильного микрофона и условий шума на качество речи и производительность ASR -- экспериментальная оценка

Основная информация

  • ID статьи: 2510.09236
  • Название: Effects of automotive microphone frequency response characteristics and noise conditions on speech and ASR quality -- an experimental evaluation
  • Авторы: Michele Buccoli, Yu Du, Jacob Soendergaard, Simone Shawn Cazzaniga
  • Классификация: eess.AS (Электротехника и системные науки - обработка аудио и речи), cs.SD (Информатика - звук)
  • Время публикации/конференция: AES 159-я конвенция, 23-25 октября, Лонг-Бич, Калифорния, США (Express Paper)
  • Ссылка на статью: https://arxiv.org/abs/2510.09236

Резюме

Данное исследование посвящено критическому вопросу выбора микрофона для автомобильной громкой связи и приложений автоматического распознавания речи (ASR). Методом экспериментального исследования изучается взаимосвязь между характеристиками частотной характеристики микрофона и качеством речи, а также производительностью ASR. Исследование использует сигналы шума, записанные в реальных условиях автомобиля, для оценки влияния полосы пропускания микрофона и формы амплитудно-частотной характеристики на воспринимаемое качество речи. Оценка качества речи проводится с использованием показателей S-MOS, N-MOS, G-MOS в соответствии со стандартом ETSI TS 103 281, а также вспомогательных показателей, таких как SNR. Производительность ASR оценивается через коэффициент ошибок слов (WER). Результаты исследования предоставляют важные знания для понимания влияния характеристик частотной характеристики микрофона на качество звука, особенно для руководства выбором спецификаций микрофонов в автомобильных приложениях.

Предпосылки и мотивация исследования

Определение проблемы

При выборе микрофонов для приложений громкой связи или ASR автомобильные производители обычно следуют рекомендациям стандартов ITU-P.1110, ITU-P.1120 и других, требующих широкополосных, сверхширокополосных или даже полнополосных спецификаций. Однако в практических приложениях, учитывая ограничения по расположению микрофонов в салоне автомобиля и строгие требования к надежности в автомобильной среде, сложно достичь идеальных спецификаций полосы пропускания.

Значимость исследования

  1. Отсутствие консенсуса: В отрасли отсутствует консенсус и достаточные данные о влиянии различных характеристик микрофонов на фактическую производительность
  2. Практические ограничения: Расположение микрофонов в салоне ограничено, требования к окружающей среде строги
  3. Оптимизация производительности: Необходимо понимание того, какие характеристики микрофонов более критичны для качества звука и производительности ASR

Ограничения существующих исследований

Существующие исследования в основном основаны на конкретных типах автомобильных микрофонов, исследовательское пространство ограничено присущими этим микрофонам характеристиками и не демонстрирует общих тенденций влияния изменений характеристик микрофонов на качество речи и ASR.

Основные вклады

  1. Создание систематической оценочной базы: Разработана экспериментальная платформа для оценки влияния характеристик частотной характеристики микрофонов на качество речи и производительность ASR
  2. Комплексный анализ характеристик: Систематическое исследование влияния полосы пропускания микрофонов, пиков частотной характеристики и других характеристик на производительность
  3. Многомерная оценка: Одновременная оценка качества речи в человеко-человеческой коммуникации (H2H) и производительности ASR в человеко-машинном взаимодействии (H2M)
  4. Верификация в реальной среде: Использование записей шума из реальных автомобилей для верификации
  5. Стандартизированные показатели оценки: Применение оценок MOS в соответствии со стандартом ETSI и стандартных показателей оценки ASR

Подробное описание методологии

Определение задачи

Исследование влияния характеристик частотной характеристики микрофонов (полоса пропускания, пиковая частота, добротность) на качество речи (S-MOS, N-MOS) и производительность ASR (WER) при различных типах автомобилей и условиях шума.

Архитектура экспериментального дизайна

Модель генерации сигналов

Моделируемые записанные сигналы генерируются по следующей формуле:

x(n) = f(s(n) ⋆ h(n) + v(n))

где:

  • s(n): чистый речевой сигнал в соответствии со стандартом ITU-T P.501
  • h(n): импульсная характеристика автомобиля
  • v(n): реальный фоновый шум автомобиля
  • f(·): каскад цифровых фильтров, моделирующих спектральные характеристики микрофона

Моделирование характеристик микрофонов

Характеристики микрофонов моделируются с использованием каскада фильтров второго порядка с билинейным преобразованием:

  1. Определение полосы пропускания:
    • Фильтр верхних частот (HP2): 20, 100, 350 Гц
    • Фильтр нижних частот (LP2): 4k, 8k, 12k, 16k, 20k Гц
    • Коэффициент добротности: 0,707
  2. Моделирование резонансных пиков:
    • Пиковый фильтр (PK2): 4k, 6k, 8k, 13k, 16k Гц
    • Фиксированная амплитуда: 20 дБ
    • Коэффициент добротности: 1,414, 2, 4

Условия эксперимента

  • Типы автомобилей: среднеразмерный седан, компактный кроссовер, малый кроссовер
  • Условия шума: холостой ход (низкая скорость вентилятора), город (60 км/ч, средняя скорость вентилятора), высокая скорость (120 км/ч, низкая скорость вентилятора)
  • Конфигурации микрофонов: 113 практических конфигураций, выбранных из 225 возможных комбинаций

Технологические инновации

  1. Систематическое параметризованное исследование: Первое систематическое параметризованное исследование влияния характеристик микрофонов на производительность в автомобильных приложениях
  2. Данные из реальной среды: Использование импульсных характеристик и данных шума, записанных в реальных условиях автомобиля
  3. Двойная система оценки: Одновременная оценка качества речи и производительности ASR, обеспечивающая комплексное представление производительности
  4. Стандартизированная методология: Строгое соответствие стандартам ITU и ETSI при проведении оценки

Экспериментальная установка

Набор данных

  • Речевые стимулы: 20 предложений американского английского языка Harvard, указанные в Приложении E стандарта ETSI TS 103 281
  • Говорящие: несколько различных мужских и женских говорящих
  • Общая продолжительность: 80 секунд (4 секунды на предложение, включая 1 секунду начального и 1 секунду конечного молчания)
  • Импульсные характеристики автомобилей: записаны с использованием HATS (имитатор головы и туловища) в позиции водителя
  • Фоновый шум: записан в соответствии с рекомендациями Приложения D стандарта ITU P.1100

Показатели оценки

  1. Показатели качества речи:
    • S-MOS: оценка качества речевого компонента (1-5 баллов)
    • N-MOS: оценка помех шумового компонента (1-5 баллов)
    • G-MOS: общее впечатление о качестве
    • Показатель слухового напряжения (ETSI TS 103 558)
    • A-взвешенное отношение сигнал-шум (SNR)
  2. Показатели производительности ASR:
    • Коэффициент ошибок слов (WER)
    • Оценка с использованием модели Whisper tiny

Детали реализации

  • Всего сгенерировано 1017 речевых файлов (113 конфигураций микрофонов × 3 типа автомобилей × 3 типа шума)
  • Для каждого сценария сгенерировано 20 точек данных для статистического анализа
  • Использован тест ANOVA для оценки статистической значимости

Результаты экспериментов

Основные результаты

1. Влияние типа автомобиля и типа шума

  • Значительное влияние типа шума: S-MOS и N-MOS значительно снижаются с увеличением уровня фонового шума (p-значение близко к 0)
  • Ограниченное влияние типа автомобиля: Значения S-MOS между различными типами автомобилей очень близки, N-MOS имеет некоторые различия, но без явной тенденции
  • Наихудшая производительность малого кроссовера: Наименьшее отношение сигнал-шум при условиях высокоскоростного шума

2. Влияние полосы пропускания микрофона

  • Влияние низкой частоты среза: Значения S-MOS при частотах среза 20 Гц и 100 Гц схожи и выше, чем при 350 Гц
  • Слабое влияние высокой частоты среза: При одинаковой низкой частоте среза ограничение полосы пропускания на высоких частотах оказывает минимальное влияние на S-MOS
  • Статистическая значимость: p-значение изменения низкой частоты среза близко к 0 (F-статистика = 1174), p-значение высокой частоты среза составляет 0,755 (F-статистика = 0,47)

3. Влияние пиков частотной характеристики микрофона

  • Влияние пиковой частоты: Более низкие пиковые частоты приводят к более низким значениям S-MOS
  • Оптимальное расположение пика: Резонансные пики должны быть смещены выше 10 кГц для оптимальной производительности
  • Влияние коэффициента добротности: Более высокие коэффициенты добротности (более узкая полоса пика) обеспечивают лучшую производительность S-MOS

4. Результаты производительности ASR

  • Слабое влияние характеристик микрофона: Характеристики частотной характеристики микрофонов не оказывают значительного влияния на производительность ASR
  • Доминирующее влияние типа шума: Тип шума является основным фактором, влияющим на WER
  • Возможные причины: Механизм ASR устойчив к изменениям частотной характеристики речевого сигнала, или тестовая речь может присутствовать в обучающем наборе

Абляционные эксперименты

Исследование влияния отдельных факторов путем фиксирования определенных параметров:

  1. Чистый эффект полосы пропускания: Исключение пикового фильтра, исследование только комбинаций HP2 и LP2
  2. Эффект пика: Исследование влияния пиковой частоты и коэффициента добротности при различных настройках полосы пропускания
  3. Эффекты взаимодействия: Исследование синергетического действия различных комбинаций параметров

Экспериментальные выводы

  1. Уровень шума является определяющим фактором: Оказывает наибольшее влияние на качество речи и производительность ASR
  2. Требования к полосе пропускания могут быть ослаблены: Полоса пропускания микрофона оказывает ограниченное влияние на качество речи
  3. Важность низкочастотной характеристики: Низкая частота среза не должна превышать 100 Гц
  4. Оптимизация высокочастотного пика: Неизбежные резонансные пики должны быть смещены на высокие частоты и сохранять узкую полосу пика
  5. Надежность ASR: Современные механизмы ASR обладают хорошей надежностью к изменениям характеристик микрофонов

Связанные работы

Обзор существующих исследований

  1. Du и др. (2019): Первое исследование связи между тремя типами автомобильных микрофонов и опытом пользователя, использующее SII и субъективные слуховые тесты
  2. Du (2023): Расширенное исследование, включающее объективную и субъективную оценку четкости и качества речи
  3. Maver и др. (2024): Исследование производительности акустического интерфейса при четырех различных типах автомобильных микрофонов и местах установки

Преимущества данной работы

  1. Систематическая параметризация: Не ограничивается конкретными типами микрофонов, систематически исследует влияние изменений параметров
  2. Стандартизированная оценка: Применение стандартизированных методов оценки ETSI и ITU
  3. Двойная перспектива: Одновременное рассмотрение качества H2H коммуникации и производительности H2M взаимодействия
  4. Реальная среда: Использование данных из реальных условиях автомобиля вместо симуляции

Выводы и обсуждение

Основные выводы

  1. Тип и уровень шума являются наиболее релевантными факторами, влияющими на качество речи и распознавание
  2. Полоса пропускания микрофона оказывает минимальное влияние на качество речи
  3. Производительность S-MOS снижается, когда низкая частота среза превышает 100 Гц
  4. Резонансные пики микрофонов должны быть смещены на максимально высокие частоты и сохранять узкую полосу пика (высокий коэффициент добротности)
  5. Производительность ASR практически не зависит от факторов микрофонов

Ограничения

  1. Ограниченный размер выборки автомобилей: Протестированы только три конкретных типа автомобилей
  2. Упрощенный дизайн фильтра: Использованы только фильтры второго порядка для моделирования характеристик микрофонов
  3. Единственный механизм ASR: Использован только один универсальный механизм ASR (Whisper)
  4. Характеристики говорящих: Недостаточное исследование влияния индивидуальных характеристик говорящих
  5. Фиксированная амплитуда пика: Амплитуда пикового фильтра зафиксирована на уровне 20 дБ

Направления будущих исследований

  1. Расширение диапазона типов автомобилей: Включение большего количества типов автомобилей для анализа влияния объективных характеристик автомобилей (размер, класс, RT60)
  2. Разделение влияния шума и типа автомобиля: Создание комбинаций всех типов автомобилей и шумов вождения для эффективного разделения влияющих факторов
  3. Исследование характеристик говорящих: Исследование взаимодействия между характеристиками говорящих (такими как основная частота) и характеристиками микрофонов
  4. Разнообразие дизайна фильтров: Исследование влияния фильтров различных порядков и различных амплитуд пиков
  5. Специализированные механизмы ASR: Оценка производительности специализированных автомобильных механизмов ASR
  6. Обработка акустического интерфейса: Комплексная оценка с использованием коммерческих систем обработки акустического интерфейса

Глубокая оценка

Преимущества

  1. Сильная методологическая инновация: Первое систематическое параметризованное исследование влияния характеристик автомобильных микрофонов, заполняющее исследовательский пробел
  2. Строгий экспериментальный дизайн: Соответствие международным стандартам, использование данных из реальной среды, научно обоснованный экспериментальный дизайн
  3. Полная система оценки: Одновременное рассмотрение качества речи и производительности ASR, обеспечивающее комплексное представление производительности
  4. Высокая практическая ценность: Результаты исследования непосредственно направляют выбор микрофонов и определение спецификаций в автомобильной промышленности
  5. Достаточный статистический анализ: Использование методов ANOVA и других методов для проверки статистической значимости результатов

Недостатки

  1. Ограниченная репрезентативность выборки: Три типа автомобилей имеют ограниченную репрезентативность, что может повлиять на универсальность выводов
  2. Ограничения оценки ASR: Использование только одного универсального механизма ASR может не отражать характеристики профессиональных автомобильных систем ASR
  3. Ограничение пространства параметров: Хотя комбинации параметров фильтров охватывают распространенные случаи, остается место для оптимизации
  4. Отсутствие субъективной оценки: Использование только объективных показателей, отсутствие субъективной оценки реальными пользователями
  5. Упрощение факторов окружающей среды: Не учитываются влияния температуры, влажности и других факторов окружающей среды на производительность микрофонов

Влияние

  1. Академический вклад: Предоставление важных базовых исследовательских данных и методологической базы для автомобильной аудиоиндустрии
  2. Промышленное применение: Прямое руководство стратегией выбора микрофонов производителями автомобилей, имеющее важную коммерческую ценность
  3. Разработка стандартов: Предоставление экспериментальных доказательств для пересмотра и совершенствования соответствующих международных стандартов
  4. Технологическое развитие: Содействие оптимизации автомобильной аудиотехнологии и технологии ASR в автомобильной среде

Применимые сценарии

  1. Производители автомобилей: Определение спецификаций микрофонов и выбор поставщиков
  2. Производители микрофонов: Оптимизация проектирования продуктов и верификация производительности
  3. Поставщики услуг ASR: Оптимизация автомобильных систем ASR и повышение надежности
  4. Органы по разработке стандартов: Справочная информация для разработки и пересмотра соответствующих стандартов
  5. Академические исследования: Основа для последующих исследований в области автомобильной аудио и обработки речи

Библиография

Данное исследование ссылается на множество важных международных стандартов и предыдущих исследовательских работ, включая документы стандартов ITU-T P.501, ETSI TS 103 281, ITU-P.1100 и другие, а также пионерские работы Du и других авторов в области оценки производительности автомобильных микрофонов. Эти ссылки предоставляют прочную теоретическую основу и методологическое руководство для данного исследования.