2025-11-13T22:49:11.191086

Effects of automotive microphone frequency response characteristics and noise conditions on speech and ASR quality -- an experimental evaluation

Buccoli, Du, Soendergaard et al.
Upon choosing microphones for automotive hands-free communication or Automatic Speech Recognition (ASR) applications, OEMs typically specify wideband, super wideband or even fullband requirements following established standard recommendations (e.g., ITU-P.1110, ITU-P.1120). In practice, it is often challenging to achieve the preferred bandwidth for an automotive microphone when considering limitations and constraints on microphone placement inside the cabin, and the automotive grade environmental robustness requirements. On the other hand, there seems to be no consensus or sufficient data on the effect of each microphone characteristic on the actual performance. As an attempt to answer this question, we used noise signals recorded in real vehicles and under various driving conditions to experimentally study the relationship between the microphones' characteristics and the final audio quality of speech communication and performance of ASR engines. We focus on how variations in microphone bandwidth and amplitude frequency response shapes affect the perceptual speech quality. The speech quality results are compared by using ETSI TS 103 281 metrics (S-MOS, N-MOS, G-MOS) and ancillary metrics such as SNR. The ASR results are evaluated with standard metrics such as Word Error Rate (WER). Findings from this study provide knowledge in the understanding of what microphone frequency response characteristics are more relevant for audio quality and choice of proper microphone specifications, particularly for automotive applications.
academic

Efectos de las características de respuesta en frecuencia del micrófono automotriz y las condiciones de ruido en la calidad del habla y ASR -- una evaluación experimental

Información Básica

  • ID del Artículo: 2510.09236
  • Título: Effects of automotive microphone frequency response characteristics and noise conditions on speech and ASR quality -- an experimental evaluation
  • Autores: Michele Buccoli, Yu Du, Jacob Soendergaard, Simone Shawn Cazzaniga
  • Clasificación: eess.AS (Ingeniería Eléctrica y Ciencia de Sistemas - Procesamiento de Audio y Habla), cs.SD (Ciencia de la Computación - Sonido)
  • Fecha de Publicación/Conferencia: AES 159th Convention, 23-25 de octubre, Long Beach, CA, EE.UU. (Artículo Express)
  • Enlace del Artículo: https://arxiv.org/abs/2510.09236

Resumen

Este estudio aborda la cuestión crítica de la selección de micrófonos en aplicaciones de comunicación manos libres automotriz y reconocimiento automático de voz (ASR), investigando experimentalmente la relación entre las características de respuesta en frecuencia del micrófono y la calidad del habla y el rendimiento de ASR. El estudio utiliza señales de ruido grabadas en entornos reales de vehículos para evaluar el impacto del ancho de banda del micrófono y los cambios en la forma de la respuesta de amplitud-frecuencia en la calidad del habla percibida. La evaluación de la calidad del habla emplea indicadores S-MOS, N-MOS y G-MOS del estándar ETSI TS 103 281, junto con indicadores auxiliares como SNR, mientras que el rendimiento de ASR se evalúa mediante la tasa de error de palabras (WER). Los resultados de la investigación proporcionan conocimientos importantes para comprender el impacto de las características de respuesta en frecuencia del micrófono en la calidad del audio, especialmente para guiar la selección de especificaciones de micrófono en aplicaciones automotrices.

Antecedentes y Motivación de la Investigación

Definición del Problema

Los fabricantes de equipos originales (OEM) automotrices, al seleccionar micrófonos para aplicaciones de comunicación manos libres o ASR, generalmente siguen las recomendaciones de estándares como ITU-P.1110 e ITU-P.1120, que requieren especificaciones de banda ancha, banda ultra ancha o incluso banda completa. Sin embargo, en aplicaciones prácticas, considerando las limitaciones de ubicación de instalación del micrófono dentro del vehículo y los rigurosos requisitos de robustez ambiental de grado automotriz, es difícil lograr especificaciones de ancho de banda ideales.

Importancia de la Investigación

  1. Falta de Consenso: La industria carece de consenso y datos suficientes sobre el impacto de varias características de micrófono en el rendimiento real
  2. Restricciones Prácticas: La ubicación de instalación del micrófono dentro del vehículo está limitada y los requisitos ambientales son severos
  3. Optimización del Rendimiento: Necesidad de comprender qué características de micrófono son más críticas para la calidad del audio y el rendimiento de ASR

Limitaciones de la Investigación Existente

La investigación relacionada existente se basa principalmente en tipos específicos de micrófonos automotrices, con el espacio de investigación limitado a las características inherentes de estos micrófonos, sin demostrar tendencias generales sobre cómo los cambios en las características del micrófono afectan la calidad del habla y ASR.

Contribuciones Principales

  1. Establecimiento de un Marco de Evaluación Sistemático: Construcción de una plataforma de evaluación experimental para los efectos de las características de respuesta en frecuencia del micrófono en la calidad del habla y el rendimiento de ASR
  2. Análisis Integral de Características: Investigación sistemática del impacto del ancho de banda del micrófono, picos de respuesta en frecuencia y otras características en el rendimiento
  3. Evaluación Multidimensional: Evaluación simultánea de la calidad del habla en comunicación humano-a-humano (H2H) y el rendimiento de ASR en interacción humano-a-máquina (H2M)
  4. Verificación en Entorno Real: Verificación utilizando grabaciones de ruido de vehículos reales
  5. Indicadores de Evaluación Estandarizados: Adopción de puntuaciones MOS del estándar ETSI e indicadores de evaluación estándar de ASR

Explicación Detallada de la Metodología

Definición de la Tarea

Investigación del impacto de las características de respuesta en frecuencia del micrófono (ancho de banda, frecuencia de pico, factor de calidad) en la calidad del habla (S-MOS, N-MOS) y el rendimiento de ASR (WER) bajo diferentes tipos de vehículos y condiciones de ruido.

Arquitectura del Diseño Experimental

Modelo de Generación de Señales

Las señales grabadas simuladas se generan mediante la siguiente fórmula:

x(n) = f(s(n) ⋆ h(n) + v(n))

Donde:

  • s(n): Señal de habla limpia según el estándar ITU-T P.501
  • h(n): Respuesta de impulso del vehículo
  • v(n): Ruido de fondo real del vehículo
  • f(·): Cascada de filtros digitales que simulan las características espectrales del micrófono

Simulación de Características del Micrófono

Utilización de cascadas de filtros de transformación bilineal de segundo orden para simular características del micrófono:

  1. Definición del Ancho de Banda:
    • Filtro paso-alto (HP2): 20, 100, 350 Hz
    • Filtro paso-bajo (LP2): 4k, 8k, 12k, 16k, 20k Hz
    • Factor Q: 0.707
  2. Simulación de Picos de Resonancia:
    • Filtro de pico (PK2): 4k, 6k, 8k, 13k, 16k Hz
    • Amplitud fija: 20 dB
    • Factor Q: 1.414, 2, 4

Condiciones Experimentales

  • Tipos de Vehículos: Sedán mediano, SUV compacto, SUV pequeño
  • Condiciones de Ruido: Ralentí (ventilador bajo), ciudad (60 km/h, ventilador medio), autopista (120 km/h, ventilador bajo)
  • Configuraciones de Micrófono: 113 configuraciones prácticas seleccionadas de 225 combinaciones posibles

Puntos de Innovación Técnica

  1. Investigación Paramétrica Sistemática: Primera investigación sistemática y parametrizada del impacto de las características del micrófono en el rendimiento de aplicaciones automotrices
  2. Datos de Entorno Real: Utilización de respuestas de impulso y datos de ruido grabados en vehículos reales
  3. Sistema de Evaluación Dual: Evaluación simultánea de la calidad del habla y el rendimiento de ASR, proporcionando un perfil de rendimiento integral
  4. Metodología Estandarizada: Estricta adherencia a estándares ITU y ETSI para la evaluación

Configuración Experimental

Conjunto de Datos

  • Estímulos de Habla: 20 oraciones Harvard en inglés estadounidense según lo especificado en ETSI TS 103 281 Annex E
  • Hablantes: Múltiples hablantes masculinos y femeninos
  • Duración Total: 80 segundos (4 segundos por oración, incluyendo 1 segundo de silencio inicial y 1 segundo de silencio final)
  • Respuestas de Impulso del Vehículo: Grabadas utilizando HATS (Simulador de Cabeza y Torso) en la posición del conductor
  • Ruido de Fondo: Grabado siguiendo las directrices del Anexo D del estándar ITU P.1100

Indicadores de Evaluación

  1. Indicadores de Calidad del Habla:
    • S-MOS: Evaluación de la calidad del componente de habla (escala 1-5)
    • N-MOS: Evaluación de la interferencia del componente de ruido (escala 1-5)
    • G-MOS: Impresión de calidad general
    • Indicador de esfuerzo auditivo (ETSI TS 103 558)
    • SNR ponderado A
  2. Indicadores de Rendimiento de ASR:
    • Tasa de Error de Palabras (WER)
    • Evaluación utilizando el modelo Whisper tiny

Detalles de Implementación

  • Generación total de 1017 archivos de habla (113 configuraciones de micrófono × 3 tipos de vehículos × 3 tipos de ruido)
  • Generación de 20 puntos de datos por escenario para análisis estadístico
  • Utilización de pruebas ANOVA para evaluar la significancia estadística

Resultados Experimentales

Resultados Principales

1. Impacto del Tipo de Vehículo y Tipo de Ruido

  • Impacto Significativo del Tipo de Ruido: Los valores de S-MOS y N-MOS disminuyen significativamente con el aumento del nivel de ruido de fondo (valor p cercano a 0)
  • Impacto Limitado del Tipo de Vehículo: Los valores de S-MOS entre diferentes tipos de vehículos son muy similares, con cierta variación en N-MOS pero sin tendencia clara
  • Peor Rendimiento del SUV Pequeño: SNR más bajo en condiciones de ruido de autopista

2. Impacto del Ancho de Banda del Micrófono

  • Impacto de la Frecuencia de Corte Baja: Los valores de S-MOS con frecuencias de corte de 20 Hz y 100 Hz son similares, ambos superiores al caso de 350 Hz
  • Impacto Débil de la Frecuencia de Corte Alta: Con la misma frecuencia de corte baja, la limitación del ancho de banda en el extremo superior tiene poco impacto en S-MOS
  • Significancia Estadística: El valor p del cambio de frecuencia de corte baja es cercano a 0 (estadístico F=1174), mientras que el valor p de la frecuencia de corte alta es 0.755 (estadístico F=0.47)

3. Impacto de los Picos de Respuesta en Frecuencia del Micrófono

  • Impacto de la Frecuencia de Pico: Las frecuencias de pico más bajas resultan en valores de S-MOS más bajos
  • Ubicación Óptima del Pico: Los picos de resonancia deben desplazarse a 10 kHz o superior para obtener el mejor rendimiento
  • Impacto del Factor de Calidad: Un factor de calidad más alto (ancho de banda de pico más estrecho) proporciona mejor rendimiento de S-MOS

4. Resultados de Rendimiento de ASR

  • Impacto Débil de las Características del Micrófono: Las características de respuesta en frecuencia del micrófono no tienen impacto significativo en el rendimiento de ASR
  • Dominio del Tipo de Ruido: El tipo de ruido es el factor principal que afecta el WER
  • Posibles Razones: El motor de ASR es robusto a los cambios en la respuesta en frecuencia del habla, o el habla de prueba puede estar presente en el conjunto de entrenamiento

Experimentos de Ablación

Investigación del impacto de factores individuales mediante la fijación de ciertos parámetros:

  1. Efecto de Ancho de Banda Puro: Exclusión del filtro de pico, investigación solo de combinaciones HP2 y LP2
  2. Efecto de Pico: Investigación del impacto de la frecuencia de pico y el factor de calidad bajo diferentes configuraciones de ancho de banda
  3. Efectos de Interacción: Investigación de la acción sinérgica de diferentes combinaciones de parámetros

Hallazgos Experimentales

  1. El Nivel de Ruido es el Factor Determinante: Tiene el mayor impacto en la calidad del habla y el rendimiento de ASR
  2. Los Requisitos de Ancho de Banda Pueden Relajarse: El ancho de banda del micrófono tiene un impacto limitado en la calidad del habla
  3. La Respuesta de Baja Frecuencia es Importante: La frecuencia de corte baja no debe exceder 100 Hz
  4. Optimización de Picos de Alta Frecuencia: Los picos de resonancia inevitables deben desplazarse a frecuencias altas y mantener un ancho de banda estrecho
  5. Robustez de ASR: Los motores de ASR modernos tienen buena robustez ante cambios en las características del micrófono

Trabajo Relacionado

Descripción General de la Investigación Existente

  1. Du et al. (2019): Primera investigación de la asociación entre tres tipos de micrófonos automotrices y la experiencia del usuario, utilizando SII y pruebas de audición subjetivas
  2. Du (2023): Extensión de la investigación para incluir evaluación objetiva y subjetiva de la claridad y calidad del habla
  3. Maver et al. (2024): Investigación del rendimiento del front-end acústico en cuatro tipos diferentes de micrófonos automotrices y ubicaciones de instalación

Ventajas de Este Artículo

  1. Parametrización Sistemática: No limitada a tipos específicos de micrófono, investigación sistemática del impacto de cambios de parámetros
  2. Evaluación Estandarizada: Adopción de métodos de evaluación estandarizados ETSI e ITU
  3. Perspectiva Dual: Consideración simultánea de la calidad de comunicación H2H y el rendimiento de interacción H2M
  4. Entorno Real: Utilización de datos de vehículos reales en lugar de simulación

Conclusiones y Discusión

Conclusiones Principales

  1. El Tipo y Nivel de Ruido son los Factores Más Relevantes que afectan la calidad del habla y el reconocimiento
  2. El Ancho de Banda del Micrófono tiene Poco Impacto en la calidad del habla
  3. El Rendimiento de S-MOS Disminuye cuando la frecuencia de corte baja es superior a 100 Hz
  4. Los Picos de Resonancia del Micrófono deben Desplazarse lo más posible a frecuencias altas y mantener un ancho de banda estrecho (factor Q alto)
  5. El Rendimiento de ASR es Prácticamente Insensible a los factores del micrófono

Limitaciones

  1. Muestra de Vehículos Limitada: Solo se probaron tres tipos específicos de vehículos
  2. Diseño de Filtro Simplificado: Solo se utilizaron filtros de segundo orden para simular características del micrófono
  3. Motor de ASR Único: Solo se utilizó un motor de ASR genérico Whisper
  4. Características del Hablante: Investigación insuficiente del impacto de características individuales del hablante
  5. Amplitud de Pico Fija: La amplitud del filtro de pico se fijó en 20 dB

Direcciones Futuras

  1. Expansión del Rango de Vehículos: Inclusión de más tipos de vehículos para analizar el impacto de características objetivas del vehículo (tamaño, clase, RT60)
  2. Desacoplamiento de Ruido y Tipo de Vehículo: Creación de combinaciones de todos los tipos de vehículos y ruidos de conducción para desacoplar efectivamente los factores de influencia
  3. Investigación de Características del Hablante: Investigación de la interacción entre características del hablante como frecuencia fundamental y características del micrófono
  4. Diversificación del Diseño de Filtros: Exploración del impacto de filtros de diferentes órdenes y diferentes amplitudes de pico
  5. Motores de ASR Especializados: Evaluación del rendimiento de motores de ASR especializados para aplicaciones automotrices
  6. Procesamiento Acústico Front-End: Evaluación integral combinada con sistemas comerciales de procesamiento acústico front-end

Evaluación Profunda

Fortalezas

  1. Fuerte Innovación Metodológica: Primera investigación sistemática y parametrizada del impacto de características de micrófono automotriz, llenando un vacío de investigación
  2. Diseño Experimental Riguroso: Adherencia a estándares internacionales, utilización de datos de entorno real, diseño experimental científicamente sólido
  3. Sistema de Evaluación Integral: Consideración simultánea de la calidad del habla y el rendimiento de ASR, proporcionando un perfil de rendimiento integral
  4. Alto Valor Práctico: Los resultados de la investigación guían directamente la selección de micrófono y la formulación de especificaciones en la industria automotriz
  5. Análisis Estadístico Suficiente: Utilización de métodos estadísticos como ANOVA para verificar la significancia de los resultados

Insuficiencias

  1. Representatividad Limitada de la Muestra: La representatividad de tres tipos de vehículos es limitada, lo que puede afectar la universalidad de las conclusiones
  2. Limitaciones en la Evaluación de ASR: Solo se utilizó un motor de ASR genérico, que puede no reflejar las características de sistemas de ASR automotrices profesionales
  3. Restricción del Espacio de Parámetros: Aunque las combinaciones de parámetros de filtro cubren casos comunes, aún hay espacio para optimización
  4. Falta de Evaluación Subjetiva: Solo se utilizan indicadores objetivos, faltando validación de evaluación subjetiva de usuarios reales
  5. Simplificación de Factores Ambientales: No se consideraron factores ambientales como temperatura y humedad en el impacto del rendimiento del micrófono

Impacto

  1. Contribución Académica: Proporciona datos de investigación fundamental importantes y un marco metodológico para el campo del audio automotriz
  2. Aplicación Industrial: Guía directamente la estrategia de selección de micrófono de fabricantes de equipos originales automotrices, con importante valor comercial
  3. Formulación de Estándares: Proporciona evidencia experimental para la revisión y perfeccionamiento de estándares internacionales relacionados
  4. Desarrollo Tecnológico: Impulsa la optimización de tecnología de audio automotriz y tecnología de ASR en entornos de vehículos

Escenarios Aplicables

  1. Fabricantes de Equipos Originales Automotrices: Formulación de especificaciones de micrófono y selección de proveedores
  2. Fabricantes de Micrófonos: Optimización de diseño de productos y verificación de rendimiento
  3. Proveedores de Servicios de ASR: Optimización de sistemas de ASR para vehículos y mejora de robustez
  4. Instituciones de Formulación de Estándares: Referencia para la formulación y revisión de estándares relacionados
  5. Investigación Académica: Base para investigación posterior en los campos de audio automotriz y procesamiento de habla

Referencias

Esta investigación cita múltiples estándares internacionales importantes y trabajos de investigación anteriores, incluyendo documentos de estándares como ITU-T P.501, ETSI TS 103 281, ITU-P.1100, así como trabajos pioneros de Du et al. en evaluación de rendimiento de micrófonos automotrices. Estas referencias proporcionan una base teórica sólida y orientación metodológica para esta investigación.