2025-11-13T22:49:11.191086

Effects of automotive microphone frequency response characteristics and noise conditions on speech and ASR quality -- an experimental evaluation

Buccoli, Du, Soendergaard et al.
Upon choosing microphones for automotive hands-free communication or Automatic Speech Recognition (ASR) applications, OEMs typically specify wideband, super wideband or even fullband requirements following established standard recommendations (e.g., ITU-P.1110, ITU-P.1120). In practice, it is often challenging to achieve the preferred bandwidth for an automotive microphone when considering limitations and constraints on microphone placement inside the cabin, and the automotive grade environmental robustness requirements. On the other hand, there seems to be no consensus or sufficient data on the effect of each microphone characteristic on the actual performance. As an attempt to answer this question, we used noise signals recorded in real vehicles and under various driving conditions to experimentally study the relationship between the microphones' characteristics and the final audio quality of speech communication and performance of ASR engines. We focus on how variations in microphone bandwidth and amplitude frequency response shapes affect the perceptual speech quality. The speech quality results are compared by using ETSI TS 103 281 metrics (S-MOS, N-MOS, G-MOS) and ancillary metrics such as SNR. The ASR results are evaluated with standard metrics such as Word Error Rate (WER). Findings from this study provide knowledge in the understanding of what microphone frequency response characteristics are more relevant for audio quality and choice of proper microphone specifications, particularly for automotive applications.
academic

Effets des caractéristiques de réponse en fréquence du microphone automobile et des conditions de bruit sur la qualité de la parole et de la RAP -- une évaluation expérimentale

Informations de base

  • ID de l'article: 2510.09236
  • Titre: Effects of automotive microphone frequency response characteristics and noise conditions on speech and ASR quality -- an experimental evaluation
  • Auteurs: Michele Buccoli, Yu Du, Jacob Soendergaard, Simone Shawn Cazzaniga
  • Classification: eess.AS (Génie électrique et sciences des systèmes - Traitement audio et parole), cs.SD (Informatique - Son)
  • Date de publication/Conférence: AES 159th Convention, 23-25 octobre, Long Beach, CA, USA (Article express)
  • Lien de l'article: https://arxiv.org/abs/2510.09236

Résumé

Cette étude aborde la question critique du choix des microphones dans les applications de communication mains-libres automobiles et de reconnaissance automatique de la parole (RAP), en examinant expérimentalement la relation entre les caractéristiques de réponse en fréquence du microphone et la qualité de la parole ainsi que les performances de la RAP. L'étude utilise des signaux de bruit enregistrés dans des environnements de véhicules réels pour évaluer l'impact de la bande passante du microphone et des variations de la forme de la réponse amplitude-fréquence sur la qualité perceptuelle de la parole. L'évaluation de la qualité de la parole utilise les indicateurs S-MOS, N-MOS et G-MOS conformément à la norme ETSI TS 103 281, ainsi que des indicateurs auxiliaires tels que le SNR, tandis que les performances de la RAP sont évaluées par le taux d'erreur de mots (TEM). Les résultats de l'étude fournissent des connaissances importantes pour comprendre l'impact des caractéristiques de réponse en fréquence du microphone sur la qualité audio, en particulier pour guider le choix des spécifications des microphones dans les applications automobiles.

Contexte et motivation de la recherche

Définition du problème

Les fabricants automobiles OEM, lors de la sélection de microphones pour les applications de communication mains-libres ou de RAP, suivent généralement les recommandations des normes ITU-P.1110, ITU-P.1120, etc., qui exigent des spécifications de bande large, ultra-large ou même pleine bande. Cependant, dans les applications pratiques, compte tenu des limitations des positions d'installation des microphones dans les véhicules et des exigences strictes de robustesse de l'environnement automobile, il est difficile de réaliser les spécifications de bande passante idéales.

Importance de la recherche

  1. Manque de consensus: L'industrie manque de consensus et de données suffisantes sur l'impact des diverses caractéristiques des microphones sur les performances réelles
  2. Contraintes pratiques: Les positions d'installation des microphones dans les véhicules sont limitées et les exigences environnementales sont strictes
  3. Optimisation des performances: Nécessité de comprendre quelles caractéristiques des microphones sont les plus critiques pour la qualité audio et les performances de la RAP

Limitations des recherches existantes

Les études connexes existantes sont principalement basées sur des types spécifiques de microphones automobiles, l'espace de recherche étant limité aux caractéristiques inhérentes de ces microphones, sans pouvoir démontrer les tendances générales de l'impact des variations des caractéristiques des microphones sur la qualité de la parole et de la RAP.

Contributions principales

  1. Établissement d'un cadre d'évaluation systématique: Construction d'une plateforme d'évaluation expérimentale de l'impact des caractéristiques de réponse en fréquence du microphone sur la qualité de la parole et les performances de la RAP
  2. Analyse complète des caractéristiques: Étude systématique de l'impact de la bande passante du microphone, des pics de réponse en fréquence et d'autres caractéristiques sur les performances
  3. Évaluation multidimensionnelle: Évaluation simultanée de la qualité de la parole pour la communication humain-humain (H2H) et des performances de la RAP pour l'interaction humain-machine (H2M)
  4. Vérification en environnement réel: Utilisation d'enregistrements de bruit provenant d'environnements de véhicules réels pour la vérification
  5. Indicateurs d'évaluation normalisés: Utilisation des scores MOS conformes aux normes ETSI et des indicateurs d'évaluation standard de la RAP

Détails de la méthode

Définition de la tâche

Étudier l'impact des caractéristiques de réponse en fréquence du microphone (bande passante, fréquence de pic, facteur de qualité) sur la qualité de la parole (S-MOS, N-MOS) et les performances de la RAP (TEM) dans différents types de véhicules et conditions de bruit.

Architecture de la conception expérimentale

Modèle de génération de signaux

Les signaux d'enregistrement simulés sont générés selon la formule suivante:

x(n) = f(s(n) ⋆ h(n) + v(n))

Où:

  • s(n): Signal de parole propre conforme à la norme ITU-T P.501
  • h(n): Réponse impulsionnelle du véhicule
  • v(n): Bruit de fond réel du véhicule
  • f(·): Cascade de filtres numériques simulant les caractéristiques spectrales du microphone

Simulation des caractéristiques du microphone

Utilisation d'une cascade de filtres bilinéaires du second ordre pour simuler les caractéristiques du microphone:

  1. Définition de la bande passante:
    • Filtre passe-haut (HP2): 20, 100, 350 Hz
    • Filtre passe-bas (LP2): 4k, 8k, 12k, 16k, 20k Hz
    • Facteur Q: 0,707
  2. Simulation des pics de résonance:
    • Filtre de pic (PK2): 4k, 6k, 8k, 13k, 16k Hz
    • Amplitude fixe: 20 dB
    • Facteur Q: 1,414, 2, 4

Conditions expérimentales

  • Types de véhicules: Berline intermédiaire, SUV compact, petit SUV
  • Conditions de bruit: Ralenti (ventilateur faible), urbain (60 km/h ventilateur moyen), autoroute (120 km/h ventilateur faible)
  • Configurations de microphones: 113 configurations pratiques sélectionnées parmi 225 combinaisons possibles

Points d'innovation technique

  1. Étude paramétrique systématique: Première étude systématique et paramétrique de l'impact des caractéristiques des microphones sur les performances des applications automobiles
  2. Données d'environnement réel: Utilisation de réponses impulsionnelles et de données de bruit enregistrées dans des environnements de véhicules réels
  3. Système d'évaluation double: Évaluation simultanée de la qualité de la parole et des performances de la RAP, fournissant un portrait de performance complet
  4. Méthode normalisée: Respect strict des normes ITU et ETSI pour l'évaluation

Configuration expérimentale

Ensemble de données

  • Stimuli de parole: 20 phrases Harvard en anglais américain spécifiées dans l'Annexe E de la norme ETSI TS 103 281
  • Locuteurs: Plusieurs locuteurs masculins et féminins différents
  • Durée totale: 80 secondes (4 secondes par phrase, incluant 1 seconde de silence d'amorce et 1 seconde de silence de fin)
  • Réponses impulsionnelles du véhicule: Enregistrées à l'aide d'un simulateur de tête et de tronc (HATS) à la position du conducteur
  • Bruit de fond: Enregistré conformément aux directives de l'Annexe D de la norme ITU P.1100

Indicateurs d'évaluation

  1. Indicateurs de qualité de la parole:
    • S-MOS: Évaluation de la qualité de la composante de parole (1-5 points)
    • N-MOS: Évaluation de l'interférence de la composante de bruit (1-5 points)
    • G-MOS: Impression de qualité globale
    • Indicateur d'effort d'écoute (ETSI TS 103 558)
    • SNR pondéré A
  2. Indicateurs de performance de la RAP:
    • Taux d'erreur de mots (TEM)
    • Évaluation utilisant le modèle Whisper tiny

Détails de mise en œuvre

  • Génération totale de 1017 fichiers de parole (113 configurations de microphones × 3 types de véhicules × 3 types de bruit)
  • Génération de 20 points de données pour chaque scénario pour l'analyse statistique
  • Utilisation du test ANOVA pour évaluer la signification statistique

Résultats expérimentaux

Résultats principaux

1. Impact du type de véhicule et du type de bruit

  • Impact significatif du type de bruit: Les valeurs de S-MOS et N-MOS diminuent significativement avec l'augmentation du niveau de bruit de fond (valeur p proche de 0)
  • Impact limité du type de véhicule: Les valeurs de S-MOS entre différents types de véhicules sont très proches, avec une certaine variation de N-MOS mais sans tendance évidente
  • Pire performance du petit SUV: SNR le plus faible dans les conditions de bruit à grande vitesse

2. Impact de la bande passante du microphone

  • Impact de la fréquence de coupure basse: Les valeurs de S-MOS pour les fréquences de coupure de 20 Hz et 100 Hz sont similaires, toutes deux supérieures au cas de 350 Hz
  • Impact faible de la fréquence de coupure haute: Pour une même fréquence de coupure basse, la limitation de la bande passante haute a peu d'impact sur le S-MOS
  • Signification statistique: La valeur p pour les variations de fréquence de coupure basse est proche de 0 (statistique F = 1174), tandis que celle pour la fréquence de coupure haute est de 0,755 (statistique F = 0,47)

3. Impact des pics de réponse en fréquence du microphone

  • Impact de la fréquence de pic: Les fréquences de pic plus basses entraînent des valeurs de S-MOS plus basses
  • Position de pic optimale: Les pics de résonance doivent être poussés à 10 kHz ou plus pour obtenir les meilleures performances
  • Impact du facteur de qualité: Un facteur de qualité plus élevé (bande passante de pic plus étroite) apporte de meilleures performances de S-MOS

4. Résultats de performance de la RAP

  • Impact faible des caractéristiques du microphone: Les caractéristiques de réponse en fréquence du microphone n'ont pas d'impact significatif sur les performances de la RAP
  • Type de bruit dominant: Le type de bruit est le facteur principal affectant le TEM
  • Raisons possibles: Le moteur de RAP est robuste aux variations de réponse en fréquence du signal de parole, ou la parole de test peut être présente dans l'ensemble d'entraînement

Expériences d'ablation

Étude de l'impact de facteurs uniques en fixant certains paramètres:

  1. Effet de bande passante pure: Exclusion du filtre de pic, étude uniquement des combinaisons HP2 et LP2
  2. Effet de pic: Étude de l'impact de la fréquence de pic et du facteur de qualité sous différents réglages de bande passante
  3. Effets d'interaction: Étude de l'action synergique de différentes combinaisons de paramètres

Découvertes expérimentales

  1. Le niveau de bruit est un facteur déterminant: Exerce l'impact le plus important sur la qualité de la parole et les performances de la RAP
  2. Les exigences de bande passante peuvent être assouplies: L'impact de la bande passante du microphone sur la qualité de la parole est limité
  3. La réponse basse fréquence est importante: La fréquence de coupure basse ne doit pas dépasser 100 Hz
  4. Optimisation des pics haute fréquence: Les pics de résonance inévitables doivent être poussés vers les hautes fréquences et maintenir une bande étroite
  5. Robustesse de la RAP: Les moteurs de RAP modernes présentent une bonne robustesse aux variations des caractéristiques des microphones

Travaux connexes

Aperçu des recherches existantes

  1. Du et al. (2019): Première étude de l'association entre trois types de microphones automobiles et l'expérience utilisateur, utilisant l'indice d'intelligibilité de la parole (SII) et des tests d'écoute subjectifs
  2. Du (2023): Extension de la recherche incluant l'évaluation objective et subjective de la clarté et de la qualité de la parole
  3. Maver et al. (2024): Étude des performances du front-end acoustique avec quatre types différents de microphones automobiles et positions d'installation

Avantages de cet article

  1. Paramétrage systématique: Non limité à des types de microphones spécifiques, étude systématique de l'impact des variations de paramètres
  2. Évaluation normalisée: Utilisation de méthodes d'évaluation normalisées ETSI et ITU
  3. Double perspective: Considération simultanée de la qualité de la communication H2H et des performances d'interaction H2M
  4. Environnement réel: Utilisation de données d'environnements de véhicules réels plutôt que de simulations

Conclusions et discussion

Conclusions principales

  1. Le type et le niveau de bruit sont les facteurs les plus pertinents affectant la qualité de la parole et la reconnaissance
  2. La bande passante du microphone a peu d'impact sur la qualité de la parole
  3. Les performances de S-MOS se dégradent lorsque la fréquence de coupure basse dépasse 100 Hz
  4. Les pics de résonance du microphone doivent être poussés aussi haut que possible en fréquence et maintenir une bande étroite (facteur Q élevé)
  5. Les performances de la RAP sont pratiquement inaffectées par les facteurs du microphone

Limitations

  1. Échantillon de véhicules limité: Seuls trois types de véhicules spécifiques ont été testés
  2. Conception de filtre simplifiée: Utilisation uniquement de filtres du second ordre pour simuler les caractéristiques du microphone
  3. Moteur de RAP unique: Utilisation d'un seul moteur de RAP généraliste (Whisper)
  4. Caractéristiques du locuteur: Étude insuffisante de l'impact des caractéristiques individuelles du locuteur
  5. Amplitude de pic fixe: L'amplitude du filtre de pic est fixée à 20 dB

Directions futures

  1. Extension de la gamme de véhicules: Inclusion de plus de types de véhicules pour analyser l'impact des caractéristiques objectives des véhicules (taille, classe, RT60)
  2. Découplage du bruit et du type de véhicule: Création de combinaisons de tous les types de véhicules et bruits de conduite pour découpler efficacement les facteurs d'influence
  3. Étude des caractéristiques du locuteur: Étude de l'interaction entre les caractéristiques du locuteur telles que la fréquence fondamentale et les caractéristiques du microphone
  4. Diversification de la conception des filtres: Exploration de l'impact de filtres d'ordres différents et d'amplitudes de pic différentes
  5. Moteurs de RAP spécialisés: Évaluation des performances des moteurs de RAP spécialisés pour l'automobile
  6. Traitement du front-end acoustique: Évaluation complète combinée avec des systèmes de traitement du front-end acoustique commerciaux

Évaluation approfondie

Points forts

  1. Innovation méthodologique forte: Première étude systématique et paramétrique de l'impact des caractéristiques des microphones automobiles, comblant un vide de recherche
  2. Conception expérimentale rigoureuse: Respect des normes internationales, utilisation de données d'environnements réels, conception expérimentale scientifiquement rationnelle
  3. Système d'évaluation complet: Considération simultanée de la qualité de la parole et des performances de la RAP, fournissant un portrait de performance complet
  4. Valeur pratique élevée: Les résultats de la recherche guident directement le choix des microphones et la définition des spécifications dans l'industrie automobile
  5. Analyse statistique suffisante: Utilisation de méthodes statistiques telles que l'ANOVA pour vérifier la signification des résultats

Insuffisances

  1. Représentativité limitée de l'échantillon: La représentativité de trois types de véhicules est limitée, ce qui peut affecter l'universalité des conclusions
  2. Limitations de l'évaluation de la RAP: Utilisation d'un seul moteur de RAP généraliste, qui peut ne pas refléter les caractéristiques des systèmes de RAP automobiles professionnels
  3. Limitation de l'espace des paramètres: Bien que les combinaisons de paramètres de filtre couvrent les cas courants, il existe encore une marge d'optimisation
  4. Manque d'évaluation subjective: Utilisation uniquement d'indicateurs objectifs, manque de vérification par évaluation subjective d'utilisateurs réels
  5. Simplification des facteurs environnementaux: Non-prise en compte de l'impact des facteurs environnementaux tels que la température et l'humidité sur les performances du microphone

Impact

  1. Contribution académique: Fournit des données de recherche fondamentale importantes et un cadre méthodologique pour le domaine de l'audio automobile
  2. Application industrielle: Guide directement la stratégie de sélection des microphones des fabricants automobiles OEM, avec une valeur commerciale importante
  3. Élaboration de normes: Fournit des preuves expérimentales pour la révision et l'amélioration des normes internationales connexes
  4. Développement technologique: Promeut l'optimisation des technologies audio automobiles et de la RAP dans les environnements de véhicules

Scénarios d'application

  1. Fabricants automobiles OEM: Définition des spécifications des microphones et sélection des fournisseurs
  2. Fabricants de microphones: Optimisation de la conception des produits et vérification des performances
  3. Fournisseurs de services de RAP: Optimisation des systèmes de RAP embarqués et amélioration de la robustesse
  4. Organismes de normalisation: Référence pour l'élaboration et la révision des normes connexes
  5. Recherche académique: Base pour les recherches ultérieures dans les domaines de l'audio automobile et du traitement de la parole

Références

Cette recherche cite plusieurs normes internationales importantes et travaux de recherche antérieurs, notamment les normes ITU-T P.501, ETSI TS 103 281, ITU-P.1100 et autres documents de normes, ainsi que les travaux pionniers de Du et al. dans l'évaluation des performances des microphones automobiles. Ces références fournissent une base théorique solide et des directives méthodologiques pour cette recherche.