Effects of automotive microphone frequency response characteristics and noise conditions on speech and ASR quality -- an experimental evaluation
Buccoli, Du, Soendergaard et al.
Upon choosing microphones for automotive hands-free communication or Automatic Speech Recognition (ASR) applications, OEMs typically specify wideband, super wideband or even fullband requirements following established standard recommendations (e.g., ITU-P.1110, ITU-P.1120). In practice, it is often challenging to achieve the preferred bandwidth for an automotive microphone when considering limitations and constraints on microphone placement inside the cabin, and the automotive grade environmental robustness requirements. On the other hand, there seems to be no consensus or sufficient data on the effect of each microphone characteristic on the actual performance. As an attempt to answer this question, we used noise signals recorded in real vehicles and under various driving conditions to experimentally study the relationship between the microphones' characteristics and the final audio quality of speech communication and performance of ASR engines. We focus on how variations in microphone bandwidth and amplitude frequency response shapes affect the perceptual speech quality. The speech quality results are compared by using ETSI TS 103 281 metrics (S-MOS, N-MOS, G-MOS) and ancillary metrics such as SNR. The ASR results are evaluated with standard metrics such as Word Error Rate (WER). Findings from this study provide knowledge in the understanding of what microphone frequency response characteristics are more relevant for audio quality and choice of proper microphone specifications, particularly for automotive applications.
academic
Effets des caractéristiques de réponse en fréquence du microphone automobile et des conditions de bruit sur la qualité de la parole et de la RAP -- une évaluation expérimentale
Titre: Effects of automotive microphone frequency response characteristics and noise conditions on speech and ASR quality -- an experimental evaluation
Auteurs: Michele Buccoli, Yu Du, Jacob Soendergaard, Simone Shawn Cazzaniga
Classification: eess.AS (Génie électrique et sciences des systèmes - Traitement audio et parole), cs.SD (Informatique - Son)
Date de publication/Conférence: AES 159th Convention, 23-25 octobre, Long Beach, CA, USA (Article express)
Cette étude aborde la question critique du choix des microphones dans les applications de communication mains-libres automobiles et de reconnaissance automatique de la parole (RAP), en examinant expérimentalement la relation entre les caractéristiques de réponse en fréquence du microphone et la qualité de la parole ainsi que les performances de la RAP. L'étude utilise des signaux de bruit enregistrés dans des environnements de véhicules réels pour évaluer l'impact de la bande passante du microphone et des variations de la forme de la réponse amplitude-fréquence sur la qualité perceptuelle de la parole. L'évaluation de la qualité de la parole utilise les indicateurs S-MOS, N-MOS et G-MOS conformément à la norme ETSI TS 103 281, ainsi que des indicateurs auxiliaires tels que le SNR, tandis que les performances de la RAP sont évaluées par le taux d'erreur de mots (TEM). Les résultats de l'étude fournissent des connaissances importantes pour comprendre l'impact des caractéristiques de réponse en fréquence du microphone sur la qualité audio, en particulier pour guider le choix des spécifications des microphones dans les applications automobiles.
Les fabricants automobiles OEM, lors de la sélection de microphones pour les applications de communication mains-libres ou de RAP, suivent généralement les recommandations des normes ITU-P.1110, ITU-P.1120, etc., qui exigent des spécifications de bande large, ultra-large ou même pleine bande. Cependant, dans les applications pratiques, compte tenu des limitations des positions d'installation des microphones dans les véhicules et des exigences strictes de robustesse de l'environnement automobile, il est difficile de réaliser les spécifications de bande passante idéales.
Manque de consensus: L'industrie manque de consensus et de données suffisantes sur l'impact des diverses caractéristiques des microphones sur les performances réelles
Contraintes pratiques: Les positions d'installation des microphones dans les véhicules sont limitées et les exigences environnementales sont strictes
Optimisation des performances: Nécessité de comprendre quelles caractéristiques des microphones sont les plus critiques pour la qualité audio et les performances de la RAP
Les études connexes existantes sont principalement basées sur des types spécifiques de microphones automobiles, l'espace de recherche étant limité aux caractéristiques inhérentes de ces microphones, sans pouvoir démontrer les tendances générales de l'impact des variations des caractéristiques des microphones sur la qualité de la parole et de la RAP.
Établissement d'un cadre d'évaluation systématique: Construction d'une plateforme d'évaluation expérimentale de l'impact des caractéristiques de réponse en fréquence du microphone sur la qualité de la parole et les performances de la RAP
Analyse complète des caractéristiques: Étude systématique de l'impact de la bande passante du microphone, des pics de réponse en fréquence et d'autres caractéristiques sur les performances
Évaluation multidimensionnelle: Évaluation simultanée de la qualité de la parole pour la communication humain-humain (H2H) et des performances de la RAP pour l'interaction humain-machine (H2M)
Vérification en environnement réel: Utilisation d'enregistrements de bruit provenant d'environnements de véhicules réels pour la vérification
Indicateurs d'évaluation normalisés: Utilisation des scores MOS conformes aux normes ETSI et des indicateurs d'évaluation standard de la RAP
Étudier l'impact des caractéristiques de réponse en fréquence du microphone (bande passante, fréquence de pic, facteur de qualité) sur la qualité de la parole (S-MOS, N-MOS) et les performances de la RAP (TEM) dans différents types de véhicules et conditions de bruit.
Étude paramétrique systématique: Première étude systématique et paramétrique de l'impact des caractéristiques des microphones sur les performances des applications automobiles
Données d'environnement réel: Utilisation de réponses impulsionnelles et de données de bruit enregistrées dans des environnements de véhicules réels
Système d'évaluation double: Évaluation simultanée de la qualité de la parole et des performances de la RAP, fournissant un portrait de performance complet
Méthode normalisée: Respect strict des normes ITU et ETSI pour l'évaluation
Impact significatif du type de bruit: Les valeurs de S-MOS et N-MOS diminuent significativement avec l'augmentation du niveau de bruit de fond (valeur p proche de 0)
Impact limité du type de véhicule: Les valeurs de S-MOS entre différents types de véhicules sont très proches, avec une certaine variation de N-MOS mais sans tendance évidente
Pire performance du petit SUV: SNR le plus faible dans les conditions de bruit à grande vitesse
Impact de la fréquence de coupure basse: Les valeurs de S-MOS pour les fréquences de coupure de 20 Hz et 100 Hz sont similaires, toutes deux supérieures au cas de 350 Hz
Impact faible de la fréquence de coupure haute: Pour une même fréquence de coupure basse, la limitation de la bande passante haute a peu d'impact sur le S-MOS
Signification statistique: La valeur p pour les variations de fréquence de coupure basse est proche de 0 (statistique F = 1174), tandis que celle pour la fréquence de coupure haute est de 0,755 (statistique F = 0,47)
Impact faible des caractéristiques du microphone: Les caractéristiques de réponse en fréquence du microphone n'ont pas d'impact significatif sur les performances de la RAP
Type de bruit dominant: Le type de bruit est le facteur principal affectant le TEM
Raisons possibles: Le moteur de RAP est robuste aux variations de réponse en fréquence du signal de parole, ou la parole de test peut être présente dans l'ensemble d'entraînement
Le niveau de bruit est un facteur déterminant: Exerce l'impact le plus important sur la qualité de la parole et les performances de la RAP
Les exigences de bande passante peuvent être assouplies: L'impact de la bande passante du microphone sur la qualité de la parole est limité
La réponse basse fréquence est importante: La fréquence de coupure basse ne doit pas dépasser 100 Hz
Optimisation des pics haute fréquence: Les pics de résonance inévitables doivent être poussés vers les hautes fréquences et maintenir une bande étroite
Robustesse de la RAP: Les moteurs de RAP modernes présentent une bonne robustesse aux variations des caractéristiques des microphones
Du et al. (2019): Première étude de l'association entre trois types de microphones automobiles et l'expérience utilisateur, utilisant l'indice d'intelligibilité de la parole (SII) et des tests d'écoute subjectifs
Du (2023): Extension de la recherche incluant l'évaluation objective et subjective de la clarté et de la qualité de la parole
Maver et al. (2024): Étude des performances du front-end acoustique avec quatre types différents de microphones automobiles et positions d'installation
Extension de la gamme de véhicules: Inclusion de plus de types de véhicules pour analyser l'impact des caractéristiques objectives des véhicules (taille, classe, RT60)
Découplage du bruit et du type de véhicule: Création de combinaisons de tous les types de véhicules et bruits de conduite pour découpler efficacement les facteurs d'influence
Étude des caractéristiques du locuteur: Étude de l'interaction entre les caractéristiques du locuteur telles que la fréquence fondamentale et les caractéristiques du microphone
Diversification de la conception des filtres: Exploration de l'impact de filtres d'ordres différents et d'amplitudes de pic différentes
Moteurs de RAP spécialisés: Évaluation des performances des moteurs de RAP spécialisés pour l'automobile
Traitement du front-end acoustique: Évaluation complète combinée avec des systèmes de traitement du front-end acoustique commerciaux
Innovation méthodologique forte: Première étude systématique et paramétrique de l'impact des caractéristiques des microphones automobiles, comblant un vide de recherche
Conception expérimentale rigoureuse: Respect des normes internationales, utilisation de données d'environnements réels, conception expérimentale scientifiquement rationnelle
Système d'évaluation complet: Considération simultanée de la qualité de la parole et des performances de la RAP, fournissant un portrait de performance complet
Valeur pratique élevée: Les résultats de la recherche guident directement le choix des microphones et la définition des spécifications dans l'industrie automobile
Analyse statistique suffisante: Utilisation de méthodes statistiques telles que l'ANOVA pour vérifier la signification des résultats
Représentativité limitée de l'échantillon: La représentativité de trois types de véhicules est limitée, ce qui peut affecter l'universalité des conclusions
Limitations de l'évaluation de la RAP: Utilisation d'un seul moteur de RAP généraliste, qui peut ne pas refléter les caractéristiques des systèmes de RAP automobiles professionnels
Limitation de l'espace des paramètres: Bien que les combinaisons de paramètres de filtre couvrent les cas courants, il existe encore une marge d'optimisation
Manque d'évaluation subjective: Utilisation uniquement d'indicateurs objectifs, manque de vérification par évaluation subjective d'utilisateurs réels
Simplification des facteurs environnementaux: Non-prise en compte de l'impact des facteurs environnementaux tels que la température et l'humidité sur les performances du microphone
Contribution académique: Fournit des données de recherche fondamentale importantes et un cadre méthodologique pour le domaine de l'audio automobile
Application industrielle: Guide directement la stratégie de sélection des microphones des fabricants automobiles OEM, avec une valeur commerciale importante
Élaboration de normes: Fournit des preuves expérimentales pour la révision et l'amélioration des normes internationales connexes
Développement technologique: Promeut l'optimisation des technologies audio automobiles et de la RAP dans les environnements de véhicules
Cette recherche cite plusieurs normes internationales importantes et travaux de recherche antérieurs, notamment les normes ITU-T P.501, ETSI TS 103 281, ITU-P.1100 et autres documents de normes, ainsi que les travaux pionniers de Du et al. dans l'évaluation des performances des microphones automobiles. Ces références fournissent une base théorique solide et des directives méthodologiques pour cette recherche.