Effects of automotive microphone frequency response characteristics and noise conditions on speech and ASR quality -- an experimental evaluation
Buccoli, Du, Soendergaard et al.
Upon choosing microphones for automotive hands-free communication or Automatic Speech Recognition (ASR) applications, OEMs typically specify wideband, super wideband or even fullband requirements following established standard recommendations (e.g., ITU-P.1110, ITU-P.1120). In practice, it is often challenging to achieve the preferred bandwidth for an automotive microphone when considering limitations and constraints on microphone placement inside the cabin, and the automotive grade environmental robustness requirements. On the other hand, there seems to be no consensus or sufficient data on the effect of each microphone characteristic on the actual performance. As an attempt to answer this question, we used noise signals recorded in real vehicles and under various driving conditions to experimentally study the relationship between the microphones' characteristics and the final audio quality of speech communication and performance of ASR engines. We focus on how variations in microphone bandwidth and amplitude frequency response shapes affect the perceptual speech quality. The speech quality results are compared by using ETSI TS 103 281 metrics (S-MOS, N-MOS, G-MOS) and ancillary metrics such as SNR. The ASR results are evaluated with standard metrics such as Word Error Rate (WER). Findings from this study provide knowledge in the understanding of what microphone frequency response characteristics are more relevant for audio quality and choice of proper microphone specifications, particularly for automotive applications.
academic
Auswirkungen der Frequenzgangcharakteristiken von Automikrofonen und Rauschbedingungen auf Sprach- und ASR-Qualität -- eine experimentelle Bewertung
Titel: Effects of automotive microphone frequency response characteristics and noise conditions on speech and ASR quality -- an experimental evaluation
Autoren: Michele Buccoli, Yu Du, Jacob Soendergaard, Simone Shawn Cazzaniga
Klassifizierung: eess.AS (Elektrotechnik und Systemwissenschaften - Audio- und Sprachverarbeitung), cs.SD (Informatik - Sound)
Veröffentlichungszeit/Konferenz: AES 159. Konvention, 23.-25. Oktober, Long Beach, CA, USA (Express Paper)
Diese Studie befasst sich mit der kritischen Frage der Mikrofonauswahl für freisprechende Kommunikation und automatische Spracherkennung (ASR) in Fahrzeugen. Durch experimentelle Methoden wird die Beziehung zwischen den Frequenzgangcharakteristiken des Mikrofons und der Sprachqualität sowie der ASR-Leistung untersucht. Die Studie nutzt Rauschsignale, die in echten Fahrzeugumgebungen aufgezeichnet wurden, um die Auswirkungen der Mikrofonbandbreite und Änderungen der Amplituden-Frequenzgangsform auf die wahrgenommene Sprachqualität zu bewerten. Die Sprachqualitätsbewertung verwendet die S-MOS-, N-MOS- und G-MOS-Metriken gemäß dem ETSI TS 103 281-Standard sowie Hilfsmetriken wie SNR. Die ASR-Leistung wird durch die Wortfehlerquote (WER) bewertet. Die Forschungsergebnisse liefern wichtige Erkenntnisse zum Verständnis der Auswirkungen von Mikrofonfrequenzgangcharakteristiken auf die Audioqualität und bieten insbesondere Orientierungshilfen für die Auswahl von Mikrofonspezifikationen in Fahrzeuganwendungen.
Bei der Auswahl von Mikrofonen für freisprechende Kommunikation oder ASR-Anwendungen folgen Automobil-OEM-Hersteller typischerweise den Empfehlungen von Standards wie ITU-P.1110 und ITU-P.1120, die Breitband-, Ultrabreitband- oder sogar Vollbandspezifikationen erfordern. In der Praxis ist es jedoch schwierig, ideale Bandbreitespezifikationen zu erreichen, wenn man die Einschränkungen der Mikrofoninstallationspositionen im Fahrzeug und die strengen Anforderungen an die Umweltrobustheit berücksichtigt.
Mangelnder Konsens: Die Industrie verfügt über unzureichende Daten und keinen Konsens über die Auswirkungen verschiedener Mikrofoncharakteristiken auf die tatsächliche Leistung
Praktische Einschränkungen: Die Installationspositionen von Mikrofonen im Fahrzeug sind begrenzt und die Umweltanforderungen sind streng
Leistungsoptimierung: Es ist notwendig zu verstehen, welche Mikrofoncharakteristiken für die Audioqualität und ASR-Leistung kritischer sind
Bestehende verwandte Forschungen basieren hauptsächlich auf spezifischen Typen von Automikrofonen, und der Forschungsraum ist auf die inhärenten Eigenschaften dieser Mikrofone beschränkt. Sie zeigen keine allgemeinen Trends der Auswirkungen von Mikrofoncharakteristikänderungen auf Sprach- und ASR-Qualität.
Etablierung eines systematischen Bewertungsrahmens: Aufbau einer experimentellen Bewertungsplattform für die Auswirkungen von Mikrofonfrequenzgangcharakteristiken auf Sprachqualität und ASR-Leistung
Umfassende Charakterisierungsanalyse: Systematische Untersuchung der Auswirkungen von Mikrofonbandbreite, Frequenzgangspitzenwert und anderen Charakteristiken auf die Leistung
Mehrdimensionale Bewertung: Gleichzeitige Bewertung der Sprachqualität für Mensch-zu-Mensch-Kommunikation (H2H) und der ASR-Leistung für Mensch-zu-Maschine-Interaktion (H2M)
Validierung in echter Umgebung: Verwendung von Rauschaufzeichnungen aus echten Fahrzeugumgebungen zur Validierung
Standardisierte Bewertungsmetriken: Verwendung von MOS-Bewertungen nach ETSI-Standard und standardisierten ASR-Bewertungsmetriken
Untersuchung der Auswirkungen von Mikrofonfrequenzgangcharakteristiken (Bandbreite, Spitzenfrequenz, Gütefaktor) unter verschiedenen Fahrzeugtypen und Rauschbedingungen auf Sprachqualität (S-MOS, N-MOS) und ASR-Leistung (WER).
Systematische parametrische Untersuchung: Erste systematische parametrische Untersuchung der Auswirkungen von Mikrofoncharakteristiken auf die Leistung in Fahrzeuganwendungen
Echte Umgebungsdaten: Verwendung von Impulsantworten und Rauschaufzeichnungen aus echten Fahrzeugumgebungen
Duales Bewertungssystem: Gleichzeitige Bewertung von Sprachqualität und ASR-Leistung für ein umfassendes Leistungsprofil
Standardisierte Methoden: Strikte Einhaltung von ITU- und ETSI-Standards bei der Bewertung
Rauschtyp hat signifikante Auswirkungen: S-MOS- und N-MOS-Werte sinken signifikant mit zunehmender Hintergrundgeräuschumgebung (p-Wert nahe 0)
Fahrzeugtyp hat begrenzte Auswirkungen: S-MOS-Werte zwischen verschiedenen Fahrzeugtypen sind sehr ähnlich, N-MOS zeigt gewisse Unterschiede, aber keinen klaren Trend
Kleines SUV zeigt schlechteste Leistung: Niedrigstes SNR unter Autobahnrauschbedingungen
Auswirkungen der unteren Grenzfrequenz: S-MOS-Werte bei 20 Hz und 100 Hz Grenzfrequenz sind ähnlich und beide höher als bei 350 Hz
Schwache Auswirkungen der oberen Grenzfrequenz: Bei gleicher unterer Grenzfrequenz hat die Begrenzung der oberen Bandbreite geringe Auswirkungen auf S-MOS
Statistische Signifikanz: p-Wert für Änderungen der unteren Grenzfrequenz nahe 0 (F-Statistik = 1174), p-Wert für obere Grenzfrequenz 0,755 (F-Statistik = 0,47)
Rauschpegel ist entscheidender Faktor: Hat die größten Auswirkungen auf Sprachqualität und ASR-Leistung
Bandbreiteanforderungen können gelockert werden: Mikrofonbandbreite hat begrenzte Auswirkungen auf Sprachqualität
Niederfrequenzantwort ist wichtig: Untere Grenzfrequenz sollte 100 Hz nicht überschreiten
Hochfrequenzspitzenoptimierung: Unvermeidbare Resonanzspitzen sollten zu hohen Frequenzen verschoben und schmalbandig gehalten werden (hoher Gütefaktor)
ASR-Robustheit: Moderne ASR-Engines zeigen gute Robustheit gegenüber Änderungen von Mikrofoncharakteristiken
Rauschtyp und -pegel sind die relevantesten Faktoren für die Beeinflussung von Sprachqualität und Erkennung
Mikrofonbandbreite hat geringe Auswirkungen auf Sprachqualität
S-MOS-Leistung nimmt ab, wenn die untere Grenzfrequenz über 100 Hz liegt
Mikrofonresonanzspitzen sollten so weit wie möglich zu hohen Frequenzen verschoben und mit schmaler Spitzenbandbreite (hoher Gütefaktor) gehalten werden
ASR-Leistung wird kaum von Mikrofoncharakteristiken beeinflusst
Entkopplung von Rausch und Fahrzeugtyp: Erstellung aller Kombinationen von Fahrzeugtypen und Fahrtgeräuschen zur effektiven Entkopplung von Einflussfaktoren
Untersuchung von Sprechercharakteristiken: Untersuchung der Wechselwirkung zwischen Sprechercharakteristiken wie Grundfrequenz und Mikrofoncharakteristiken
Diversifiziertes Filterdesign: Erkundung der Auswirkungen von Filtern unterschiedlicher Ordnung und unterschiedlicher Spitzenwertamplituden
Spezialisierte ASR-Engines: Bewertung der Leistung von automobilspezifischen ASR-Engines
Akustische Front-End-Verarbeitung: Umfassende Bewertung in Kombination mit kommerziellen akustischen Front-End-Verarbeitungssystemen
Begrenzte Stichprobenrepräsentativität: Repräsentativität von drei Fahrzeugtypen ist begrenzt, könnte die Universalität von Schlussfolgerungen beeinflussen
Einschränkungen bei ASR-Bewertung: Nur ein universelles ASR-Modell verwendet, könnte die Charakteristiken spezialisierter Automobil-ASR-Systeme nicht widerspiegeln
Einschränkung des Parameterraums: Obwohl Filterkombinationen häufige Fälle abdecken, gibt es noch Optimierungsspielraum
Fehlende subjektive Bewertung: Nur objektive Metriken verwendet, es fehlt die Validierung durch echte Benutzer
Vereinfachte Umweltfaktoren: Auswirkungen von Temperatur, Luftfeuchtigkeit und anderen Umweltfaktoren auf Mikrofonleistung nicht berücksichtigt
Diese Forschung zitiert mehrere wichtige internationale Standards und frühere Forschungsarbeiten, einschließlich ITU-T P.501, ETSI TS 103 281, ITU-P.1100 und anderer Standarddokumente sowie Pionierarbeiten von Du et al. zur Bewertung der Automikrofonleistung. Diese Referenzen bieten eine solide theoretische Grundlage und methodische Anleitung für diese Forschung.