2025-11-13T22:49:11.191086

Effects of automotive microphone frequency response characteristics and noise conditions on speech and ASR quality -- an experimental evaluation

Buccoli, Du, Soendergaard et al.
Upon choosing microphones for automotive hands-free communication or Automatic Speech Recognition (ASR) applications, OEMs typically specify wideband, super wideband or even fullband requirements following established standard recommendations (e.g., ITU-P.1110, ITU-P.1120). In practice, it is often challenging to achieve the preferred bandwidth for an automotive microphone when considering limitations and constraints on microphone placement inside the cabin, and the automotive grade environmental robustness requirements. On the other hand, there seems to be no consensus or sufficient data on the effect of each microphone characteristic on the actual performance. As an attempt to answer this question, we used noise signals recorded in real vehicles and under various driving conditions to experimentally study the relationship between the microphones' characteristics and the final audio quality of speech communication and performance of ASR engines. We focus on how variations in microphone bandwidth and amplitude frequency response shapes affect the perceptual speech quality. The speech quality results are compared by using ETSI TS 103 281 metrics (S-MOS, N-MOS, G-MOS) and ancillary metrics such as SNR. The ASR results are evaluated with standard metrics such as Word Error Rate (WER). Findings from this study provide knowledge in the understanding of what microphone frequency response characteristics are more relevant for audio quality and choice of proper microphone specifications, particularly for automotive applications.
academic

Auswirkungen der Frequenzgangcharakteristiken von Automikrofonen und Rauschbedingungen auf Sprach- und ASR-Qualität -- eine experimentelle Bewertung

Grundlegende Informationen

  • Papier-ID: 2510.09236
  • Titel: Effects of automotive microphone frequency response characteristics and noise conditions on speech and ASR quality -- an experimental evaluation
  • Autoren: Michele Buccoli, Yu Du, Jacob Soendergaard, Simone Shawn Cazzaniga
  • Klassifizierung: eess.AS (Elektrotechnik und Systemwissenschaften - Audio- und Sprachverarbeitung), cs.SD (Informatik - Sound)
  • Veröffentlichungszeit/Konferenz: AES 159. Konvention, 23.-25. Oktober, Long Beach, CA, USA (Express Paper)
  • Papierlink: https://arxiv.org/abs/2510.09236

Zusammenfassung

Diese Studie befasst sich mit der kritischen Frage der Mikrofonauswahl für freisprechende Kommunikation und automatische Spracherkennung (ASR) in Fahrzeugen. Durch experimentelle Methoden wird die Beziehung zwischen den Frequenzgangcharakteristiken des Mikrofons und der Sprachqualität sowie der ASR-Leistung untersucht. Die Studie nutzt Rauschsignale, die in echten Fahrzeugumgebungen aufgezeichnet wurden, um die Auswirkungen der Mikrofonbandbreite und Änderungen der Amplituden-Frequenzgangsform auf die wahrgenommene Sprachqualität zu bewerten. Die Sprachqualitätsbewertung verwendet die S-MOS-, N-MOS- und G-MOS-Metriken gemäß dem ETSI TS 103 281-Standard sowie Hilfsmetriken wie SNR. Die ASR-Leistung wird durch die Wortfehlerquote (WER) bewertet. Die Forschungsergebnisse liefern wichtige Erkenntnisse zum Verständnis der Auswirkungen von Mikrofonfrequenzgangcharakteristiken auf die Audioqualität und bieten insbesondere Orientierungshilfen für die Auswahl von Mikrofonspezifikationen in Fahrzeuganwendungen.

Forschungshintergrund und Motivation

Problemdefinition

Bei der Auswahl von Mikrofonen für freisprechende Kommunikation oder ASR-Anwendungen folgen Automobil-OEM-Hersteller typischerweise den Empfehlungen von Standards wie ITU-P.1110 und ITU-P.1120, die Breitband-, Ultrabreitband- oder sogar Vollbandspezifikationen erfordern. In der Praxis ist es jedoch schwierig, ideale Bandbreitespezifikationen zu erreichen, wenn man die Einschränkungen der Mikrofoninstallationspositionen im Fahrzeug und die strengen Anforderungen an die Umweltrobustheit berücksichtigt.

Bedeutung der Forschung

  1. Mangelnder Konsens: Die Industrie verfügt über unzureichende Daten und keinen Konsens über die Auswirkungen verschiedener Mikrofoncharakteristiken auf die tatsächliche Leistung
  2. Praktische Einschränkungen: Die Installationspositionen von Mikrofonen im Fahrzeug sind begrenzt und die Umweltanforderungen sind streng
  3. Leistungsoptimierung: Es ist notwendig zu verstehen, welche Mikrofoncharakteristiken für die Audioqualität und ASR-Leistung kritischer sind

Einschränkungen bestehender Forschung

Bestehende verwandte Forschungen basieren hauptsächlich auf spezifischen Typen von Automikrofonen, und der Forschungsraum ist auf die inhärenten Eigenschaften dieser Mikrofone beschränkt. Sie zeigen keine allgemeinen Trends der Auswirkungen von Mikrofoncharakteristikänderungen auf Sprach- und ASR-Qualität.

Kernbeiträge

  1. Etablierung eines systematischen Bewertungsrahmens: Aufbau einer experimentellen Bewertungsplattform für die Auswirkungen von Mikrofonfrequenzgangcharakteristiken auf Sprachqualität und ASR-Leistung
  2. Umfassende Charakterisierungsanalyse: Systematische Untersuchung der Auswirkungen von Mikrofonbandbreite, Frequenzgangspitzenwert und anderen Charakteristiken auf die Leistung
  3. Mehrdimensionale Bewertung: Gleichzeitige Bewertung der Sprachqualität für Mensch-zu-Mensch-Kommunikation (H2H) und der ASR-Leistung für Mensch-zu-Maschine-Interaktion (H2M)
  4. Validierung in echter Umgebung: Verwendung von Rauschaufzeichnungen aus echten Fahrzeugumgebungen zur Validierung
  5. Standardisierte Bewertungsmetriken: Verwendung von MOS-Bewertungen nach ETSI-Standard und standardisierten ASR-Bewertungsmetriken

Methodische Details

Aufgabendefinition

Untersuchung der Auswirkungen von Mikrofonfrequenzgangcharakteristiken (Bandbreite, Spitzenfrequenz, Gütefaktor) unter verschiedenen Fahrzeugtypen und Rauschbedingungen auf Sprachqualität (S-MOS, N-MOS) und ASR-Leistung (WER).

Experimentelle Designarchitektur

Signalerzeugungsmodell

Simulierte Aufnahmesignale werden durch die folgende Formel erzeugt:

x(n) = f(s(n) ⋆ h(n) + v(n))

Wobei:

  • s(n): Saubere Sprachsignale gemäß ITU-T P.501-Standard
  • h(n): Fahrzeugimpulsantwort
  • v(n): Echtes Fahrzeughintergrundgeräusch
  • f(·): Kaskadendigitalfilter zur Simulation von Mikrofonspektralcharakteristiken

Simulation von Mikrofoncharakteristiken

Verwendung von kaskadierten Biquad-Filtern mit bilinearer Transformation zur Simulation von Mikrofoncharakteristiken:

  1. Bandbreitendefinition:
    • Hochpassfilter (HP2): 20, 100, 350 Hz
    • Tiefpassfilter (LP2): 4k, 8k, 12k, 16k, 20k Hz
    • Gütefaktor: 0,707
  2. Resonanzspitzensimulation:
    • Peakingfilter (PK2): 4k, 6k, 8k, 13k, 16k Hz
    • Feste Amplitude: 20 dB
    • Gütefaktor: 1,414, 2, 4

Experimentelle Bedingungen

  • Fahrzeugtypen: Mittelklasse-Limousine, kompaktes SUV, kleines SUV
  • Rauschbedingungen: Leerlauf (niedriger Lüfter), Stadt (60 km/h mittlerer Lüfter), Autobahn (120 km/h niedriger Lüfter)
  • Mikrofonkonfigurationen: 113 praktische Konfigurationen aus 225 möglichen Kombinationen ausgewählt

Technische Innovationen

  1. Systematische parametrische Untersuchung: Erste systematische parametrische Untersuchung der Auswirkungen von Mikrofoncharakteristiken auf die Leistung in Fahrzeuganwendungen
  2. Echte Umgebungsdaten: Verwendung von Impulsantworten und Rauschaufzeichnungen aus echten Fahrzeugumgebungen
  3. Duales Bewertungssystem: Gleichzeitige Bewertung von Sprachqualität und ASR-Leistung für ein umfassendes Leistungsprofil
  4. Standardisierte Methoden: Strikte Einhaltung von ITU- und ETSI-Standards bei der Bewertung

Experimentelle Einrichtung

Datensatz

  • Sprachreize: 20 amerikanische Harvard-Sätze gemäß ETSI TS 103 281 Annex E
  • Sprecher: Mehrere männliche und weibliche Sprecher
  • Gesamtdauer: 80 Sekunden (4 Sekunden pro Satz, einschließlich 1 Sekunde Vorlauf und 1 Sekunde Nachlauf Stille)
  • Fahrzeugimpulsantwort: Aufgezeichnet mit HATS (Head and Torso Simulator) an der Fahrerposition
  • Hintergrundgeräusch: Aufgezeichnet gemäß ITU P.1100 Standard Annex D Richtlinien

Bewertungsmetriken

  1. Sprachqualitätsmetriken:
    • S-MOS: Bewertung der Sprachkomponentenqualität (1-5 Punkte)
    • N-MOS: Bewertung der Rauschkomponentenstörung (1-5 Punkte)
    • G-MOS: Gesamteindruck der Qualität
    • Höranstrengungsmetriken (ETSI TS 103 558)
    • A-bewertetes SNR
  2. ASR-Leistungsmetriken:
    • Wortfehlerquote (WER)
    • Bewertung mit Whisper-Tiny-Modell

Implementierungsdetails

  • Insgesamt 1017 Sprachdateien generiert (113 Mikrofonkonfigurationen × 3 Fahrzeugtypen × 3 Rauschtypen)
  • 20 Datenpunkte pro Szenario für statistische Analyse generiert
  • ANOVA-Test zur Bewertung der statistischen Signifikanz verwendet

Experimentelle Ergebnisse

Hauptergebnisse

1. Auswirkungen von Fahrzeugtyp und Rauschtyp

  • Rauschtyp hat signifikante Auswirkungen: S-MOS- und N-MOS-Werte sinken signifikant mit zunehmender Hintergrundgeräuschumgebung (p-Wert nahe 0)
  • Fahrzeugtyp hat begrenzte Auswirkungen: S-MOS-Werte zwischen verschiedenen Fahrzeugtypen sind sehr ähnlich, N-MOS zeigt gewisse Unterschiede, aber keinen klaren Trend
  • Kleines SUV zeigt schlechteste Leistung: Niedrigstes SNR unter Autobahnrauschbedingungen

2. Auswirkungen der Mikrofonbandbreite

  • Auswirkungen der unteren Grenzfrequenz: S-MOS-Werte bei 20 Hz und 100 Hz Grenzfrequenz sind ähnlich und beide höher als bei 350 Hz
  • Schwache Auswirkungen der oberen Grenzfrequenz: Bei gleicher unterer Grenzfrequenz hat die Begrenzung der oberen Bandbreite geringe Auswirkungen auf S-MOS
  • Statistische Signifikanz: p-Wert für Änderungen der unteren Grenzfrequenz nahe 0 (F-Statistik = 1174), p-Wert für obere Grenzfrequenz 0,755 (F-Statistik = 0,47)

3. Auswirkungen von Mikrofonfrequenzgangspitzenwerten

  • Auswirkungen der Spitzenfrequenz: Niedrigere Spitzenfrequenzen führen zu niedrigeren S-MOS-Werten
  • Optimale Spitzenposition: Resonanzspitzen sollten auf 10 kHz oder höher verschoben werden, um optimale Leistung zu erreichen
  • Auswirkungen des Gütefaktors: Höhere Gütefaktoren (schmalere Spitzenbandbreite) führen zu besserer S-MOS-Leistung

4. ASR-Leistungsergebnisse

  • Schwache Auswirkungen von Mikrofoncharakteristiken: Mikrofonfrequenzgangcharakteristiken haben keine signifikanten Auswirkungen auf ASR-Leistung
  • Rauschtyp ist dominierend: Rauschtyp ist der Hauptfaktor für die Beeinflussung der WER
  • Mögliche Gründe: ASR-Engine ist robust gegenüber Frequenzgangänderungen von Sprachsignalen, oder Testsprache könnte im Trainingssatz enthalten sein

Ablationsstudien

Untersuchung einzelner Faktoren durch Fixierung bestimmter Parameter:

  1. Reiner Bandbreiteneffekt: Ausschluss von Peakingfiltern, Untersuchung nur von HP2- und LP2-Kombinationen
  2. Peakingeffekt: Untersuchung von Spitzenfrequenz und Gütefaktor unter verschiedenen Bandbreiteneinstellungen
  3. Interaktionseffekte: Untersuchung der Synergieeffekte verschiedener Parameterkombinationen

Experimentelle Erkenntnisse

  1. Rauschpegel ist entscheidender Faktor: Hat die größten Auswirkungen auf Sprachqualität und ASR-Leistung
  2. Bandbreiteanforderungen können gelockert werden: Mikrofonbandbreite hat begrenzte Auswirkungen auf Sprachqualität
  3. Niederfrequenzantwort ist wichtig: Untere Grenzfrequenz sollte 100 Hz nicht überschreiten
  4. Hochfrequenzspitzenoptimierung: Unvermeidbare Resonanzspitzen sollten zu hohen Frequenzen verschoben und schmalbandig gehalten werden (hoher Gütefaktor)
  5. ASR-Robustheit: Moderne ASR-Engines zeigen gute Robustheit gegenüber Änderungen von Mikrofoncharakteristiken

Verwandte Arbeiten

Übersicht bestehender Forschung

  1. Du et al. (2019): Erste Untersuchung der Beziehung zwischen drei Automikrofonen und Benutzererfahrung, Verwendung von SII und subjektiven Hörtests
  2. Du (2023): Erweiterte Forschung mit objektiver und subjektiver Sprachklarheits- und Qualitätsbewertung
  3. Maver et al. (2024): Untersuchung der Leistung des akustischen Front-Ends bei vier verschiedenen Automikrofontypen und Installationspositionen

Vorteile dieses Papiers

  1. Systematische Parametrisierung: Nicht auf spezifische Mikrofontypen beschränkt, systematische Untersuchung von Parameteränderungseffekten
  2. Standardisierte Bewertung: Verwendung standardisierter Bewertungsmethoden nach ETSI und ITU
  3. Duale Perspektive: Gleichzeitige Berücksichtigung von H2H-Kommunikationsqualität und H2M-Interaktionsleistung
  4. Echte Umgebung: Verwendung echter Fahrzeugumgebungsdaten statt Simulation

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Rauschtyp und -pegel sind die relevantesten Faktoren für die Beeinflussung von Sprachqualität und Erkennung
  2. Mikrofonbandbreite hat geringe Auswirkungen auf Sprachqualität
  3. S-MOS-Leistung nimmt ab, wenn die untere Grenzfrequenz über 100 Hz liegt
  4. Mikrofonresonanzspitzen sollten so weit wie möglich zu hohen Frequenzen verschoben und mit schmaler Spitzenbandbreite (hoher Gütefaktor) gehalten werden
  5. ASR-Leistung wird kaum von Mikrofoncharakteristiken beeinflusst

Einschränkungen

  1. Begrenzte Fahrzeugstichprobe: Nur drei spezifische Fahrzeugtypen getestet
  2. Vereinfachtes Filterdesign: Nur Biquad-Filter zur Simulation von Mikrofoncharakteristiken verwendet
  3. Einzelne ASR-Engine: Nur ein universelles ASR-Modell (Whisper) verwendet
  4. Sprechercharakteristiken: Auswirkungen individueller Sprechercharakteristiken nicht tiefgehend untersucht
  5. Feste Spitzenwertamplitude: Peakingfilter-Amplitude auf 20 dB festgelegt

Zukünftige Richtungen

  1. Erweiterte Fahrzeugabdeckung: Einbeziehung weiterer Fahrzeugtypen zur Analyse objektiver Fahrzeugcharakteristiken (Größe, Klasse, RT60)
  2. Entkopplung von Rausch und Fahrzeugtyp: Erstellung aller Kombinationen von Fahrzeugtypen und Fahrtgeräuschen zur effektiven Entkopplung von Einflussfaktoren
  3. Untersuchung von Sprechercharakteristiken: Untersuchung der Wechselwirkung zwischen Sprechercharakteristiken wie Grundfrequenz und Mikrofoncharakteristiken
  4. Diversifiziertes Filterdesign: Erkundung der Auswirkungen von Filtern unterschiedlicher Ordnung und unterschiedlicher Spitzenwertamplituden
  5. Spezialisierte ASR-Engines: Bewertung der Leistung von automobilspezifischen ASR-Engines
  6. Akustische Front-End-Verarbeitung: Umfassende Bewertung in Kombination mit kommerziellen akustischen Front-End-Verarbeitungssystemen

Tiefgreifende Bewertung

Stärken

  1. Starke Methodische Innovation: Erste systematische parametrische Untersuchung der Auswirkungen von Automikrofoncharakteristiken, füllt Forschungslücke
  2. Strenge Experimentelle Gestaltung: Einhaltung internationaler Standards, Verwendung echter Umgebungsdaten, wissenschaftlich fundiertes Experimentaldesign
  3. Vollständiges Bewertungssystem: Gleichzeitige Berücksichtigung von Sprachqualität und ASR-Leistung, umfassendes Leistungsprofil
  4. Hoher praktischer Wert: Forschungsergebnisse leiten direkt die Mikrofonauswahl und Spezifikationsfestlegung in der Automobilindustrie
  5. Ausreichende statistische Analyse: Verwendung von ANOVA und anderen statistischen Methoden zur Validierung der Signifikanz von Ergebnissen

Mängel

  1. Begrenzte Stichprobenrepräsentativität: Repräsentativität von drei Fahrzeugtypen ist begrenzt, könnte die Universalität von Schlussfolgerungen beeinflussen
  2. Einschränkungen bei ASR-Bewertung: Nur ein universelles ASR-Modell verwendet, könnte die Charakteristiken spezialisierter Automobil-ASR-Systeme nicht widerspiegeln
  3. Einschränkung des Parameterraums: Obwohl Filterkombinationen häufige Fälle abdecken, gibt es noch Optimierungsspielraum
  4. Fehlende subjektive Bewertung: Nur objektive Metriken verwendet, es fehlt die Validierung durch echte Benutzer
  5. Vereinfachte Umweltfaktoren: Auswirkungen von Temperatur, Luftfeuchtigkeit und anderen Umweltfaktoren auf Mikrofonleistung nicht berücksichtigt

Einfluss

  1. Akademischer Beitrag: Liefert wichtige Grundlagenforschungsdaten und Methodenrahmen für das Automobilaudiotechnik-Feld
  2. Industrielle Anwendung: Leitet direkt die Mikrofonauswahlstrategie von Automobil-OEM-Herstellern, hat wichtigen kommerziellen Wert
  3. Standardfestlegung: Liefert experimentelle Grundlagen für die Überprüfung und Verbesserung relevanter internationaler Standards
  4. Technologieentwicklung: Fördert die Optimierung von Automobilaudiotechnik und ASR-Technologie in Fahrzeugumgebungen

Anwendungsszenarien

  1. Automobil-OEM-Hersteller: Mikrofonspezifikationsfestlegung und Lieferantenauswahl
  2. Mikrofonhersteller: Produktdesignoptimierung und Leistungsvalidierung
  3. ASR-Dienstanbieter: Optimierung von Fahrzeug-ASR-Systemen und Robustheitssteigerung
  4. Standardfestlegungsinstitutionen: Referenz für die Festlegung und Überprüfung relevanter Standards
  5. Akademische Forschung: Grundlage für nachfolgende Forschung in Automobil- und Sprachverarbeitungsbereichen

Literaturverzeichnis

Diese Forschung zitiert mehrere wichtige internationale Standards und frühere Forschungsarbeiten, einschließlich ITU-T P.501, ETSI TS 103 281, ITU-P.1100 und anderer Standarddokumente sowie Pionierarbeiten von Du et al. zur Bewertung der Automikrofonleistung. Diese Referenzen bieten eine solide theoretische Grundlage und methodische Anleitung für diese Forschung.