2025-11-13T22:49:11.191086

Effects of automotive microphone frequency response characteristics and noise conditions on speech and ASR quality -- an experimental evaluation

Buccoli, Du, Soendergaard et al.

Upon choosing microphones for automotive hands-free communication or Automatic Speech Recognition (ASR) applications, OEMs typically specify wideband, super wideband or even fullband requirements following established standard recommendations (e.g., ITU-P.1110, ITU-P.1120). In practice, it is often challenging to achieve the preferred bandwidth for an automotive microphone when considering limitations and constraints on microphone placement inside the cabin, and the automotive grade environmental robustness requirements. On the other hand, there seems to be no consensus or sufficient data on the effect of each microphone characteristic on the actual performance. As an attempt to answer this question, we used noise signals recorded in real vehicles and under various driving conditions to experimentally study the relationship between the microphones' characteristics and the final audio quality of speech communication and performance of ASR engines. We focus on how variations in microphone bandwidth and amplitude frequency response shapes affect the perceptual speech quality. The speech quality results are compared by using ETSI TS 103 281 metrics (S-MOS, N-MOS, G-MOS) and ancillary metrics such as SNR. The ASR results are evaluated with standard metrics such as Word Error Rate (WER). Findings from this study provide knowledge in the understanding of what microphone frequency response characteristics are more relevant for audio quality and choice of proper microphone specifications, particularly for automotive applications.

academic

تأثير خصائص استجابة التردد للميكروفون في السيارات وظروف الضوضاء على جودة الكلام والتعرف التلقائي على الكلام -- تقييم تجريبي

المعلومات الأساسية

معرّف الورقة البحثية: 2510.09236
العنوان: تأثير خصائص استجابة التردد للميكروفون في السيارات وظروف الضوضاء على جودة الكلام والتعرف التلقائي على الكلام -- تقييم تجريبي
المؤلفون: Michele Buccoli, Yu Du, Jacob Soendergaard, Simone Shawn Cazzaniga
التصنيفات: eess.AS (الهندسة الكهربائية وعلوم الأنظمة - معالجة الصوت والكلام)، cs.SD (علوم الحاسوب - الصوت)
وقت النشر/المؤتمر: المؤتمر الـ 159 لجمعية الهندسة الصوتية (AES)، 23-25 أكتوبر، لونج بيتش، كاليفورنيا، الولايات المتحدة (ورقة معبّرة)
رابط الورقة: https://arxiv.org/abs/2510.09236

الملخص

تتناول هذه الدراسة القضية الحرجة لاختيار الميكروفون في تطبيقات الاتصالات اليدوية الحرة والتعرف التلقائي على الكلام (ASR) في السيارات، من خلال دراسة تجريبية لتحليل العلاقة بين خصائص استجابة التردد للميكروفون وجودة الكلام وأداء التعرف التلقائي على الكلام. تستخدم الدراسة إشارات ضوضاء مسجلة في بيئات السيارات الحقيقية، وتقيّم تأثير عرض النطاق الترددي للميكروفون وتغييرات شكل استجابة السعة على جودة الكلام المدركة. يتم تقييم جودة الكلام باستخدام مؤشرات S-MOS و N-MOS و G-MOS وفقاً لمعيار ETSI TS 103 281، بالإضافة إلى مؤشرات مساعدة مثل نسبة الإشارة إلى الضوضاء (SNR)، بينما يتم تقييم أداء التعرف التلقائي على الكلام من خلال معدل خطأ الكلمات (WER). توفر نتائج البحث معرفة مهمة لفهم تأثير خصائص استجابة التردد للميكروفون على جودة الصوت، وتوفر بشكل خاص إرشادات لاختيار مواصفات الميكروفون في التطبيقات السيارة.

خلفية البحث والدافع

تعريف المشكلة

عند اختيار الميكروفونات لتطبيقات الاتصالات اليدوية الحرة أو التعرف التلقائي على الكلام، تتبع الشركات المصنعة للسيارات عادة التوصيات الواردة في المعايير مثل ITU-P.1110 و ITU-P.1120، التي تتطلب مواصفات نطاق عريض أو نطاق فائق العرض أو حتى نطاق كامل. ومع ذلك، في التطبيقات العملية، يصعب تحقيق مواصفات النطاق المثالية نظراً للقيود المفروضة على مواقع تثبيت الميكروفونات داخل السيارة ومتطلبات الثبات البيئي الصارمة على مستوى السيارات.

أهمية البحث

غياب الإجماع: يفتقر القطاع إلى إجماع وبيانات كافية حول تأثير خصائص الميكروفون المختلفة على الأداء الفعلي
القيود العملية: تكون مواقع تثبيت الميكروفونات داخل السيارة محدودة، والمتطلبات البيئية صارمة
تحسين الأداء: الحاجة إلى فهم خصائص الميكروفون الأكثر أهمية لجودة الصوت وأداء التعرف التلقائي على الكلام

حدود البحث الحالي

تركز الدراسات ذات الصلة الحالية بشكل أساسي على أنواع محددة من ميكروفونات السيارات، وتقتصر مساحة البحث على الخصائص الكامنة لهذه الميكروفونات، ولا تتمكن من إظهار الاتجاهات العامة لتأثير تغييرات خصائص الميكروفون على جودة الكلام والتعرف التلقائي على الكلام.

المساهمات الأساسية

إنشاء إطار عمل تقييم منهجي: بناء منصة تقييم تجريبية لدراسة تأثير خصائص استجابة التردد للميكروفون على جودة الكلام وأداء التعرف التلقائي على الكلام
تحليل شامل للخصائص: دراسة منهجية لتأثير عرض النطاق الترددي للميكروفون والقمم في استجابة التردد على الأداء
تقييم متعدد الأبعاد: تقييم متزامن لجودة الكلام في الاتصالات بين الإنسان والإنسان (H2H) وأداء التعرف التلقائي على الكلام في التفاعل بين الإنسان والآلة (H2M)
التحقق في البيئات الحقيقية: استخدام تسجيلات الضوضاء من السيارات الحقيقية للتحقق
مؤشرات التقييم المعيارية: استخدام درجات MOS وفقاً لمعيار ETSI ومؤشرات التقييم القياسية للتعرف التلقائي على الكلام

شرح الطريقة

تعريف المهمة

دراسة تأثير خصائص استجابة التردد للميكروفون (عرض النطاق الترددي، تردد القمة، معامل الجودة) في ظروف السيارات والضوضاء المختلفة على جودة الكلام (S-MOS و N-MOS) وأداء التعرف التلقائي على الكلام (WER).

معمارية تصميم التجربة

نموذج توليد الإشارة

يتم توليد إشارات التسجيل المحاكاة من خلال الصيغة التالية:

x(n) = f(s(n) ⋆ h(n) + v(n))

حيث:

s(n): إشارة كلام نظيفة وفقاً لمعيار ITU-T P.501
h(n): استجابة النبضة للمركبة
v(n): ضوضاء الخلفية الحقيقية للمركبة
f(·): سلسلة من مرشحات رقمية تحاكي الخصائص الطيفية للميكروفون

محاكاة خصائص الميكروفون

استخدام سلسلة من مرشحات التحويل الثنائي الخطي من الدرجة الثانية لمحاكاة خصائص الميكروفون:

تعريف عرض النطاق الترددي:
- مرشح تمرير عالي (HP2): 20، 100، 350 هرتز
- مرشح تمرير منخفض (LP2): 4k، 8k، 12k، 16k، 20k هرتز
- معامل الجودة Q: 0.707
محاكاة القمم الرنينية:
- مرشح القمة (PK2): 4k، 6k، 8k، 13k، 16k هرتز
- السعة الثابتة: 20 ديسيبل
- معامل الجودة Q: 1.414، 2، 4

ظروف التجربة

أنواع السيارات: سيارة سيدان متوسطة الحجم، سيارة دفع رباعي مدمجة، سيارة دفع رباعي صغيرة
ظروف الضوضاء: خمول (مروحة منخفضة)، حضر (60 كم/س مروحة متوسطة)، سرعة عالية (120 كم/س مروحة منخفضة)
تكوينات الميكروفون: اختيار 113 تكوين عملي من 225 مجموعة ممكنة

نقاط الابتكار التقني

دراسة معاملية منهجية: أول دراسة منهجية معاملية لتأثير خصائص الميكروفون على أداء التطبيقات السيارة
بيانات البيئة الحقيقية: استخدام استجابات النبضات والبيانات الضوضائية المسجلة من السيارات الحقيقية
نظام تقييم مزدوج: تقييم متزامن لجودة الكلام وأداء التعرف التلقائي على الكلام، مما يوفر صورة أداء شاملة
طريقة معيارية: الالتزام الصارم بمعايير ITU و ETSI في التقييم

إعداد التجربة

مجموعة البيانات

محفزات الكلام: 20 جملة إنجليزية أمريكية من نوع Harvard كما هو محدد في ETSI TS 103 281 Annex E
المتحدثون: عدة متحدثين ذكور وإناث مختلفين
المدة الإجمالية: 80 ثانية (4 ثوان لكل جملة، تتضمن 1 ثانية صمت افتتاحي و1 ثانية صمت ختامي)
استجابات النبضة للمركبة: مسجلة باستخدام محاكي الرأس والجسم (HATS) في موضع السائق
ضوضاء الخلفية: مسجلة وفقاً لإرشادات معيار ITU P.1100 Annex D

مؤشرات التقييم

مؤشرات جودة الكلام:
- S-MOS: تقييم جودة مكون الكلام (1-5 درجات)
- N-MOS: تقييم تأثير تداخل مكون الضوضاء (1-5 درجات)
- G-MOS: الانطباع الكلي عن الجودة
- مؤشر جهد الاستماع (ETSI TS 103 558)
- نسبة الإشارة إلى الضوضاء المرجحة بـ A
مؤشرات أداء التعرف التلقائي على الكلام:
- معدل خطأ الكلمات (WER)
- التقييم باستخدام نموذج Whisper tiny

تفاصيل التنفيذ

إجمالي 1017 ملف كلام تم توليده (113 تكوين ميكروفون × 3 أنواع سيارات × 3 أنواع ضوضاء)
توليد 20 نقطة بيانات لكل سيناريو لإجراء التحليل الإحصائي
استخدام اختبار ANOVA لتقييم الدلالة الإحصائية

نتائج التجربة

النتائج الرئيسية

1. تأثير نوع السيارة وظروف الضوضاء

تأثير نوع الضوضاء كبير: مع زيادة مستوى الضوضاء في الخلفية، تنخفض قيم S-MOS و N-MOS بشكل كبير (قيم p قريبة من الصفر)
تأثير نوع السيارة محدود: قيم S-MOS بين أنواع السيارات المختلفة متقاربة جداً، مع وجود بعض الاختلافات في N-MOS لكن بدون اتجاه واضح
أسوأ أداء للسيارات الصغيرة: أقل نسبة إشارة إلى ضوضاء في ظروف الضوضاء عالية السرعة

2. تأثير عرض النطاق الترددي للميكروفون

تأثير التردد المنخفض: قيم S-MOS عند ترددات قطع 20 هرتز و100 هرتز متشابهة، وكلاهما أعلى من حالة 350 هرتز
تأثير التردد العالي ضعيف: عند نفس التردد المنخفض، تقييد النطاق العالي له تأثير ضئيل جداً على S-MOS
الدلالة الإحصائية: قيمة p لتغيير التردد المنخفض قريبة من الصفر (إحصائية F = 1174)، وقيمة p للتردد العالي 0.755 (إحصائية F = 0.47)

3. تأثير قمم استجابة التردد للميكروفون

تأثير تردد القمة: ترددات قمة أقل تؤدي إلى قيم S-MOS أقل
موقع القمة الأمثل: يجب دفع القمم الرنينية إلى ما فوق 10 كيلوهرتز للحصول على أفضل أداء
تأثير معامل الجودة: معامل جودة أعلى (عرض قمة أضيق) يؤدي إلى أداء S-MOS أفضل

4. نتائج أداء التعرف التلقائي على الكلام

تأثير خصائص الميكروفون ضعيف: خصائص استجابة التردد للميكروفون ليس لها تأثير كبير على أداء التعرف التلقائي على الكلام
نوع الضوضاء هو العامل الحاكم: نوع الضوضاء هو العامل الرئيسي المؤثر على معدل خطأ الكلمات
الأسباب المحتملة: محرك التعرف التلقائي على الكلام قد يكون قوياً ضد تغييرات استجابة التردد للميكروفون، أو قد تكون بيانات الكلام الاختبار موجودة في مجموعة التدريب

التجارب الاستئصالية

دراسة تأثير عامل واحد من خلال تثبيت معاملات معينة:

تأثير النطاق النقي: استبعاد مرشحات القمة، دراسة مجموعات HP2 و LP2 فقط
تأثير القمة: دراسة تأثير تردد القمة ومعامل الجودة تحت إعدادات نطاق مختلفة
التأثيرات التفاعلية: دراسة التأثيرات التآزرية لمجموعات معاملات مختلفة

النتائج المكتشفة

مستوى الضوضاء هو العامل الحاسم: له التأثير الأكبر على جودة الكلام وأداء التعرف التلقائي على الكلام
يمكن تخفيف متطلبات عرض النطاق الترددي: تأثير عرض النطاق الترددي للميكروفون على جودة الكلام محدود
استجابة التردد المنخفض مهمة: لا يجب أن يتجاوز التردد المنخفض 100 هرتز
تحسين القمة عالية التردد: يجب دفع القمم الرنينية التي لا يمكن تجنبها إلى ترددات عالية مع الحفاظ على عرض ضيق
قوة التعرف التلقائي على الكلام: محركات التعرف التلقائي على الكلام الحديثة لديها قوة جيدة ضد تغييرات خصائص الميكروفون

الأعمال ذات الصلة

نظرة عامة على البحث الحالي

Du وآخرون (2019): أول دراسة تبحث الارتباط بين ثلاثة أنواع من ميكروفونات السيارات وتجربة المستخدم، باستخدام مؤشر الوضوح (SII) والاختبارات السمعية الذاتية
Du (2023): توسيع البحث ليشمل تقييمات وضوح الكلام والجودة الموضوعية والذاتية
Maver وآخرون (2024): دراسة أداء الواجهة الصوتية الأمامية في أربعة أنواع مختلفة من ميكروفونات السيارات ومواقع التثبيت

مزايا هذه الورقة

معاملية منهجية: لا تقتصر على أنواع ميكروفونات محددة، دراسة منهجية لتأثير تغييرات المعاملات
تقييم معياري: استخدام طرق التقييم المعيارية من ETSI و ITU
منظور مزدوج: النظر المتزامن في جودة الاتصالات H2H وأداء التفاعل H2M
بيئة حقيقية: استخدام بيانات من السيارات الحقيقية بدلاً من المحاكاة

الاستنتاجات والمناقشة

الاستنتاجات الرئيسية

نوع الضوضاء ومستواها هما العاملان الأكثر صلة بتأثير جودة الكلام والتعرف
عرض النطاق الترددي للميكروفون له تأثير ضئيل على جودة الكلام
عندما يكون التردد المنخفض أعلى من 100 هرتز، ينخفض أداء S-MOS
يجب دفع القمم الرنينية للميكروفون إلى أعلى تردد ممكن مع الحفاظ على عرض قمة ضيق (معامل جودة عالي)
أداء التعرف التلقائي على الكلام لا تتأثر تقريباً بعوامل الميكروفون

القيود

عينة محدودة من أنواع السيارات: اختبار ثلاثة أنواع سيارات محددة فقط
تصميم مرشح مبسط: استخدام مرشحات من الدرجة الثانية فقط لمحاكاة خصائص الميكروفون
محرك تعرف تلقائي واحد على الكلام: استخدام محرك Whisper واحد فقط
خصائص المتحدث: عدم البحث العميق في تأثير خصائص المتحدث الفردية
سعة القمة الثابتة: تم تثبيت سعة مرشح القمة عند 20 ديسيبل

الاتجاهات المستقبلية

توسيع نطاق أنواع السيارات: تضمين المزيد من أنواع السيارات لتحليل تأثير الخصائص الموضوعية للمركبة (الحجم والفئة و RT60)
فصل الضوضاء ونوع السيارة: إنشاء مجموعات من جميع أنواع السيارات وضوضاء القيادة لفصل العوامل بشكل فعال
دراسة خصائص المتحدث: دراسة التفاعل بين خصائص المتحدث مثل تردد الطبقة وخصائص الميكروفون
تنويع تصميم المرشح: استكشاف تأثير مرشحات بدرجات مختلفة وسعات قمة مختلفة
محركات تعرف تلقائي متخصصة على الكلام: تقييم أداء محركات التعرف التلقائي على الكلام المتخصصة في السيارات
معالجة الواجهة الصوتية الأمامية: التقييم الشامل مع دمج أنظمة معالجة الواجهة الصوتية الأمامية التجارية

التقييم المتعمق

المزايا

ابتكار الطريقة قوي: أول دراسة منهجية معاملية لتأثير خصائص ميكروفونات السيارات، تملأ فجوة بحثية
تصميم تجريبي صارم: الالتزام بالمعايير الدولية، استخدام بيانات البيئة الحقيقية، تصميم تجريبي علمي معقول
نظام تقييم شامل: النظر المتزامن في جودة الكلام وأداء التعرف التلقائي على الكلام، توفير صورة أداء شاملة
قيمة عملية عالية: النتائج توجه مباشرة اختيار الميكروفون وتحديد المواصفات في صناعة السيارات
تحليل إحصائي كافٍ: استخدام طرق إحصائية مثل ANOVA للتحقق من دلالة النتائج

أوجه القصور

تمثيل العينة: التمثيل المحدود لثلاثة أنواع سيارات قد يؤثر على عمومية الاستنتاجات
قيود التقييم ASR: استخدام محرك تعرف تلقائي واحد على الكلام فقط، قد لا يعكس خصائص أنظمة التعرف التلقائي على الكلام المتخصصة في السيارات
قيود مساحة المعاملات: مجموعات معاملات المرشح تغطي الحالات الشائعة، لكن لا تزال هناك مساحة للتحسين
غياب التقييم الذاتي: استخدام مؤشرات موضوعية فقط، افتقار التحقق من التقييم الذاتي للمستخدمين الحقيقيين
تبسيط العوامل البيئية: عدم الأخذ في الاعتبار تأثير عوامل مثل درجة الحرارة والرطوبة على أداء الميكروفون

التأثير

المساهمة الأكاديمية: توفير بيانات بحثية أساسية مهمة وإطار عمل منهجي لمجال الصوت في السيارات
التطبيق الصناعي: توجيه مباشر لاستراتيجية اختيار الميكروفون لشركات تصنيع السيارات، بقيمة تجارية مهمة
وضع المعايير: توفير أدلة تجريبية لمراجعة وتحسين المعايير الدولية ذات الصلة
تطور التكنولوجيا: تعزيز تحسين تكنولوجيا الصوت في السيارات وتكنولوجيا التعرف التلقائي على الكلام في بيئة السيارات

السيناريوهات المعمول بها

شركات تصنيع السيارات الأصلية: تحديد مواصفات الميكروفون واختيار الموردين
مصنعو الميكروفونات: تحسين تصميم المنتج والتحقق من الأداء
مزودو خدمات التعرف التلقائي على الكلام: تحسين أنظمة التعرف التلقائي على الكلام في السيارات وتعزيز القوة
مؤسسات وضع المعايير: مرجع لوضع وتعديل المعايير ذات الصلة
البحث الأكاديمي: الأساس لأبحاث لاحقة في مجالات الصوت في السيارات ومعالجة الكلام

المراجع

تستشهد هذه الدراسة بعدة معايير دولية مهمة وأعمال بحثية سابقة، بما في ذلك وثائق المعايير ITU-T P.501 و ETSI TS 103 281 و ITU-P.1100، وكذلك الأعمال الرائدة لـ Du وآخرين في تقييم أداء ميكروفونات السيارات. توفر هذه المراجع أساساً نظرياً قوياً وتوجيهاً منهجياً لهذه الدراسة.