Effects of automotive microphone frequency response characteristics and noise conditions on speech and ASR quality -- an experimental evaluation
Buccoli, Du, Soendergaard et al.
Upon choosing microphones for automotive hands-free communication or Automatic Speech Recognition (ASR) applications, OEMs typically specify wideband, super wideband or even fullband requirements following established standard recommendations (e.g., ITU-P.1110, ITU-P.1120). In practice, it is often challenging to achieve the preferred bandwidth for an automotive microphone when considering limitations and constraints on microphone placement inside the cabin, and the automotive grade environmental robustness requirements. On the other hand, there seems to be no consensus or sufficient data on the effect of each microphone characteristic on the actual performance. As an attempt to answer this question, we used noise signals recorded in real vehicles and under various driving conditions to experimentally study the relationship between the microphones' characteristics and the final audio quality of speech communication and performance of ASR engines. We focus on how variations in microphone bandwidth and amplitude frequency response shapes affect the perceptual speech quality. The speech quality results are compared by using ETSI TS 103 281 metrics (S-MOS, N-MOS, G-MOS) and ancillary metrics such as SNR. The ASR results are evaluated with standard metrics such as Word Error Rate (WER). Findings from this study provide knowledge in the understanding of what microphone frequency response characteristics are more relevant for audio quality and choice of proper microphone specifications, particularly for automotive applications.
academic
অটোমোটিভ মাইক্রোফোনের ফ্রিকোয়েন্সি রেসপন্স বৈশিষ্ট্য এবং শব্দ অবস্থার বক্তৃতা এবং ASR গুণমানের উপর প্রভাব -- একটি পরীক্ষামূলক মূল্যায়ন
এই গবেষণা অটোমোটিভ হ্যান্ডস-ফ্রি যোগাযোগ এবং স্বয়ংক্রিয় বক্তৃতা স্বীকৃতি (ASR) অ্যাপ্লিকেশনে মাইক্রোফোন নির্বাচনের গুরুত্বপূর্ণ সমস্যার সমাধান করে। এটি পরীক্ষামূলক পদ্ধতির মাধ্যমে মাইক্রোফোনের ফ্রিকোয়েন্সি রেসপন্স বৈশিষ্ট্য এবং বক্তৃতার গুণমান ও ASR কর্মক্ষমতার মধ্যে সম্পর্ক অধ্যয়ন করে। গবেষণায় প্রকৃত যানবাহন পরিবেশে রেকর্ড করা শব্দ সংকেত ব্যবহার করা হয়েছে, মাইক্রোফোন ব্যান্ডউইথ এবং প্রশস্ততা-ফ্রিকোয়েন্সি প্রতিক্রিয়া আকৃতির পরিবর্তনের উপলব্ধি বক্তৃতার গুণমানের উপর প্রভাব মূল্যায়ন করা হয়েছে। বক্তৃতার গুণমান মূল্যায়নে ETSI TS 103 281 মান অনুযায়ী S-MOS, N-MOS, G-MOS সূচক এবং SNR এর মতো সহায়ক সূচক ব্যবহার করা হয়েছে, যখন ASR কর্মক্ষমতা শব্দ ত্রুটির হার (WER) দ্বারা মূল্যায়ন করা হয়েছে। গবেষণার ফলাফল অডিও গুণমানের উপর মাইক্রোফোনের ফ্রিকোয়েন্সি রেসপন্স বৈশিষ্ট্যের প্রভাব বোঝার জন্য গুরুত্বপূর্ণ জ্ঞান প্রদান করে, বিশেষত অটোমোটিভ অ্যাপ্লিকেশনে মাইক্রোফোন স্পেসিফিকেশন নির্বাচনের জন্য নির্দেশনা প্রদান করে।
অটোমোটিভ OEM নির্মাতারা হ্যান্ডস-ফ্রি যোগাযোগ বা ASR অ্যাপ্লিকেশনের জন্য মাইক্রোফোন নির্বাচন করার সময়, সাধারণত ITU-P.1110, ITU-P.1120 এর মতো মান সুপারিশ অনুসরণ করে, যা প্রশস্ত-ব্যান্ড, অতি-প্রশস্ত-ব্যান্ড এবং এমনকি সম্পূর্ণ-ব্যান্ড স্পেসিফিকেশন প্রয়োজন। তবে বাস্তব প্রয়োগে, যানবাহনের অভ্যন্তরে মাইক্রোফোন ইনস্টলেশনের অবস্থানের সীমাবদ্ধতা এবং অটোমোটিভ-গ্রেড পরিবেশগত শক্তিশালীতার প্রয়োজনীয়তা বিবেচনা করে, আদর্শ ব্যান্ডউইথ স্পেসিফিকেশন অর্জন করা কঠিন।
বিদ্যমান সম্পর্কিত গবেষণা প্রধানত নির্দিষ্ট ধরনের অটোমোটিভ মাইক্রোফোনের উপর ভিত্তি করে, গবেষণার ক্ষেত্র এই মাইক্রোফোনগুলির অন্তর্নিহিত বৈশিষ্ট্যের মধ্যে সীমাবদ্ধ, মাইক্রোফোন বৈশিষ্ট্যের পরিবর্তনের বক্তৃতা এবং ASR গুণমানের উপর প্রভাবের সাধারণ প্রবণতা প্রদর্শন করতে পারেনি।
একটি সিস্টেমেটিক মূল্যায়ন কাঠামো প্রতিষ্ঠা: মাইক্রোফোনের ফ্রিকোয়েন্সি রেসপন্স বৈশিষ্ট্যের বক্তৃতার গুণমান এবং ASR কর্মক্ষমতার উপর প্রভাবের একটি পরীক্ষামূলক মূল্যায়ন প্ল্যাটফর্ম তৈরি করা
ব্যাপক বৈশিষ্ট্য বিশ্লেষণ: মাইক্রোফোন ব্যান্ডউইথ, ফ্রিকোয়েন্সি রেসপন্স শিখর ইত্যাদি বৈশিষ্ট্যের কর্মক্ষমতার উপর প্রভাব সিস্টেমেটিকভাবে অধ্যয়ন করা
বহুমাত্রিক মূল্যায়ন: মানব-থেকে-মানব (H2H) যোগাযোগের বক্তৃতার গুণমান এবং মানব-থেকে-মেশিন (H2M) মিথস্ক্রিয়ার ASR কর্মক্ষমতা উভয়ই মূল্যায়ন করা
বাস্তব পরিবেশ যাচাইকরণ: প্রকৃত যানবাহন পরিবেশে রেকর্ড করা শব্দ রেকর্ডিং ব্যবহার করে যাচাইকরণ করা
মানক মূল্যায়ন সূচক: ETSI মানের MOS স্কোর এবং মানক ASR মূল্যায়ন সূচক ব্যবহার করা
বিভিন্ন যানবাহন এবং শব্দ অবস্থার অধীনে মাইক্রোফোনের ফ্রিকোয়েন্সি রেসপন্স বৈশিষ্ট্য (ব্যান্ডউইথ, শিখর ফ্রিকোয়েন্সি, গুণমান ফ্যাক্টর) বক্তৃতার গুণমান (S-MOS, N-MOS) এবং ASR কর্মক্ষমতা (WER) এর উপর প্রভাব অধ্যয়ন করা।
নিম্ন কাটঅফ ফ্রিকোয়েন্সির প্রভাব: 20Hz এবং 100Hz কাটঅফ ফ্রিকোয়েন্সির S-MOS মান অনুরূপ, উভয়ই 350Hz এর চেয়ে বেশি
উচ্চ কাটঅফ ফ্রিকোয়েন্সির প্রভাব দুর্বল: একই নিম্ন কাটঅফ ফ্রিকোয়েন্সিতে, উচ্চ-প্রান্তের ব্যান্ডউইথ সীমাবদ্ধতা S-MOS এ খুব কম প্রভাব ফেলে
পরিসংখ্যানগত তাৎপর্য: নিম্ন কাটঅফ ফ্রিকোয়েন্সি পরিবর্তনের p মান 0 এর কাছাকাছি (F পরিসংখ্যান=1174), উচ্চ কাটঅফ ফ্রিকোয়েন্সির p মান 0.755 (F পরিসংখ্যান=0.47)
এই গবেষণা একাধিক গুরুত্বপূর্ণ আন্তর্জাতিক মান এবং পূর্ববর্তী গবেষণা কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে ITU-T P.501, ETSI TS 103 281, ITU-P.1100 এবং অন্যান্য মান নথি, এবং অটোমোটিভ মাইক্রোফোন কর্মক্ষমতা মূল্যায়নে Du এবং অন্যদের অগ্রগামী কাজ। এই সংদর্ভগুলি এই গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি এবং পদ্ধতিগত নির্দেশনা প্রদান করে।