Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing
Cheng, Lu, Yang et al.
Effectively distinguishing the pronunciation correlations between different written texts is a significant issue in linguistic acoustics. Traditionally, such pronunciation correlations are obtained through manually designed pronunciation lexicons. In this paper, we propose a data-driven method to automatically acquire these pronunciation correlations, called automatic text pronunciation correlation (ATPC). The supervision required for this method is consistent with the supervision needed for training end-to-end automatic speech recognition (E2E-ASR) systems, i.e., speech and corresponding text annotations. First, the iteratively-trained timestamp estimator (ITSE) algorithm is employed to align the speech with their corresponding annotated text symbols. Then, a speech encoder is used to convert the speech into speech embeddings. Finally, we compare the speech embeddings distances of different text symbols to obtain ATPC. Experimental results on Mandarin show that ATPC enhances E2E-ASR performance in contextual biasing and holds promise for dialects or languages lacking artificial pronunciation lexicons.
academic
স্বয়ংক্রিয় পাঠ্য উচ্চারণ সম্পর্ক প্রজন্ম এবং প্রসঙ্গগত পক্ষপাত প্রয়োগ
বিভিন্ন লিখিত পাঠ্যের মধ্যে উচ্চারণ সম্পর্ক কার্যকরভাবে পার্থক্য করা ভাষা শব্দবিজ্ঞানে একটি গুরুত্বপূর্ণ সমস্যা। ঐতিহ্যগতভাবে, এই উচ্চারণ সম্পর্কগুলি মানব-ডিজাইন করা উচ্চারণ অভিধান থেকে প্রাপ্ত হয়। এই পেপারটি এই উচ্চারণ সম্পর্কগুলি স্বয়ংক্রিয়ভাবে অর্জনের জন্য একটি ডেটা-চালিত পদ্ধতি প্রস্তাব করে, যাকে স্বয়ংক্রিয় পাঠ্য উচ্চারণ সম্পর্ক (ATPC) বলা হয়। এই পদ্ধতির জন্য প্রয়োজনীয় তত্ত্বাবধান শেষ-থেকে-শেষ স্বয়ংক্রিয় বক্তৃতা স্বীকৃতি (E2E-ASR) সিস্টেম প্রশিক্ষণের তত্ত্বাবধানের সাথে সামঞ্জস্যপূর্ণ, অর্থাৎ বক্তৃতা এবং সংশ্লিষ্ট পাঠ্য মন্তব্য। প্রথমত, পুনরাবৃত্তিমূলক প্রশিক্ষণ টাইমস্ট্যাম্প অনুমানকারী (ITSE) অ্যালগরিদম ব্যবহার করে বক্তৃতাকে তার সংশ্লিষ্ট মন্তব্য পাঠ্য প্রতীপের সাথে সারিবদ্ধ করা হয়। তারপর, বক্তৃতা এনকোডার ব্যবহার করে বক্তৃতাকে বক্তৃতা এমবেডিংয়ে রূপান্তরিত করা হয়। অবশেষে, বিভিন্ন পাঠ্য প্রতীপের বক্তৃতা এমবেডিং দূরত্ব তুলনা করে ATPC অর্জন করা হয়। চীনা ভাষায় পরীক্ষার ফলাফল দেখায় যে ATPC প্রসঙ্গগত পক্ষপাতে E2E-ASR এর কর্মক্ষমতা বৃদ্ধি করে এবং মানব উচ্চারণ অভিধানের অভাব রয়েছে এমন উপভাষা বা ভাষার জন্য আশা প্রদান করে।
এই গবেষণা যে মূল সমস্যা সমাধান করতে চায় তা হল পাঠ্য প্রতীপের মধ্যে উচ্চারণ সম্পর্ক স্বয়ংক্রিয়ভাবে কীভাবে অর্জন করা যায়, যা ভাষা শব্দবিজ্ঞানে একটি গুরুত্বপূর্ণ চ্যালেঞ্জ। ঐতিহ্যবাহী পদ্ধতি এই সম্পর্ক স্থাপনের জন্য মানব-ডিজাইন করা উচ্চারণ অভিধানের উপর নির্ভর করে, তবে এই পদ্ধতির স্পষ্ট সীমাবদ্ধতা রয়েছে।
যদিও E2E-ASR মডেল বক্তৃতা-থেকে-পাঠ্য মডেলিংয়ে উল্লেখযোগ্য অগ্রগতি অর্জন করেছে, তবে পাঠ্য-থেকে-পাঠ্য উচ্চারণ সম্পর্ক কার্যকরভাবে মডেল করার ক্ষেত্রে এখনও ঘাটতি রয়েছে, বিশেষত প্রসঙ্গগত পক্ষপাত পরিস্থিতিতে যেখানে সূক্ষ্ম উচ্চারণ বোঝা প্রয়োজন।
ATPC পদ্ধতি প্রস্তাব: প্রথমবারের মতো ডেটা-চালিত স্বয়ংক্রিয় পাঠ্য উচ্চারণ সম্পর্ক প্রজন্ম পদ্ধতি প্রস্তাব করা হয়েছে, যার জন্য মানব উচ্চারণ অভিধানের প্রয়োজন নেই
একীভূত তত্ত্বাবধান কাঠামো: E2E-ASR এর সমান তত্ত্বাবধান সংকেত (বক্তৃতা-পাঠ্য জোড়া) ব্যবহার করে, অতিরিক্ত মন্তব্য খরচ হ্রাস করে
তিন-পর্যায়ের প্রজন্ম প্রক্রিয়া: সম্পূর্ণ ATPC প্রজন্ম পাইপলাইন ডিজাইন করা হয়েছে, যার মধ্যে সারিবদ্ধকরণ, এমবেডিং নিষ্কাশন এবং সম্পর্ক গণনা রয়েছে
পরীক্ষামূলক যাচাইকরণ: চীনা ডেটাসেটে প্রসঙ্গগত পক্ষপাত কাজে ATPC এর কার্যকারিতা যাচাই করা হয়েছে
ওপেন-সোর্স সম্পদ: চীনা ATPC ম্যাট্রিক্স জনসাধারণের সম্পদ হিসাবে প্রদান করা হয়
ইনপুট: বক্তৃতা সংকেত এবং সংশ্লিষ্ট পাঠ্য মন্তব্য আউটপুট: পাঠ্য প্রতীপের মধ্যে উচ্চারণ সম্পর্ক ম্যাট্রিক্স সীমাবদ্ধতা: অতিরিক্ত উচ্চারণ অভিধান বা বিশেষজ্ঞ জ্ঞানের প্রয়োজন নেই
পরীক্ষা দেখায় যে ১৫তম স্তরের এমবেডিং উচ্চারণ পার্থক্য কাজে সর্বোত্তম কর্মক্ষমতা প্রদর্শন করে, এটি সম্ভবত কারণ এই স্তরটি শব্দ বৈশিষ্ট্য, বক্তৃতা বৈশিষ্ট্য, শব্দভাণ্ডার পরিচয় এবং শব্দভাণ্ডার অর্থের মধ্যে সর্বোত্তম ভারসাম্য অর্জন করে।
পেপারটি ২৬টি গুরুত্বপূর্ণ সংদর্ভ উদ্ধৃত করে, যার মধ্যে রয়েছে:
বক্তৃতা স্বীকৃতি এবং TTS এর ক্লাসিক কাজ
শেষ-থেকে-শেষ ASR এর সর্বশেষ অগ্রগতি
প্রসঙ্গগত পক্ষপাত সম্পর্কিত গবেষণা
বক্তৃতা প্রতিনিধিত্ব শেখার অগ্রগামী অর্জন
বহুভাষিক বক্তৃতা প্রক্রিয়াকরণের গুরুত্বপূর্ণ অবদান
সামগ্রিক মূল্যায়ন: এটি একটি গুরুত্বপূর্ণ ব্যবহারিক মূল্য সহ গবেষণা কাজ, যা উচ্চারণ সম্পর্ক মডেলিংয়ের বাস্তব সমস্যা সমাধানের জন্য একটি উদ্ভাবনী ডেটা-চালিত পদ্ধতি প্রস্তাব করে। যদিও তাত্ত্বিক গভীরতা এবং বহুভাষিক যাচাইকরণে উন্নতির অবকাশ রয়েছে, তবে এর পদ্ধতির সরলতা এবং ব্যবহারিকতা এটিকে ভাল প্রয়োগ সম্ভাবনা প্রদান করে।