Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing
Cheng, Lu, Yang et al.
Effectively distinguishing the pronunciation correlations between different written texts is a significant issue in linguistic acoustics. Traditionally, such pronunciation correlations are obtained through manually designed pronunciation lexicons. In this paper, we propose a data-driven method to automatically acquire these pronunciation correlations, called automatic text pronunciation correlation (ATPC). The supervision required for this method is consistent with the supervision needed for training end-to-end automatic speech recognition (E2E-ASR) systems, i.e., speech and corresponding text annotations. First, the iteratively-trained timestamp estimator (ITSE) algorithm is employed to align the speech with their corresponding annotated text symbols. Then, a speech encoder is used to convert the speech into speech embeddings. Finally, we compare the speech embeddings distances of different text symbols to obtain ATPC. Experimental results on Mandarin show that ATPC enhances E2E-ASR performance in contextual biasing and holds promise for dialects or languages lacking artificial pronunciation lexicons.
يعتبر التمييز الفعال بين الارتباطات النطقية المختلفة للنصوص المكتوبة مسألة مهمة في الصوتيات اللغوية. تقليديًا، يتم الحصول على هذه الارتباطات النطقية من خلال قواميس النطق المصممة يدويًا. تقترح هذه الورقة منهجًا يعتمد على البيانات للحصول تلقائيًا على هذه الارتباطات النطقية، يُسمى الارتباط النطقي النصي التلقائي (ATPC). يتطلب هذا المنهج إشرافًا مماثلًا لتدريب أنظمة التعرف التلقائي على الكلام من طرف إلى طرف (E2E-ASR)، أي الكلام والنصوص المقابلة المُشروحة. أولاً، يتم استخدام خوارزمية مُقدّر الطابع الزمني للتدريب التكراري (ITSE) لمحاذاة الكلام مع رموز النص المُشروح المقابلة. بعد ذلك، يتم استخدام مشفّر الكلام لتحويل الكلام إلى تضمينات صوتية. أخيرًا، يتم الحصول على ATPC من خلال مقارنة مسافات التضمينات الصوتية لرموز نصية مختلفة. تُظهر نتائج التجارب على اللغة الصينية أن ATPC يعزز أداء E2E-ASR في الانحياز السياقي، ويوفر آمالاً للهجات أو اللغات التي تفتقر إلى قواميس النطق اليدوية.
تتمثل المشكلة الأساسية التي يسعى هذا البحث إلى حلها في كيفية الحصول تلقائيًا على الارتباطات النطقية بين رموز النص، وهي تحدٍ مهم في الصوتيات اللغوية. تعتمد الطرق التقليدية على قواميس النطق المصممة يدويًا لإنشاء هذه الارتباطات، لكن هذا النهج له قيود واضحة.
على الرغم من أن نماذج E2E-ASR حققت تقدمًا كبيرًا في نمذجة الكلام إلى النص، إلا أنها لا تزال تفتقر إلى النمذجة الفعالة للارتباطات النطقية من النص إلى النص، خاصة في سيناريوهات الانحياز السياقي التي تتطلب فهمًا نطقيًا دقيقًا.
تُظهر التجارب أن التضمينات من الطبقة 15 تحقق أفضل أداء في مهام التمييز النطقي، وقد يكون ذلك لأن هذه الطبقة تحقق أفضل توازن بين الميزات الصوتية والميزات الكلامية وهوية الكلمات والمعلومات الدلالية للكلمات.
التقييم الشامل: هذا عمل بحثي ذو قيمة عملية مهمة، يقترح طريقة مبتكرة تعتمد على البيانات لحل المشكلة العملية لنمذجة الارتباطات النطقية. على الرغم من وجود مجال للتحسن في العمق النظري والتحقق متعدد اللغات، فإن بساطة الطريقة وجدواها العملية تمنحها آفاقًا تطبيقية جيدة.