2025-11-18T18:10:21.509375

Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing

Cheng, Lu, Yang et al.

Effectively distinguishing the pronunciation correlations between different written texts is a significant issue in linguistic acoustics. Traditionally, such pronunciation correlations are obtained through manually designed pronunciation lexicons. In this paper, we propose a data-driven method to automatically acquire these pronunciation correlations, called automatic text pronunciation correlation (ATPC). The supervision required for this method is consistent with the supervision needed for training end-to-end automatic speech recognition (E2E-ASR) systems, i.e., speech and corresponding text annotations. First, the iteratively-trained timestamp estimator (ITSE) algorithm is employed to align the speech with their corresponding annotated text symbols. Then, a speech encoder is used to convert the speech into speech embeddings. Finally, we compare the speech embeddings distances of different text symbols to obtain ATPC. Experimental results on Mandarin show that ATPC enhances E2E-ASR performance in contextual biasing and holds promise for dialects or languages lacking artificial pronunciation lexicons.

academic

स्वचालित पाठ उच्चारण सहसंबंध पीढ़ी और संदर्भात्मक पूर्वाग्रह के लिए अनुप्रयोग

मूल जानकारी

पेपर ID: 2501.00804
शीर्षक: Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing
लेखक: Gaofeng Cheng, Haitian Lu, Chengxu Yang, Xuyang Wang, Ta Li, Yonghong Yan
वर्गीकरण: eess.AS (ऑडियो और भाषण प्रसंस्करण), cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
प्रकाशन तिथि: 1 जनवरी 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2501.00804

सारांश

विभिन्न लिखित पाठों के बीच उच्चारण सहसंबंधों को प्रभावी ढंग से अलग करना भाषा ध्वनिकी में एक महत्वपूर्ण समस्या है। परंपरागत रूप से, ये उच्चारण सहसंबंध मानव-डिजाइन किए गए उच्चारण शब्दकोशों के माध्यम से प्राप्त किए जाते हैं। यह पेपर इन उच्चारण सहसंबंधों को स्वचालित रूप से प्राप्त करने के लिए एक डेटा-संचालित विधि प्रस्तावित करता है, जिसे स्वचालित पाठ उच्चारण सहसंबंध (ATPC) कहा जाता है। इस विधि के लिए आवश्यक पर्यवेक्षण अंत-से-अंत स्वचालित भाषण पहचान (E2E-ASR) प्रणाली को प्रशिक्षित करने के समान है, अर्थात् भाषण और संबंधित पाठ एनोटेशन। सबसे पहले, पुनरावृत्तिमूलक प्रशिक्षण टाइमस्टैम्प अनुमानक (ITSE) एल्गोरिथ्म का उपयोग करके भाषण को इसके संबंधित एनोटेटेड पाठ प्रतीकों के साथ संरेखित किया जाता है। फिर, भाषण एन्कोडर का उपयोग करके भाषण को भाषण एम्बेडिंग में परिवर्तित किया जाता है। अंत में, विभिन्न पाठ प्रतीकों के भाषण एम्बेडिंग दूरी की तुलना करके ATPC प्राप्त किया जाता है। चीनी पर प्रयोगात्मक परिणाम दर्शाते हैं कि ATPC संदर्भात्मक पूर्वाग्रह में E2E-ASR के प्रदर्शन को बढ़ाता है और उन बोलियों या भाषाओं के लिए आशा प्रदान करता है जिनमें मानव उच्चारण शब्दकोश नहीं हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह अनुसंधान जो मूल समस्या को हल करना चाहता है वह यह है कि पाठ प्रतीकों के बीच उच्चारण सहसंबंधों को स्वचालित रूप से कैसे प्राप्त किया जाए, जो भाषा ध्वनिकी में एक महत्वपूर्ण चुनौती है। परंपरागत विधियां इस सहसंबंध को स्थापित करने के लिए मानव-डिजाइन किए गए उच्चारण शब्दकोशों पर निर्भर करती हैं, लेकिन इस विधि की स्पष्ट सीमाएं हैं।

समस्या की महत्ता

उच्चारण सहसंबंध कई भाषा प्रसंस्करण कार्यों में महत्वपूर्ण भूमिका निभाते हैं:

स्वचालित भाषण पहचान (ASR): सटीक उच्चारण मॉडलिंग पहचान सटीकता के लिए महत्वपूर्ण है
पाठ-से-भाषण (TTS): प्राकृतिक भाषण उत्पन्न करने के लिए सटीक उच्चारण जानकारी की आवश्यकता है
संदर्भात्मक पूर्वाग्रह पहचान: विशिष्ट शब्दावली को संभालने के लिए उच्चारण सहसंबंधों की सूक्ष्म समझ की आवश्यकता है

मौजूदा विधियों की सीमाएं

मानव शब्दकोश पर निर्भरता: परंपरागत विधियों को बड़ी मात्रा में मानव-निर्मित उच्चारण शब्दकोशों की आवश्यकता है
भाषा विशिष्टता: प्रत्येक भाषा के लिए विशेष शब्दकोश डिजाइन की आवश्यकता है
श्रम-गहन: मानव निर्माण प्रक्रिया समय-सापेक्ष और संसाधन-गहन है
अपर्याप्त कवरेज: बोली भाषा रूपांतर और विशेषज्ञ शब्दावली को शामिल करना कठिन है

अनुसंधान प्रेरणा

E2E-ASR मॉडल भाषण-से-पाठ मॉडलिंग में महत्वपूर्ण प्रगति हासिल कर चुके हैं, लेकिन पाठ-से-पाठ उच्चारण सहसंबंधों को प्रभावी ढंग से मॉडल करने में अभी भी कमी है, विशेष रूप से संदर्भात्मक पूर्वाग्रह परिदृश्यों में जहां सूक्ष्म उच्चारण समझ की आवश्यकता है।

मूल योगदान

ATPC विधि का प्रस्ताव: पहली बार डेटा-संचालित स्वचालित पाठ उच्चारण सहसंबंध पीढ़ी विधि का प्रस्ताव, जिसमें मानव उच्चारण शब्दकोश की आवश्यकता नहीं है
एकीकृत पर्यवेक्षण ढांचा: E2E-ASR के समान पर्यवेक्षण संकेत (भाषण-पाठ जोड़े) का उपयोग, अतिरिक्त एनोटेशन लागत को कम करता है
तीन-चरणीय पीढ़ी प्रक्रिया: ATPC पीढ़ी पाइपलाइन का डिजाइन, जिसमें संरेखण, एम्बेडिंग निष्कर्षण और सहसंबंध गणना शामिल है
प्रायोगिक सत्यापन: चीनी डेटासेट पर संदर्भात्मक पूर्वाग्रह कार्य में ATPC की प्रभावशीलता का सत्यापन
ओपन-सोर्स संसाधन: चीनी ATPC मैट्रिक्स को सार्वजनिक संसाधन के रूप में प्रदान करता है

विधि विवरण

कार्य परिभाषा

इनपुट: भाषण संकेत और संबंधित पाठ एनोटेशन
आउटपुट: पाठ प्रतीकों के बीच उच्चारण सहसंबंध मैट्रिक्स
बाधाएं: अतिरिक्त उच्चारण शब्दकोश या विशेषज्ञ ज्ञान की आवश्यकता नहीं है

मॉडल आर्किटेक्चर

ATPC पीढ़ी में तीन मुख्य चरण शामिल हैं:

1. ITSE-आधारित पाठ-भाषण संरेखण

उद्देश्य: प्रत्येक वर्ण के सटीक प्रारंभ और समाप्ति टाइमस्टैम्प प्राप्त करना
विधि: पुनरावृत्तिमूलक प्रशिक्षण टाइमस्टैम्प अनुमानक (ITSE) एल्गोरिथ्म का उपयोग
लाभ:
- CTC की तुलना में सटीक प्रारंभ और समाप्ति टाइमस्टैम्प प्रदान करता है
- GMM-HMM के विपरीत उच्चारण शब्दकोश की आवश्यकता नहीं है
- E2E-ASR पर आधारित टोकन-स्तर संरेखण

2. भाषण एम्बेडिंग निष्कर्षण और विभाजन

एम्बेडिंग निष्कर्षण: बहुभाषी भाषण प्रतिनिधित्व मॉडल का उपयोग करके संपूर्ण वाक्य एम्बेडिंग निकालना
मॉडल चयन: XLSR-53 के विभिन्न परतों और IPA सूक्ष्म-ट्यून संस्करण का प्रयोग किया गया
विभाजन रणनीति: संरेखण परिणामों के अनुसार एम्बेडिंग को विभाजित करना, न कि ऑडियो विभाजन
आवृत्ति सेटिंग: 50Hz निष्कर्षण आवृत्ति (प्रत्येक 20ms में एक फ्रेम)

3. उच्चारण सहसंबंध गणना

दूरी मीट्रिक: गतिशील समय वारपिंग (DTW) एल्गोरिथ्म का उपयोग
एम्बेडिंग सेट निर्माण: प्रत्येक वर्ण के लिए E=100 एम्बेडिंग को यादृच्छिक रूप से चुना जाता है
फ़िल्टरिंग रणनीति: 3 से कम बार आने वाले वर्णों को हटाया जाता है
दूरी गणना:

Dist(cj, ck) = (1/(M×N)) × Σ(m=1 to M)Σ(n=1 to N) DTW(V^m_j, W^n_k)

जहां cj और ck क्रमशः j-वें और k-वें वर्ण को दर्शाते हैं, और M और N क्रमशः संबंधित वर्णों की एम्बेडिंग संख्या हैं।

तकनीकी नवाचार बिंदु

शब्दकोश-मुक्त संरेखण: ITSE एल्गोरिथ्म उच्चारण शब्दकोश के बिना सटीक संरेखण को लागू करता है
एम्बेडिंग विभाजन रणनीति: ऑडियो स्पेस के बजाय एम्बेडिंग स्पेस में विभाजन, संदर्भ जानकारी को संरक्षित करता है
DTW दूरी मीट्रिक: विभिन्न लंबाई की एम्बेडिंग के बीच दूरी गणना को प्रभावी ढंग से संभालता है
बहुभाषी पूर्व-प्रशिक्षण: बहुभाषी मॉडल की क्रॉस-भाषा प्रतिनिधित्व क्षमता का लाभ उठाता है

प्रयोगात्मक सेटअप

डेटासेट

BABEL उपसमुच्चय: भाषण प्रतिनिधित्व मॉडल को प्रशिक्षित करने के लिए
- 23 भाषाओं की बहुभाषी संवादी टेलीफोन भाषण कॉर्पस
- भाषाएं शामिल हैं: कैंटोनीज़, असमिया, बंगाली, पश्तो आदि
Aishell-2 प्रशिक्षण सेट: ITSE को प्रशिक्षित करने और ATPC उत्पन्न करने के लिए
- चीनी भाषण कॉर्पस
- क्रॉस-भाषा प्रदर्शन को सत्यापित करता है
Aishell-1 संदर्भात्मक पूर्वाग्रह डेटासेट: ATPC प्रभाव का मूल्यांकन करने के लिए
- विकास सेट: 1334 वाक्य, 600 हॉट शब्द
- परीक्षण सेट: 235 वाक्य, 161 हॉट शब्द

मूल्यांकन मेट्रिक्स

उच्चारण विभेदन क्षमता:
- समरूप शब्दों और गैर-समरूप शब्दों के बीच DTW दूरी
- सापेक्ष विचलन (Relative Disparity)
संदर्भात्मक पूर्वाग्रह प्रदर्शन:
- वर्ण त्रुटि दर (CER)
- पूर्वाग्रह वर्ण त्रुटि दर (B-CER)
- गैर-पूर्वाग्रह वर्ण त्रुटि दर (U-CER)
- हॉट शब्द रिकॉल/सटीकता/F1 स्कोर (R/P/F)

तुलना विधियां

उथली संलयन: WFST-आधारित संदर्भ डिकोडिंग ग्राफ विधि
गहरा पूर्वाग्रह: AED-CTC संरचना पर आधारित संदर्भ वाक्यांश भविष्यवाणी नेटवर्क (CPPN)
मानव शब्दकोश: हस्तनिर्मित उच्चारण शब्दकोश का उपयोग करने वाली विधि

कार्यान्वयन विवरण

बैकबोन मॉडल: XLSR-53, BABEL IPA पहचान कार्य पर सूक्ष्म-ट्यून किया गया
एम्बेडिंग परत चयन: 15वीं परत एम्बेडिंग सर्वश्रेष्ठ प्रदर्शन करती है
दूरी फ़ंक्शन: कोसाइन दूरी यूक्लिडियन दूरी से बेहतर है
थ्रेसहोल्ड सेटिंग: संदर्भात्मक पूर्वाग्रह थ्रेसहोल्ड 1.07 है
मैट्रिक्स आकार: 3711×3711 ATPC मैट्रिक्स

प्रयोगात्मक परिणाम

मुख्य परिणाम

उच्चारण विभेदन क्षमता मूल्यांकन

मॉडल	यूक्लिडियन दूरी	कोसाइन दूरी	सापेक्ष विचलन
XLSR-layer15	समरूप:105.67, गैर-समरूप:131.66	समरूप:0.183, गैर-समरूप:0.258	19.7% / 29.1%
IPA-layer15	समरूप:394.47, गैर-समरूप:499.87	समरूप:0.136, गैर-समरूप:0.191	21.1% / 28.8%

मुख्य निष्कर्ष:

IPA सूक्ष्म-ट्यून मॉडल XLSR-53 से उच्चारण विभेदन में लगातार बेहतर है
15वीं परत एम्बेडिंग अधिकांश मामलों में सर्वश्रेष्ठ प्रदर्शन करती है
कोसाइन दूरी यूक्लिडियन दूरी से लगातार बेहतर है

संदर्भात्मक पूर्वाग्रह प्रभाव

विधि	CER (U-CER/B-CER)	F1 स्कोर (रिकॉल/सटीकता)
आधारभूत	13.8 (7.3/41.8)	44 (28/99)
ATPC	12.0 (7.3/32.4)	68 (53/96)
C-g + ATPC	10.3 (7.7/21.5)	80 (70/94)
C-g + मानव शब्दकोश	8.9 (7.4/15.3)	86 (77/98)

प्रदर्शन सुधार:

आधारभूत की तुलना में, CER में 13.0% सापेक्ष कमी
B-CER में 22.5% सापेक्ष कमी
हॉट शब्द रिकॉल में 25% वृद्धि
F1 स्कोर में 24% वृद्धि

विलोपन प्रयोग

विभिन्न परत एम्बेडिंग की तुलना

प्रयोग से पता चलता है कि 15वीं परत एम्बेडिंग उच्चारण विभेदन कार्य में सर्वश्रेष्ठ प्रदर्शन करती है, यह संभवतः इसलिए है क्योंकि यह परत ध्वनिक विशेषताओं, भाषण विशेषताओं, शब्दावली पहचान और शब्दावली शब्दार्थ जानकारी के बीच सर्वश्रेष्ठ संतुलन प्राप्त करती है।

दूरी फ़ंक्शन की तुलना

कोसाइन दूरी सभी कॉन्फ़िगरेशन में यूक्लिडियन दूरी से बेहतर है, सापेक्ष विचलन में महत्वपूर्ण सुधार (जैसे IPA-layer15 में 21.1% से 28.8% तक)।

केस विश्लेषण

ATPC मैट्रिक्स दृश्य

दृश्य विश्लेषण के माध्यम से पाया गया:

समरूप शब्द "刮" (gua1) और "瓜" (gua1) के बीच DTW दूरी कम है
गैर-समरूप शब्द "爱" (ai4) और "途" (tu2) के बीच DTW दूरी अधिक है
मैट्रिक्स समग्र रूप से चीनी वर्णों के बीच उच्चारण सहसंबंधों को प्रतिबिंबित करता है

प्रयोगात्मक निष्कर्ष

क्रॉस-भाषा स्थानांतरण क्षमता: बहुभाषी डेटा पर पूर्व-प्रशिक्षित मॉडल चीनी में प्रभावी ढंग से स्थानांतरित हो सकते हैं
परत-स्तरीय प्रतिनिधित्व अंतर: विभिन्न परतें विभिन्न प्रकार की जानकारी को एन्कोड करती हैं, मध्य परतें उच्चारण मॉडलिंग के लिए अधिक उपयुक्त हैं
दूरी मीट्रिक महत्व: कोसाइन दूरी उच्चारण समानता को पकड़ने के लिए अधिक उपयुक्त है
व्यावहारिकता सत्यापन: ATPC एक प्लग-एंड-प्ले मॉड्यूल के रूप में ASR प्रदर्शन को प्रभावी ढंग से बढ़ा सकता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

विधि की प्रभावशीलता: ATPC ने मानव शब्दकोश के बिना उच्चारण सहसंबंधों की स्वचालित पीढ़ी को सफलतापूर्वक लागू किया है
प्रदर्शन सुधार: संदर्भात्मक पूर्वाग्रह कार्य में महत्वपूर्ण सुधार प्राप्त किए हैं
व्यावहारिक मूल्य: उच्चारण संसाधनों की कमी वाली भाषाओं/बोलियों के लिए समाधान प्रदान करता है
प्लग-एंड-प्ले: मॉड्यूल के रूप में मौजूदा ASR प्रणालियों में एकीकृत करना आसान है

सीमाएं

प्रदर्शन अंतर: मानव शब्दकोश की तुलना में अभी भी प्रदर्शन अंतर है
डेटा निर्भरता: सहसंबंध गुणवत्ता सुनिश्चित करने के लिए पर्याप्त प्रशिक्षण डेटा की आवश्यकता है
कम्प्यूटेशनल जटिलता: DTW गणना और बड़े पैमाने पर मैट्रिक्स भंडारण की ओवरहेड
भाषा विशिष्टता: मुख्य रूप से चीनी पर सत्यापित, अन्य भाषाओं में सामान्यीकरण क्षमता अभी तक सत्यापित नहीं है

भविष्य की दिशाएं

बहुभाषी विस्तार: अधिक भाषाओं और बोलियों पर ATPC उत्पन्न और लागू करना
OOV प्रसंस्करण: शब्दावली-बाहर वर्णों या शब्दों की चुनौतियों को संभालना
डेटा स्केल: ATPC की मजबूती को बढ़ाने के लिए बड़े डेटासेट का उपयोग करना
संसाधन मानकीकरण: ATPC को सार्वजनिक भाषण संसाधन के रूप में मानकीकरण और निरंतर अपडेट को आगे बढ़ाना

गहन मूल्यांकन

लाभ

मजबूत नवाचार: पहली बार पूरी तरह से डेटा-संचालित उच्चारण सहसंबंध पीढ़ी विधि का प्रस्ताव
उच्च व्यावहारिक मूल्य: संसाधन-दुर्लभ भाषाओं की वास्तविक समस्या को हल करता है
पूर्ण विधि: अंत-से-अंत समाधान प्रदान करता है
पर्याप्त प्रयोग: विधि की प्रभावशीलता को कई कोणों से सत्यापित करता है
ओपन-सोर्स योगदान: पुनरुत्पादनीय कार्यान्वयन और सार्वजनिक संसाधन प्रदान करता है

कमियां

सैद्धांतिक विश्लेषण अपर्याप्त: इस बात की गहन सैद्धांतिक व्याख्या का अभाव कि विधि प्रभावी क्यों है
मूल्यांकन सीमाएं: मुख्य रूप से चीनी पर मूल्यांकित, बहुभाषी सामान्यीकरण क्षमता पूरी तरह से सत्यापित नहीं है
कम्प्यूटेशनल दक्षता: DTW गणना की समय जटिलता अधिक है
त्रुटि विश्लेषण अनुपस्थित: विफलता के मामलों और त्रुटि पैटर्न का गहन विश्लेषण नहीं

प्रभाव

शैक्षणिक योगदान: उच्चारण मॉडलिंग क्षेत्र के लिए अनुसंधान की नई दिशा प्रदान करता है
व्यावहारिक अनुप्रयोग: संसाधन-दुर्लभ भाषाओं की ASR प्रणालियों के लिए महत्वपूर्ण मूल्य है
तकनीकी प्रचार: विधि सरल और कार्यान्वयन में आसान है, प्रचार के लिए अनुकूल है
संसाधन साझाकरण: ओपन-सोर्स ATPC मैट्रिक्स समुदाय के लिए मूल्यवान संसाधन प्रदान करता है

लागू परिदृश्य

संसाधन-दुर्लभ भाषाएं: उच्चारण शब्दकोश की कमी वाली भाषाएं या बोलियां
तीव्र तैनाती: ASR प्रणाली को तेजी से निर्माण करने की आवश्यकता वाले परिदृश्य
संदर्भात्मक पूर्वाग्रह: विशेषज्ञ शब्दावली या हॉट शब्दों को संभालने की आवश्यकता वाले अनुप्रयोग
बहुभाषी प्रणाली: एकीकृत बहुभाषी भाषण प्रसंस्करण प्रणाली का निर्माण

संदर्भ

पेपर ने 26 महत्वपूर्ण संदर्भों का हवाला दिया है, जिनमें शामिल हैं:

भाषण पहचान और TTS के शास्त्रीय कार्य
अंत-से-अंत ASR की नवीनतम प्रगति
संदर्भात्मक पूर्वाग्रह से संबंधित अनुसंधान
भाषण प्रतिनिधित्व सीखने के अग्रणी परिणाम
बहुभाषी भाषण प्रसंस्करण के महत्वपूर्ण योगदान

समग्र मूल्यांकन: यह एक महत्वपूर्ण व्यावहारिक मूल्य वाला अनुसंधान कार्य है, जो उच्चारण सहसंबंध मॉडलिंग की वास्तविक समस्या को हल करने के लिए एक नवीन डेटा-संचालित विधि प्रस्तावित करता है। हालांकि सैद्धांतिक गहराई और बहुभाषी सत्यापन में सुधार की गुंजाइश है, लेकिन इसकी विधि की सरलता और व्यावहारिकता इसे अच्छी अनुप्रयोग संभावनाएं प्रदान करती है।