CTC compressor can be an effective approach to integrate audio encoders to decoder-only models, which has gained growing interest for different speech applications. In this work, we propose a novel CTC compressor based joint speech and text training (CJST) framework for decoder-only ASR. CJST matches speech and text modalities from both directions by exploring a simple modality adaptor and several features of the CTC compressor, including sequence compression, on-the-fly forced peaky alignment and CTC class embeddings. Experimental results on the Librispeech and TED-LIUM2 corpora show that the proposed CJST achieves an effective text injection without the need of duration handling, leading to the best performance for both in-domain and cross-domain scenarios. We also provide a comprehensive study on CTC compressor, covering various compression modes, edge case handling and behavior under both clean and noisy data conditions, which reveals the most robust setting to use CTC compressor for decoder-only models.
- पेपर ID: 2411.07607
- शीर्षक: CJST: CTC कम्प्रेसर आधारित संयुक्त भाषण और पाठ प्रशिक्षण डिकोडर-केवल ASR के लिए
- लेखक: Wei Zhou, Junteng Jia, Leda Sari, Jay Mahadeokar, Ozlem Kalinli (Meta AI)
- वर्गीकरण: eess.AS cs.LG cs.SD
- प्रकाशन समय: नवंबर 2024 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2411.07607
CTC कम्प्रेसर विभिन्न भाषण अनुप्रयोगों में ऑडियो एनकोडर को डिकोडर-केवल मॉडल में एकीकृत करने का एक प्रभावी तरीका साबित हुआ है। यह पेपर डिकोडर-केवल ASR के लिए CTC कम्प्रेसर आधारित भाषण-पाठ संयुक्त प्रशिक्षण (CJST) का एक नया ढांचा प्रस्तावित करता है। CJST सरल मोडैलिटी अडैप्टर और CTC कम्प्रेसर की कई विशेषताओं (अनुक्रम संपीड़न, ऑनलाइन बाध्य शिखर संरेखण और CTC वर्ग एम्बेडिंग सहित) का अन्वेषण करके दोनों दिशाओं से भाषण और पाठ मोडैलिटी को मिलाता है। Librispeech और TED-LIUM2 कॉर्पस पर प्रयोगात्मक परिणाम दर्शाते हैं कि प्रस्तावित CJST अवधि प्रसंस्करण की आवश्यकता के बिना प्रभावी पाठ इंजेक्शन प्राप्त करता है, डोमेन-भीतर और क्रॉस-डोमेन दोनों परिदृश्यों में सर्वोत्तम प्रदर्शन प्राप्त करता है।
बड़े भाषा मॉडल (LLM) की विशाल सफलता के साथ, डिकोडर-केवल आर्किटेक्चर विभिन्न भाषण अनुप्रयोगों में व्यापक रूप से लागू किए जाते हैं। हालांकि, भाषण जानकारी को डिकोडर-केवल मॉडल में प्रभावी ढंग से कैसे एकीकृत किया जाए, और ASR प्रदर्शन को बढ़ाने के लिए भाषण-पाठ संयुक्त प्रशिक्षण कैसे किया जाए, यह अभी भी एक चुनौतीपूर्ण समस्या है।
- एकीकरण चुनौती: निरंतर ध्वनिक एम्बेडिंग को डिकोडर-केवल मॉडल में प्रभावी ढंग से एकीकृत करने के लिए उपयुक्त अडैप्टर विधि की आवश्यकता है
- मोडैलिटी मिलान: भाषण और पाठ मोडैलिटी अनुक्रम लंबाई और प्रतिनिधित्व स्थान में महत्वपूर्ण अंतर दिखाते हैं, प्रभावी संरेखण तंत्र की आवश्यकता है
- पाठ इंजेक्शन: उत्पादन-स्तरीय ASR मॉडल में, बाहरी भाषा मॉडल का उपयोग किए बिना पाठ डेटा का प्रभावी ढंग से उपयोग कैसे किया जाए
- सरल अडैप्टर: पारंपरिक समय-कमी परत + रैखिक प्रक्षेपण विधि में सामग्री-जागरूक संपीड़न क्षमता का अभाव है
- RNN-T विधि: मौजूदा संयुक्त प्रशिक्षण विधियां मुख्य रूप से RNN-T मॉडल के लिए हैं, जिन्हें जटिल अवधि प्रसंस्करण की आवश्यकता है
- CTC कम्प्रेसर संवेदनशीलता: मौजूदा CTC कम्प्रेसर विधियां शोर डेटा पर अस्थिर प्रदर्शन करती हैं
- CJST ढांचा प्रस्तावित करें: CTC कम्प्रेसर आधारित नई भाषण-पाठ संयुक्त प्रशिक्षण ढांचा, द्विदिश मोडैलिटी मिलान को लागू करता है
- CTC कम्प्रेसर का विस्तार: CTC कम्प्रेसर के विभिन्न संपीड़न मोड, सीमावर्ती मामलों के प्रबंधन और स्वच्छ/शोर डेटा पर व्यवहार का व्यापक अध्ययन
- अवधि प्रसंस्करण की आवश्यकता नहीं: ऑनलाइन बाध्य शिखर संरेखण और CTC वर्ग एम्बेडिंग के माध्यम से प्रभावी पाठ इंजेक्शन, जटिल अवधि मॉडलिंग की आवश्यकता नहीं
- प्रदर्शन में सुधार: डोमेन-भीतर और क्रॉस-डोमेन दोनों परिदृश्यों में सर्वोत्तम प्रदर्शन, आधारभूत की तुलना में लगभग 6% सापेक्ष सुधार
यह पेपर डिकोडर-केवल आर्किटेक्चर के लिए स्वचालित भाषण पहचान कार्य का अध्ययन करता है, जहां इनपुट भाषण विशेषता अनुक्रम है और आउटपुट संबंधित पाठ प्रतिलेखन है। साथ ही, युग्मित भाषण-पाठ डेटा और शुद्ध पाठ डेटा का उपयोग करके संयुक्त प्रशिक्षण पर विचार किया जाता है।
पेपर चार CTC कम्प्रेसर संपीड़न मोड का अध्ययन करता है:
- रिक्त भविष्यवाणी हटाना: लालची CTC भविष्यवाणी के आधार पर, सभी रिक्त फ्रेम हटाएं
- समान भविष्यवाणी औसत: समान भविष्यवाणी के आसन्न फ्रेम को औसत करें
- रिक्त संभावना हटाना: रिक्त संभावना पूर्वनिर्धारित सीमा से अधिक सभी फ्रेम हटाएं
- संयुक्त मोड: पहले रिक्त संभावना हटाना लागू करें, फिर समान भविष्यवाणी औसत लागू करें
CTC कम्प्रेसर द्वारा खाली आउटपुट उत्पन्न करने की समस्या के समाधान के लिए, दो समाधान प्रस्तावित किए गए हैं:
- खाली छोड़ें: प्रशिक्षण में इन उच्चारणों को छोड़ें, अनुमान समय पर सीधे EOS आउटपुट करें
- खाली फॉलबैक: सभी एनकोडर आउटपुट को एकल फ्रेम में औसत करें, फिर सामान्य प्रशिक्षण और अनुमान करें
CTC वर्ग एम्बेडिंग और पाठ एम्बेडिंग के साझाकरण तंत्र का अन्वेषण करें, CTC उद्देश्य फ़ंक्शन के माध्यम से ऑडियो एनकोडर आउटपुट को पाठ एम्बेडिंग के करीब लाएं।
युग्मित भाषण-पाठ डेटा के लिए:
- नियमित ASR प्रशिक्षण के लिए मॉडल फॉरवर्ड पास के माध्यम से
- संपीड़ित ध्वनिक एम्बेडिंग h' और CTC संभावना का उपयोग करके बाध्य शिखर संरेखण
- MSE हानि के माध्यम से मोडैलिटी अडैप्टर को प्रशिक्षित करें, h' को छद्म ध्वनिक एम्बेडिंग h'_text के साथ संरेखित करें
शुद्ध पाठ डेटा के लिए:
- रिकॉर्ड की गई लंबाई अनुपात R_len(h', y) के आधार पर यादृच्छिक रूप से रिक्त प्रतीक सम्मिलित करें
- CTC एम्बेडिंग और मोडैलिटी अडैप्टर के माध्यम से छद्म ध्वनिक संकेत h'_text उत्पन्न करें
- ASR उद्देश्य फ़ंक्शन का उपयोग करके डिकोडर मॉडल को प्रशिक्षित करें
- सीखने की कठिनाई बनाए रखने के लिए h'_text पर 20% यादृच्छिक मास्किंग लागू करें
मोडैलिटी अडैप्टर के रूप में सरल Conformer परत का उपयोग करें, जिसमें एकल ध्यान सिर, कनवल्शन कर्नल आकार 3 है, फीडफॉरवर्ड मॉड्यूल के आयाम वृद्धि नहीं की जाती है।
- Librispeech: 960 घंटे की स्वच्छ भाषण डेटा
- आंतरिक डेटा: 2M घंटे की विविध ध्वनिक स्थिति डेटा, गति विकृति, सिम्युलेटेड रिवर्बरेशन और यादृच्छिक पृष्ठभूमि शोर सहित
- पाठ डेटा: Librispeech और TED-LIUM2 की LM प्रशिक्षण पाठ डेटा
- डिकोडर: 12-परत LLaMA डिकोडर, 768 छिपा आयाम, 12 ध्यान सिर
- ऑडियो एनकोडर: 24-परत Conformer, 512 छिपा आयाम, 8 ध्यान सिर
- शब्दावली: प्रत्येक डेटासेट के लिए 4k SentencePiece इकाइयां
- ऑडियो एनकोडर प्रीट्रेनिंग: 200k कदम
- पूर्ण मॉडल प्रशिक्षण: Librispeech 200k कदम, आंतरिक डेटा 500k कदम
- संयुक्त प्रशिक्षण में भाषण और पाठ हानि वजन दोनों 1.0 हैं
- सहायक CTC हानि वजन 0.5 है
शब्द त्रुटि दर (WER) को मुख्य मूल्यांकन मेट्रिक के रूप में उपयोग करें, परीक्षण सेट पर प्रदर्शन की रिपोर्ट करें।
- सभी CTC कम्प्रेसर विधियां सरल अडैप्टर विधि से बेहतर हैं
- रिक्त संभावना हटाना (सीमा 0.95) सर्वोत्तम प्रदर्शन: test-clean 2.17%, test-other 4.94%
- एम्बेडिंग साझाकरण कुछ मामलों में सहायक है, लेकिन पर्याप्त सुसंगत नहीं है
- लालची भविष्यवाणी आधारित विधियां शोर डेटा पर खराब प्रदर्शन करती हैं
- रिक्त संभावना हटाना (सीमा 0.95) सबसे मजबूत: 12.85% WER
- खाली फॉलबैक योजना खाली छोड़ने की योजना से बेहतर है
Librispeech पर परिणाम:
- आधारभूत अडैप्टर: test-clean 3.38%, test-other 5.63%
- LM-जैसा पाठ इंजेक्शन: test-clean 2.54%, test-other 5.26%
- CJST: test-clean 2.09%, test-other 4.71%
डोमेन-भीतर और क्रॉस-डोमेन पाठ डेटा का उपयोग:
- CJST सभी परिदृश्यों में सर्वोत्तम प्रदर्शन प्राप्त करता है
- क्रॉस-डोमेन TED-LIUM2 परीक्षण सेट: 11.45% से 10.14% तक
- आधारभूत की तुलना में लगभग 6% सापेक्ष सुधार
- रिक्त संभावना हटाना सबसे मजबूत संपीड़न मोड है
- LM-जैसी प्रशिक्षण पहले से ही काफी प्रभावी है, मजबूत आधारभूत के रूप में कार्य करती है
- CJST सभी परिदृश्यों में आगे सुधार ला सकता है
- CTC कम्प्रेसर डेटा गुणवत्ता के प्रति संवेदनशील है, उपयुक्त कॉन्फ़िगरेशन की आवश्यकता है
- प्रारंभिक कार्य ऑडियो एनकोडर को एकीकृत करने के लिए सरल अडैप्टर का उपयोग करते हैं
- हाल के अनुसंधान असतत ऑडियो टोकन विधियों का अन्वेषण करते हैं
- यह पेपर निरंतर प्रतिनिधित्व के ASR कार्य पर केंद्रित है
- मूल रूप से ध्यान तंत्र के भाषण अनुवाद में उपयोग किया गया
- डिकोडर-केवल मॉडल के भाषण अनुवाद तक विस्तारित
- यह पेपर पहली बार ASR में इसके व्यवस्थित अध्ययन का प्रस्ताव करता है
- पारंपरिक विधियां मुख्य रूप से RNN-T मॉडल के लिए हैं
- JOIST, textogram, MAESTRO आदि शामिल हैं
- यह पेपर पहली बार डिकोडर-केवल ASR के लिए प्रभावी समाधान प्रस्तावित करता है
- CJST ढांचा प्रभावी है: द्विदिश मोडैलिटी मिलान के माध्यम से प्रभावी पाठ इंजेक्शन प्राप्त किया गया
- CTC कम्प्रेसर कॉन्फ़िगरेशन महत्वपूर्ण है: रिक्त संभावना हटाना (उच्च सीमा) सबसे मजबूत है
- अवधि प्रसंस्करण की आवश्यकता नहीं: बाध्य संरेखण और CTC एम्बेडिंग के माध्यम से जटिल अवधि मॉडलिंग से बचा जा सकता है
- सुसंगत सुधार: डोमेन-भीतर और क्रॉस-डोमेन दोनों परिदृश्यों में महत्वपूर्ण सुधार
- कम्प्यूटेशनल ओवरहेड: ऑनलाइन बाध्य संरेखण प्रशिक्षण समय पर कम्प्यूटेशनल लागत बढ़ाता है
- डेटा निर्भरता: CTC कम्प्रेसर का प्रदर्शन डेटा गुणवत्ता पर अत्यधिक निर्भर है
- पैरामीटर संवेदनशीलता: रिक्त संभावना सीमा जैसे हाइपरपैरामीटर को सावधानीपूर्वक समायोजित करने की आवश्यकता है
- मूल्यांकन सीमा: मुख्य रूप से अंग्रेजी डेटा पर मूल्यांकन, बहुभाषी सामान्यीकरण अज्ञात है
- अधिक कुशल ऑनलाइन संरेखण विधियों का अन्वेषण करें
- बहुभाषी और कम-संसाधन परिदृश्यों में प्रदर्शन का अध्ययन करें
- असतत ऑडियो टोकन के साथ हाइब्रिड विधियों को संयोजित करें
- CTC कम्प्रेसर की मजबूती को अनुकूलित करें
- विधि नवाचार: पहली बार CTC कम्प्रेसर को डिकोडर-केवल ASR के भाषण-पाठ संयुक्त प्रशिक्षण के लिए लागू किया गया
- व्यवस्थित अध्ययन: CTC कम्प्रेसर का व्यापक प्रयोगात्मक विश्लेषण
- व्यावहारिक मूल्य: अवधि प्रसंस्करण की आवश्यकता नहीं, कार्यान्वयन जटिलता को सरल बनाता है
- पर्याप्त प्रयोग: कई डेटासेट और परिदृश्यों पर विधि की प्रभावशीलता सत्यापित की गई
- स्पष्ट लेखन: पेपर संरचना स्पष्ट, तकनीकी विवरण विस्तृत
- अपर्याप्त सैद्धांतिक विश्लेषण: CJST प्रभावी क्यों है इसके गहन सैद्धांतिक विश्लेषण का अभाव
- कम्प्यूटेशनल लागत: प्रशिक्षण और अनुमान समय पर कम्प्यूटेशनल ओवरहेड का विस्तृत विश्लेषण नहीं
- हाइपरपैरामीटर संवेदनशीलता: विधि कई हाइपरपैरामीटर शामिल करती है, ट्यूनिंग जटिलता अधिक है
- मूल्यांकन सीमा: मुख्य रूप से अंग्रेजी डेटा पर मूल्यांकन, बहुभाषी सत्यापन की कमी
- शैक्षणिक योगदान: डिकोडर-केवल ASR में पाठ इंजेक्शन के लिए नई सोच प्रदान करता है
- व्यावहारिक मूल्य: विधि अपेक्षाकृत सरल है, उत्पादन वातावरण में तैनाती में आसान
- पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और हाइपरपैरामीटर सेटिंग प्रदान करता है
- प्रेरणादायक: CTC कम्प्रेसर के आगे के अनुसंधान के लिए मूल्यवान अंतर्दृष्टि प्रदान करता है
- उत्पादन-स्तरीय ASR: ऐसे परिदृश्यों के लिए उपयुक्त जहां बाहरी भाषा मॉडल का उपयोग नहीं किया जा सकता
- क्रॉस-डोमेन अनुकूलन: विशेष रूप से नए डोमेन के लिए तेजी से अनुकूलन की आवश्यकता वाले अनुप्रयोगों के लिए उपयुक्त
- संसाधन-सीमित: जटिल अवधि मॉडलिंग विधियों की तुलना में अधिक कुशल
- संयुक्त प्रशिक्षण: बड़ी मात्रा में पाठ डेटा लेकिन अपेक्षाकृत सीमित भाषण डेटा वाले परिदृश्यों के लिए उपयुक्त
पेपर 32 संबंधित संदर्भों का हवाला देता है, जिसमें बड़े भाषा मॉडल, डिकोडर-केवल आर्किटेक्चर, CTC विधियां, भाषण पहचान और संयुक्त प्रशिक्षण सहित कई संबंधित क्षेत्रों के महत्वपूर्ण कार्य शामिल हैं, जो अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करते हैं।
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला तकनीकी पेपर है, जो नवीन CJST ढांचा प्रस्तावित करता है, जो डिकोडर-केवल ASR में भाषण-पाठ संयुक्त प्रशिक्षण की महत्वपूर्ण समस्या को हल करता है। पेपर का प्रयोगात्मक डिजाइन पर्याप्त है, परिणाम विश्वसनीय हैं, और इस क्षेत्र के लिए महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य है।