2025-11-17T09:16:13.954696

CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR

Zhou, Jia, Sari et al.
CTC compressor can be an effective approach to integrate audio encoders to decoder-only models, which has gained growing interest for different speech applications. In this work, we propose a novel CTC compressor based joint speech and text training (CJST) framework for decoder-only ASR. CJST matches speech and text modalities from both directions by exploring a simple modality adaptor and several features of the CTC compressor, including sequence compression, on-the-fly forced peaky alignment and CTC class embeddings. Experimental results on the Librispeech and TED-LIUM2 corpora show that the proposed CJST achieves an effective text injection without the need of duration handling, leading to the best performance for both in-domain and cross-domain scenarios. We also provide a comprehensive study on CTC compressor, covering various compression modes, edge case handling and behavior under both clean and noisy data conditions, which reveals the most robust setting to use CTC compressor for decoder-only models.
academic

CJST: CTC कम्प्रेसर आधारित संयुक्त भाषण और पाठ प्रशिक्षण डिकोडर-केवल ASR के लिए

बुनियादी जानकारी

  • पेपर ID: 2411.07607
  • शीर्षक: CJST: CTC कम्प्रेसर आधारित संयुक्त भाषण और पाठ प्रशिक्षण डिकोडर-केवल ASR के लिए
  • लेखक: Wei Zhou, Junteng Jia, Leda Sari, Jay Mahadeokar, Ozlem Kalinli (Meta AI)
  • वर्गीकरण: eess.AS cs.LG cs.SD
  • प्रकाशन समय: नवंबर 2024 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2411.07607

सारांश

CTC कम्प्रेसर विभिन्न भाषण अनुप्रयोगों में ऑडियो एनकोडर को डिकोडर-केवल मॉडल में एकीकृत करने का एक प्रभावी तरीका साबित हुआ है। यह पेपर डिकोडर-केवल ASR के लिए CTC कम्प्रेसर आधारित भाषण-पाठ संयुक्त प्रशिक्षण (CJST) का एक नया ढांचा प्रस्तावित करता है। CJST सरल मोडैलिटी अडैप्टर और CTC कम्प्रेसर की कई विशेषताओं (अनुक्रम संपीड़न, ऑनलाइन बाध्य शिखर संरेखण और CTC वर्ग एम्बेडिंग सहित) का अन्वेषण करके दोनों दिशाओं से भाषण और पाठ मोडैलिटी को मिलाता है। Librispeech और TED-LIUM2 कॉर्पस पर प्रयोगात्मक परिणाम दर्शाते हैं कि प्रस्तावित CJST अवधि प्रसंस्करण की आवश्यकता के बिना प्रभावी पाठ इंजेक्शन प्राप्त करता है, डोमेन-भीतर और क्रॉस-डोमेन दोनों परिदृश्यों में सर्वोत्तम प्रदर्शन प्राप्त करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

बड़े भाषा मॉडल (LLM) की विशाल सफलता के साथ, डिकोडर-केवल आर्किटेक्चर विभिन्न भाषण अनुप्रयोगों में व्यापक रूप से लागू किए जाते हैं। हालांकि, भाषण जानकारी को डिकोडर-केवल मॉडल में प्रभावी ढंग से कैसे एकीकृत किया जाए, और ASR प्रदर्शन को बढ़ाने के लिए भाषण-पाठ संयुक्त प्रशिक्षण कैसे किया जाए, यह अभी भी एक चुनौतीपूर्ण समस्या है।

अनुसंधान प्रेरणा

  1. एकीकरण चुनौती: निरंतर ध्वनिक एम्बेडिंग को डिकोडर-केवल मॉडल में प्रभावी ढंग से एकीकृत करने के लिए उपयुक्त अडैप्टर विधि की आवश्यकता है
  2. मोडैलिटी मिलान: भाषण और पाठ मोडैलिटी अनुक्रम लंबाई और प्रतिनिधित्व स्थान में महत्वपूर्ण अंतर दिखाते हैं, प्रभावी संरेखण तंत्र की आवश्यकता है
  3. पाठ इंजेक्शन: उत्पादन-स्तरीय ASR मॉडल में, बाहरी भाषा मॉडल का उपयोग किए बिना पाठ डेटा का प्रभावी ढंग से उपयोग कैसे किया जाए

मौजूदा विधियों की सीमाएं

  1. सरल अडैप्टर: पारंपरिक समय-कमी परत + रैखिक प्रक्षेपण विधि में सामग्री-जागरूक संपीड़न क्षमता का अभाव है
  2. RNN-T विधि: मौजूदा संयुक्त प्रशिक्षण विधियां मुख्य रूप से RNN-T मॉडल के लिए हैं, जिन्हें जटिल अवधि प्रसंस्करण की आवश्यकता है
  3. CTC कम्प्रेसर संवेदनशीलता: मौजूदा CTC कम्प्रेसर विधियां शोर डेटा पर अस्थिर प्रदर्शन करती हैं

मुख्य योगदान

  1. CJST ढांचा प्रस्तावित करें: CTC कम्प्रेसर आधारित नई भाषण-पाठ संयुक्त प्रशिक्षण ढांचा, द्विदिश मोडैलिटी मिलान को लागू करता है
  2. CTC कम्प्रेसर का विस्तार: CTC कम्प्रेसर के विभिन्न संपीड़न मोड, सीमावर्ती मामलों के प्रबंधन और स्वच्छ/शोर डेटा पर व्यवहार का व्यापक अध्ययन
  3. अवधि प्रसंस्करण की आवश्यकता नहीं: ऑनलाइन बाध्य शिखर संरेखण और CTC वर्ग एम्बेडिंग के माध्यम से प्रभावी पाठ इंजेक्शन, जटिल अवधि मॉडलिंग की आवश्यकता नहीं
  4. प्रदर्शन में सुधार: डोमेन-भीतर और क्रॉस-डोमेन दोनों परिदृश्यों में सर्वोत्तम प्रदर्शन, आधारभूत की तुलना में लगभग 6% सापेक्ष सुधार

विधि विवरण

कार्य परिभाषा

यह पेपर डिकोडर-केवल आर्किटेक्चर के लिए स्वचालित भाषण पहचान कार्य का अध्ययन करता है, जहां इनपुट भाषण विशेषता अनुक्रम है और आउटपुट संबंधित पाठ प्रतिलेखन है। साथ ही, युग्मित भाषण-पाठ डेटा और शुद्ध पाठ डेटा का उपयोग करके संयुक्त प्रशिक्षण पर विचार किया जाता है।

विस्तारित CTC कम्प्रेसर

संपीड़न मोड

पेपर चार CTC कम्प्रेसर संपीड़न मोड का अध्ययन करता है:

  1. रिक्त भविष्यवाणी हटाना: लालची CTC भविष्यवाणी के आधार पर, सभी रिक्त फ्रेम हटाएं
  2. समान भविष्यवाणी औसत: समान भविष्यवाणी के आसन्न फ्रेम को औसत करें
  3. रिक्त संभावना हटाना: रिक्त संभावना पूर्वनिर्धारित सीमा से अधिक सभी फ्रेम हटाएं
  4. संयुक्त मोड: पहले रिक्त संभावना हटाना लागू करें, फिर समान भविष्यवाणी औसत लागू करें

सीमावर्ती मामलों का प्रबंधन

CTC कम्प्रेसर द्वारा खाली आउटपुट उत्पन्न करने की समस्या के समाधान के लिए, दो समाधान प्रस्तावित किए गए हैं:

  • खाली छोड़ें: प्रशिक्षण में इन उच्चारणों को छोड़ें, अनुमान समय पर सीधे EOS आउटपुट करें
  • खाली फॉलबैक: सभी एनकोडर आउटपुट को एकल फ्रेम में औसत करें, फिर सामान्य प्रशिक्षण और अनुमान करें

एम्बेडिंग साझाकरण

CTC वर्ग एम्बेडिंग और पाठ एम्बेडिंग के साझाकरण तंत्र का अन्वेषण करें, CTC उद्देश्य फ़ंक्शन के माध्यम से ऑडियो एनकोडर आउटपुट को पाठ एम्बेडिंग के करीब लाएं।

CJST ढांचा

युग्मित डेटा प्रसंस्करण

युग्मित भाषण-पाठ डेटा के लिए:

  1. नियमित ASR प्रशिक्षण के लिए मॉडल फॉरवर्ड पास के माध्यम से
  2. संपीड़ित ध्वनिक एम्बेडिंग h' और CTC संभावना का उपयोग करके बाध्य शिखर संरेखण
  3. MSE हानि के माध्यम से मोडैलिटी अडैप्टर को प्रशिक्षित करें, h' को छद्म ध्वनिक एम्बेडिंग h'_text के साथ संरेखित करें

शुद्ध पाठ डेटा प्रसंस्करण

शुद्ध पाठ डेटा के लिए:

  1. रिकॉर्ड की गई लंबाई अनुपात R_len(h', y) के आधार पर यादृच्छिक रूप से रिक्त प्रतीक सम्मिलित करें
  2. CTC एम्बेडिंग और मोडैलिटी अडैप्टर के माध्यम से छद्म ध्वनिक संकेत h'_text उत्पन्न करें
  3. ASR उद्देश्य फ़ंक्शन का उपयोग करके डिकोडर मॉडल को प्रशिक्षित करें
  4. सीखने की कठिनाई बनाए रखने के लिए h'_text पर 20% यादृच्छिक मास्किंग लागू करें

मोडैलिटी अडैप्टर

मोडैलिटी अडैप्टर के रूप में सरल Conformer परत का उपयोग करें, जिसमें एकल ध्यान सिर, कनवल्शन कर्नल आकार 3 है, फीडफॉरवर्ड मॉड्यूल के आयाम वृद्धि नहीं की जाती है।

प्रयोगात्मक सेटअप

डेटासेट

  1. Librispeech: 960 घंटे की स्वच्छ भाषण डेटा
  2. आंतरिक डेटा: 2M घंटे की विविध ध्वनिक स्थिति डेटा, गति विकृति, सिम्युलेटेड रिवर्बरेशन और यादृच्छिक पृष्ठभूमि शोर सहित
  3. पाठ डेटा: Librispeech और TED-LIUM2 की LM प्रशिक्षण पाठ डेटा

मॉडल कॉन्फ़िगरेशन

  • डिकोडर: 12-परत LLaMA डिकोडर, 768 छिपा आयाम, 12 ध्यान सिर
  • ऑडियो एनकोडर: 24-परत Conformer, 512 छिपा आयाम, 8 ध्यान सिर
  • शब्दावली: प्रत्येक डेटासेट के लिए 4k SentencePiece इकाइयां

प्रशिक्षण रणनीति

  • ऑडियो एनकोडर प्रीट्रेनिंग: 200k कदम
  • पूर्ण मॉडल प्रशिक्षण: Librispeech 200k कदम, आंतरिक डेटा 500k कदम
  • संयुक्त प्रशिक्षण में भाषण और पाठ हानि वजन दोनों 1.0 हैं
  • सहायक CTC हानि वजन 0.5 है

मूल्यांकन मेट्रिक्स

शब्द त्रुटि दर (WER) को मुख्य मूल्यांकन मेट्रिक के रूप में उपयोग करें, परीक्षण सेट पर प्रदर्शन की रिपोर्ट करें।

प्रयोगात्मक परिणाम

CTC कम्प्रेसर व्यापक मूल्यांकन

Librispeech परिणाम (तालिका I)

  • सभी CTC कम्प्रेसर विधियां सरल अडैप्टर विधि से बेहतर हैं
  • रिक्त संभावना हटाना (सीमा 0.95) सर्वोत्तम प्रदर्शन: test-clean 2.17%, test-other 4.94%
  • एम्बेडिंग साझाकरण कुछ मामलों में सहायक है, लेकिन पर्याप्त सुसंगत नहीं है

आंतरिक डेटा परिणाम (तालिका II)

  • लालची भविष्यवाणी आधारित विधियां शोर डेटा पर खराब प्रदर्शन करती हैं
  • रिक्त संभावना हटाना (सीमा 0.95) सबसे मजबूत: 12.85% WER
  • खाली फॉलबैक योजना खाली छोड़ने की योजना से बेहतर है

संयुक्त प्रशिक्षण परिणाम

शुरुआत से प्रशिक्षण (तालिका III)

Librispeech पर परिणाम:

  • आधारभूत अडैप्टर: test-clean 3.38%, test-other 5.63%
  • LM-जैसा पाठ इंजेक्शन: test-clean 2.54%, test-other 5.26%
  • CJST: test-clean 2.09%, test-other 4.71%

निरंतर प्रशिक्षण (तालिका IV)

डोमेन-भीतर और क्रॉस-डोमेन पाठ डेटा का उपयोग:

  • CJST सभी परिदृश्यों में सर्वोत्तम प्रदर्शन प्राप्त करता है
  • क्रॉस-डोमेन TED-LIUM2 परीक्षण सेट: 11.45% से 10.14% तक
  • आधारभूत की तुलना में लगभग 6% सापेक्ष सुधार

मुख्य निष्कर्ष

  1. रिक्त संभावना हटाना सबसे मजबूत संपीड़न मोड है
  2. LM-जैसी प्रशिक्षण पहले से ही काफी प्रभावी है, मजबूत आधारभूत के रूप में कार्य करती है
  3. CJST सभी परिदृश्यों में आगे सुधार ला सकता है
  4. CTC कम्प्रेसर डेटा गुणवत्ता के प्रति संवेदनशील है, उपयुक्त कॉन्फ़िगरेशन की आवश्यकता है

संबंधित कार्य

डिकोडर-केवल भाषण मॉडल

  • प्रारंभिक कार्य ऑडियो एनकोडर को एकीकृत करने के लिए सरल अडैप्टर का उपयोग करते हैं
  • हाल के अनुसंधान असतत ऑडियो टोकन विधियों का अन्वेषण करते हैं
  • यह पेपर निरंतर प्रतिनिधित्व के ASR कार्य पर केंद्रित है

CTC कम्प्रेसर

  • मूल रूप से ध्यान तंत्र के भाषण अनुवाद में उपयोग किया गया
  • डिकोडर-केवल मॉडल के भाषण अनुवाद तक विस्तारित
  • यह पेपर पहली बार ASR में इसके व्यवस्थित अध्ययन का प्रस्ताव करता है

भाषण-पाठ संयुक्त प्रशिक्षण

  • पारंपरिक विधियां मुख्य रूप से RNN-T मॉडल के लिए हैं
  • JOIST, textogram, MAESTRO आदि शामिल हैं
  • यह पेपर पहली बार डिकोडर-केवल ASR के लिए प्रभावी समाधान प्रस्तावित करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. CJST ढांचा प्रभावी है: द्विदिश मोडैलिटी मिलान के माध्यम से प्रभावी पाठ इंजेक्शन प्राप्त किया गया
  2. CTC कम्प्रेसर कॉन्फ़िगरेशन महत्वपूर्ण है: रिक्त संभावना हटाना (उच्च सीमा) सबसे मजबूत है
  3. अवधि प्रसंस्करण की आवश्यकता नहीं: बाध्य संरेखण और CTC एम्बेडिंग के माध्यम से जटिल अवधि मॉडलिंग से बचा जा सकता है
  4. सुसंगत सुधार: डोमेन-भीतर और क्रॉस-डोमेन दोनों परिदृश्यों में महत्वपूर्ण सुधार

सीमाएं

  1. कम्प्यूटेशनल ओवरहेड: ऑनलाइन बाध्य संरेखण प्रशिक्षण समय पर कम्प्यूटेशनल लागत बढ़ाता है
  2. डेटा निर्भरता: CTC कम्प्रेसर का प्रदर्शन डेटा गुणवत्ता पर अत्यधिक निर्भर है
  3. पैरामीटर संवेदनशीलता: रिक्त संभावना सीमा जैसे हाइपरपैरामीटर को सावधानीपूर्वक समायोजित करने की आवश्यकता है
  4. मूल्यांकन सीमा: मुख्य रूप से अंग्रेजी डेटा पर मूल्यांकन, बहुभाषी सामान्यीकरण अज्ञात है

भविष्य की दिशाएं

  1. अधिक कुशल ऑनलाइन संरेखण विधियों का अन्वेषण करें
  2. बहुभाषी और कम-संसाधन परिदृश्यों में प्रदर्शन का अध्ययन करें
  3. असतत ऑडियो टोकन के साथ हाइब्रिड विधियों को संयोजित करें
  4. CTC कम्प्रेसर की मजबूती को अनुकूलित करें

गहन मूल्यांकन

शक्तियां

  1. विधि नवाचार: पहली बार CTC कम्प्रेसर को डिकोडर-केवल ASR के भाषण-पाठ संयुक्त प्रशिक्षण के लिए लागू किया गया
  2. व्यवस्थित अध्ययन: CTC कम्प्रेसर का व्यापक प्रयोगात्मक विश्लेषण
  3. व्यावहारिक मूल्य: अवधि प्रसंस्करण की आवश्यकता नहीं, कार्यान्वयन जटिलता को सरल बनाता है
  4. पर्याप्त प्रयोग: कई डेटासेट और परिदृश्यों पर विधि की प्रभावशीलता सत्यापित की गई
  5. स्पष्ट लेखन: पेपर संरचना स्पष्ट, तकनीकी विवरण विस्तृत

कमियां

  1. अपर्याप्त सैद्धांतिक विश्लेषण: CJST प्रभावी क्यों है इसके गहन सैद्धांतिक विश्लेषण का अभाव
  2. कम्प्यूटेशनल लागत: प्रशिक्षण और अनुमान समय पर कम्प्यूटेशनल ओवरहेड का विस्तृत विश्लेषण नहीं
  3. हाइपरपैरामीटर संवेदनशीलता: विधि कई हाइपरपैरामीटर शामिल करती है, ट्यूनिंग जटिलता अधिक है
  4. मूल्यांकन सीमा: मुख्य रूप से अंग्रेजी डेटा पर मूल्यांकन, बहुभाषी सत्यापन की कमी

प्रभाव

  1. शैक्षणिक योगदान: डिकोडर-केवल ASR में पाठ इंजेक्शन के लिए नई सोच प्रदान करता है
  2. व्यावहारिक मूल्य: विधि अपेक्षाकृत सरल है, उत्पादन वातावरण में तैनाती में आसान
  3. पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और हाइपरपैरामीटर सेटिंग प्रदान करता है
  4. प्रेरणादायक: CTC कम्प्रेसर के आगे के अनुसंधान के लिए मूल्यवान अंतर्दृष्टि प्रदान करता है

लागू परिदृश्य

  1. उत्पादन-स्तरीय ASR: ऐसे परिदृश्यों के लिए उपयुक्त जहां बाहरी भाषा मॉडल का उपयोग नहीं किया जा सकता
  2. क्रॉस-डोमेन अनुकूलन: विशेष रूप से नए डोमेन के लिए तेजी से अनुकूलन की आवश्यकता वाले अनुप्रयोगों के लिए उपयुक्त
  3. संसाधन-सीमित: जटिल अवधि मॉडलिंग विधियों की तुलना में अधिक कुशल
  4. संयुक्त प्रशिक्षण: बड़ी मात्रा में पाठ डेटा लेकिन अपेक्षाकृत सीमित भाषण डेटा वाले परिदृश्यों के लिए उपयुक्त

संदर्भ

पेपर 32 संबंधित संदर्भों का हवाला देता है, जिसमें बड़े भाषा मॉडल, डिकोडर-केवल आर्किटेक्चर, CTC विधियां, भाषण पहचान और संयुक्त प्रशिक्षण सहित कई संबंधित क्षेत्रों के महत्वपूर्ण कार्य शामिल हैं, जो अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करते हैं।


समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला तकनीकी पेपर है, जो नवीन CJST ढांचा प्रस्तावित करता है, जो डिकोडर-केवल ASR में भाषण-पाठ संयुक्त प्रशिक्षण की महत्वपूर्ण समस्या को हल करता है। पेपर का प्रयोगात्मक डिजाइन पर्याप्त है, परिणाम विश्वसनीय हैं, और इस क्षेत्र के लिए महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य है।