Recently, ``textless" speech language models (SLMs) based on speech units have made huge progress in generating naturalistic speech, including non-verbal vocalizations. However, the generated speech samples often lack semantic coherence. In this paper, we propose SLM and LLM Integration for spontaneous spoken Dialogue gEneration (SLIDE). Specifically, we first utilize an LLM to generate the textual content of spoken dialogue. Next, we convert the textual dialogues into phoneme sequences and use a two-tower transformer-based duration predictor to predict the duration of each phoneme. Finally, an SLM conditioned on the spoken phoneme sequences is used to vocalize the textual dialogue. Experimental results on the Fisher dataset demonstrate that our system can generate naturalistic spoken dialogue while maintaining high semantic coherence.
- पेपर ID: 2501.00805
- शीर्षक: SLIDE: Integrating Speech Language Model with LLM for Spontaneous Spoken Dialogue Generation
- लेखक: Haitian Lu, Gaofeng Cheng, Liuping Luo, Leying Zhang, Yanmin Qian, Pengyuan Zhang
- वर्गीकरण: eess.AS cs.CL cs.SD
- प्रकाशन समय: 1 जनवरी 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2501.00805
हाल के वर्षों में, भाषण इकाइयों पर आधारित "पाठ-मुक्त" भाषण भाषा मॉडल (SLM) प्राकृतिक भाषण (गैर-मौखिक उच्चारण सहित) उत्पन्न करने में विशाल प्रगति कर रहे हैं। हालांकि, उत्पन्न भाषण नमूने अक्सर अर्थपूर्ण सुसंगतता की कमी रखते हैं। यह पेपर SLIDE (SLM और LLM एकीकरण के साथ सहज मौखिक संवाद निर्माण) विधि प्रस्तावित करता है। विशेष रूप से, पहले LLM का उपयोग करके मौखिक संवाद का पाठ्य सामग्री उत्पन्न करते हैं, फिर पाठ संवाद को फोनीम अनुक्रम में परिवर्तित करते हैं, द्वि-टावर ट्रांसफॉर्मर-आधारित अवधि भविष्यवक्ता का उपयोग करके प्रत्येक फोनीम की अवधि की भविष्यवाणी करते हैं, और अंत में मौखिक फोनीम अनुक्रम द्वारा शर्तबद्ध SLM का उपयोग करके पाठ संवाद को उच्चारित करते हैं। Fisher डेटासेट पर प्रायोगिक परिणाम दर्शाते हैं कि यह प्रणाली प्राकृतिक मौखिक संवाद उत्पन्न कर सकती है जबकि उच्च अर्थपूर्ण सुसंगतता बनाए रखती है।
यह अनुसंधान सहज मौखिक संवाद निर्माण में मूल विरोधाभास को हल करने का लक्ष्य रखता है: भाषण की प्राकृतिकता बनाए रखते हुए अर्थपूर्ण सुसंगतता कैसे सुनिश्चित करें। मौखिक संवाद में दो मुख्य पहलू हैं:
- अर्थपूर्ण पहलू: संवाद सामग्री का अर्थ, सटीक प्रासंगिक जानकारी प्रदान करने के लिए महत्वपूर्ण
- प्राकृतिकता पहलू: बारी-बारी से स्थानांतरण की प्रवाहिता, जिसमें उच्चारण अंतराल इकाइयां (IPUs), ओवरलैप, अंतराल, रुकावटें और हंसी तथा प्रतिक्रिया जैसी प्राकृतिक संवाद घटनाएं शामिल हैं
- पारंपरिक कैस्केडेड सिस्टम: हालांकि अर्थपूर्ण सुसंगतता मजबूत है (सैकड़ों अरबों शब्दों पर प्रशिक्षित LLM के लिए धन्यवाद), प्राकृतिक संवाद उत्पन्न करने की क्षमता सीमित है, क्योंकि:
- किसी भी घटक के भीतर बारी-बारी से स्थानांतरण घटनाओं पर विचार नहीं करते
- हंसी और प्रतिक्रिया युक्त प्राकृतिक संवाद उत्पन्न करना कठिन है
- मध्यवर्ती चरण भाषण को पाठ में एन्कोड करने से अतिरिक्त-भाषाई जानकारी खो जाती है
- SLM-आधारित विधियां (जैसे dGSLM): संवाद तत्वों और बारी-बारी से स्थानांतरण पैटर्न को प्रभावी ढंग से कैप्चर कर सकते हैं, लेकिन अर्थपूर्ण सुसंगतता चुनौतियों का सामना करते हैं:
- भाषण इकाई दानेदारपन बहुत सूक्ष्म है (आमतौर पर केवल 20ms), विस्तारित संदर्भ की अर्थपूर्ण सामग्री को मॉडल करने के लिए अनुपयुक्त
- सूक्ष्म-दानेदार विशेषता बड़े प्रशिक्षण डेटासेट की आवश्यकता को महत्वपूर्ण रूप से बढ़ाती है
यह पेपर एक मिश्रित दृष्टिकोण प्रस्तावित करता है, अर्थपूर्ण संदर्भ को कैप्चर करने के लिए पाठ का उपयोग करते हुए, साथ ही अतिरिक्त-भाषाई जानकारी (जैसे गैर-मौखिक उच्चारण और बारी-बारी से स्थानांतरण पैटर्न) को संरक्षित करने के लिए भाषण इकाइयों का उपयोग करते हुए, पारंपरिक कैस्केडेड सिस्टम और SLM-आधारित सिस्टम के लाभों को जोड़ने का लक्ष्य रखता है।
- मौखिक संवाद निर्माण ढांचे में LLM को शामिल करना: LLM के उन्नत पाठ निर्माण क्षमता का पूरी तरह से लाभ उठाने के लिए LLM का उपयोग करके पाठ संवाद उत्पन्न करना
- द्वि-टावर ट्रांसफॉर्मर-आधारित फोनीम अवधि भविष्यवाणी प्रस्तावित करना: द्वि-टावर ट्रांसफॉर्मर मॉडल का उपयोग करके लिखित फोनीम अनुक्रम में प्रत्येक फोनीम की अवधि की भविष्यवाणी करना, बारी-बारी से स्थानांतरण की प्रवाहिता बनाए रखना सुनिश्चित करना
- मौखिक फोनीम अनुक्रम द्वारा शर्तबद्ध dGSLM: पाठ संवाद से प्राप्त मौखिक फोनीम अनुक्रम को dGSLM के लिए शर्त इनपुट के रूप में उपयोग करना, प्राकृतिक संवाद घटनाओं को उत्पन्न भाषण में प्रभावी ढंग से एकीकृत करना, अर्थपूर्ण सुसंगतता बनाए रखते हुए
इनपुट: संकेत संवाद ऑडियो
आउटपुट: अर्थपूर्ण रूप से सुसंगत और प्राकृतिक मौखिक संवाद निरंतरता
बाधाएं: उत्पन्न संवाद को अर्थपूर्ण सुसंगतता और प्राकृतिकता (बारी-बारी से स्थानांतरण, गैर-मौखिक उच्चारण आदि सहित) दोनों को संतुष्ट करने की आवश्यकता है
SLIDE मॉडल में तीन मुख्य घटक हैं:
- भाषण पहचान मॉडल (Whisper-v3) का उपयोग करके संकेत संवाद ऑडियो को पाठ में ट्रांसक्राइब करना
- LLM (GPT-4o) का उपयोग करके संवाद निरंतरता उत्पन्न करना, इसे मौखिक शैली के संवाद उत्पन्न करने के लिए निर्देशित करना
- संवाद घटना मार्कर (जैसे laughter, sigh) को बाहर करना, "yeah", "right", "okay" जैसी मौखिक प्रतिक्रिया पर ध्यान केंद्रित करना
- प्रशिक्षण डेटासेट में वास्तविक ट्रांसक्रिप्ट के फोनीम-स्तरीय पाठ-भाषण संरेखण प्राप्त करने के लिए बल संरेखण मॉडल का उपयोग करना
- अतिरिक्त मौन फोनीम पेश करना, बल संरेखण द्वारा निर्धारित अवधि के अनुसार प्रत्येक फोनीम को दोहराना
- प्रशिक्षण चरण: शिक्षक बल विधि का उपयोग करना, हानि फ़ंक्शन सीमांत इकाई हानि और सीमांत अवधि हानि को जोड़ना
- अनुमान चरण: बिना शर्त निर्माण निष्पादित करना, लिखित फोनीम अनुक्रम के साथ पत्राचार सुनिश्चित करने के लिए प्रतिस्थापन तंत्र के माध्यम से
- प्रशिक्षण चरण: HuBERT एन्कोडर का उपयोग करके मौखिक संवाद को ऑडियो टोकन में एन्कोड करना, जुड़े हुए मौखिक फोनीम अनुक्रम और ऑडियो टोकन को इनपुट और प्रशिक्षण लक्ष्य के रूप में उपयोग करना
- प्रत्येक संवाद नमूने को 80-सेकंड अंतराल में विभाजित करना, 8000 असतत टोकन युक्त (पहले 4000 मौखिक फोनीम अनुक्रम के लिए, बाद के 4000 ऑडियो टोकन के लिए)
- अनुमान चरण: मौखिक फोनीम अनुक्रम को 4000 टोकन की निश्चित लंबाई में समायोजित करना, स्वचालित रूप से ऑडियो टोकन उत्पन्न करना
- मिश्रित प्रतिनिधित्व रणनीति: पाठ की अर्थपूर्ण मॉडलिंग क्षमता और भाषण इकाइयों की तालबद्धता/अतिरिक्त-भाषाई मॉडलिंग क्षमता को नवीन तरीके से जोड़ना
- शर्तबद्ध निर्माण तंत्र: मौखिक फोनीम अनुक्रम द्वारा शर्तबद्ध dGSLM आउटपुट को सीमित करना, उत्पन्न संवाद की अर्थपूर्ण सुसंगतता सुनिश्चित करना
- समय संरेखण प्रसंस्करण: अवधि भविष्यवाणी और दोहराव तंत्र के माध्यम से, फोनीम अनुक्रम और ऑडियो के बीच समय पत्राचार बनाए रखना
- Fisher डेटासेट: 2000 घंटे स्टीरियो टेलीफोन संवाद ऑडियो, 8kHz नमूना दर, 16kHz में पुनः नमूना किया गया
- प्रशिक्षण के लिए प्रत्येक संवाद नमूने को 80-सेकंड अंतराल में विभाजित किया गया
- प्राकृतिकता मूल्यांकन:
- बारी-बारी से स्थानांतरण घटनाओं का समय वितरण सांख्यिकी (IPUs, ओवरलैप, अंतराल, रुकावटें)
- pyannote.audio का उपयोग करके संबंधित सांख्यिकी की गणना करना
- अर्थपूर्ण सुसंगतता मूल्यांकन:
- Whisper-v3 का उपयोग करके उत्पन्न मौखिक संवाद को ट्रांसक्राइब करना
- पाठ ट्रांसक्रिप्ट की भ्रम दर की गणना करने के लिए DialoGPT का उपयोग करना
- N-MOS (प्राकृतिकता स्कोर): प्राकृतिक संवाद घटनाओं और बारी-बारी से स्थानांतरण प्रवाहिता का मूल्यांकन करना
- M-MOS (अर्थपूर्णता स्कोर): संवाद की तार्किक सुसंगतता और अर्थ का मूल्यांकन करना
- स्कोरिंग रेंज: 1-5 अंक, प्रत्येक नमूने के लिए कम से कम 5 लोगों द्वारा स्कोर किया गया
- कैस्केडेड सिस्टम: पारंपरिक कैस्केडेड विधि (ASR+LLM+TTS)
- dGSLM: मूल जनरेटिव मौखिक संवाद भाषा मॉडल
- SLIDE-1: परीक्षण डेटासेट के पाठ संवाद का सीधे उपयोग करना
- SLIDE-2: LLM द्वारा उत्पन्न पाठ संवाद का उपयोग करना
- 6 A100 40GB GPU का उपयोग करके प्रशिक्षण
- अवधि भविष्यवक्ता: बैच आकार 48, 50000 चरणों के लिए प्रशिक्षण
- शर्तबद्ध dGSLM: बैच आकार 96, 250000 चरणों के लिए प्रशिक्षण
- निर्माण तापमान 1 पर सेट किया गया
| मॉडल | IPU/मिनट | रुकावट/मिनट | अंतराल/मिनट | ओवरलैप/मिनट |
|---|
| कैस्केडेड | 17.5 | 0.0 | 14.9 | 0.0 |
| dGSLM | 30.6 | 12.0 | 9.0 | 8.7 |
| SLIDE-1 | 25.6 | 9.4 | 5.6 | 9.5 |
| SLIDE-2 | 31.3 | 6.3 | 7.6 | 15.8 |
| जमीनी सच | 27.3 | 9.9 | 8.9 | 8.2 |
| मॉडल | भ्रम दर ↓ | N-MOS ↑ | M-MOS ↑ |
|---|
| कैस्केडेड | - | 2.38±0.63 | 2.70±0.38 |
| dGSLM | 1228.82 | 4.14±0.78 | 1.52±0.40 |
| SLIDE-1 | 532.81 | 4.37±0.46 | 3.94±0.81 |
| SLIDE-2 | 421.29 | 4.06±0.41 | 4.08±0.49 |
| जमीनी सच | 371.16 | 4.72±0.40 | 4.63±0.44 |
- अर्थपूर्ण सुसंगतता में महत्वपूर्ण सुधार: SLIDE-2 ने dGSLM की तुलना में भ्रम दर में 65.8% की कमी (1228.82 से 421.29 तक), वास्तविक संवाद स्तर (371.16) के करीब
- प्राकृतिकता का संरक्षण: SLIDE बारी-बारी से स्थानांतरण घटना सांख्यिकी में dGSLM के समान प्रदर्शन करता है, कैस्केडेड सिस्टम से महत्वपूर्ण रूप से बेहतर
- अर्थपूर्णता में व्यापक सुधार: SLIDE-2 का M-MOS dGSLM की तुलना में 270.0% सुधार, वास्तविक संवाद से केवल 11.9% की सापेक्ष खाई
SLIDE-1 और SLIDE-2 की तुलना के माध्यम से, LLM द्वारा उत्पन्न पाठ संवाद की प्रभावशीलता को सत्यापित किया गया, यहां तक कि LLM द्वारा उत्पन्न पाठ (वास्तविक ट्रांसक्रिप्ट के बजाय) का उपयोग करते हुए भी, अच्छी अर्थपूर्ण सुसंगतता बनाए रखी जा सकती है।
- पारंपरिक कैस्केडेड विधि: ASR→LLM→TTS पाइपलाइन, अर्थपूर्ण रूप से मजबूत लेकिन प्राकृतिकता में कमजोर
- SLM-आधारित विधियां: जैसे dGSLM, प्राकृतिकता में मजबूत लेकिन अर्थपूर्ण सुसंगतता में कमजोर
- मिश्रित विधियां: यह पेपर प्रस्तावित SLIDE इस नई उभरती दिशा से संबंधित है
मौजूदा कार्य की तुलना में, SLIDE पहली बार अर्थपूर्ण सुसंगतता और प्राकृतिकता के बीच प्रभावी संतुलन प्राप्त करता है, चतुर शर्तबद्ध तंत्र के माध्यम से दोनों के बीच व्यापार-बंद समस्या को हल करता है।
SLIDE सफलतापूर्वक LLM की अर्थपूर्ण मॉडलिंग क्षमता और SLM की तालबद्धता मॉडलिंग क्षमता को जोड़ता है, मौखिक संवाद की प्राकृतिकता बनाए रखते हुए अर्थपूर्ण सुसंगतता में महत्वपूर्ण सुधार करता है, सहज मौखिक संवाद निर्माण के लिए एक नया समाधान प्रदान करता है।
- कम्प्यूटेशनल जटिलता: कई मॉडल घटकों को प्रशिक्षित करने की आवश्यकता है, कम्प्यूटेशनल लागत अधिक है
- डेटा निर्भरता: अभी भी प्रशिक्षण के लिए बड़े पैमाने पर मौखिक संवाद डेटा की आवश्यकता है
- डोमेन अनुकूलन: Fisher डेटासेट पर प्रशिक्षित, अन्य डोमेन में सामान्यीकरण क्षमता सत्यापन के लिए प्रतीक्षा कर रही है
- वास्तविक समय: बहु-चरणीय प्रसंस्करण वास्तविक समय संवाद निर्माण की प्रतिक्रिया गति को प्रभावित कर सकता है
- अंत-से-अंत संयुक्त प्रशिक्षण रणनीति की खोज करना
- अधिक हल्के मॉडल आर्किटेक्चर का अनुसंधान करना
- बहुभाषी और क्रॉस-डोमेन परिदृश्यों में विस्तार करना
- वास्तविक समय संवाद निर्माण की दक्षता में सुधार करना
- मजबूत नवाचार: पहली बार LLM और SLM के मिश्रित आर्किटेक्चर का प्रस्ताव, लंबे समय से मौजूद अर्थपूर्ण सुसंगतता और प्राकृतिकता व्यापार-बंद समस्या को हल करना
- तर्कसंगत विधि डिजाइन: तीन-चरणीय पाइपलाइन डिजाइन स्पष्ट, प्रत्येक घटक का कार्य स्पष्ट, तकनीकी मार्ग व्यवहार्य
- पर्याप्त प्रयोग: उद्देश्य और व्यक्तिपरक मूल्यांकन शामिल, तुलना विधियां व्यापक, विलोपन प्रयोग डिजाइन की प्रभावशीलता को सत्यापित करते हैं
- उल्लेखनीय परिणाम: अर्थपूर्ण सुसंगतता में उल्लेखनीय सुधार (भ्रम दर में 65.8% की कमी), प्राकृतिकता बनाए रखते हुए
- प्रणाली जटिलता: बहु-चरणीय पाइपलाइन प्रणाली जटिलता बढ़ाता है, व्यावहारिकता और मजबूतता को प्रभावित कर सकता है
- कम्प्यूटेशनल दक्षता: कई बड़े मॉडल चलाने की आवश्यकता है, कम्प्यूटेशनल लागत अधिक है, वास्तविक समय अनुप्रयोग में चुनौतियां
- त्रुटि प्रसार: पाइपलाइन आर्किटेक्चर में त्रुटि संचय समस्या हो सकती है, पहले चरण की त्रुटियां बाद की प्रसंस्करण को प्रभावित करेंगी
- सामान्यीकरण क्षमता: केवल Fisher डेटासेट पर सत्यापित, क्रॉस-डोमेन और बहुभाषी सामान्यीकरण क्षमता अज्ञात है
- शैक्षणिक मूल्य: मौखिक संवाद निर्माण क्षेत्र के लिए नई अनुसंधान दिशा प्रदान करता है, अर्थपूर्ण और तालबद्धता मॉडलिंग को संतुलित करता है
- व्यावहारिक संभावना: आभासी सहायक, संवाद प्रणाली आदि अनुप्रयोगों में व्यावहारिक मूल्य है
- पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और खुला स्रोत कोड प्रदान करता है, पुनरुत्पादन और सुधार को सुविधाजनक बनाता है
- संवाद प्रणाली: प्राकृतिक और अर्थपूर्ण मौखिक प्रतिक्रिया उत्पन्न करने की आवश्यकता वाली बुद्धिमान सहायक
- भाषण संश्लेषण: उच्च प्राकृतिकता की मांग वाली संवाद-शैली TTS प्रणाली
- शिक्षा प्रशिक्षण: मौखिक संवाद प्रशिक्षण और भाषा सीखने के अनुप्रयोग
- मनोरंजन मीडिया: खेल, आभासी पात्र आदि में प्राकृतिक संवाद की आवश्यकता वाले परिदृश्य
यह पेपर 34 संबंधित संदर्भों का हवाला देता है, जो भाषण भाषा मॉडल, बड़े भाषा मॉडल, संवाद निर्माण, भाषण संश्लेषण आदि कई संबंधित क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करता है, अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है।
समग्र मूल्यांकन: यह एक उच्च गुणवत्ता वाला अनुसंधान पेपर है जो मौखिक संवाद निर्माण में मुख्य समस्या को नवीन तरीके से हल करता है। हालांकि प्रणाली जटिलता और कम्प्यूटेशनल दक्षता के पहलुओं में चुनौतियां हैं, लेकिन इसकी तकनीकी योगदान और प्रायोगिक परिणाम दोनों बहुत ही प्रेरक हैं, इस क्षेत्र के विकास के लिए मूल्यवान नई सोच प्रदान करते हैं।