Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning
Nagpal, Venugopalan, Tobin et al.
We introduce a large language model (LLM) capable of processing speech inputs and show that tuning it further with reinforcement learning on human preference (RLHF) enables it to adapt better to disordered speech than traditional fine-tuning. Our method replaces low-frequency text tokens in an LLM's vocabulary with audio tokens and enables the model to recognize speech by fine-tuning it on speech with transcripts. We then use RL with rewards based on syntactic and semantic accuracy measures generalizing the LLM further to recognize disordered speech. While the resulting LLM does not outperform existing systems for speech recognition, we find that tuning with reinforcement learning using custom rewards leads to substantially better performance than supervised fine-tuning of the language model, specifically when adapting to speech in a different setting. This presents a compelling alternative tuning strategy for speech recognition using large language models.
academic
विकृत भाषण के लिए अनुकूलित LLM के साथभाषण पहचान सुदृढीकरण सीखने का उपयोग करते हुए
यह पेपर एक बड़े भाषा मॉडल (LLM) प्रस्तावित करता है जो भाषण इनपुट को संभाल सकता है, और दर्शाता है कि मानव वरीयता-आधारित सुदृढीकरण सीखने (RLHF) के माध्यम से आगे की ट्यूनिंग पारंपरिक सूक्ष्म-ट्यूनिंग की तुलना में विकृत भाषण के अनुकूलन में बेहतर है। यह विधि LLM शब्दावली में कम-आवृत्ति वाले पाठ टोकन को ऑडियो टोकन से बदलती है, भाषण प्रतिलेखन डेटा पर सूक्ष्म-ट्यूनिंग के माध्यम से मॉडल को भाषण पहचानने में सक्षम बनाती है। इसके बाद वाक्य रचना और शब्दार्थ सटीकता मेट्रिक्स के आधार पर सुदृढीकरण सीखने के पुरस्कार का उपयोग करके LLM को विकृत भाषण पहचानने के लिए सामान्यीकृत किया जाता है। हालांकि परिणामी मॉडल भाषण पहचान में मौजूदा प्रणालियों को पार नहीं करता है, लेकिन अनुसंधान से पता चलता है कि कस्टम पुरस्कार के साथ सुदृढीकरण सीखने की ट्यूनिंग विभिन्न सेटिंग्स में भाषण के अनुकूलन में भाषा मॉडल की पर्यवेक्षित सूक्ष्म-ट्यूनिंग से काफी बेहतर है।
बहुविध क्षमता विस्तार: LLM की ऑडियो प्रसंस्करण क्षमता को बढ़ाना, जबकि इसकी भाषा समझ क्षमता को बनाए रखना, भाषण-नियंत्रित स्वचालन अनुप्रयोगों के लिए महत्वपूर्ण है
पहुंच प्रौद्योगिकी: भाषण विकार वाले व्यक्तियों के लिए, दृश्य और पाठ संदर्भ को जोड़ने वाली भाषण पहचान तकनीक विशेष सामाजिक मूल्य रखती है
कम संसाधन परिदृश्य अनुकूलन: विकृत भाषण जैसे कम-संसाधन परिदृश्यों में मॉडल अनुकूलन एक महत्वपूर्ण तकनीकी चुनौती है
जटिल आर्किटेक्चर संशोधन: अधिकांश मौजूदा कार्य LLM आर्किटेक्चर को संशोधित करने या भाषण एनकोडर का उपयोग करके एम्बेडिंग निकालने की आवश्यकता होती है
शब्दावली विस्तार लागत: कुछ विधियां ऑडियो को संभालने के लिए LLM शब्दावली का विस्तार करती हैं, जिससे कम्प्यूटेशनल लागत बढ़ती है
मूल्यांकन मेट्रिक्स की सीमाएं: पारंपरिक ASR प्रणालियां मुख्य रूप से WER जैसे वाक्य रचना मेट्रिक्स पर निर्भर करती हैं, शब्दार्थ संरक्षण के संदर्भ में मूल्यांकन अपर्याप्त है
विकृत भाषण अनुकूलन कठिनाई: पारंपरिक सूक्ष्म-ट्यूनिंग विधियां विकृत भाषण के अनुकूलन में सीमित प्रभाव दिखाती हैं
आर्किटेक्चर संशोधन के बिना LLM भाषण पहचान विधि प्रस्तावित की: ऑडियो टोकन को मौजूदा शब्दावली में कम-आवृत्ति वाले पाठ टोकन में मैप करके, आर्किटेक्चर संशोधन से बचा गया
RLHF-आधारित ASR डोमेन अनुकूलन रणनीति प्रस्तुत की: WER और शब्दार्थ संरक्षण (MP) स्कोर के संयुक्त पुरस्कार का उपयोग करके सुदृढीकरण सीखने का अनुकूलन
विकृत भाषण पहचान पर महत्वपूर्ण सुधार प्राप्त किया: पर्यवेक्षित सूक्ष्म-ट्यूनिंग की तुलना में, RLHF विधि Euphonia डेटासेट पर महत्वपूर्ण प्रदर्शन सुधार प्राप्त करती है
शब्दार्थ संरक्षण मूल्यांकन के लिए नया दृष्टिकोण प्रदान किया: वाक्य रचना सटीकता (WER) और शब्दार्थ सटीकता (MP) को संयुक्त मूल्यांकन के लिए जोड़ा
WER (Word Error Rate): शब्द त्रुटि दर, वाक्य रचना सटीकता मेट्रिक
MP (Meaning Preservation): शब्दार्थ संरक्षण स्कोर, LLM का उपयोग करके यह निर्धारित करने के लिए कि क्या भविष्यवाणी प्रतिलेखन मूल अर्थ को संरक्षित करता है
RLHF पर्यवेक्षित सूक्ष्म-ट्यूनिंग से काफी बेहतर है: विकृत भाषण अनुकूलन कार्य पर, RLHF विधि निरंतर पर्यवेक्षित सूक्ष्म-ट्यूनिंग की तुलना में महत्वपूर्ण सुधार प्राप्त करती है
बहु-उद्देश्य पुरस्कार की प्रभावशीलता: WER और MP को जोड़ने वाला पुरस्कार फ़ंक्शन वाक्य रचना और शब्दार्थ सटीकता के बीच अच्छा संतुलन प्राप्त कर सकता है
शब्दार्थ संरक्षण का महत्व: विकृत भाषण पहचान में, शब्दार्थ संरक्षण सख्त शब्द मिलान से अधिक महत्वपूर्ण है
पेपर ने 35 संबंधित साहित्य का हवाला दिया है, जो LLM बहुविध विस्तार, भाषण पहचान, सुदृढीकरण सीखने और अन्य क्षेत्रों के महत्वपूर्ण कार्यों को कवर करता है, अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है।
समग्र मूल्यांकन: यह पेपर तकनीकी नवाचार और सामाजिक मूल्य दोनों के संदर्भ में महत्वपूर्ण है, प्रस्तावित आर्किटेक्चर संशोधन-मुक्त LLM भाषण पहचान विधि और RLHF डोमेन अनुकूलन रणनीति संबंधित अनुसंधान के लिए नई सोच प्रदान करते हैं। हालांकि निरपेक्ष प्रदर्शन में अभी भी सुधार की गुंजाइश है, लेकिन विकृत भाषण पहचान जैसे महत्वपूर्ण अनुप्रयोग परिदृश्य में इसके महत्वपूर्ण सुधार इस विधि के व्यावहारिक मूल्य को प्रदर्शित करते हैं।