2025-11-13T12:49:11.039710

Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning

Nagpal, Venugopalan, Tobin et al.

We introduce a large language model (LLM) capable of processing speech inputs and show that tuning it further with reinforcement learning on human preference (RLHF) enables it to adapt better to disordered speech than traditional fine-tuning. Our method replaces low-frequency text tokens in an LLM's vocabulary with audio tokens and enables the model to recognize speech by fine-tuning it on speech with transcripts. We then use RL with rewards based on syntactic and semantic accuracy measures generalizing the LLM further to recognize disordered speech. While the resulting LLM does not outperform existing systems for speech recognition, we find that tuning with reinforcement learning using custom rewards leads to substantially better performance than supervised fine-tuning of the language model, specifically when adapting to speech in a different setting. This presents a compelling alternative tuning strategy for speech recognition using large language models.

academic

विकृत भाषण के लिए अनुकूलित LLM के साथभाषण पहचान सुदृढीकरण सीखने का उपयोग करते हुए

मूल जानकारी

पेपर ID: 2501.00039
शीर्षक: विकृत भाषण के लिए अनुकूलित LLM के साथ भाषण पहचान सुदृढीकरण सीखने का उपयोग करते हुए
लेखक: चिराग नागपाल, सुभाषिनी वेनुगोपालन, जिमी टोबिन, मेरिलिन लेडविग, कैथरीन हेलर, कैट्रिन टोमानेक (गूगल रिसर्च)
वर्गीकरण: eess.AS cs.CL cs.LG cs.SD
प्रकाशन समय: 25 दिसंबर 2024 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2501.00039

सारांश

यह पेपर एक बड़े भाषा मॉडल (LLM) प्रस्तावित करता है जो भाषण इनपुट को संभाल सकता है, और दर्शाता है कि मानव वरीयता-आधारित सुदृढीकरण सीखने (RLHF) के माध्यम से आगे की ट्यूनिंग पारंपरिक सूक्ष्म-ट्यूनिंग की तुलना में विकृत भाषण के अनुकूलन में बेहतर है। यह विधि LLM शब्दावली में कम-आवृत्ति वाले पाठ टोकन को ऑडियो टोकन से बदलती है, भाषण प्रतिलेखन डेटा पर सूक्ष्म-ट्यूनिंग के माध्यम से मॉडल को भाषण पहचानने में सक्षम बनाती है। इसके बाद वाक्य रचना और शब्दार्थ सटीकता मेट्रिक्स के आधार पर सुदृढीकरण सीखने के पुरस्कार का उपयोग करके LLM को विकृत भाषण पहचानने के लिए सामान्यीकृत किया जाता है। हालांकि परिणामी मॉडल भाषण पहचान में मौजूदा प्रणालियों को पार नहीं करता है, लेकिन अनुसंधान से पता चलता है कि कस्टम पुरस्कार के साथ सुदृढीकरण सीखने की ट्यूनिंग विभिन्न सेटिंग्स में भाषण के अनुकूलन में भाषा मॉडल की पर्यवेक्षित सूक्ष्म-ट्यूनिंग से काफी बेहतर है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह अनुसंधान दो मुख्य समस्याओं को हल करने का प्रयास करता है:

मौजूदा LLM को भाषण इनपुट को संभालने और भाषण पहचान करने में सक्षम कैसे बनाया जाए
LLM-आधारित ASR प्रणाली को विकृत भाषण पहचान कार्य में प्रभावी ढंग से कैसे अनुकूलित किया जाए

महत्व

बहुविध क्षमता विस्तार: LLM की ऑडियो प्रसंस्करण क्षमता को बढ़ाना, जबकि इसकी भाषा समझ क्षमता को बनाए रखना, भाषण-नियंत्रित स्वचालन अनुप्रयोगों के लिए महत्वपूर्ण है
पहुंच प्रौद्योगिकी: भाषण विकार वाले व्यक्तियों के लिए, दृश्य और पाठ संदर्भ को जोड़ने वाली भाषण पहचान तकनीक विशेष सामाजिक मूल्य रखती है
कम संसाधन परिदृश्य अनुकूलन: विकृत भाषण जैसे कम-संसाधन परिदृश्यों में मॉडल अनुकूलन एक महत्वपूर्ण तकनीकी चुनौती है

मौजूदा विधियों की सीमाएं

जटिल आर्किटेक्चर संशोधन: अधिकांश मौजूदा कार्य LLM आर्किटेक्चर को संशोधित करने या भाषण एनकोडर का उपयोग करके एम्बेडिंग निकालने की आवश्यकता होती है
शब्दावली विस्तार लागत: कुछ विधियां ऑडियो को संभालने के लिए LLM शब्दावली का विस्तार करती हैं, जिससे कम्प्यूटेशनल लागत बढ़ती है
मूल्यांकन मेट्रिक्स की सीमाएं: पारंपरिक ASR प्रणालियां मुख्य रूप से WER जैसे वाक्य रचना मेट्रिक्स पर निर्भर करती हैं, शब्दार्थ संरक्षण के संदर्भ में मूल्यांकन अपर्याप्त है
विकृत भाषण अनुकूलन कठिनाई: पारंपरिक सूक्ष्म-ट्यूनिंग विधियां विकृत भाषण के अनुकूलन में सीमित प्रभाव दिखाती हैं

मुख्य योगदान

आर्किटेक्चर संशोधन के बिना LLM भाषण पहचान विधि प्रस्तावित की: ऑडियो टोकन को मौजूदा शब्दावली में कम-आवृत्ति वाले पाठ टोकन में मैप करके, आर्किटेक्चर संशोधन से बचा गया
RLHF-आधारित ASR डोमेन अनुकूलन रणनीति प्रस्तुत की: WER और शब्दार्थ संरक्षण (MP) स्कोर के संयुक्त पुरस्कार का उपयोग करके सुदृढीकरण सीखने का अनुकूलन
विकृत भाषण पहचान पर महत्वपूर्ण सुधार प्राप्त किया: पर्यवेक्षित सूक्ष्म-ट्यूनिंग की तुलना में, RLHF विधि Euphonia डेटासेट पर महत्वपूर्ण प्रदर्शन सुधार प्राप्त करती है
शब्दार्थ संरक्षण मूल्यांकन के लिए नया दृष्टिकोण प्रदान किया: वाक्य रचना सटीकता (WER) और शब्दार्थ सटीकता (MP) को संयुक्त मूल्यांकन के लिए जोड़ा

विधि विवरण

कार्य परिभाषा

इनपुट: कच्चा ऑडियो सिग्नल आउटपुट: संबंधित पाठ प्रतिलेखन बाधाएं: LLM के मूल आर्किटेक्चर को अपरिवर्तित रखते हुए, विकृत भाषण डोमेन के लिए अनुकूलन

मॉडल आर्किटेक्चर

प्रथम चरण: LLM भाषण पहचान क्षमता निर्माण

ऑडियो टोकनाइजेशन और असतत करण:

USM भाषण एनकोडर का उपयोग करके (w2v-BERT प्रशिक्षण के समान) 25Hz आवृत्ति पर टोकन उत्पन्न करना
मध्य परत (परत 16) से एम्बेडिंग निकालना और 1024 क्लस्टर में क्लस्टर करना
ऑडियो एम्बेडिंग को निकटतम क्लस्टर केंद्र ID में मैप करना

शब्दावली पुनर्मानचित्रण:

1024 ऑडियो क्लस्टर ID को LLM शब्दावली में अंतिम 1024 सबसे कम-आवृत्ति वाले पाठ टोकन में मैप करना
कम-आवृत्ति टोकन चुनने का प्रेरणा: ये आमतौर पर बहुभाषी या यूनिकोड वर्ण होते हैं, जिन्हें ऑडियो टोकन के रूप में पुनः उपयोग किया जा सकता है
ASR डेटा पर मानक पर्यवेक्षित सूक्ष्म-ट्यूनिंग का उपयोग करके प्रशिक्षण, असतत ऑडियो टोकन को इनपुट के रूप में और पाठ प्रतिलेखन को आउटपुट के रूप में

द्वितीय चरण: RLHF-आधारित डोमेन अनुकूलन

पुरस्कार फ़ंक्शन डिज़ाइन:

R(x,y;y*) = γ · MP(y,y*) + ln(1 - WER(y,y*))

जहां:

x: मूल इनपुट
y: भविष्यवाणी प्रतिलेखन
y*: वास्तविक प्रतिलेखन
γ: WER और MP स्कोर को संतुलित करने वाला हाइपरपैरामीटर
MP: शब्दार्थ संरक्षण स्कोर
WER: शब्द त्रुटि दर

शब्दार्थ संरक्षण पुरस्कार मॉडल:

शब्दार्थ संरक्षण बाइनरी वर्गीकरण कार्य पर Gemma-2B का उपयोग करके प्रशिक्षण
2840 भविष्यवाणी-वास्तविक प्रतिलेखन जोड़ी पर क्रॉस-एंट्रॉपी हानि का उपयोग करके प्रशिक्षण
परीक्षण सेट पर 0.87 AUC प्राप्त करना (16 के 0.89 AUC की तुलना में)

सुदृढीकरण सीखने का अनुकूलन:

PPO (Proximal Policy Optimization) का उपयोग करना
ग्रेडिएंट क्लिपिंग और KL नियमितकरण को अपनाना
विभिन्न γ मानों के प्रयोग के माध्यम से इष्टतम चेकपॉइंट चुनना

तकनीकी नवाचार बिंदु

आर्किटेक्चर संशोधन के बिना ऑडियो प्रसंस्करण: मौजूदा शब्दावली का पुनः उपयोग करके जटिल आर्किटेक्चर संशोधन से बचा गया
बहु-उद्देश्य पुरस्कार फ़ंक्शन: वाक्य रचना (WER) और शब्दार्थ (MP) सटीकता को जोड़ना, पुरस्कार धोखाधड़ी को रोकना
क्रमिक प्रशिक्षण रणनीति: पहले मिश्रित डेटा पर पर्यवेक्षित सूक्ष्म-ट्यूनिंग, फिर डोमेन अनुकूलन के लिए RLHF
शब्दार्थ संरक्षण मूल्यांकन: मानव वरीयता-आधारित शब्दार्थ मूल्यांकन मेट्रिक्स का परिचय

प्रायोगिक सेटअप

डेटासेट

LibriSpeech:
- 1000 घंटे मानक भाषण डेटा
- अंग्रेजी ऑडियोबुक से स्वच्छ वातावरण एकल वक्ता रिकॉर्डिंग
- सत्यापन के लिए dev-clean विभाजन का उपयोग
Euphonia:
- 10 लाख से अधिक विकृत भाषण उच्चारण (~1k घंटे)
- 1246 विभिन्न भाषण विकार वक्ताओं से
- प्रशिक्षण सेट: 900k+ उच्चारण, परीक्षण सेट: 5699 उच्चारण (200 वक्ता), सत्यापन सेट: 343 उच्चारण (24 वक्ता)
- भाषा रोग विशेषज्ञ द्वारा चिह्नित गंभीरता लेबल शामिल

मूल्यांकन मेट्रिक्स

WER (Word Error Rate): शब्द त्रुटि दर, वाक्य रचना सटीकता मेट्रिक
MP (Meaning Preservation): शब्दार्थ संरक्षण स्कोर, LLM का उपयोग करके यह निर्धारित करने के लिए कि क्या भविष्यवाणी प्रतिलेखन मूल अर्थ को संरक्षित करता है

तुलनात्मक विधियां

Librispeech Only: केवल LibriSpeech पर प्रशिक्षण
30:70 mixture: 30% Euphonia + 70% LibriSpeech मिश्रित प्रशिक्षण
Continued SFT: विकृत भाषण पर निरंतर पर्यवेक्षित सूक्ष्म-ट्यूनिंग
RLHF variants: विभिन्न γ मानों की सुदृढीकरण सीखने विधियां

कार्यान्वयन विवरण

आधार मॉडल: Gemma 2B (256k शब्दावली)
सीखने की दर: 5×10^-6, कोसाइन क्षय
अनुकूलक: Adam
इनपुट dropout: 5×10^-2
ऑडियो क्लस्टरिंग: LibriSpeech पर सीखे गए 1024 क्लस्टर

प्रायोगिक परिणाम

मुख्य परिणाम

पर्यवेक्षित सूक्ष्म-ट्यूनिंग चरण:

डेटा मिश्रण अनुपात	Euphonia परीक्षण WER↓	Euphonia परीक्षण MP↑	LibriSpeech Dev WER↓
LibriSpeech Only	70.9	39.0	17.1
30:70 mixture	50.4	48.2	17.2

30:70 मिश्रण अनुपात विकृत भाषण पर महत्वपूर्ण सुधार प्राप्त करता है, जबकि मानक भाषण पर प्रदर्शन बनाए रखता है।

RLHF अनुकूलन परिणाम:

ट्यूनिंग रणनीति	Euphonia परीक्षण WER↓	Euphonia परीक्षण MP↑	LibriSpeech Dev WER↓
आधार SFT मॉडल	50.4	48.2	17.2
निरंतर SFT	57.1	42.8	22.9
RLHF (γ=0.00)	41.0	50.4	20.2
RLHF (γ=1.00)	42.6	55.7	22.0

विलोपन प्रयोग

विभिन्न γ मानों का प्रभाव:

γ=0.00 (केवल WER): सबसे कम WER लेकिन कम MP स्कोर
γ=0.25-0.50: WER और MP का संतुलन बिंदु
γ=1.00: उच्चतम MP स्कोर, WER में मामूली वृद्धि लेकिन सांख्यिकीय रूप से महत्वपूर्ण नहीं (p=0.54)

गंभीरता विश्लेषण: RLHF मॉडल सभी गंभीरता स्तरों पर MP स्कोर में सुधार दिखाता है, मध्यम और गंभीर विकृत भाषण पर सुधार अधिक स्पष्ट है।

केस विश्लेषण

वास्तविक प्रतिलेखन	गंभीरता	RLHF(γ=0.0)	WER	RLHF(γ=1.0)	WER
"not so good today"	MILD	"not so good to the."	0.5	"not so good to day."	0.5
"every one of my family listens to music"	MODERATE	"every once in my frame and listen to music"	0.62	"everybody in my family listens to music"	0.38
"dancing is so much fun"	MODERATE	"that's so much fun."	0.40	"dancing so much fun."	0.20

मानव मूल्यांकन

220 नमूनों के मानव मूल्यांकन में:

औसत शब्दार्थ संरक्षण मूल्यांकन: γ=0.0 मॉडल के लिए 29.10%, γ=1.0 मॉडल के लिए 40.45%
मॉडल मूल्यांकन के साथ सहसंबंध: Spearman सहसंबंध गुणांक क्रमशः 0.684 और 0.639, दोनों सांख्यिकीय रूप से महत्वपूर्ण

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

RLHF पर्यवेक्षित सूक्ष्म-ट्यूनिंग से काफी बेहतर है: विकृत भाषण अनुकूलन कार्य पर, RLHF विधि निरंतर पर्यवेक्षित सूक्ष्म-ट्यूनिंग की तुलना में महत्वपूर्ण सुधार प्राप्त करती है
बहु-उद्देश्य पुरस्कार की प्रभावशीलता: WER और MP को जोड़ने वाला पुरस्कार फ़ंक्शन वाक्य रचना और शब्दार्थ सटीकता के बीच अच्छा संतुलन प्राप्त कर सकता है
शब्दार्थ संरक्षण का महत्व: विकृत भाषण पहचान में, शब्दार्थ संरक्षण सख्त शब्द मिलान से अधिक महत्वपूर्ण है

सीमाएं

समग्र प्रदर्शन सीमा: यह LLM विधि मौजूदा विशेष ASR प्रणालियों को पार नहीं करती है
कम्प्यूटेशनल संसाधन आवश्यकता: RLHF प्रशिक्षण को अतिरिक्त कम्प्यूटेशनल संसाधन और प्रशिक्षण समय की आवश्यकता होती है
भाषा सीमा: प्रयोग केवल अंग्रेजी पर किए गए हैं, बहुभाषी प्रयोज्यता सत्यापित नहीं है
मॉडल आकार सीमा: केवल Gemma 2B पर प्रयोग किए गए हैं, बड़े मॉडल के प्रभाव अज्ञात हैं

भविष्य की दिशाएं

बड़े मॉडल सत्यापन: बड़े पैमाने के LLM पर विधि की प्रभावशीलता सत्यापित करना
बहुभाषी विस्तार: विधि को अन्य भाषाओं की विकृत भाषण पहचान तक विस्तारित करना
ऑडियो असतत करण सुधार: बेहतर ऑडियो टोकन असतत करण रणनीति विकसित करना
बहु-पुरस्कार संकेत संलयन: अधिक पुरस्कार संकेतों को जोड़ने की संभावना की खोज करना

गहन मूल्यांकन

शक्तियां

विधि नवाचार शक्तिशाली है: LLM आर्किटेक्चर को संशोधित किए बिना ऑडियो प्रसंस्करण विधि व्यावहारिक मूल्य रखती है
प्रायोगिक डिज़ाइन पूर्ण है: पर्यवेक्षित सूक्ष्म-ट्यूनिंग से RLHF तक की क्रमिक प्रशिक्षण रणनीति तर्कसंगत है
मूल्यांकन प्रणाली व्यापक है: वाक्य रचना और शब्दार्थ मेट्रिक्स को जोड़ना, मानव मूल्यांकन सत्यापन शामिल है
सामाजिक मूल्य महत्वपूर्ण है: विकृत भाषण पर अनुसंधान महत्वपूर्ण सामाजिक महत्व रखता है

कमियां

सीमित प्रदर्शन सुधार: हालांकि सापेक्ष सुधार महत्वपूर्ण है, लेकिन निरपेक्ष प्रदर्शन में अभी भी सुधार की गुंजाइश है
कम्प्यूटेशनल दक्षता समस्या: सीधी सूक्ष्म-ट्यूनिंग की तुलना में, RLHF विधि की कम्प्यूटेशनल लागत अधिक है
सामान्यीकरण सत्यापन अपर्याप्त: केवल दो डेटासेट पर सत्यापित, सामान्यीकरण क्षमता को आगे सत्यापित करने की आवश्यकता है
सैद्धांतिक विश्लेषण अनुपस्थित: इस कार्य पर RLHF अधिक प्रभावी क्यों है इसके लिए सैद्धांतिक व्याख्या की कमी है

प्रभाव

तकनीकी योगदान: भाषण पहचान कार्य पर LLM के अनुप्रयोग के लिए नई सोच प्रदान करता है
अनुप्रयोग मूल्य: पहुंच प्रौद्योगिकी विकास के लिए मूल्यवान तकनीकी पथ प्रदान करता है
अनुसंधान प्रेरणा: विशेष डोमेन अनुकूलन में RLHF की संभावना प्रदर्शित करता है

लागू परिदृश्य

विकृत भाषण सहायता: भाषण विकार वाले लोगों की सहायक संचार प्रणाली में लागू किया जा सकता है
बहुविध संवाद प्रणाली: भाषण और पाठ को एक साथ संभालने की आवश्यकता वाले अनुप्रयोग परिदृश्यों के लिए उपयुक्त
कम-संसाधन भाषण पहचान: प्रशिक्षण डेटा दुर्लभ विशेष भाषण डोमेन के लिए संदर्भ मूल्य रखता है

संदर्भ

पेपर ने 35 संबंधित साहित्य का हवाला दिया है, जो LLM बहुविध विस्तार, भाषण पहचान, सुदृढीकरण सीखने और अन्य क्षेत्रों के महत्वपूर्ण कार्यों को कवर करता है, अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है।

समग्र मूल्यांकन: यह पेपर तकनीकी नवाचार और सामाजिक मूल्य दोनों के संदर्भ में महत्वपूर्ण है, प्रस्तावित आर्किटेक्चर संशोधन-मुक्त LLM भाषण पहचान विधि और RLHF डोमेन अनुकूलन रणनीति संबंधित अनुसंधान के लिए नई सोच प्रदान करते हैं। हालांकि निरपेक्ष प्रदर्शन में अभी भी सुधार की गुंजाइश है, लेकिन विकृत भाषण पहचान जैसे महत्वपूर्ण अनुप्रयोग परिदृश्य में इसके महत्वपूर्ण सुधार इस विधि के व्यावहारिक मूल्य को प्रदर्शित करते हैं।