Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning
Nagpal, Venugopalan, Tobin et al.
We introduce a large language model (LLM) capable of processing speech inputs and show that tuning it further with reinforcement learning on human preference (RLHF) enables it to adapt better to disordered speech than traditional fine-tuning. Our method replaces low-frequency text tokens in an LLM's vocabulary with audio tokens and enables the model to recognize speech by fine-tuning it on speech with transcripts. We then use RL with rewards based on syntactic and semantic accuracy measures generalizing the LLM further to recognize disordered speech. While the resulting LLM does not outperform existing systems for speech recognition, we find that tuning with reinforcement learning using custom rewards leads to substantially better performance than supervised fine-tuning of the language model, specifically when adapting to speech in a different setting. This presents a compelling alternative tuning strategy for speech recognition using large language models.
academic
বিকৃত বাণীর জন্য শক্তিশালী শিক্ষার মাধ্যমে অভিযোজিত LLM সহ বাণী স্বীকৃতি
এই পেপারটি বাণী ইনপুট পরিচালনা করতে সক্ষম একটি বৃহৎ ভাষা মডেল (LLM) প্রস্তাব করে এবং মানব পছন্দের উপর ভিত্তি করে শক্তিশালী শিক্ষা (RLHF) ব্যবহার করে আরও সূক্ষ্ম সমন্বয় ঐতিহ্যবাহী সূক্ষ্ম সমন্বয়ের চেয়ে বিকৃত বাণীতে আরও ভালভাবে অভিযোজিত হতে পারে তা প্রদর্শন করে। এই পদ্ধতিটি LLM শব্দভাণ্ডারে কম ফ্রিকোয়েন্সি টেক্সট টোকেনকে অডিও টোকেন দিয়ে প্রতিস্থাপন করে, বাণী ট্রান্সক্রিপশন ডেটায় সূক্ষ্ম সমন্বয়ের মাধ্যমে মডেলটিকে বাণী স্বীকৃতি করতে সক্ষম করে। পরবর্তীতে বাক্যগত এবং শব্দার্থগত নির্ভুলতা মেট্রিক্সের উপর ভিত্তি করে শক্তিশালী শিক্ষা পুরস্কার ব্যবহার করে বিকৃত বাণী স্বীকৃতির জন্য LLM আরও সাধারণীকরণ করা হয়। যদিও ফলাফল মডেলটি বাণী স্বীকৃতিতে বিদ্যমান সিস্টেমকে অতিক্রম করে না, গবেষণা দেখায় যে কাস্টম পুরস্কার সহ শক্তিশালী শিক্ষা সমন্বয় বিভিন্ন সেটিংসে বাণী অভিযোজনের সময় ভাষা মডেলের তত্ত্বাবধানকৃত সূক্ষ্ম সমন্বয়ের চেয়ে উল্লেখযোগ্যভাবে ভাল পারফরম্যান্স প্রদান করে।
বহুমোডাল ক্ষমতা সম্প্রসারণ: LLM এর অডিও প্রক্রিয়াকরণ ক্ষমতা বৃদ্ধি করা, যখন এর ভাষা বোঝার ক্ষমতা বজায় রাখা, বাণী নিয়ন্ত্রণ স্বয়ংক্রিয় অ্যাপ্লিকেশনের জন্য গুরুত্বপূর্ণ
অ্যাক্সেসিবিলিটি প্রযুক্তি: বাণী বিকারযুক্ত ব্যক্তিদের জন্য, ভিজ্যুয়াল এবং টেক্সট প্রসঙ্গ একত্রিত করতে পারে এমন বাণী স্বীকৃতি প্রযুক্তি বিশেষ সামাজিক মূল্য রাখে
কম সম্পদ পরিস্থিতি অভিযোজন: বিকৃত বাণীর মতো কম সম্পদ পরিস্থিতিতে মডেল অভিযোজন একটি গুরুত্বপূর্ণ প্রযুক্তিগত চ্যালেঞ্জ
স্থাপত্য সংশোধন ছাড়াই LLM বাণী স্বীকৃতি পদ্ধতি প্রস্তাব: অডিও টোকেনকে বিদ্যমান শব্দভাণ্ডারে কম ফ্রিকোয়েন্সি টেক্সট টোকেনে ম্যাপ করে, স্থাপত্য সংশোধন এড়ায়
RLHF-ভিত্তিক ASR ডোমেইন অভিযোজন কৌশল প্রবর্তন: WER এবং শব্দার্থগত সংরক্ষণ (MP) স্কোরের সমন্বিত পুরস্কার ব্যবহার করে শক্তিশালী শিক্ষা অপ্টিমাইজেশন
বিকৃত বাণী স্বীকৃতিতে উল্লেখযোগ্য উন্নতি অর্জন: তত্ত্বাবধানকৃত সূক্ষ্ম সমন্বয়ের তুলনায়, RLHF পদ্ধতি Euphonia ডেটাসেটে উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন করে
শব্দার্থগত সংরক্ষণ মূল্যায়নের নতুন দৃষ্টিভঙ্গি প্রদান: বাক্যগত নির্ভুলতা (WER) এবং শব্দার্থগত নির্ভুলতা (MP) একত্রিত করে ব্যাপক মূল্যায়ন
RLHF তত্ত্বাবধানকৃত সূক্ষ্ম সমন্বয়ের চেয়ে উল্লেখযোগ্যভাবে ভাল: বিকৃত বাণী অভিযোজন কাজে, RLHF পদ্ধতি চলমান তত্ত্বাবধানকৃত সূক্ষ্ম সমন্বয়ের চেয়ে উল্লেখযোগ্য উন্নতি অর্জন করে
বহু-উদ্দেশ্য পুরস্কারের কার্যকারিতা: WER এবং MP একত্রিত করা পুরস্কার ফাংশন বাক্যগত এবং শব্দার্থগত নির্ভুলতার মধ্যে ভাল ভারসাম্য অর্জন করতে পারে
শব্দার্থগত সংরক্ষণের গুরুত্ব: বিকৃত বাণী স্বীকৃতিতে, শব্দার্থগত সংরক্ষণ কঠোর শব্দ ম্যাচিংয়ের চেয়ে আরও গুরুত্বপূর্ণ
পেপারটি 35টি সম্পর্কিত সাহিত্য উদ্ধৃত করে, যা LLM বহুমোডাল সম্প্রসারণ, বাণী স্বীকৃতি, শক্তিশালী শিক্ষা এবং অন্যান্য একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।
সামগ্রিক মূল্যায়ন: এই পেপারটি প্রযুক্তিগত উদ্ভাবন এবং সামাজিক মূল্য উভয় দিক থেকেই উল্লেখযোগ্য গুরুত্ব রাখে, স্থাপত্য সংশোধন ছাড়াই LLM বাণী স্বীকৃতি পদ্ধতি এবং RLHF ডোমেইন অভিযোজন কৌশল প্রস্তাব করে যা সম্পর্কিত গবেষণার জন্য নতুন চিন্তাভাবনা প্রদান করে। যদিও পরম কর্মক্ষমতায় এখনও উন্নতির জায়গা রয়েছে, তবে বিকৃত বাণী স্বীকৃতির এই গুরুত্বপূর্ণ প্রয়োগ পরিস্থিতিতে এর উল্লেখযোগ্য উন্নতি পদ্ধতির ব্যবহারিক মূল্য প্রদর্শন করে।