2025-11-13T12:49:11.039710

Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning

Nagpal, Venugopalan, Tobin et al.

We introduce a large language model (LLM) capable of processing speech inputs and show that tuning it further with reinforcement learning on human preference (RLHF) enables it to adapt better to disordered speech than traditional fine-tuning. Our method replaces low-frequency text tokens in an LLM's vocabulary with audio tokens and enables the model to recognize speech by fine-tuning it on speech with transcripts. We then use RL with rewards based on syntactic and semantic accuracy measures generalizing the LLM further to recognize disordered speech. While the resulting LLM does not outperform existing systems for speech recognition, we find that tuning with reinforcement learning using custom rewards leads to substantially better performance than supervised fine-tuning of the language model, specifically when adapting to speech in a different setting. This presents a compelling alternative tuning strategy for speech recognition using large language models.

academic

বিকৃত বাণীর জন্য শক্তিশালী শিক্ষার মাধ্যমে অভিযোজিত LLM সহ বাণী স্বীকৃতি

মৌলিক তথ্য

পেপার আইডি: 2501.00039
শিরোনাম: Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning
লেখক: Chirag Nagpal, Subhashini Venugopalan, Jimmy Tobin, Marilyn Ladewig, Katherine Heller, Katrin Tomanek (Google Research)
শ্রেণীবিভাগ: eess.AS cs.CL cs.LG cs.SD
প্রকাশনার সময়: ২৫ ডিসেম্বর ২০২৪ (arXiv প্রিপ্রিন্ট)
পেপার লিংক: https://arxiv.org/abs/2501.00039

সারসংক্ষেপ

এই পেপারটি বাণী ইনপুট পরিচালনা করতে সক্ষম একটি বৃহৎ ভাষা মডেল (LLM) প্রস্তাব করে এবং মানব পছন্দের উপর ভিত্তি করে শক্তিশালী শিক্ষা (RLHF) ব্যবহার করে আরও সূক্ষ্ম সমন্বয় ঐতিহ্যবাহী সূক্ষ্ম সমন্বয়ের চেয়ে বিকৃত বাণীতে আরও ভালভাবে অভিযোজিত হতে পারে তা প্রদর্শন করে। এই পদ্ধতিটি LLM শব্দভাণ্ডারে কম ফ্রিকোয়েন্সি টেক্সট টোকেনকে অডিও টোকেন দিয়ে প্রতিস্থাপন করে, বাণী ট্রান্সক্রিপশন ডেটায় সূক্ষ্ম সমন্বয়ের মাধ্যমে মডেলটিকে বাণী স্বীকৃতি করতে সক্ষম করে। পরবর্তীতে বাক্যগত এবং শব্দার্থগত নির্ভুলতা মেট্রিক্সের উপর ভিত্তি করে শক্তিশালী শিক্ষা পুরস্কার ব্যবহার করে বিকৃত বাণী স্বীকৃতির জন্য LLM আরও সাধারণীকরণ করা হয়। যদিও ফলাফল মডেলটি বাণী স্বীকৃতিতে বিদ্যমান সিস্টেমকে অতিক্রম করে না, গবেষণা দেখায় যে কাস্টম পুরস্কার সহ শক্তিশালী শিক্ষা সমন্বয় বিভিন্ন সেটিংসে বাণী অভিযোজনের সময় ভাষা মডেলের তত্ত্বাবধানকৃত সূক্ষ্ম সমন্বয়ের চেয়ে উল্লেখযোগ্যভাবে ভাল পারফরম্যান্স প্রদান করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যার সংজ্ঞা

এই গবেষণা দুটি মূল সমস্যা সমাধান করে:

কীভাবে বিদ্যমান LLM কে বাণী ইনপুট পরিচালনা করতে এবং বাণী স্বীকৃতি সম্পাদন করতে সক্ষম করা যায়
কীভাবে LLM-ভিত্তিক ASR সিস্টেমকে বিকৃত বাণী স্বীকৃতি কাজে কার্যকরভাবে অভিযোজিত করা যায়

গুরুত্ব

বহুমোডাল ক্ষমতা সম্প্রসারণ: LLM এর অডিও প্রক্রিয়াকরণ ক্ষমতা বৃদ্ধি করা, যখন এর ভাষা বোঝার ক্ষমতা বজায় রাখা, বাণী নিয়ন্ত্রণ স্বয়ংক্রিয় অ্যাপ্লিকেশনের জন্য গুরুত্বপূর্ণ
অ্যাক্সেসিবিলিটি প্রযুক্তি: বাণী বিকারযুক্ত ব্যক্তিদের জন্য, ভিজ্যুয়াল এবং টেক্সট প্রসঙ্গ একত্রিত করতে পারে এমন বাণী স্বীকৃতি প্রযুক্তি বিশেষ সামাজিক মূল্য রাখে
কম সম্পদ পরিস্থিতি অভিযোজন: বিকৃত বাণীর মতো কম সম্পদ পরিস্থিতিতে মডেল অভিযোজন একটি গুরুত্বপূর্ণ প্রযুক্তিগত চ্যালেঞ্জ

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

স্থাপত্য সংশোধন জটিল: বেশিরভাগ বিদ্যমান কাজের জন্য LLM স্থাপত্য সংশোধন বা বাণী এনকোডার ব্যবহার করে এমবেডিং নিষ্কাশন প্রয়োজন
শব্দভাণ্ডার সম্প্রসারণ খরচ: কিছু পদ্ধতি অডিও পরিচালনা করতে LLM শব্দভাণ্ডার সম্প্রসারণ করে, গণনামূলক খরচ বৃদ্ধি করে
মূল্যায়ন মেট্রিক্স সীমাবদ্ধতা: ঐতিহ্যবাহী ASR সিস্টেম প্রধানত WER এর মতো বাক্যগত মেট্রিক্সের উপর নির্ভর করে, শব্দার্থগত সংরক্ষণে মূল্যায়ন অপর্যাপ্ত
বিকৃত বাণী অভিযোজন কঠিন: ঐতিহ্যবাহী সূক্ষ্ম সমন্বয় পদ্ধতি বিকৃত বাণীতে অভিযোজনে সীমিত কার্যকারিতা প্রদান করে

মূল অবদান

স্থাপত্য সংশোধন ছাড়াই LLM বাণী স্বীকৃতি পদ্ধতি প্রস্তাব: অডিও টোকেনকে বিদ্যমান শব্দভাণ্ডারে কম ফ্রিকোয়েন্সি টেক্সট টোকেনে ম্যাপ করে, স্থাপত্য সংশোধন এড়ায়
RLHF-ভিত্তিক ASR ডোমেইন অভিযোজন কৌশল প্রবর্তন: WER এবং শব্দার্থগত সংরক্ষণ (MP) স্কোরের সমন্বিত পুরস্কার ব্যবহার করে শক্তিশালী শিক্ষা অপ্টিমাইজেশন
বিকৃত বাণী স্বীকৃতিতে উল্লেখযোগ্য উন্নতি অর্জন: তত্ত্বাবধানকৃত সূক্ষ্ম সমন্বয়ের তুলনায়, RLHF পদ্ধতি Euphonia ডেটাসেটে উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন করে
শব্দার্থগত সংরক্ষণ মূল্যায়নের নতুন দৃষ্টিভঙ্গি প্রদান: বাক্যগত নির্ভুলতা (WER) এবং শব্দার্থগত নির্ভুলতা (MP) একত্রিত করে ব্যাপক মূল্যায়ন

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

ইনপুট: কাঁচা অডিও সংকেত আউটপুট: সংশ্লিষ্ট টেক্সট ট্রান্সক্রিপশন সীমাবদ্ধতা: LLM এর মূল স্থাপত্য অপরিবর্তিত রাখা, বিকৃত বাণী ডোমেইনে অভিযোজন

মডেল স্থাপত্য

প্রথম পর্যায়: LLM বাণী স্বীকৃতি ক্ষমতা নির্মাণ

অডিও টোকেনাইজেশন এবং বিচ্ছিন্নকরণ:

25Hz ফ্রিকোয়েন্সিতে টোকেন তৈরি করতে USM বাণী এনকোডার ব্যবহার করুন (w2v-BERT প্রশিক্ষণের মতো)
মধ্যবর্তী স্তর (স্তর 16) থেকে এমবেডিং নিষ্কাশন করুন এবং 1024 ক্লাস্টারে ক্লাস্টার করুন
অডিও এমবেডিংকে নিকটতম ক্লাস্টার কেন্দ্র আইডিতে ম্যাপ করুন

শব্দভাণ্ডার পুনর্ম্যাপিং:

1024 অডিও ক্লাস্টার আইডিকে LLM শব্দভাণ্ডারের শেষ 1024 সর্বনিম্ন ফ্রিকোয়েন্সি টেক্সট টোকেনে ম্যাপ করুন
কম ফ্রিকোয়েন্সি টোকেন নির্বাচনের প্রেরণা: এগুলি সাধারণত বহুভাষিক বা ইউনিকোড অক্ষর, যা অডিও টোকেন হিসাবে পুনরায় ব্যবহার করা যেতে পারে
ASR ডেটায় প্রশিক্ষণের জন্য মান তত্ত্বাবধানকৃত সূক্ষ্ম সমন্বয় ব্যবহার করুন, ইনপুট হল বিচ্ছিন্ন অডিও টোকেন, আউটপুট হল টেক্সট ট্রান্সক্রিপশন

দ্বিতীয় পর্যায়: RLHF-ভিত্তিক ডোমেইন অভিযোজন

পুরস্কার ফাংশন ডিজাইন:

R(x,y;y*) = γ · MP(y,y*) + ln(1 - WER(y,y*))

যেখানে:

x: মূল ইনপুট
y: পূর্বাভাসিত ট্রান্সক্রিপশন
y*: সত্য ট্রান্সক্রিপশন
γ: WER এবং MP স্কোর ভারসাম্যপূর্ণ করার হাইপারপ্যারামিটার
MP: শব্দার্থগত সংরক্ষণ স্কোর
WER: শব্দ ত্রুটি হার

শব্দার্থগত সংরক্ষণ পুরস্কার মডেল:

শব্দার্থগত সংরক্ষণ বাইনারি শ্রেণীবিভাগ কাজে Gemma-2B ব্যবহার করে প্রশিক্ষণ দিন
2840 পূর্বাভাস-সত্য ট্রান্সক্রিপশন জোড়ায় ক্রস-এন্ট্রপি ক্ষতি ব্যবহার করে প্রশিক্ষণ দিন
পরীক্ষা সেটে 0.87 AUC অর্জন করুন (16 এর 0.89 AUC এর বিপরীতে)

শক্তিশালী শিক্ষা অপ্টিমাইজেশন:

PPO (Proximal Policy Optimization) ব্যবহার করুন
গ্রেডিয়েন্ট ক্লিপিং এবং KL নিয়মিতকরণ প্রয়োগ করুন
বিভিন্ন γ মান পরীক্ষা করে সর্বোত্তম চেকপয়েন্ট নির্বাচন করুন

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

স্থাপত্য সংশোধন ছাড়াই অডিও প্রক্রিয়াকরণ: বিদ্যমান শব্দভাণ্ডার পুনরায় ব্যবহার করে জটিল স্থাপত্য সংশোধন এড়ান
বহু-উদ্দেশ্য পুরস্কার ফাংশন: বাক্যগত (WER) এবং শব্দার্থগত (MP) নির্ভুলতা একত্রিত করুন, পুরস্কার প্রতারণা প্রতিরোধ করুন
ক্রমবর্ধমান প্রশিক্ষণ কৌশল: প্রথমে মিশ্র ডেটায় তত্ত্বাবধানকৃত সূক্ষ্ম সমন্বয়, তারপর RLHF দিয়ে ডোমেইন অভিযোজন
শব্দার্থগত সংরক্ষণ মূল্যায়ন: মানব পছন্দের উপর ভিত্তি করে শব্দার্থগত মূল্যায়ন মেট্রিক প্রবর্তন করুন

পরীক্ষামূলক সেটআপ

ডেটাসেট

LibriSpeech:
- 1000 ঘন্টা মান বাণী ডেটা
- ইংরেজি অডিওবুক থেকে পরিষ্কার পরিবেশ একক স্পিকার রেকর্ডিং
- যাচাইকরণের জন্য dev-clean বিভাজন ব্যবহার করুন
Euphonia:
- 1 মিলিয়নেরও বেশি বিকৃত বাণী উচ্চারণ (~1k ঘন্টা)
- 1246 বিভিন্ন বাণী বিকার স্পিকার থেকে
- প্রশিক্ষণ সেট: 900k+ উচ্চারণ, পরীক্ষা সেট: 5699 উচ্চারণ (200 স্পিকার), যাচাইকরণ সেট: 343 উচ্চারণ (24 স্পিকার)
- ভাষা প্যাথোলজিস্ট দ্বারা মনোনীত গুরুত্ব লেবেল অন্তর্ভুক্ত করুন

মূল্যায়ন মেট্রিক্স

WER (Word Error Rate): শব্দ ত্রুটি হার, বাক্যগত নির্ভুলতা মেট্রিক
MP (Meaning Preservation): শব্দার্থগত সংরক্ষণ স্কোর, LLM ব্যবহার করে পূর্বাভাসিত ট্রান্সক্রিপশন মূল অর্থ সংরক্ষণ করে কিনা তা নির্ধারণ করুন

তুলনামূলক পদ্ধতি

Librispeech Only: শুধুমাত্র LibriSpeech এ প্রশিক্ষণ
30:70 mixture: 30% Euphonia + 70% LibriSpeech মিশ্র প্রশিক্ষণ
Continued SFT: বিকৃত বাণীতে চলমান তত্ত্বাবধানকৃত সূক্ষ্ম সমন্বয়
RLHF variants: বিভিন্ন γ মানের শক্তিশালী শিক্ষা পদ্ধতি

বাস্তবায়ন বিবরণ

ভিত্তি মডেল: Gemma 2B (256k শব্দভাণ্ডার)
শিক্ষার হার: 5×10^-6, কোসাইন ক্ষয়
অপ্টিমাইজার: Adam
ইনপুট ড্রপআউট: 5×10^-2
অডিও ক্লাস্টারিং: LibriSpeech এর উপর ভিত্তি করে 1024 ক্লাস্টার শিখুন

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

তত্ত্বাবধানকৃত সূক্ষ্ম সমন্বয় পর্যায়:

ডেটা মিশ্র অনুপাত	Euphonia পরীক্ষা WER↓	Euphonia পরীক্ষা MP↑	LibriSpeech Dev WER↓
LibriSpeech Only	70.9	39.0	17.1
30:70 mixture	50.4	48.2	17.2

30:70 মিশ্র অনুপাত বিকৃত বাণীতে উল্লেখযোগ্য উন্নতি অর্জন করে, যখন মান বাণীতে কর্মক্ষমতা বজায় রাখে।

RLHF অভিযোজন ফলাফল:

সমন্বয় কৌশল	Euphonia পরীক্ষা WER↓	Euphonia পরীক্ষা MP↑	LibriSpeech Dev WER↓
Base SFT model	50.4	48.2	17.2
Continued SFT	57.1	42.8	22.9
RLHF (γ=0.00)	41.0	50.4	20.2
RLHF (γ=1.00)	42.6	55.7	22.0

বিলোপন পরীক্ষা

বিভিন্ন γ মানের প্রভাব:

γ=0.00 (শুধুমাত্র WER): সর্বনিম্ন WER কিন্তু কম MP স্কোর
γ=0.25-0.50: WER এবং MP এর ভারসাম্য বিন্দু
γ=1.00: সর্বোচ্চ MP স্কোর, WER সামান্য বৃদ্ধি কিন্তু পরিসংখ্যানগতভাবে উল্লেখযোগ্য নয় (p=0.54)

গুরুত্ব বিশ্লেষণ: RLHF মডেল সমস্ত গুরুত্ব স্তরে MP স্কোরের উন্নতি প্রদর্শন করে, মধ্যম এবং গুরুতর বিকৃত বাণীতে আরও উল্লেখযোগ্য উন্নতি।

কেস বিশ্লেষণ

সত্য ট্রান্সক্রিপশন	গুরুত্ব	RLHF(γ=0.0)	WER	RLHF(γ=1.0)	WER
"not so good today"	MILD	"not so good to the."	0.5	"not so good to day."	0.5
"every one of my family listens to music"	MODERATE	"every once in my frame and listen to music"	0.62	"everybody in my family listens to music"	0.38
"dancing is so much fun"	MODERATE	"that's so much fun."	0.40	"dancing so much fun."	0.20

মানব মূল্যায়ন

220 নমুনার মানব মূল্যায়নে:

গড় শব্দার্থগত সংরক্ষণ মূল্যায়ন: γ=0.0 মডেল 29.10%, γ=1.0 মডেল 40.45%
মডেল মূল্যায়নের সাথে সম্পর্ক: Spearman সহসম্বন্ধ সহগ যথাক্রমে 0.684 এবং 0.639, উভয়ই পরিসংখ্যানগতভাবে উল্লেখযোগ্য

উপসংহার এবং আলোচনা

প্রধান উপসংহার

RLHF তত্ত্বাবধানকৃত সূক্ষ্ম সমন্বয়ের চেয়ে উল্লেখযোগ্যভাবে ভাল: বিকৃত বাণী অভিযোজন কাজে, RLHF পদ্ধতি চলমান তত্ত্বাবধানকৃত সূক্ষ্ম সমন্বয়ের চেয়ে উল্লেখযোগ্য উন্নতি অর্জন করে
বহু-উদ্দেশ্য পুরস্কারের কার্যকারিতা: WER এবং MP একত্রিত করা পুরস্কার ফাংশন বাক্যগত এবং শব্দার্থগত নির্ভুলতার মধ্যে ভাল ভারসাম্য অর্জন করতে পারে
শব্দার্থগত সংরক্ষণের গুরুত্ব: বিকৃত বাণী স্বীকৃতিতে, শব্দার্থগত সংরক্ষণ কঠোর শব্দ ম্যাচিংয়ের চেয়ে আরও গুরুত্বপূর্ণ

সীমাবদ্ধতা

সামগ্রিক কর্মক্ষমতা সীমাবদ্ধতা: এই LLM পদ্ধতি বিদ্যমান বিশেষায়িত ASR সিস্টেমকে অতিক্রম করে না
গণনামূলক সম্পদ প্রয়োজনীয়তা: RLHF প্রশিক্ষণ অতিরিক্ত গণনামূলক সম্পদ এবং প্রশিক্ষণ সময় প্রয়োজন
ভাষা সীমাবদ্ধতা: পরীক্ষা শুধুমাত্র ইংরেজিতে পরিচালিত হয়, বহুভাষিক প্রযোজ্যতা যাচাই করা হয়নি
মডেল আকার সীমাবদ্ধতা: শুধুমাত্র Gemma 2B এ পরীক্ষা করা হয়, বৃহত্তর মডেলের প্রভাব অজানা

ভবিষ্যত দিকনির্দেশনা

বৃহত্তর মডেল যাচাইকরণ: বৃহত্তর স্কেল LLM এ পদ্ধতির কার্যকারিতা যাচাই করুন
বহুভাষিক সম্প্রসারণ: পদ্ধতি অন্যান্য ভাষার বিকৃত বাণী স্বীকৃতিতে প্রসারিত করুন
অডিও বিচ্ছিন্নকরণ উন্নতি: আরও ভাল অডিও টোকেন বিচ্ছিন্নকরণ কৌশল বিকাশ করুন
বহু পুরস্কার সংকেত সংমিশ্রণ: আরও পুরস্কার সংকেত একত্রিত করার সম্ভাবনা অন্বেষণ করুন

গভীর মূল্যায়ন

শক্তি

শক্তিশালী পদ্ধতি উদ্ভাবন: স্থাপত্য সংশোধন ছাড়াই অডিও প্রক্রিয়াকরণ পদ্ধতি ব্যবহারিক মূল্য রাখে
সম্পূর্ণ পরীক্ষামূলক ডিজাইন: তত্ত্বাবধানকৃত সূক্ষ্ম সমন্বয় থেকে RLHF পর্যন্ত ক্রমবর্ধমান প্রশিক্ষণ কৌশল যুক্তিসঙ্গত
ব্যাপক মূল্যায়ন সিস্টেম: বাক্যগত এবং শব্দার্থগত মেট্রিক্স একত্রিত করুন, মানব মূল্যায়ন যাচাইকরণ অন্তর্ভুক্ত করুন
উল্লেখযোগ্য সামাজিক মূল্য: বিকৃত বাণীর উপর গবেষণা উল্লেখযোগ্য সামাজিক গুরুত্ব রাখে

অপূর্ণতা

সীমিত কর্মক্ষমতা উন্নতি: যদিও আপেক্ষিক উন্নতি উল্লেখযোগ্য, পরম কর্মক্ষমতা এখনও উন্নতির জায়গা রয়েছে
গণনামূলক দক্ষতা সমস্যা: সরাসরি সূক্ষ্ম সমন্বয়ের তুলনায়, RLHF পদ্ধতি উচ্চতর গণনামূলক খরচ রাখে
অপর্যাপ্ত সাধারণীকরণ যাচাইকরণ: শুধুমাত্র দুটি ডেটাসেটে যাচাই করা হয়, সাধারণীকরণ আরও যাচাইকরণের প্রয়োজন
অনুপস্থিত তাত্ত্বিক বিশ্লেষণ: এই কাজে RLHF কেন আরও কার্যকর তার তাত্ত্বিক ব্যাখ্যা অনুপস্থিত

প্রভাব

প্রযুক্তিগত অবদান: বাণী স্বীকৃতি কাজে LLM প্রয়োগের জন্য নতুন চিন্তাভাবনা প্রদান করে
প্রয়োগ মূল্য: অ্যাক্সেসিবিলিটি প্রযুক্তি উন্নয়নের জন্য মূল্যবান প্রযুক্তিগত পথ প্রদান করে
গবেষণা অনুপ্রেরণা: বিশেষ ডোমেইন অভিযোজনে RLHF এর সম্ভাবনা প্রদর্শন করে

প্রযোজ্য পরিস্থিতি

বিকৃত বাণী সহায়তা: বাণী বিকারযুক্ত ব্যক্তিদের জন্য সহায়ক যোগাযোগ সিস্টেমে প্রয়োগ করা যেতে পারে
বহুমোডাল সংলাপ সিস্টেম: বাণী এবং টেক্সট একযোগে পরিচালনা করতে হয় এমন অ্যাপ্লিকেশন পরিস্থিতির জন্য উপযুক্ত
কম সম্পদ বাণী স্বীকৃতি: প্রশিক্ষণ ডেটা বিরল বিশেষ বাণী ডোমেইনের জন্য রেফারেন্স মূল্য রাখে

সংদর্ভ

পেপারটি 35টি সম্পর্কিত সাহিত্য উদ্ধৃত করে, যা LLM বহুমোডাল সম্প্রসারণ, বাণী স্বীকৃতি, শক্তিশালী শিক্ষা এবং অন্যান্য একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।

সামগ্রিক মূল্যায়ন: এই পেপারটি প্রযুক্তিগত উদ্ভাবন এবং সামাজিক মূল্য উভয় দিক থেকেই উল্লেখযোগ্য গুরুত্ব রাখে, স্থাপত্য সংশোধন ছাড়াই LLM বাণী স্বীকৃতি পদ্ধতি এবং RLHF ডোমেইন অভিযোজন কৌশল প্রস্তাব করে যা সম্পর্কিত গবেষণার জন্য নতুন চিন্তাভাবনা প্রদান করে। যদিও পরম কর্মক্ষমতায় এখনও উন্নতির জায়গা রয়েছে, তবে বিকৃত বাণী স্বীকৃতির এই গুরুত্বপূর্ণ প্রয়োগ পরিস্থিতিতে এর উল্লেখযোগ্য উন্নতি পদ্ধতির ব্যবহারিক মূল্য প্রদর্শন করে।