Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning
Nagpal, Venugopalan, Tobin et al.
We introduce a large language model (LLM) capable of processing speech inputs and show that tuning it further with reinforcement learning on human preference (RLHF) enables it to adapt better to disordered speech than traditional fine-tuning. Our method replaces low-frequency text tokens in an LLM's vocabulary with audio tokens and enables the model to recognize speech by fine-tuning it on speech with transcripts. We then use RL with rewards based on syntactic and semantic accuracy measures generalizing the LLM further to recognize disordered speech. While the resulting LLM does not outperform existing systems for speech recognition, we find that tuning with reinforcement learning using custom rewards leads to substantially better performance than supervised fine-tuning of the language model, specifically when adapting to speech in a different setting. This presents a compelling alternative tuning strategy for speech recognition using large language models.
academic
التعرف على الكلام باستخدام نماذج اللغة الكبيرة المكيفة للكلام المضطرب باستخدام التعلم المعزز
تقترح هذه الورقة نموذج لغة كبير (LLM) قادر على معالجة مدخلات الكلام، وتوضح أن الضبط الإضافي من خلال التعلم المعزز القائم على تفضيلات الإنسان (RLHF) يمكن أن يتفوق على الضبط الدقيق التقليدي في التكيف مع الكلام المضطرب. تستبدل الطريقة رموز النصوص منخفضة التكرار في مفردات LLM برموز صوتية، مما يمكّن النموذج من التعرف على الكلام من خلال الضبط الدقيق على بيانات نسخ الكلام. يتم بعد ذلك استخدام التعلم المعزز مع مكافآت تعتمد على مقاييس الدقة النحوية والدلالية لتعميم LLM بشكل أكبر للتعرف على الكلام المضطرب. على الرغم من أن النموذج الناتج لم يتفوق على الأنظمة الموجودة في التعرف على الكلام، إلا أن البحث يكتشف أن ضبط التعلم المعزز باستخدام مكافآت مخصصة يتفوق بشكل كبير على الضبط الدقيق الخاضع للإشراف لنموذج اللغة عند التكيف مع الكلام في إعدادات مختلفة.
توسيع القدرات متعددة الأنماط: تعزيز قدرة معالجة الصوت في LLM مع الحفاظ على قدرات فهم اللغة، وهو أمر حاسم لتطبيقات التحكم الصوتي الآلية
تكنولوجيا الوصول: بالنسبة للأفراد الذين يعانون من اضطرابات الكلام، فإن تقنيات التعرف على الكلام التي يمكنها دمج السياق البصري والنصي لها قيمة اجتماعية خاصة
التكيف في السيناريوهات منخفضة الموارد: يعتبر تكييف النموذج في السيناريوهات منخفضة الموارد مثل الكلام المضطرب تحديًا تقنيًا مهمًا
RLHF يتفوق بشكل كبير على الضبط الدقيق الخاضع للإشراف: في مهام تكيف الكلام المضطرب، حققت طريقة RLHF تحسينات كبيرة مقارنة بالضبط الدقيق الخاضع للإشراف المستمر
فعالية دالة المكافأة متعددة الأهداف: يمكن لدالة المكافأة التي تجمع بين WER و MP تحقيق توازن جيد بين الدقة النحوية والدلالية
أهمية الحفاظ على المعنى: في التعرف على الكلام المضطرب، يعتبر الحفاظ على المعنى أكثر أهمية من المطابقة الدقيقة للكلمات
تستشهد الورقة بـ 35 مرجعًا ذا صلة، تغطي عدة مجالات مهمة بما في ذلك توسيع LLM متعدد الأنماط والتعرف على الكلام والتعلم المعزز، مما يوفر أساسًا نظريًا قويًا للبحث.
التقييم الإجمالي: تتمتع هذه الورقة بأهمية كبيرة من حيث الابتكار التقني والقيمة الاجتماعية، حيث تقترح طريقة التعرف على الكلام LLM بدون تعديل البنية واستراتيجية تكيف المجال RLHF توفر أفكارًا جديدة للأبحاث ذات الصلة. على الرغم من وجود مجال لتحسين الأداء المطلقة، إلا أن التحسينات الكبيرة في هذا السيناريو التطبيقي المهم للتعرف على الكلام المضطرب تظهر القيمة العملية لهذه الطريقة.