2025-11-13T12:49:11.039710

Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning

Nagpal, Venugopalan, Tobin et al.

We introduce a large language model (LLM) capable of processing speech inputs and show that tuning it further with reinforcement learning on human preference (RLHF) enables it to adapt better to disordered speech than traditional fine-tuning. Our method replaces low-frequency text tokens in an LLM's vocabulary with audio tokens and enables the model to recognize speech by fine-tuning it on speech with transcripts. We then use RL with rewards based on syntactic and semantic accuracy measures generalizing the LLM further to recognize disordered speech. While the resulting LLM does not outperform existing systems for speech recognition, we find that tuning with reinforcement learning using custom rewards leads to substantially better performance than supervised fine-tuning of the language model, specifically when adapting to speech in a different setting. This presents a compelling alternative tuning strategy for speech recognition using large language models.

academic

التعرف على الكلام باستخدام نماذج اللغة الكبيرة المكيفة للكلام المضطرب باستخدام التعلم المعزز

المعلومات الأساسية

معرّف الورقة: 2501.00039
العنوان: Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning
المؤلفون: Chirag Nagpal, Subhashini Venugopalan, Jimmy Tobin, Marilyn Ladewig, Katherine Heller, Katrin Tomanek (Google Research)
التصنيف: eess.AS cs.CL cs.LG cs.SD
تاريخ النشر: 25 ديسمبر 2024 (نسخة arXiv)
رابط الورقة: https://arxiv.org/abs/2501.00039

الملخص

تقترح هذه الورقة نموذج لغة كبير (LLM) قادر على معالجة مدخلات الكلام، وتوضح أن الضبط الإضافي من خلال التعلم المعزز القائم على تفضيلات الإنسان (RLHF) يمكن أن يتفوق على الضبط الدقيق التقليدي في التكيف مع الكلام المضطرب. تستبدل الطريقة رموز النصوص منخفضة التكرار في مفردات LLM برموز صوتية، مما يمكّن النموذج من التعرف على الكلام من خلال الضبط الدقيق على بيانات نسخ الكلام. يتم بعد ذلك استخدام التعلم المعزز مع مكافآت تعتمد على مقاييس الدقة النحوية والدلالية لتعميم LLM بشكل أكبر للتعرف على الكلام المضطرب. على الرغم من أن النموذج الناتج لم يتفوق على الأنظمة الموجودة في التعرف على الكلام، إلا أن البحث يكتشف أن ضبط التعلم المعزز باستخدام مكافآت مخصصة يتفوق بشكل كبير على الضبط الدقيق الخاضع للإشراف لنموذج اللغة عند التكيف مع الكلام في إعدادات مختلفة.

السياق البحثي والدافع

تعريف المشكلة

يعالج هذا البحث مشكلتين أساسيتين:

كيفية تمكين نماذج اللغة الكبيرة الموجودة من معالجة مدخلات الكلام وإجراء التعرف على الكلام
كيفية تكييف أنظمة التعرف على الكلام القائمة على LLM بفعالية مع مهام التعرف على الكلام المضطرب

الأهمية

توسيع القدرات متعددة الأنماط: تعزيز قدرة معالجة الصوت في LLM مع الحفاظ على قدرات فهم اللغة، وهو أمر حاسم لتطبيقات التحكم الصوتي الآلية
تكنولوجيا الوصول: بالنسبة للأفراد الذين يعانون من اضطرابات الكلام، فإن تقنيات التعرف على الكلام التي يمكنها دمج السياق البصري والنصي لها قيمة اجتماعية خاصة
التكيف في السيناريوهات منخفضة الموارد: يعتبر تكييف النموذج في السيناريوهات منخفضة الموارد مثل الكلام المضطرب تحديًا تقنيًا مهمًا

قيود الطرق الموجودة

تعقيد تعديل البنية: تتطلب معظم الأعمال الموجودة تعديل بنية LLM أو استخدام مشفرات صوتية لاستخراج التضمينات
تكلفة توسيع المفردات: تزيد بعض الطرق من تكلفة المفردات لمعالجة الصوت، مما يزيد من التكاليف الحسابية
قيود مقاييس التقييم: تعتمد أنظمة التعرف على الكلام التقليدية بشكل أساسي على مقاييس نحوية مثل WER، مع تقييم غير كافٍ للحفاظ على المعنى
صعوبة التكيف مع الكلام المضطرب: تتمتع طرق الضبط الدقيق التقليدية بفعالية محدودة في التكيف مع الكلام المضطرب

المساهمات الأساسية

اقتراح طريقة التعرف على الكلام LLM بدون تعديل البنية: من خلال تعيين رموز الصوت إلى رموز نصية منخفضة التكرار في المفردات الموجودة، يتجنب تعديل البنية
إدخال استراتيجية تكيف المجال القائمة على RLHF: استخدام مكافآت مدمجة من WER ودرجات الحفاظ على المعنى (MP) للتحسين من خلال التعلم المعزز
تحقيق تحسينات كبيرة في التعرف على الكلام المضطرب: مقارنة بالضبط الدقيق الخاضع للإشراف، حققت طريقة RLHF تحسينات أداء كبيرة على مجموعة بيانات Euphonia
توفير منظور جديد لتقييم الحفاظ على المعنى: تقييم شامل يجمع بين الدقة النحوية (WER) والدقة الدلالية (MP)

شرح الطريقة

تعريف المهمة

الإدخال: إشارة صوتية خام الإخراج: نسخة نصية مقابلة القيود: الحفاظ على بنية LLM الأصلية، والتكيف مع مجال الكلام المضطرب

بنية النموذج

المرحلة الأولى: بناء قدرة التعرف على الكلام LLM

رمزنة الصوت والتقطيع:

استخدام مشفر USM الصوتي (مشابه لتدريب w2v-BERT) لإنشاء رموز بتردد 25 هرتز
استخراج التضمينات من الطبقة الوسيطة (الطبقة 16) وتجميعها في 1024 مجموعة
تعيين التضمينات الصوتية إلى معرّفات المجموعة الأقرب

إعادة تعيين المفردات:

تعيين 1024 معرّف مجموعة صوتية إلى آخر 1024 رمز نصي منخفض التكرار في مفردات LLM
الدافع لاختيار الرموز منخفضة التكرار: عادة ما تكون أحرفًا متعددة اللغات أو Unicode، ويمكن إعادة استخدامها كرموز صوتية
استخدام الضبط الدقيق الخاضع للإشراف القياسي على بيانات التعرف على الكلام، مع إدخال رموز صوتية منفصلة والإخراج نصي

المرحلة الثانية: تكيف المجال القائم على RLHF

تصميم دالة المكافأة:

R(x,y;y*) = γ · MP(y,y*) + ln(1 - WER(y,y*))

حيث:

x: الإدخال الأصلي
y: النسخة المتنبأ بها
y*: النسخة الحقيقية
γ: معامل فائق لموازنة درجات WER و MP
MP: درجة الحفاظ على المعنى
WER: معدل خطأ الكلمات

نموذج مكافأة الحفاظ على المعنى:

تدريب Gemma-2B على مهمة التصنيف الثنائي للحفاظ على المعنى
التدريب باستخدام خسارة الإنتروبيا المتقاطعة على 2840 زوج نسخة متنبأ بها-حقيقية
تحقيق 0.87 AUC على مجموعة الاختبار (مقابل 0.89 AUC في 16)

تحسين التعلم المعزز:

استخدام PPO (Proximal Policy Optimization)
تطبيق قص التدرج وتنظيم KL
اختيار نقطة التفتيش المثلى من خلال التجريب مع قيم γ مختلفة

نقاط الابتكار التقني

معالجة الصوت بدون تعديل البنية: تجنب تعديلات البنية المعقدة من خلال إعادة استخدام المفردات الموجودة
دالة مكافأة متعددة الأهداف: دمج الدقة النحوية (WER) والدلالية (MP) لمنع خداع المكافآت
استراتيجية تدريب تدريجية: الضبط الدقيق الخاضع للإشراف أولاً على البيانات المختلطة، ثم RLHF للتكيف مع المجال
تقييم الحفاظ على المعنى: إدخال مقاييس تقييم دلالية قائمة على تفضيلات الإنسان

إعداد التجارب

مجموعات البيانات

LibriSpeech:
- 1000 ساعة من بيانات الكلام القياسية
- تسجيلات نظيفة من متحدث واحد من الكتب الصوتية الإنجليزية
- استخدام تقسيم dev-clean للتحقق
Euphonia:
- أكثر من مليون عبارة كلام مضطرب (~1000 ساعة)
- من 1246 متحدثًا مختلفًا يعانون من اضطرابات كلام
- مجموعة التدريب: 900 ألف+ عبارة، مجموعة الاختبار: 5699 عبارة (200 متحدث)، مجموعة التحقق: 343 عبارة (24 متحدث)
- تتضمن تسميات الخطورة المشروحة من قبل أخصائيي أمراض النطق

مقاييس التقييم

WER (معدل خطأ الكلمات): مقياس الدقة النحوية
MP (الحفاظ على المعنى): درجة الحفاظ على المعنى، باستخدام LLM للحكم على ما إذا كانت النسخة المتنبأ بها تحافظ على المعنى الأصلي

طرق المقارنة

LibriSpeech فقط: التدريب على LibriSpeech فقط
خليط 30:70: 30% Euphonia + 70% LibriSpeech
SFT مستمر: الضبط الدقيق الخاضع للإشراف المستمر على الكلام المضطرب
متغيرات RLHF: طرق التعلم المعزز بقيم γ مختلفة

تفاصيل التنفيذ

النموذج الأساسي: Gemma 2B (مفردات 256k)
معدل التعلم: 5×10^-6، تحلل جيبي
محسّن: Adam
إسقاط الإدخال: 5×10^-2
تجميع الصوت: تعلم 1024 مجموعة بناءً على LibriSpeech

نتائج التجارب

النتائج الرئيسية

مرحلة الضبط الدقيق الخاضع للإشراف:

نسبة خليط البيانات	Euphonia Test WER↓	Euphonia Test MP↑	LibriSpeech Dev WER↓
LibriSpeech فقط	70.9	39.0	17.1
خليط 30:70	50.4	48.2	17.2

حقق خليط 30:70 تحسينات كبيرة على الكلام المضطرب مع الحفاظ على الأداء على الكلام القياسي.

نتائج تكيف RLHF:

استراتيجية الضبط	Euphonia Test WER↓	Euphonia Test MP↑	LibriSpeech Dev WER↓
نموذج SFT الأساسي	50.4	48.2	17.2
SFT مستمر	57.1	42.8	22.9
RLHF (γ=0.00)	41.0	50.4	20.2
RLHF (γ=1.00)	42.6	55.7	22.0

التجارب الاستئصالية

تأثير قيم γ المختلفة:

γ=0.00 (WER فقط): أقل WER لكن درجة MP أقل
γ=0.25-0.50: نقطة التوازن بين WER و MP
γ=1.00: أعلى درجة MP، ارتفاع طفيف في WER لكن بدون دلالة إحصائية (p=0.54)

تحليل الخطورة: يظهر نموذج RLHF تحسينات في درجات MP على جميع مستويات الخطورة، مع تحسينات أكثر وضوحًا على الكلام المضطرب المتوسط والشديد.

تحليل الحالات

النسخة الحقيقية	مستوى الخطورة	RLHF(γ=0.0)	WER	RLHF(γ=1.0)	WER
"not so good today"	خفيف	"not so good to the."	0.5	"not so good to day."	0.5
"every one of my family listens to music"	متوسط	"every once in my frame and listen to music"	0.62	"everybody in my family listens to music"	0.38
"dancing is so much fun"	متوسط	"that's so much fun."	0.40	"dancing so much fun."	0.20

التقييم البشري

في التقييم البشري لـ 220 عينة:

متوسط تقييم الحفاظ على المعنى: 29.10% لنموذج γ=0.0، و 40.45% لنموذج γ=1.0
الارتباط مع تقييم النموذج: معاملات ارتباط Spearman بقيمة 0.684 و 0.639 على التوالي، كلاهما ذو دلالة إحصائية

الأعمال ذات الصلة

أبحاث التعرف على الكلام القائمة على LLM

طرق تعديل البنية: مثل AudioPaLM التي تعدل بنية LLM لتحقيق معالجة الكلام
طرق المعالجة اللاحقة: تركز الأعمال المبكرة بشكل أساسي على استخدام LLM لتصحيح مخرجات نظام التعرف على الكلام
الطرق الشاملة: تركز الأعمال الحديثة على ضبط LLM مباشرة للتعرف على الكلام

قياس المسافة الدلالية

قيود المقاييس التقليدية: لا يمكن لمقاييس نحوية مثل WER أن تعكس بشكل كافٍ الحفاظ على المعنى
توسيع BERTScore: استخدام نماذج مدربة مسبقًا لحساب التشابه الدلالي
تعلم تفضيلات الإنسان: تدريب نماذج الحكم على الحفاظ على المعنى بناءً على التشروح من الخبراء

الخلاصة والمناقشة

الاستنتاجات الرئيسية

RLHF يتفوق بشكل كبير على الضبط الدقيق الخاضع للإشراف: في مهام تكيف الكلام المضطرب، حققت طريقة RLHF تحسينات كبيرة مقارنة بالضبط الدقيق الخاضع للإشراف المستمر
فعالية دالة المكافأة متعددة الأهداف: يمكن لدالة المكافأة التي تجمع بين WER و MP تحقيق توازن جيد بين الدقة النحوية والدلالية
أهمية الحفاظ على المعنى: في التعرف على الكلام المضطرب، يعتبر الحفاظ على المعنى أكثر أهمية من المطابقة الدقيقة للكلمات

القيود

قيود الأداء الإجمالية: لم يتفوق نموذج LLM على الأنظمة المتخصصة الموجودة
متطلبات الموارد الحسابية: يتطلب تدريب RLHF موارد حسابية وقت تدريب إضافيين
قيود اللغة: تم إجراء التجارب على اللغة الإنجليزية فقط، ولم يتم التحقق من قابلية التطبيق متعددة اللغات
قيود حجم النموذج: تم التجريب على Gemma 2B فقط، وتأثير النماذج الأكبر غير معروف

الاتجاهات المستقبلية

التحقق من النماذج الأكبر: التحقق من فعالية الطريقة على نماذج لغة أكبر
التوسع متعدد اللغات: توسيع الطريقة لتشمل التعرف على الكلام المضطرب بلغات أخرى
تحسين التقطيع الصوتي: تطوير استراتيجيات أفضل لتقطيع رموز الصوت
دمج إشارات مكافآت متعددة: استكشاف إمكانية دمج إشارات مكافآت أكثر

التقييم المتعمق

المزايا

قوة الابتكار الطريقة: تتمتع طريقة معالجة الصوت بدون تعديل بنية LLM بقيمة عملية
تصميم التجارب الشامل: استراتيجية التدريب التدريجية من الضبط الدقيق الخاضع للإشراف إلى RLHF معقولة
نظام التقييم الشامل: الجمع بين مقاييس نحوية ودلالية، مع تضمين التحقق من التقييم البشري
القيمة الاجتماعية الكبيرة: يتمتع البحث حول الكلام المضطرب بأهمية اجتماعية كبيرة

أوجه القصور

تحسينات الأداء المحدودة: على الرغم من التحسينات النسبية الكبيرة، لا تزال الأداء المطلقة بحاجة إلى تحسين
مشاكل الكفاءة الحسابية: طريقة RLHF لها تكاليف حسابية أعلى مقارنة بالضبط الدقيق المباشر
التحقق من القابلية للتعميم غير كافٍ: تم التحقق فقط على مجموعتي بيانات، وتحتاج القابلية للتعميم إلى مزيد من التحقق
نقص التحليل النظري: يفتقد التحليل النظري لسبب كون RLHF أكثر فعالية في هذه المهمة

التأثير

المساهمة التقنية: توفير أفكار جديدة لتطبيق LLM في مهام التعرف على الكلام
القيمة التطبيقية: توفير مسار تقني قيم لتطوير تكنولوجيا الوصول
الإلهام البحثي: إظهار إمكانات RLHF في تكيف المجال المتخصص

السيناريوهات القابلة للتطبيق

مساعدة الكلام المضطرب: يمكن تطبيقها على أنظمة الاتصالات المساعدة للأشخاص الذين يعانون من اضطرابات الكلام
أنظمة الحوار متعددة الأنماط: مناسبة لسيناريوهات التطبيق التي تتطلب معالجة متزامنة للكلام والنصوص
التعرف على الكلام في السيناريوهات منخفضة الموارد: توفر قيمة مرجعية لمجالات الكلام الخاصة حيث تكون بيانات التدريب نادرة

المراجع

تستشهد الورقة بـ 35 مرجعًا ذا صلة، تغطي عدة مجالات مهمة بما في ذلك توسيع LLM متعدد الأنماط والتعرف على الكلام والتعلم المعزز، مما يوفر أساسًا نظريًا قويًا للبحث.

التقييم الإجمالي: تتمتع هذه الورقة بأهمية كبيرة من حيث الابتكار التقني والقيمة الاجتماعية، حيث تقترح طريقة التعرف على الكلام LLM بدون تعديل البنية واستراتيجية تكيف المجال RLHF توفر أفكارًا جديدة للأبحاث ذات الصلة. على الرغم من وجود مجال لتحسين الأداء المطلقة، إلا أن التحسينات الكبيرة في هذا السيناريو التطبيقي المهم للتعرف على الكلام المضطرب تظهر القيمة العملية لهذه الطريقة.