Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning
Nagpal, Venugopalan, Tobin et al.
We introduce a large language model (LLM) capable of processing speech inputs and show that tuning it further with reinforcement learning on human preference (RLHF) enables it to adapt better to disordered speech than traditional fine-tuning. Our method replaces low-frequency text tokens in an LLM's vocabulary with audio tokens and enables the model to recognize speech by fine-tuning it on speech with transcripts. We then use RL with rewards based on syntactic and semantic accuracy measures generalizing the LLM further to recognize disordered speech. While the resulting LLM does not outperform existing systems for speech recognition, we find that tuning with reinforcement learning using custom rewards leads to substantially better performance than supervised fine-tuning of the language model, specifically when adapting to speech in a different setting. This presents a compelling alternative tuning strategy for speech recognition using large language models.
academic
Spracherkennung mit LLMs, die durch Reinforcement Learning an gestörte Sprache angepasst sind
In diesem Artikel wird ein großes Sprachmodell (LLM) vorgestellt, das Spracheingaben verarbeiten kann, und es wird gezeigt, dass eine weitere Optimierung durch auf menschlichen Präferenzen basierendes Reinforcement Learning (RLHF) eine bessere Anpassung an gestörte Sprache ermöglicht als traditionelles Fine-Tuning. Das Verfahren ersetzt niederfrequente Text-Token im LLM-Vokabular durch Audio-Token und ermöglicht dem Modell durch Fine-Tuning auf Sprachtranskriptionsdaten die Spracherkennung. Anschließend wird das LLM mit auf syntaktischer und semantischer Genauigkeit basierenden Reinforcement-Learning-Belohnungen weiter verallgemeinert, um gestörte Sprache zu erkennen. Obwohl das resultierende Modell bestehende Systeme in der Spracherkennung nicht übertrifft, zeigt die Forschung, dass die Optimierung durch Reinforcement Learning mit benutzerdefinierten Belohnungen beim Anpassen an Sprache in verschiedenen Einstellungen erheblich besser abschneidet als das überwachte Fine-Tuning des Sprachmodells.
Erweiterung multimodaler Fähigkeiten: Die Verbesserung der Audioverarbeitungsfähigkeiten von LLMs bei gleichzeitiger Beibehaltung ihrer Sprachverständnisfähigkeiten ist für sprachgesteuerte Automatisierungsanwendungen von großer Bedeutung
Barrierefreiheitstechnologie: Für Personen mit Sprachbehinderungen hat Spracherkennung, die visuellen und textlichen Kontext kombinieren kann, besonderen sozialen Wert
Anpassung in ressourcenknappen Szenarien: Die Modellanpassung in ressourcenknappen Szenarien wie gestörter Sprache ist eine wichtige technische Herausforderung
Komplexe Architekturmodifikationen: Die meisten bestehenden Arbeiten erfordern Änderungen der LLM-Architektur oder die Verwendung von Sprachcodierern zur Einbettungsextraktion
Kosten der Vokabularerweiterung: Einige Methoden verarbeiten Audio durch Erweiterung des LLM-Vokabulars, was die Rechenkosten erhöht
Einschränkungen der Bewertungsmetriken: Traditionelle ASR-Systeme verlassen sich hauptsächlich auf syntaktische Metriken wie WER und bewerten die semantische Beibehaltung unzureichend
Schwierigkeiten bei der Anpassung an gestörte Sprache: Traditionelle Fine-Tuning-Methoden zeigen begrenzte Effektivität bei der Anpassung an gestörte Sprache
Vorschlag einer LLM-Spracherkennungsmethode ohne Architekturmodifikation: Durch Abbildung von Audio-Token auf niederfrequente Text-Token im bestehenden Vokabular werden Architekturmodifikationen vermieden
Einführung einer auf RLHF basierenden ASR-Domänenanpassungsstrategie: Verwendung einer kombinierten Belohnung aus WER und Semantikbeibehaltungs-(MP-)Scores für die Reinforcement-Learning-Optimierung
Erreichung signifikanter Verbesserungen bei der Erkennung gestörter Sprache: Im Vergleich zum überwachten Fine-Tuning erreicht die RLHF-Methode erhebliche Leistungsverbesserungen im Euphonia-Datensatz
Bereitstellung einer neuen Perspektive auf die Bewertung der Semantikbeibehaltung: Umfassende Bewertung durch Kombination von syntaktischer Genauigkeit (WER) und semantischer Genauigkeit (MP)
Eingabe: Rohes Audiosignal
Ausgabe: Entsprechende Texttranskription
Einschränkungen: Beibehaltung der ursprünglichen LLM-Architektur, Anpassung an die Domäne gestörter Sprache
Verwendung des USM-Sprachcodierers (ähnlich w2v-BERT-Training) zur Generierung von Token mit 25 Hz Frequenz
Extraktion von Einbettungen aus der mittleren Schicht (Schicht 16) und Clustering in 1024 Cluster
Abbildung von Audio-Einbettungen auf die nächsten Cluster-Center-IDs
Vokabular-Neuzuordnung:
Abbildung von 1024 Audio-Cluster-IDs auf die letzten 1024 niederfrequentesten Text-Token im LJM-Vokabular
Motivation für die Auswahl niederfrequenter Token: Diese sind typischerweise mehrsprachige oder Unicode-Zeichen, die als Audio-Token wiederverwendet werden können
Verwendung von standardisiertem überwachtem Fine-Tuning auf ASR-Daten mit diskretisierten Audio-Token als Eingabe und Texttranskription als Ausgabe
WER (Word Error Rate): Wortfehlerrate, syntaktische Genauigkeitsmetrik
MP (Meaning Preservation): Semantikbeibehaltungs-Score, unter Verwendung von LLM zur Beurteilung, ob die vorhergesagte Transkription die ursprüngliche Bedeutung beibehält
Das 30:70-Mischungsverhältnis erreicht erhebliche Verbesserungen bei gestörter Sprache, während die Leistung bei standardisierter Sprache erhalten bleibt.
γ=0.00 (nur WER): Niedrigste WER, aber niedrigere MP-Scores
γ=0.25-0.50: Ausgleichspunkt zwischen WER und MP
γ=1.00: Höchste MP-Scores, leichter WER-Anstieg, aber statistisch nicht signifikant (p=0,54)
Schweregrad-Analyse:
Das RLHF-Modell zeigt Verbesserungen der MP-Scores auf allen Schweregrad-Ebenen, mit deutlicheren Verbesserungen bei mittelschwerer und schwerer Sprachbehinderung.
RLHF übertrifft überwachtes Fine-Tuning erheblich: Bei der Anpassungsaufgabe für gestörte Sprache erreicht die RLHF-Methode erhebliche Verbesserungen gegenüber fortgesetztem überwachtem Fine-Tuning
Effektivität der Multi-Objective-Belohnung: Die Belohnungsfunktion, die WER und MP kombiniert, erreicht ein gutes Gleichgewicht zwischen syntaktischer und semantischer Genauigkeit
Bedeutung der Semantikbeibehaltung: Bei der Erkennung gestörter Sprache ist die Semantikbeibehaltung wichtiger als strikte Wortübereinstimmung
Das Papier zitiert 35 verwandte Arbeiten, die mehrere Bereiche abdecken, darunter multimodale Erweiterung von LLMs, Spracherkennung und Reinforcement Learning, und bietet eine solide theoretische Grundlage für die Forschung.
Gesamtbewertung: Dieses Papier hat sowohl in technischer Innovation als auch in sozialem Wert große Bedeutung. Die vorgeschlagene LLM-Spracherkennungsmethode ohne Architekturmodifikation und die RLHF-Domänenanpassungsstrategie bieten neue Perspektiven für verwandte Forschung. Obwohl es noch Raum für Verbesserung der absoluten Leistung gibt, zeigen die signifikanten Verbesserungen in diesem wichtigen Anwendungsszenario der Erkennung gestörter Sprache den praktischen Wert dieser Methode.