2025-11-13T12:49:11.039710

Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning

Nagpal, Venugopalan, Tobin et al.

We introduce a large language model (LLM) capable of processing speech inputs and show that tuning it further with reinforcement learning on human preference (RLHF) enables it to adapt better to disordered speech than traditional fine-tuning. Our method replaces low-frequency text tokens in an LLM's vocabulary with audio tokens and enables the model to recognize speech by fine-tuning it on speech with transcripts. We then use RL with rewards based on syntactic and semantic accuracy measures generalizing the LLM further to recognize disordered speech. While the resulting LLM does not outperform existing systems for speech recognition, we find that tuning with reinforcement learning using custom rewards leads to substantially better performance than supervised fine-tuning of the language model, specifically when adapting to speech in a different setting. This presents a compelling alternative tuning strategy for speech recognition using large language models.

academic

Spracherkennung mit LLMs, die durch Reinforcement Learning an gestörte Sprache angepasst sind

Grundinformationen

Paper-ID: 2501.00039
Titel: Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning
Autoren: Chirag Nagpal, Subhashini Venugopalan, Jimmy Tobin, Marilyn Ladewig, Katherine Heller, Katrin Tomanek (Google Research)
Klassifizierung: eess.AS cs.CL cs.LG cs.SD
Veröffentlichungsdatum: 25. Dezember 2024 (arXiv Preprint)
Paper-Link: https://arxiv.org/abs/2501.00039

Zusammenfassung

In diesem Artikel wird ein großes Sprachmodell (LLM) vorgestellt, das Spracheingaben verarbeiten kann, und es wird gezeigt, dass eine weitere Optimierung durch auf menschlichen Präferenzen basierendes Reinforcement Learning (RLHF) eine bessere Anpassung an gestörte Sprache ermöglicht als traditionelles Fine-Tuning. Das Verfahren ersetzt niederfrequente Text-Token im LLM-Vokabular durch Audio-Token und ermöglicht dem Modell durch Fine-Tuning auf Sprachtranskriptionsdaten die Spracherkennung. Anschließend wird das LLM mit auf syntaktischer und semantischer Genauigkeit basierenden Reinforcement-Learning-Belohnungen weiter verallgemeinert, um gestörte Sprache zu erkennen. Obwohl das resultierende Modell bestehende Systeme in der Spracherkennung nicht übertrifft, zeigt die Forschung, dass die Optimierung durch Reinforcement Learning mit benutzerdefinierten Belohnungen beim Anpassen an Sprache in verschiedenen Einstellungen erheblich besser abschneidet als das überwachte Fine-Tuning des Sprachmodells.

Forschungshintergrund und Motivation

Problemdefinition

Diese Forschung befasst sich mit zwei Kernfragen:

Wie können bestehende LLMs befähigt werden, Spracheingaben zu verarbeiten und Spracherkennung durchzuführen?
Wie können LLM-basierte ASR-Systeme effektiv an Spracherkennungsaufgaben mit gestörter Sprache angepasst werden?

Bedeutung

Erweiterung multimodaler Fähigkeiten: Die Verbesserung der Audioverarbeitungsfähigkeiten von LLMs bei gleichzeitiger Beibehaltung ihrer Sprachverständnisfähigkeiten ist für sprachgesteuerte Automatisierungsanwendungen von großer Bedeutung
Barrierefreiheitstechnologie: Für Personen mit Sprachbehinderungen hat Spracherkennung, die visuellen und textlichen Kontext kombinieren kann, besonderen sozialen Wert
Anpassung in ressourcenknappen Szenarien: Die Modellanpassung in ressourcenknappen Szenarien wie gestörter Sprache ist eine wichtige technische Herausforderung

Einschränkungen bestehender Methoden

Komplexe Architekturmodifikationen: Die meisten bestehenden Arbeiten erfordern Änderungen der LLM-Architektur oder die Verwendung von Sprachcodierern zur Einbettungsextraktion
Kosten der Vokabularerweiterung: Einige Methoden verarbeiten Audio durch Erweiterung des LLM-Vokabulars, was die Rechenkosten erhöht
Einschränkungen der Bewertungsmetriken: Traditionelle ASR-Systeme verlassen sich hauptsächlich auf syntaktische Metriken wie WER und bewerten die semantische Beibehaltung unzureichend
Schwierigkeiten bei der Anpassung an gestörte Sprache: Traditionelle Fine-Tuning-Methoden zeigen begrenzte Effektivität bei der Anpassung an gestörte Sprache

Kernbeiträge

Vorschlag einer LLM-Spracherkennungsmethode ohne Architekturmodifikation: Durch Abbildung von Audio-Token auf niederfrequente Text-Token im bestehenden Vokabular werden Architekturmodifikationen vermieden
Einführung einer auf RLHF basierenden ASR-Domänenanpassungsstrategie: Verwendung einer kombinierten Belohnung aus WER und Semantikbeibehaltungs-(MP-)Scores für die Reinforcement-Learning-Optimierung
Erreichung signifikanter Verbesserungen bei der Erkennung gestörter Sprache: Im Vergleich zum überwachten Fine-Tuning erreicht die RLHF-Methode erhebliche Leistungsverbesserungen im Euphonia-Datensatz
Bereitstellung einer neuen Perspektive auf die Bewertung der Semantikbeibehaltung: Umfassende Bewertung durch Kombination von syntaktischer Genauigkeit (WER) und semantischer Genauigkeit (MP)

Methodische Details

Aufgabendefinition

Eingabe: Rohes Audiosignal Ausgabe: Entsprechende Texttranskription Einschränkungen: Beibehaltung der ursprünglichen LLM-Architektur, Anpassung an die Domäne gestörter Sprache

Modellarchitektur

Phase 1: Aufbau der LLM-Spracherkennungsfähigkeit

Audio-Tokenisierung und Diskretisierung:

Verwendung des USM-Sprachcodierers (ähnlich w2v-BERT-Training) zur Generierung von Token mit 25 Hz Frequenz
Extraktion von Einbettungen aus der mittleren Schicht (Schicht 16) und Clustering in 1024 Cluster
Abbildung von Audio-Einbettungen auf die nächsten Cluster-Center-IDs

Vokabular-Neuzuordnung:

Abbildung von 1024 Audio-Cluster-IDs auf die letzten 1024 niederfrequentesten Text-Token im LJM-Vokabular
Motivation für die Auswahl niederfrequenter Token: Diese sind typischerweise mehrsprachige oder Unicode-Zeichen, die als Audio-Token wiederverwendet werden können
Verwendung von standardisiertem überwachtem Fine-Tuning auf ASR-Daten mit diskretisierten Audio-Token als Eingabe und Texttranskription als Ausgabe

Phase 2: Domänenanpassung basierend auf RLHF

Belohnungsfunktionsdesign:

R(x,y;y*) = γ · MP(y,y*) + ln(1 - WER(y,y*))

Wobei:

x: Rohes Eingabesignal
y: Vorhergesagte Transkription
y*: Wahre Transkription
γ: Hyperparameter zum Ausgleich von WER und MP-Scores
MP: Semantikbeibehaltungs-Score
WER: Wortfehlerrate

Belohnungsmodell für Semantikbeibehaltung:

Training von Gemma-2B auf binärer Klassifizierungsaufgabe zur Semantikbeibehaltung
Training mit Kreuzentropie-Verlust auf 2840 Paaren von Vorhersage-Transkriptionen
Erreichen von 0,87 AUC im Testset (im Vergleich zu 0,89 AUC in 16)

Reinforcement-Learning-Optimierung:

Verwendung von PPO (Proximal Policy Optimization)
Anwendung von Gradient Clipping und KL-Regularisierung
Auswahl des optimalen Checkpoints durch Experimente mit verschiedenen γ-Werten

Technische Innovationen

Audioverarbeitung ohne Architekturmodifikation: Vermeidung komplexer Architekturmodifikationen durch Wiederverwendung des bestehenden Vokabulars
Multi-Objective-Belohnungsfunktion: Kombination von syntaktischer (WER) und semantischer (MP) Genauigkeit zur Vermeidung von Reward-Hacking
Progressive Trainingsstrategie: Zunächst überwachtes Fine-Tuning auf gemischten Daten, dann RLHF für Domänenanpassung
Bewertung der Semantikbeibehaltung: Einführung semantischer Bewertungsmetriken basierend auf menschlichen Präferenzen

Experimentelle Einrichtung

Datensätze

LibriSpeech:
- 1000 Stunden standardisierte Sprachdaten
- Saubere Umgebungsaufnahmen von Einzelsprechern aus englischen Hörbüchern
- Verwendung der dev-clean-Aufteilung zur Validierung
Euphonia:
- Über eine Million Äußerungen mit gestörter Sprache (~1k Stunden)
- Von 1246 verschiedenen Sprechern mit Sprachbehinderungen
- Trainingssatz: 900k+ Äußerungen, Testsatz: 5699 Äußerungen (200 Sprecher), Validierungssatz: 343 Äußerungen (24 Sprecher)
- Enthält von Logopäden annotierte Schweregrad-Labels

Bewertungsmetriken

WER (Word Error Rate): Wortfehlerrate, syntaktische Genauigkeitsmetrik
MP (Meaning Preservation): Semantikbeibehaltungs-Score, unter Verwendung von LLM zur Beurteilung, ob die vorhergesagte Transkription die ursprüngliche Bedeutung beibehält

Vergleichsmethoden

Librispeech Only: Nur auf LibriSpeech trainiert
30:70 mixture: 30% Euphonia + 70% LibriSpeech gemischtes Training
Continued SFT: Fortgesetztes überwachtes Fine-Tuning auf gestörter Sprache
RLHF variants: Reinforcement-Learning-Methoden mit verschiedenen γ-Werten

Implementierungsdetails

Basismodell: Gemma 2B (256k Vokabular)
Lernrate: 5×10^-6, Kosinus-Decay
Optimierer: Adam
Input Dropout: 5×10^-2
Audio-Clustering: Basierend auf LibriSpeech gelernte 1024 Cluster

Experimentelle Ergebnisse

Hauptergebnisse

Phase des überwachten Fine-Tunings:

Datenmischungsverhältnis	Euphonia Test WER↓	Euphonia Test MP↑	LibriSpeech Dev WER↓
LibriSpeech Only	70.9	39.0	17.1
30:70 mixture	50.4	48.2	17.2

Das 30:70-Mischungsverhältnis erreicht erhebliche Verbesserungen bei gestörter Sprache, während die Leistung bei standardisierter Sprache erhalten bleibt.

RLHF-Anpassungsergebnisse:

Optimierungsstrategie	Euphonia Test WER↓	Euphonia Test MP↑	LibriSpeech Dev WER↓
Base SFT model	50.4	48.2	17.2
Continued SFT	57.1	42.8	22.9
RLHF (γ=0.00)	41.0	50.4	20.2
RLHF (γ=1.00)	42.6	55.7	22.0

Ablationsstudien

Auswirkung verschiedener γ-Werte:

γ=0.00 (nur WER): Niedrigste WER, aber niedrigere MP-Scores
γ=0.25-0.50: Ausgleichspunkt zwischen WER und MP
γ=1.00: Höchste MP-Scores, leichter WER-Anstieg, aber statistisch nicht signifikant (p=0,54)

Schweregrad-Analyse: Das RLHF-Modell zeigt Verbesserungen der MP-Scores auf allen Schweregrad-Ebenen, mit deutlicheren Verbesserungen bei mittelschwerer und schwerer Sprachbehinderung.

Fallstudien

Wahre Transkription	Schweregrad	RLHF(γ=0.0)	WER	RLHF(γ=1.0)	WER
"not so good today"	MILD	"not so good to the."	0.5	"not so good to day."	0.5
"every one of my family listens to music"	MODERATE	"every once in my frame and listen to music"	0.62	"everybody in my family listens to music"	0.38
"dancing is so much fun"	MODERATE	"that's so much fun."	0.40	"dancing so much fun."	0.20

Menschliche Bewertung

In der menschlichen Bewertung von 220 Proben:

Durchschnittliche Semantikbeibehaltungs-Bewertung: 29,10% für das γ=0.0-Modell, 40,45% für das γ=1.0-Modell
Korrelation mit Modellbewertung: Spearman-Korrelationskoeffizient von 0,684 bzw. 0,639, beide statistisch signifikant

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

RLHF übertrifft überwachtes Fine-Tuning erheblich: Bei der Anpassungsaufgabe für gestörte Sprache erreicht die RLHF-Methode erhebliche Verbesserungen gegenüber fortgesetztem überwachtem Fine-Tuning
Effektivität der Multi-Objective-Belohnung: Die Belohnungsfunktion, die WER und MP kombiniert, erreicht ein gutes Gleichgewicht zwischen syntaktischer und semantischer Genauigkeit
Bedeutung der Semantikbeibehaltung: Bei der Erkennung gestörter Sprache ist die Semantikbeibehaltung wichtiger als strikte Wortübereinstimmung

Einschränkungen

Begrenzte Gesamtleistung: Die LLM-Methode übertrifft bestehende spezialisierte ASR-Systeme nicht
Anforderungen an Rechenressourcen: RLHF-Training erfordert zusätzliche Rechenressourcen und Trainingszeit
Sprachliche Einschränkungen: Experimente wurden nur auf Englisch durchgeführt, die Mehrsprachigkeit ist nicht verifiziert
Einschränkung der Modellgröße: Experimente nur auf Gemma 2B, Effektivität bei größeren Modellen unbekannt

Zukünftige Richtungen

Verifikation mit größeren Modellen: Validierung der Methodeneffektivität auf größeren LLMs
Mehrsprachige Erweiterung: Erweiterung der Methode auf Spracherkennung mit gestörter Sprache in anderen Sprachen
Verbesserung der Audio-Diskretisierung: Entwicklung besserer Audio-Token-Diskretisierungsstrategien
Fusion mehrerer Belohnungssignale: Erkundung der Möglichkeit, mehr Belohnungssignale zu kombinieren

Tiefgreifende Bewertung

Stärken

Starke methodische Innovation: Die Audio-Verarbeitungsmethode ohne LLM-Architekturmodifikation hat praktischen Wert
Vollständiges Experimentdesign: Die progressive Trainingsstrategie vom überwachten Fine-Tuning bis RLHF ist rational
Umfassendes Bewertungssystem: Kombination syntaktischer und semantischer Metriken mit menschlicher Bewertungsvalidierung
Signifikanter sozialer Wert: Die Forschung zur Erkennung gestörter Sprache hat wichtige soziale Bedeutung

Mängel

Begrenzte Leistungssteigerung: Obwohl relative Verbesserungen signifikant sind, gibt es Raum für absolute Leistungssteigerung
Recheneffizienzprobleme: RLHF-Methoden haben höhere Rechenkosten als direktes Fine-Tuning
Unzureichende Verifikation der Generalisierbarkeit: Nur auf zwei Datensätzen verifiziert, weitere Verifikation der Generalisierbarkeit erforderlich
Fehlende theoretische Analyse: Mangel an theoretischer Erklärung, warum RLHF bei dieser Aufgabe effektiver ist

Einflussfaktor

Technischer Beitrag: Bietet neue Perspektiven für die Anwendung von LLMs in Spracherkennungsaufgaben
Anwendungswert: Bietet wertvollen technischen Weg für die Entwicklung von Barrierefreiheitstechnologien
Forschungsinspiration: Zeigt das Potenzial von RLHF in spezialisierter Domänenanpassung

Anwendungsszenarien

Unterstützung bei Sprachbehinderungen: Anwendbar auf Unterstützungskommunikationssysteme für Personen mit Sprachbehinderungen
Multimodale Dialogsysteme: Geeignet für Anwendungsszenarien, die gleichzeitige Verarbeitung von Sprache und Text erfordern
Spracherkennung in ressourcenknappen Bereichen: Referenzwert für spezielle Sprachdomänen mit knappen Trainingsdaten

Referenzen

Das Papier zitiert 35 verwandte Arbeiten, die mehrere Bereiche abdecken, darunter multimodale Erweiterung von LLMs, Spracherkennung und Reinforcement Learning, und bietet eine solide theoretische Grundlage für die Forschung.

Gesamtbewertung: Dieses Papier hat sowohl in technischer Innovation als auch in sozialem Wert große Bedeutung. Die vorgeschlagene LLM-Spracherkennungsmethode ohne Architekturmodifikation und die RLHF-Domänenanpassungsstrategie bieten neue Perspektiven für verwandte Forschung. Obwohl es noch Raum für Verbesserung der absoluten Leistung gibt, zeigen die signifikanten Verbesserungen in diesem wichtigen Anwendungsszenario der Erkennung gestörter Sprache den praktischen Wert dieser Methode.