2025-11-13T12:49:11.039710

Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning

Nagpal, Venugopalan, Tobin et al.
We introduce a large language model (LLM) capable of processing speech inputs and show that tuning it further with reinforcement learning on human preference (RLHF) enables it to adapt better to disordered speech than traditional fine-tuning. Our method replaces low-frequency text tokens in an LLM's vocabulary with audio tokens and enables the model to recognize speech by fine-tuning it on speech with transcripts. We then use RL with rewards based on syntactic and semantic accuracy measures generalizing the LLM further to recognize disordered speech. While the resulting LLM does not outperform existing systems for speech recognition, we find that tuning with reinforcement learning using custom rewards leads to substantially better performance than supervised fine-tuning of the language model, specifically when adapting to speech in a different setting. This presents a compelling alternative tuning strategy for speech recognition using large language models.
academic

Spracherkennung mit LLMs, die durch Reinforcement Learning an gestörte Sprache angepasst sind

Grundinformationen

  • Paper-ID: 2501.00039
  • Titel: Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning
  • Autoren: Chirag Nagpal, Subhashini Venugopalan, Jimmy Tobin, Marilyn Ladewig, Katherine Heller, Katrin Tomanek (Google Research)
  • Klassifizierung: eess.AS cs.CL cs.LG cs.SD
  • Veröffentlichungsdatum: 25. Dezember 2024 (arXiv Preprint)
  • Paper-Link: https://arxiv.org/abs/2501.00039

Zusammenfassung

In diesem Artikel wird ein großes Sprachmodell (LLM) vorgestellt, das Spracheingaben verarbeiten kann, und es wird gezeigt, dass eine weitere Optimierung durch auf menschlichen Präferenzen basierendes Reinforcement Learning (RLHF) eine bessere Anpassung an gestörte Sprache ermöglicht als traditionelles Fine-Tuning. Das Verfahren ersetzt niederfrequente Text-Token im LLM-Vokabular durch Audio-Token und ermöglicht dem Modell durch Fine-Tuning auf Sprachtranskriptionsdaten die Spracherkennung. Anschließend wird das LLM mit auf syntaktischer und semantischer Genauigkeit basierenden Reinforcement-Learning-Belohnungen weiter verallgemeinert, um gestörte Sprache zu erkennen. Obwohl das resultierende Modell bestehende Systeme in der Spracherkennung nicht übertrifft, zeigt die Forschung, dass die Optimierung durch Reinforcement Learning mit benutzerdefinierten Belohnungen beim Anpassen an Sprache in verschiedenen Einstellungen erheblich besser abschneidet als das überwachte Fine-Tuning des Sprachmodells.

Forschungshintergrund und Motivation

Problemdefinition

Diese Forschung befasst sich mit zwei Kernfragen:

  1. Wie können bestehende LLMs befähigt werden, Spracheingaben zu verarbeiten und Spracherkennung durchzuführen?
  2. Wie können LLM-basierte ASR-Systeme effektiv an Spracherkennungsaufgaben mit gestörter Sprache angepasst werden?

Bedeutung

  • Erweiterung multimodaler Fähigkeiten: Die Verbesserung der Audioverarbeitungsfähigkeiten von LLMs bei gleichzeitiger Beibehaltung ihrer Sprachverständnisfähigkeiten ist für sprachgesteuerte Automatisierungsanwendungen von großer Bedeutung
  • Barrierefreiheitstechnologie: Für Personen mit Sprachbehinderungen hat Spracherkennung, die visuellen und textlichen Kontext kombinieren kann, besonderen sozialen Wert
  • Anpassung in ressourcenknappen Szenarien: Die Modellanpassung in ressourcenknappen Szenarien wie gestörter Sprache ist eine wichtige technische Herausforderung

Einschränkungen bestehender Methoden

  1. Komplexe Architekturmodifikationen: Die meisten bestehenden Arbeiten erfordern Änderungen der LLM-Architektur oder die Verwendung von Sprachcodierern zur Einbettungsextraktion
  2. Kosten der Vokabularerweiterung: Einige Methoden verarbeiten Audio durch Erweiterung des LLM-Vokabulars, was die Rechenkosten erhöht
  3. Einschränkungen der Bewertungsmetriken: Traditionelle ASR-Systeme verlassen sich hauptsächlich auf syntaktische Metriken wie WER und bewerten die semantische Beibehaltung unzureichend
  4. Schwierigkeiten bei der Anpassung an gestörte Sprache: Traditionelle Fine-Tuning-Methoden zeigen begrenzte Effektivität bei der Anpassung an gestörte Sprache

Kernbeiträge

  1. Vorschlag einer LLM-Spracherkennungsmethode ohne Architekturmodifikation: Durch Abbildung von Audio-Token auf niederfrequente Text-Token im bestehenden Vokabular werden Architekturmodifikationen vermieden
  2. Einführung einer auf RLHF basierenden ASR-Domänenanpassungsstrategie: Verwendung einer kombinierten Belohnung aus WER und Semantikbeibehaltungs-(MP-)Scores für die Reinforcement-Learning-Optimierung
  3. Erreichung signifikanter Verbesserungen bei der Erkennung gestörter Sprache: Im Vergleich zum überwachten Fine-Tuning erreicht die RLHF-Methode erhebliche Leistungsverbesserungen im Euphonia-Datensatz
  4. Bereitstellung einer neuen Perspektive auf die Bewertung der Semantikbeibehaltung: Umfassende Bewertung durch Kombination von syntaktischer Genauigkeit (WER) und semantischer Genauigkeit (MP)

Methodische Details

Aufgabendefinition

Eingabe: Rohes Audiosignal Ausgabe: Entsprechende Texttranskription Einschränkungen: Beibehaltung der ursprünglichen LLM-Architektur, Anpassung an die Domäne gestörter Sprache

Modellarchitektur

Phase 1: Aufbau der LLM-Spracherkennungsfähigkeit

Audio-Tokenisierung und Diskretisierung:

  • Verwendung des USM-Sprachcodierers (ähnlich w2v-BERT-Training) zur Generierung von Token mit 25 Hz Frequenz
  • Extraktion von Einbettungen aus der mittleren Schicht (Schicht 16) und Clustering in 1024 Cluster
  • Abbildung von Audio-Einbettungen auf die nächsten Cluster-Center-IDs

Vokabular-Neuzuordnung:

  • Abbildung von 1024 Audio-Cluster-IDs auf die letzten 1024 niederfrequentesten Text-Token im LJM-Vokabular
  • Motivation für die Auswahl niederfrequenter Token: Diese sind typischerweise mehrsprachige oder Unicode-Zeichen, die als Audio-Token wiederverwendet werden können
  • Verwendung von standardisiertem überwachtem Fine-Tuning auf ASR-Daten mit diskretisierten Audio-Token als Eingabe und Texttranskription als Ausgabe

Phase 2: Domänenanpassung basierend auf RLHF

Belohnungsfunktionsdesign:

R(x,y;y*) = γ · MP(y,y*) + ln(1 - WER(y,y*))

Wobei:

  • x: Rohes Eingabesignal
  • y: Vorhergesagte Transkription
  • y*: Wahre Transkription
  • γ: Hyperparameter zum Ausgleich von WER und MP-Scores
  • MP: Semantikbeibehaltungs-Score
  • WER: Wortfehlerrate

Belohnungsmodell für Semantikbeibehaltung:

  • Training von Gemma-2B auf binärer Klassifizierungsaufgabe zur Semantikbeibehaltung
  • Training mit Kreuzentropie-Verlust auf 2840 Paaren von Vorhersage-Transkriptionen
  • Erreichen von 0,87 AUC im Testset (im Vergleich zu 0,89 AUC in 16)

Reinforcement-Learning-Optimierung:

  • Verwendung von PPO (Proximal Policy Optimization)
  • Anwendung von Gradient Clipping und KL-Regularisierung
  • Auswahl des optimalen Checkpoints durch Experimente mit verschiedenen γ-Werten

Technische Innovationen

  1. Audioverarbeitung ohne Architekturmodifikation: Vermeidung komplexer Architekturmodifikationen durch Wiederverwendung des bestehenden Vokabulars
  2. Multi-Objective-Belohnungsfunktion: Kombination von syntaktischer (WER) und semantischer (MP) Genauigkeit zur Vermeidung von Reward-Hacking
  3. Progressive Trainingsstrategie: Zunächst überwachtes Fine-Tuning auf gemischten Daten, dann RLHF für Domänenanpassung
  4. Bewertung der Semantikbeibehaltung: Einführung semantischer Bewertungsmetriken basierend auf menschlichen Präferenzen

Experimentelle Einrichtung

Datensätze

  1. LibriSpeech:
    • 1000 Stunden standardisierte Sprachdaten
    • Saubere Umgebungsaufnahmen von Einzelsprechern aus englischen Hörbüchern
    • Verwendung der dev-clean-Aufteilung zur Validierung
  2. Euphonia:
    • Über eine Million Äußerungen mit gestörter Sprache (~1k Stunden)
    • Von 1246 verschiedenen Sprechern mit Sprachbehinderungen
    • Trainingssatz: 900k+ Äußerungen, Testsatz: 5699 Äußerungen (200 Sprecher), Validierungssatz: 343 Äußerungen (24 Sprecher)
    • Enthält von Logopäden annotierte Schweregrad-Labels

Bewertungsmetriken

  • WER (Word Error Rate): Wortfehlerrate, syntaktische Genauigkeitsmetrik
  • MP (Meaning Preservation): Semantikbeibehaltungs-Score, unter Verwendung von LLM zur Beurteilung, ob die vorhergesagte Transkription die ursprüngliche Bedeutung beibehält

Vergleichsmethoden

  • Librispeech Only: Nur auf LibriSpeech trainiert
  • 30:70 mixture: 30% Euphonia + 70% LibriSpeech gemischtes Training
  • Continued SFT: Fortgesetztes überwachtes Fine-Tuning auf gestörter Sprache
  • RLHF variants: Reinforcement-Learning-Methoden mit verschiedenen γ-Werten

Implementierungsdetails

  • Basismodell: Gemma 2B (256k Vokabular)
  • Lernrate: 5×10^-6, Kosinus-Decay
  • Optimierer: Adam
  • Input Dropout: 5×10^-2
  • Audio-Clustering: Basierend auf LibriSpeech gelernte 1024 Cluster

Experimentelle Ergebnisse

Hauptergebnisse

Phase des überwachten Fine-Tunings:

DatenmischungsverhältnisEuphonia Test WER↓Euphonia Test MP↑LibriSpeech Dev WER↓
LibriSpeech Only70.939.017.1
30:70 mixture50.448.217.2

Das 30:70-Mischungsverhältnis erreicht erhebliche Verbesserungen bei gestörter Sprache, während die Leistung bei standardisierter Sprache erhalten bleibt.

RLHF-Anpassungsergebnisse:

OptimierungsstrategieEuphonia Test WER↓Euphonia Test MP↑LibriSpeech Dev WER↓
Base SFT model50.448.217.2
Continued SFT57.142.822.9
RLHF (γ=0.00)41.050.420.2
RLHF (γ=1.00)42.655.722.0

Ablationsstudien

Auswirkung verschiedener γ-Werte:

  • γ=0.00 (nur WER): Niedrigste WER, aber niedrigere MP-Scores
  • γ=0.25-0.50: Ausgleichspunkt zwischen WER und MP
  • γ=1.00: Höchste MP-Scores, leichter WER-Anstieg, aber statistisch nicht signifikant (p=0,54)

Schweregrad-Analyse: Das RLHF-Modell zeigt Verbesserungen der MP-Scores auf allen Schweregrad-Ebenen, mit deutlicheren Verbesserungen bei mittelschwerer und schwerer Sprachbehinderung.

Fallstudien

Wahre TranskriptionSchweregradRLHF(γ=0.0)WERRLHF(γ=1.0)WER
"not so good today"MILD"not so good to the."0.5"not so good to day."0.5
"every one of my family listens to music"MODERATE"every once in my frame and listen to music"0.62"everybody in my family listens to music"0.38
"dancing is so much fun"MODERATE"that's so much fun."0.40"dancing so much fun."0.20

Menschliche Bewertung

In der menschlichen Bewertung von 220 Proben:

  • Durchschnittliche Semantikbeibehaltungs-Bewertung: 29,10% für das γ=0.0-Modell, 40,45% für das γ=1.0-Modell
  • Korrelation mit Modellbewertung: Spearman-Korrelationskoeffizient von 0,684 bzw. 0,639, beide statistisch signifikant

Verwandte Arbeiten

LLM-basierte ASR-Forschung

  1. Architekturmodifikationsmethoden: Wie AudioPaLM, die die LLM-Architektur zur Sprachverarbeitung modifizieren
  2. Nachbearbeitungsmethoden: Frühere Arbeiten verwendeten hauptsächlich LLMs zur Korrektur von ASR-Systemausgaben
  3. End-to-End-Methoden: Neuere Arbeiten optimieren LLMs direkt für die Spracherkennung

Semantische Distanzmetriken

  1. Einschränkungen traditioneller Metriken: Syntaktische Metriken wie WER können die Semantikbeibehaltung nicht vollständig widerspiegeln
  2. BERTScore-Erweiterung: Verwendung vortrainierter Modelle zur Berechnung semantischer Ähnlichkeit
  3. Lernen aus menschlichen Präferenzen: Training von Semantikbeibehaltungs-Urteilsmodellen auf Basis von Expertenkommentaren

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. RLHF übertrifft überwachtes Fine-Tuning erheblich: Bei der Anpassungsaufgabe für gestörte Sprache erreicht die RLHF-Methode erhebliche Verbesserungen gegenüber fortgesetztem überwachtem Fine-Tuning
  2. Effektivität der Multi-Objective-Belohnung: Die Belohnungsfunktion, die WER und MP kombiniert, erreicht ein gutes Gleichgewicht zwischen syntaktischer und semantischer Genauigkeit
  3. Bedeutung der Semantikbeibehaltung: Bei der Erkennung gestörter Sprache ist die Semantikbeibehaltung wichtiger als strikte Wortübereinstimmung

Einschränkungen

  1. Begrenzte Gesamtleistung: Die LLM-Methode übertrifft bestehende spezialisierte ASR-Systeme nicht
  2. Anforderungen an Rechenressourcen: RLHF-Training erfordert zusätzliche Rechenressourcen und Trainingszeit
  3. Sprachliche Einschränkungen: Experimente wurden nur auf Englisch durchgeführt, die Mehrsprachigkeit ist nicht verifiziert
  4. Einschränkung der Modellgröße: Experimente nur auf Gemma 2B, Effektivität bei größeren Modellen unbekannt

Zukünftige Richtungen

  1. Verifikation mit größeren Modellen: Validierung der Methodeneffektivität auf größeren LLMs
  2. Mehrsprachige Erweiterung: Erweiterung der Methode auf Spracherkennung mit gestörter Sprache in anderen Sprachen
  3. Verbesserung der Audio-Diskretisierung: Entwicklung besserer Audio-Token-Diskretisierungsstrategien
  4. Fusion mehrerer Belohnungssignale: Erkundung der Möglichkeit, mehr Belohnungssignale zu kombinieren

Tiefgreifende Bewertung

Stärken

  1. Starke methodische Innovation: Die Audio-Verarbeitungsmethode ohne LLM-Architekturmodifikation hat praktischen Wert
  2. Vollständiges Experimentdesign: Die progressive Trainingsstrategie vom überwachten Fine-Tuning bis RLHF ist rational
  3. Umfassendes Bewertungssystem: Kombination syntaktischer und semantischer Metriken mit menschlicher Bewertungsvalidierung
  4. Signifikanter sozialer Wert: Die Forschung zur Erkennung gestörter Sprache hat wichtige soziale Bedeutung

Mängel

  1. Begrenzte Leistungssteigerung: Obwohl relative Verbesserungen signifikant sind, gibt es Raum für absolute Leistungssteigerung
  2. Recheneffizienzprobleme: RLHF-Methoden haben höhere Rechenkosten als direktes Fine-Tuning
  3. Unzureichende Verifikation der Generalisierbarkeit: Nur auf zwei Datensätzen verifiziert, weitere Verifikation der Generalisierbarkeit erforderlich
  4. Fehlende theoretische Analyse: Mangel an theoretischer Erklärung, warum RLHF bei dieser Aufgabe effektiver ist

Einflussfaktor

  1. Technischer Beitrag: Bietet neue Perspektiven für die Anwendung von LLMs in Spracherkennungsaufgaben
  2. Anwendungswert: Bietet wertvollen technischen Weg für die Entwicklung von Barrierefreiheitstechnologien
  3. Forschungsinspiration: Zeigt das Potenzial von RLHF in spezialisierter Domänenanpassung

Anwendungsszenarien

  1. Unterstützung bei Sprachbehinderungen: Anwendbar auf Unterstützungskommunikationssysteme für Personen mit Sprachbehinderungen
  2. Multimodale Dialogsysteme: Geeignet für Anwendungsszenarien, die gleichzeitige Verarbeitung von Sprache und Text erfordern
  3. Spracherkennung in ressourcenknappen Bereichen: Referenzwert für spezielle Sprachdomänen mit knappen Trainingsdaten

Referenzen

Das Papier zitiert 35 verwandte Arbeiten, die mehrere Bereiche abdecken, darunter multimodale Erweiterung von LLMs, Spracherkennung und Reinforcement Learning, und bietet eine solide theoretische Grundlage für die Forschung.


Gesamtbewertung: Dieses Papier hat sowohl in technischer Innovation als auch in sozialem Wert große Bedeutung. Die vorgeschlagene LLM-Spracherkennungsmethode ohne Architekturmodifikation und die RLHF-Domänenanpassungsstrategie bieten neue Perspektiven für verwandte Forschung. Obwohl es noch Raum für Verbesserung der absoluten Leistung gibt, zeigen die signifikanten Verbesserungen in diesem wichtigen Anwendungsszenario der Erkennung gestörter Sprache den praktischen Wert dieser Methode.