2025-11-13T12:49:11.039710

Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning

Nagpal, Venugopalan, Tobin et al.
We introduce a large language model (LLM) capable of processing speech inputs and show that tuning it further with reinforcement learning on human preference (RLHF) enables it to adapt better to disordered speech than traditional fine-tuning. Our method replaces low-frequency text tokens in an LLM's vocabulary with audio tokens and enables the model to recognize speech by fine-tuning it on speech with transcripts. We then use RL with rewards based on syntactic and semantic accuracy measures generalizing the LLM further to recognize disordered speech. While the resulting LLM does not outperform existing systems for speech recognition, we find that tuning with reinforcement learning using custom rewards leads to substantially better performance than supervised fine-tuning of the language model, specifically when adapting to speech in a different setting. This presents a compelling alternative tuning strategy for speech recognition using large language models.
academic

Riconoscimento Vocale con LLM Adattati al Linguaggio Disordinato Utilizzando l'Apprendimento per Rinforzo

Informazioni Fondamentali

  • ID Articolo: 2501.00039
  • Titolo: Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning
  • Autori: Chirag Nagpal, Subhashini Venugopalan, Jimmy Tobin, Marilyn Ladewig, Katherine Heller, Katrin Tomanek (Google Research)
  • Classificazione: eess.AS cs.CL cs.LG cs.SD
  • Data di Pubblicazione: 25 dicembre 2024 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2501.00039

Riassunto

Questo articolo propone un modello di linguaggio di grandi dimensioni (LLM) in grado di elaborare input vocali e dimostra che l'ottimizzazione ulteriore tramite apprendimento per rinforzo basato su preferenze umane (RLHF) consente un adattamento migliore al linguaggio disordinato rispetto al fine-tuning tradizionale. Il metodo sostituisce i token di testo a bassa frequenza nel vocabolario LLM con token audio, consentendo al modello di riconoscere il linguaggio attraverso il fine-tuning su dati di trascrizione vocale. Successivamente, viene utilizzato l'apprendimento per rinforzo con ricompense basate su metriche di accuratezza sintattica e semantica per generalizzare ulteriormente l'LLM al riconoscimento del linguaggio disordinato. Sebbene il modello risultante non superi i sistemi esistenti nel riconoscimento vocale, la ricerca rivela che l'ottimizzazione tramite apprendimento per rinforzo con ricompense personalizzate mostra prestazioni significativamente superiori al fine-tuning supervisionato del modello di linguaggio nell'adattamento a impostazioni vocali diverse.

Contesto di Ricerca e Motivazione

Definizione del Problema

Questa ricerca affronta due questioni fondamentali:

  1. Come abilitare gli LLM esistenti a elaborare input vocali e eseguire il riconoscimento vocale
  2. Come adattare efficacemente i sistemi ASR basati su LLM al compito di riconoscimento del linguaggio disordinato

Importanza

  • Espansione delle Capacità Multimodali: Potenziare la capacità di elaborazione audio degli LLM mantenendo le loro capacità di comprensione linguistica è significativo per le applicazioni di automazione controllate dalla voce
  • Tecnologia Accessibile: Per gli individui con disturbi del linguaggio, le tecnologie di riconoscimento vocale che combinano contesto visivo e testuale hanno un valore sociale particolare
  • Adattamento in Scenari a Basse Risorse: L'adattamento del modello in scenari a basse risorse come il linguaggio disordinato rappresenta una sfida tecnica importante

Limitazioni degli Approcci Esistenti

  1. Complessità della Modifica Architettonica: La maggior parte dei lavori esistenti richiede modifiche all'architettura LLM o l'utilizzo di codificatori vocali per estrarre embedding
  2. Costo dell'Espansione del Vocabolario: Alcuni metodi elaborano l'audio espandendo il vocabolario LLM, aumentando i costi computazionali
  3. Limitazioni delle Metriche di Valutazione: I sistemi ASR tradizionali si basano principalmente su metriche sintattiche come WER, con valutazione insufficiente della preservazione semantica
  4. Difficoltà nell'Adattamento al Linguaggio Disordinato: I metodi di fine-tuning tradizionali mostrano efficacia limitata nell'adattamento al linguaggio disordinato

Contributi Fondamentali

  1. Propone un metodo di riconoscimento vocale LLM senza modifiche architettoniche: Mappando i token audio ai token di testo a bassa frequenza nel vocabolario esistente, evita modifiche architettoniche
  2. Introduce una strategia di adattamento di dominio ASR basata su RLHF: Utilizza l'ottimizzazione tramite apprendimento per rinforzo con una funzione di ricompensa combinata di WER e score di preservazione semantica (MP)
  3. Raggiunge miglioramenti significativi nel riconoscimento del linguaggio disordinato: Rispetto al fine-tuning supervisionato, il metodo RLHF ha ottenuto miglioramenti significativi delle prestazioni sul dataset Euphonia
  4. Fornisce una nuova prospettiva sulla valutazione della preservazione semantica: Combina accuratezza sintattica (WER) e accuratezza semantica (MP) per una valutazione completa

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Segnale audio grezzo Output: Trascrizione testuale corrispondente Vincoli: Mantenere l'architettura LLM originale invariata, adattarsi al dominio del linguaggio disordinato

Architettura del Modello

Fase Uno: Costruzione della Capacità di Riconoscimento Vocale LLM

Tokenizzazione e Discretizzazione Audio:

  • Utilizza l'encoder vocale USM (addestrato in modo simile a w2v-BERT) per generare token a 25 Hz
  • Estrae embedding da strati intermedi (strato 16) e li raggruppa in 1024 cluster
  • Mappa gli embedding audio agli ID del cluster più vicino

Rimappatura del Vocabolario:

  • Mappa gli 1024 ID cluster audio agli ultimi 1024 token di testo a frequenza più bassa nel vocabolario LLM
  • La motivazione per la selezione di token a bassa frequenza: questi sono tipicamente caratteri multilingue o unicode che possono essere riutilizzati come token audio
  • Utilizza il fine-tuning supervisionato standard sui dati ASR, con input come token audio discretizzati e output come trascrizioni testuali

Fase Due: Adattamento di Dominio Basato su RLHF

Progettazione della Funzione di Ricompensa:

R(x,y;y*) = γ · MP(y,y*) + ln(1 - WER(y,y*))

Dove:

  • x: input originale
  • y: trascrizione predetta
  • y*: trascrizione vera
  • γ: iperparametro per bilanciare gli score WER e MP
  • MP: score di preservazione semantica
  • WER: tasso di errore di parola

Modello di Ricompensa per la Preservazione Semantica:

  • Addestrato su Gemma-2B per il compito di classificazione binaria di preservazione semantica
  • Addestrato con perdita di entropia incrociata su 2840 coppie di trascrizioni predette-vere
  • Raggiunge 0,87 AUC sul set di test (rispetto a 0,89 AUC in 16)

Ottimizzazione tramite Apprendimento per Rinforzo:

  • Utilizza PPO (Proximal Policy Optimization)
  • Impiega clipping del gradiente e regolarizzazione KL
  • Seleziona il checkpoint ottimale attraverso esperimenti con diversi valori di γ

Punti di Innovazione Tecnica

  1. Elaborazione Audio Senza Modifiche Architettoniche: Evita modifiche architettoniche complesse riutilizzando il vocabolario esistente
  2. Funzione di Ricompensa Multi-Obiettivo: Combina accuratezza sintattica (WER) e semantica (MP), prevenendo l'inganno delle ricompense
  3. Strategia di Addestramento Progressivo: Fine-tuning supervisionato su dati misti seguito da RLHF per l'adattamento di dominio
  4. Valutazione della Preservazione Semantica: Introduce metriche di valutazione semantica basate su preferenze umane

Configurazione Sperimentale

Dataset

  1. LibriSpeech:
    • 1000 ore di dati vocali standard
    • Registrazioni pulite in ambiente singolo da audiolibri inglesi
    • Utilizza la suddivisione dev-clean per la validazione
  2. Euphonia:
    • Oltre 1 milione di enunciati vocali disordinati (~1k ore)
    • Provenienti da 1246 diversi parlanti con disturbi del linguaggio
    • Set di addestramento: 900k+ enunciati, set di test: 5699 enunciati (200 parlanti), set di validazione: 343 enunciati (24 parlanti)
    • Include etichette di gravità annotate da patologi del linguaggio

Metriche di Valutazione

  • WER (Word Error Rate): Tasso di errore di parola, metrica di accuratezza sintattica
  • MP (Meaning Preservation): Score di preservazione semantica, utilizza LLM per giudicare se la trascrizione predetta preserva il significato originale

Metodi di Confronto

  • Librispeech Only: Addestramento solo su LibriSpeech
  • 30:70 mixture: Addestramento su miscela 30% Euphonia + 70% LibriSpeech
  • Continued SFT: Fine-tuning supervisionato continuo su linguaggio disordinato
  • Varianti RLHF: Metodi di apprendimento per rinforzo con diversi valori di γ

Dettagli di Implementazione

  • Modello Base: Gemma 2B (vocabolario di 256k)
  • Tasso di Apprendimento: 5×10^-6, decadimento cosinusoidale
  • Ottimizzatore: Adam
  • Dropout di Input: 5×10^-2
  • Clustering Audio: 1024 cluster appresi su LibriSpeech

Risultati Sperimentali

Risultati Principali

Fase di Fine-tuning Supervisionato:

Rapporto di Miscela DatiEuphonia Test WER↓Euphonia Test MP↑LibriSpeech Dev WER↓
LibriSpeech Only70.939.017.1
30:70 mixture50.448.217.2

Il rapporto di miscela 30:70 raggiunge miglioramenti significativi sul linguaggio disordinato mantenendo le prestazioni sul linguaggio standard.

Risultati di Adattamento RLHF:

Strategia di OttimizzazioneEuphonia Test WER↓Euphonia Test MP↑LibriSpeech Dev WER↓
Modello SFT Base50.448.217.2
SFT Continuo57.142.822.9
RLHF (γ=0.00)41.050.420.2
RLHF (γ=1.00)42.655.722.0

Esperimenti di Ablazione

Impatto di Diversi Valori di γ:

  • γ=0.00 (solo WER): WER più basso ma score MP inferiore
  • γ=0.25-0.50: Punto di equilibrio tra WER e MP
  • γ=1.00: Score MP più alto, aumento lieve di WER ma senza significatività statistica (p=0.54)

Analisi per Livello di Gravità: Il modello RLHF mostra miglioramenti dello score MP a tutti i livelli di gravità, con miglioramenti più evidenti nel linguaggio disordinato moderato e grave.

Analisi di Casi

Trascrizione VeraGravitàRLHF(γ=0.0)WERRLHF(γ=1.0)WER
"not so good today"LIEVE"not so good to the."0.5"not so good to day."0.5
"every one of my family listens to music"MODERATO"every once in my frame and listen to music"0.62"everybody in my family listens to music"0.38
"dancing is so much fun"MODERATO"that's so much fun."0.40"dancing so much fun."0.20

Valutazione Umana

In una valutazione umana su 220 campioni:

  • Valutazione Media di Preservazione Semantica: 29.10% per il modello γ=0.0, 40.45% per il modello γ=1.0
  • Correlazione con la Valutazione del Modello: Coefficiente di correlazione di Spearman rispettivamente di 0.684 e 0.639, entrambi statisticamente significativi

Lavori Correlati

Ricerca su ASR Basato su LLM

  1. Metodi di Modifica Architettonica: Come AudioPaLM che realizzano l'elaborazione vocale modificando l'architettura LLM
  2. Metodi di Post-Elaborazione: I lavori iniziali utilizzano principalmente LLM per correggere l'output dei sistemi ASR
  3. Metodi End-to-End: I lavori recenti ottimizzano direttamente gli LLM per il riconoscimento vocale

Metriche di Distanza Semantica

  1. Limitazioni delle Metriche Tradizionali: Metriche sintattiche come WER non riflettono sufficientemente la preservazione semantica
  2. Estensioni di BERTScore: Utilizza modelli pre-addestrati per calcolare la similarità semantica
  3. Apprendimento da Preferenze Umane: Addestra modelli di giudizio della preservazione semantica su annotazioni di esperti

Conclusioni e Discussione

Conclusioni Principali

  1. RLHF Significativamente Superiore al Fine-tuning Supervisionato: Nel compito di adattamento al linguaggio disordinato, il metodo RLHF raggiunge miglioramenti significativi rispetto al fine-tuning supervisionato continuo
  2. Efficacia della Ricompensa Multi-Obiettivo: La funzione di ricompensa che combina WER e MP raggiunge un buon equilibrio tra accuratezza sintattica e semantica
  3. Importanza della Preservazione Semantica: Nel riconoscimento del linguaggio disordinato, la preservazione semantica è più importante della corrispondenza lessicale rigorosa

Limitazioni

  1. Limitazioni di Prestazione Complessiva: Il metodo LLM non supera i sistemi ASR specializzati esistenti
  2. Requisiti di Risorse Computazionali: L'addestramento RLHF richiede risorse computazionali e tempo di addestramento aggiuntivi
  3. Limitazioni Linguistiche: Gli esperimenti sono condotti solo in inglese, l'applicabilità multilingue non è verificata
  4. Limitazioni della Dimensione del Modello: Gli esperimenti sono condotti solo su Gemma 2B, l'effetto su modelli più grandi è sconosciuto

Direzioni Future

  1. Verifica su Modelli Più Grandi: Verificare l'efficacia del metodo su LLM di scala più grande
  2. Estensione Multilingue: Estendere il metodo al riconoscimento del linguaggio disordinato in altre lingue
  3. Miglioramento della Discretizzazione Audio: Sviluppare strategie migliori di discretizzazione dei token audio
  4. Fusione di Segnali di Ricompensa Multipli: Esplorare la possibilità di combinare più segnali di ricompensa

Valutazione Approfondita

Punti di Forza

  1. Forte Innovazione Metodologica: Il metodo di elaborazione audio senza modifiche architettoniche ha valore pratico
  2. Progettazione Sperimentale Completa: La strategia di addestramento progressivo dal fine-tuning supervisionato a RLHF è razionale
  3. Sistema di Valutazione Completo: Combina metriche sintattiche e semantiche, include verifica tramite valutazione umana
  4. Valore Sociale Significativo: La ricerca sul linguaggio disordinato ha importanza sociale significativa

Insufficienze

  1. Miglioramento di Prestazione Limitato: Sebbene il miglioramento relativo sia significativo, le prestazioni assolute hanno ancora spazio di miglioramento
  2. Problemi di Efficienza Computazionale: Il metodo RLHF ha costi computazionali superiori rispetto al fine-tuning diretto
  3. Verifica di Generalizzazione Insufficiente: Verificato solo su due dataset, la generalizzazione richiede ulteriore verifica
  4. Mancanza di Analisi Teorica: Manca l'analisi teorica del perché RLHF sia più efficace in questo compito

Impatto

  1. Contributo Tecnico: Fornisce nuove prospettive per l'applicazione degli LLM nel compito di riconoscimento vocale
  2. Valore di Applicazione: Fornisce un percorso tecnico prezioso per lo sviluppo della tecnologia accessibile
  3. Ispirazione per la Ricerca: Dimostra il potenziale di RLHF nell'adattamento specializzato di dominio

Scenari Applicabili

  1. Assistenza al Linguaggio Disordinato: Applicabile ai sistemi di comunicazione assistita per persone con disturbi del linguaggio
  2. Sistemi di Dialogo Multimodale: Adatto a scenari di applicazione che richiedono l'elaborazione simultanea di voce e testo
  3. Riconoscimento Vocale a Basse Risorse: Ha valore di riferimento per domini vocali speciali con dati di addestramento scarsi

Bibliografia

L'articolo cita 35 lavori correlati, coprendo molteplici campi inclusa l'espansione multimodale degli LLM, il riconoscimento vocale e l'apprendimento per rinforzo, fornendo una base teorica solida per la ricerca.


Valutazione Complessiva: Questo articolo ha significato importante sia in termini di innovazione tecnica che di valore sociale. Il metodo proposto di riconoscimento vocale LLM senza modifiche architettoniche e la strategia di adattamento di dominio RLHF forniscono nuove prospettive per la ricerca correlata. Sebbene vi sia ancora spazio di miglioramento nelle prestazioni assolute, i miglioramenti significativi nello scenario di applicazione importante del riconoscimento del linguaggio disordinato dimostrano il valore pratico di questo metodo.