2025-11-13T12:49:11.039710

Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning

Nagpal, Venugopalan, Tobin et al.

We introduce a large language model (LLM) capable of processing speech inputs and show that tuning it further with reinforcement learning on human preference (RLHF) enables it to adapt better to disordered speech than traditional fine-tuning. Our method replaces low-frequency text tokens in an LLM's vocabulary with audio tokens and enables the model to recognize speech by fine-tuning it on speech with transcripts. We then use RL with rewards based on syntactic and semantic accuracy measures generalizing the LLM further to recognize disordered speech. While the resulting LLM does not outperform existing systems for speech recognition, we find that tuning with reinforcement learning using custom rewards leads to substantially better performance than supervised fine-tuning of the language model, specifically when adapting to speech in a different setting. This presents a compelling alternative tuning strategy for speech recognition using large language models.

academic

Riconoscimento Vocale con LLM Adattati al Linguaggio Disordinato Utilizzando l'Apprendimento per Rinforzo

Informazioni Fondamentali

ID Articolo: 2501.00039
Titolo: Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning
Autori: Chirag Nagpal, Subhashini Venugopalan, Jimmy Tobin, Marilyn Ladewig, Katherine Heller, Katrin Tomanek (Google Research)
Classificazione: eess.AS cs.CL cs.LG cs.SD
Data di Pubblicazione: 25 dicembre 2024 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2501.00039

Riassunto

Questo articolo propone un modello di linguaggio di grandi dimensioni (LLM) in grado di elaborare input vocali e dimostra che l'ottimizzazione ulteriore tramite apprendimento per rinforzo basato su preferenze umane (RLHF) consente un adattamento migliore al linguaggio disordinato rispetto al fine-tuning tradizionale. Il metodo sostituisce i token di testo a bassa frequenza nel vocabolario LLM con token audio, consentendo al modello di riconoscere il linguaggio attraverso il fine-tuning su dati di trascrizione vocale. Successivamente, viene utilizzato l'apprendimento per rinforzo con ricompense basate su metriche di accuratezza sintattica e semantica per generalizzare ulteriormente l'LLM al riconoscimento del linguaggio disordinato. Sebbene il modello risultante non superi i sistemi esistenti nel riconoscimento vocale, la ricerca rivela che l'ottimizzazione tramite apprendimento per rinforzo con ricompense personalizzate mostra prestazioni significativamente superiori al fine-tuning supervisionato del modello di linguaggio nell'adattamento a impostazioni vocali diverse.

Contesto di Ricerca e Motivazione

Definizione del Problema

Questa ricerca affronta due questioni fondamentali:

Come abilitare gli LLM esistenti a elaborare input vocali e eseguire il riconoscimento vocale
Come adattare efficacemente i sistemi ASR basati su LLM al compito di riconoscimento del linguaggio disordinato

Importanza

Espansione delle Capacità Multimodali: Potenziare la capacità di elaborazione audio degli LLM mantenendo le loro capacità di comprensione linguistica è significativo per le applicazioni di automazione controllate dalla voce
Tecnologia Accessibile: Per gli individui con disturbi del linguaggio, le tecnologie di riconoscimento vocale che combinano contesto visivo e testuale hanno un valore sociale particolare
Adattamento in Scenari a Basse Risorse: L'adattamento del modello in scenari a basse risorse come il linguaggio disordinato rappresenta una sfida tecnica importante

Limitazioni degli Approcci Esistenti

Complessità della Modifica Architettonica: La maggior parte dei lavori esistenti richiede modifiche all'architettura LLM o l'utilizzo di codificatori vocali per estrarre embedding
Costo dell'Espansione del Vocabolario: Alcuni metodi elaborano l'audio espandendo il vocabolario LLM, aumentando i costi computazionali
Limitazioni delle Metriche di Valutazione: I sistemi ASR tradizionali si basano principalmente su metriche sintattiche come WER, con valutazione insufficiente della preservazione semantica
Difficoltà nell'Adattamento al Linguaggio Disordinato: I metodi di fine-tuning tradizionali mostrano efficacia limitata nell'adattamento al linguaggio disordinato

Contributi Fondamentali

Propone un metodo di riconoscimento vocale LLM senza modifiche architettoniche: Mappando i token audio ai token di testo a bassa frequenza nel vocabolario esistente, evita modifiche architettoniche
Introduce una strategia di adattamento di dominio ASR basata su RLHF: Utilizza l'ottimizzazione tramite apprendimento per rinforzo con una funzione di ricompensa combinata di WER e score di preservazione semantica (MP)
Raggiunge miglioramenti significativi nel riconoscimento del linguaggio disordinato: Rispetto al fine-tuning supervisionato, il metodo RLHF ha ottenuto miglioramenti significativi delle prestazioni sul dataset Euphonia
Fornisce una nuova prospettiva sulla valutazione della preservazione semantica: Combina accuratezza sintattica (WER) e accuratezza semantica (MP) per una valutazione completa

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Segnale audio grezzo Output: Trascrizione testuale corrispondente Vincoli: Mantenere l'architettura LLM originale invariata, adattarsi al dominio del linguaggio disordinato

Architettura del Modello

Fase Uno: Costruzione della Capacità di Riconoscimento Vocale LLM

Tokenizzazione e Discretizzazione Audio:

Utilizza l'encoder vocale USM (addestrato in modo simile a w2v-BERT) per generare token a 25 Hz
Estrae embedding da strati intermedi (strato 16) e li raggruppa in 1024 cluster
Mappa gli embedding audio agli ID del cluster più vicino

Rimappatura del Vocabolario:

Mappa gli 1024 ID cluster audio agli ultimi 1024 token di testo a frequenza più bassa nel vocabolario LLM
La motivazione per la selezione di token a bassa frequenza: questi sono tipicamente caratteri multilingue o unicode che possono essere riutilizzati come token audio
Utilizza il fine-tuning supervisionato standard sui dati ASR, con input come token audio discretizzati e output come trascrizioni testuali

Fase Due: Adattamento di Dominio Basato su RLHF

Progettazione della Funzione di Ricompensa:

R(x,y;y*) = γ · MP(y,y*) + ln(1 - WER(y,y*))

Dove:

x: input originale
y: trascrizione predetta
y*: trascrizione vera
γ: iperparametro per bilanciare gli score WER e MP
MP: score di preservazione semantica
WER: tasso di errore di parola

Modello di Ricompensa per la Preservazione Semantica:

Addestrato su Gemma-2B per il compito di classificazione binaria di preservazione semantica
Addestrato con perdita di entropia incrociata su 2840 coppie di trascrizioni predette-vere
Raggiunge 0,87 AUC sul set di test (rispetto a 0,89 AUC in 16)

Ottimizzazione tramite Apprendimento per Rinforzo:

Utilizza PPO (Proximal Policy Optimization)
Impiega clipping del gradiente e regolarizzazione KL
Seleziona il checkpoint ottimale attraverso esperimenti con diversi valori di γ

Punti di Innovazione Tecnica

Elaborazione Audio Senza Modifiche Architettoniche: Evita modifiche architettoniche complesse riutilizzando il vocabolario esistente
Funzione di Ricompensa Multi-Obiettivo: Combina accuratezza sintattica (WER) e semantica (MP), prevenendo l'inganno delle ricompense
Strategia di Addestramento Progressivo: Fine-tuning supervisionato su dati misti seguito da RLHF per l'adattamento di dominio
Valutazione della Preservazione Semantica: Introduce metriche di valutazione semantica basate su preferenze umane

Configurazione Sperimentale

Dataset

LibriSpeech:
- 1000 ore di dati vocali standard
- Registrazioni pulite in ambiente singolo da audiolibri inglesi
- Utilizza la suddivisione dev-clean per la validazione
Euphonia:
- Oltre 1 milione di enunciati vocali disordinati (~1k ore)
- Provenienti da 1246 diversi parlanti con disturbi del linguaggio
- Set di addestramento: 900k+ enunciati, set di test: 5699 enunciati (200 parlanti), set di validazione: 343 enunciati (24 parlanti)
- Include etichette di gravità annotate da patologi del linguaggio

Metriche di Valutazione

WER (Word Error Rate): Tasso di errore di parola, metrica di accuratezza sintattica
MP (Meaning Preservation): Score di preservazione semantica, utilizza LLM per giudicare se la trascrizione predetta preserva il significato originale

Metodi di Confronto

Librispeech Only: Addestramento solo su LibriSpeech
30:70 mixture: Addestramento su miscela 30% Euphonia + 70% LibriSpeech
Continued SFT: Fine-tuning supervisionato continuo su linguaggio disordinato
Varianti RLHF: Metodi di apprendimento per rinforzo con diversi valori di γ

Dettagli di Implementazione

Modello Base: Gemma 2B (vocabolario di 256k)
Tasso di Apprendimento: 5×10^-6, decadimento cosinusoidale
Ottimizzatore: Adam
Dropout di Input: 5×10^-2
Clustering Audio: 1024 cluster appresi su LibriSpeech

Risultati Sperimentali

Risultati Principali

Fase di Fine-tuning Supervisionato:

Rapporto di Miscela Dati	Euphonia Test WER↓	Euphonia Test MP↑	LibriSpeech Dev WER↓
LibriSpeech Only	70.9	39.0	17.1
30:70 mixture	50.4	48.2	17.2

Il rapporto di miscela 30:70 raggiunge miglioramenti significativi sul linguaggio disordinato mantenendo le prestazioni sul linguaggio standard.

Risultati di Adattamento RLHF:

Strategia di Ottimizzazione	Euphonia Test WER↓	Euphonia Test MP↑	LibriSpeech Dev WER↓
Modello SFT Base	50.4	48.2	17.2
SFT Continuo	57.1	42.8	22.9
RLHF (γ=0.00)	41.0	50.4	20.2
RLHF (γ=1.00)	42.6	55.7	22.0

Esperimenti di Ablazione

Impatto di Diversi Valori di γ:

γ=0.00 (solo WER): WER più basso ma score MP inferiore
γ=0.25-0.50: Punto di equilibrio tra WER e MP
γ=1.00: Score MP più alto, aumento lieve di WER ma senza significatività statistica (p=0.54)

Analisi per Livello di Gravità: Il modello RLHF mostra miglioramenti dello score MP a tutti i livelli di gravità, con miglioramenti più evidenti nel linguaggio disordinato moderato e grave.

Analisi di Casi

Trascrizione Vera	Gravità	RLHF(γ=0.0)	WER	RLHF(γ=1.0)	WER
"not so good today"	LIEVE	"not so good to the."	0.5	"not so good to day."	0.5
"every one of my family listens to music"	MODERATO	"every once in my frame and listen to music"	0.62	"everybody in my family listens to music"	0.38
"dancing is so much fun"	MODERATO	"that's so much fun."	0.40	"dancing so much fun."	0.20

Valutazione Umana

In una valutazione umana su 220 campioni:

Valutazione Media di Preservazione Semantica: 29.10% per il modello γ=0.0, 40.45% per il modello γ=1.0
Correlazione con la Valutazione del Modello: Coefficiente di correlazione di Spearman rispettivamente di 0.684 e 0.639, entrambi statisticamente significativi

Lavori Correlati

Ricerca su ASR Basato su LLM

Metodi di Modifica Architettonica: Come AudioPaLM che realizzano l'elaborazione vocale modificando l'architettura LLM
Metodi di Post-Elaborazione: I lavori iniziali utilizzano principalmente LLM per correggere l'output dei sistemi ASR
Metodi End-to-End: I lavori recenti ottimizzano direttamente gli LLM per il riconoscimento vocale

Metriche di Distanza Semantica

Limitazioni delle Metriche Tradizionali: Metriche sintattiche come WER non riflettono sufficientemente la preservazione semantica
Estensioni di BERTScore: Utilizza modelli pre-addestrati per calcolare la similarità semantica
Apprendimento da Preferenze Umane: Addestra modelli di giudizio della preservazione semantica su annotazioni di esperti

Conclusioni e Discussione

Conclusioni Principali

RLHF Significativamente Superiore al Fine-tuning Supervisionato: Nel compito di adattamento al linguaggio disordinato, il metodo RLHF raggiunge miglioramenti significativi rispetto al fine-tuning supervisionato continuo
Efficacia della Ricompensa Multi-Obiettivo: La funzione di ricompensa che combina WER e MP raggiunge un buon equilibrio tra accuratezza sintattica e semantica
Importanza della Preservazione Semantica: Nel riconoscimento del linguaggio disordinato, la preservazione semantica è più importante della corrispondenza lessicale rigorosa

Limitazioni

Limitazioni di Prestazione Complessiva: Il metodo LLM non supera i sistemi ASR specializzati esistenti
Requisiti di Risorse Computazionali: L'addestramento RLHF richiede risorse computazionali e tempo di addestramento aggiuntivi
Limitazioni Linguistiche: Gli esperimenti sono condotti solo in inglese, l'applicabilità multilingue non è verificata
Limitazioni della Dimensione del Modello: Gli esperimenti sono condotti solo su Gemma 2B, l'effetto su modelli più grandi è sconosciuto

Direzioni Future

Verifica su Modelli Più Grandi: Verificare l'efficacia del metodo su LLM di scala più grande
Estensione Multilingue: Estendere il metodo al riconoscimento del linguaggio disordinato in altre lingue
Miglioramento della Discretizzazione Audio: Sviluppare strategie migliori di discretizzazione dei token audio
Fusione di Segnali di Ricompensa Multipli: Esplorare la possibilità di combinare più segnali di ricompensa

Valutazione Approfondita

Punti di Forza

Forte Innovazione Metodologica: Il metodo di elaborazione audio senza modifiche architettoniche ha valore pratico
Progettazione Sperimentale Completa: La strategia di addestramento progressivo dal fine-tuning supervisionato a RLHF è razionale
Sistema di Valutazione Completo: Combina metriche sintattiche e semantiche, include verifica tramite valutazione umana
Valore Sociale Significativo: La ricerca sul linguaggio disordinato ha importanza sociale significativa

Insufficienze

Miglioramento di Prestazione Limitato: Sebbene il miglioramento relativo sia significativo, le prestazioni assolute hanno ancora spazio di miglioramento
Problemi di Efficienza Computazionale: Il metodo RLHF ha costi computazionali superiori rispetto al fine-tuning diretto
Verifica di Generalizzazione Insufficiente: Verificato solo su due dataset, la generalizzazione richiede ulteriore verifica
Mancanza di Analisi Teorica: Manca l'analisi teorica del perché RLHF sia più efficace in questo compito

Impatto

Contributo Tecnico: Fornisce nuove prospettive per l'applicazione degli LLM nel compito di riconoscimento vocale
Valore di Applicazione: Fornisce un percorso tecnico prezioso per lo sviluppo della tecnologia accessibile
Ispirazione per la Ricerca: Dimostra il potenziale di RLHF nell'adattamento specializzato di dominio

Scenari Applicabili

Assistenza al Linguaggio Disordinato: Applicabile ai sistemi di comunicazione assistita per persone con disturbi del linguaggio
Sistemi di Dialogo Multimodale: Adatto a scenari di applicazione che richiedono l'elaborazione simultanea di voce e testo
Riconoscimento Vocale a Basse Risorse: Ha valore di riferimento per domini vocali speciali con dati di addestramento scarsi

Bibliografia

L'articolo cita 35 lavori correlati, coprendo molteplici campi inclusa l'espansione multimodale degli LLM, il riconoscimento vocale e l'apprendimento per rinforzo, fornendo una base teorica solida per la ricerca.

Valutazione Complessiva: Questo articolo ha significato importante sia in termini di innovazione tecnica che di valore sociale. Il metodo proposto di riconoscimento vocale LLM senza modifiche architettoniche e la strategia di adattamento di dominio RLHF forniscono nuove prospettive per la ricerca correlata. Sebbene vi sia ancora spazio di miglioramento nelle prestazioni assolute, i miglioramenti significativi nello scenario di applicazione importante del riconoscimento del linguaggio disordinato dimostrano il valore pratico di questo metodo.