Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning
Nagpal, Venugopalan, Tobin et al.
We introduce a large language model (LLM) capable of processing speech inputs and show that tuning it further with reinforcement learning on human preference (RLHF) enables it to adapt better to disordered speech than traditional fine-tuning. Our method replaces low-frequency text tokens in an LLM's vocabulary with audio tokens and enables the model to recognize speech by fine-tuning it on speech with transcripts. We then use RL with rewards based on syntactic and semantic accuracy measures generalizing the LLM further to recognize disordered speech. While the resulting LLM does not outperform existing systems for speech recognition, we find that tuning with reinforcement learning using custom rewards leads to substantially better performance than supervised fine-tuning of the language model, specifically when adapting to speech in a different setting. This presents a compelling alternative tuning strategy for speech recognition using large language models.
academic
Riconoscimento Vocale con LLM Adattati al Linguaggio Disordinato Utilizzando l'Apprendimento per Rinforzo
Questo articolo propone un modello di linguaggio di grandi dimensioni (LLM) in grado di elaborare input vocali e dimostra che l'ottimizzazione ulteriore tramite apprendimento per rinforzo basato su preferenze umane (RLHF) consente un adattamento migliore al linguaggio disordinato rispetto al fine-tuning tradizionale. Il metodo sostituisce i token di testo a bassa frequenza nel vocabolario LLM con token audio, consentendo al modello di riconoscere il linguaggio attraverso il fine-tuning su dati di trascrizione vocale. Successivamente, viene utilizzato l'apprendimento per rinforzo con ricompense basate su metriche di accuratezza sintattica e semantica per generalizzare ulteriormente l'LLM al riconoscimento del linguaggio disordinato. Sebbene il modello risultante non superi i sistemi esistenti nel riconoscimento vocale, la ricerca rivela che l'ottimizzazione tramite apprendimento per rinforzo con ricompense personalizzate mostra prestazioni significativamente superiori al fine-tuning supervisionato del modello di linguaggio nell'adattamento a impostazioni vocali diverse.
Espansione delle Capacità Multimodali: Potenziare la capacità di elaborazione audio degli LLM mantenendo le loro capacità di comprensione linguistica è significativo per le applicazioni di automazione controllate dalla voce
Tecnologia Accessibile: Per gli individui con disturbi del linguaggio, le tecnologie di riconoscimento vocale che combinano contesto visivo e testuale hanno un valore sociale particolare
Adattamento in Scenari a Basse Risorse: L'adattamento del modello in scenari a basse risorse come il linguaggio disordinato rappresenta una sfida tecnica importante
Complessità della Modifica Architettonica: La maggior parte dei lavori esistenti richiede modifiche all'architettura LLM o l'utilizzo di codificatori vocali per estrarre embedding
Costo dell'Espansione del Vocabolario: Alcuni metodi elaborano l'audio espandendo il vocabolario LLM, aumentando i costi computazionali
Limitazioni delle Metriche di Valutazione: I sistemi ASR tradizionali si basano principalmente su metriche sintattiche come WER, con valutazione insufficiente della preservazione semantica
Difficoltà nell'Adattamento al Linguaggio Disordinato: I metodi di fine-tuning tradizionali mostrano efficacia limitata nell'adattamento al linguaggio disordinato
Propone un metodo di riconoscimento vocale LLM senza modifiche architettoniche: Mappando i token audio ai token di testo a bassa frequenza nel vocabolario esistente, evita modifiche architettoniche
Introduce una strategia di adattamento di dominio ASR basata su RLHF: Utilizza l'ottimizzazione tramite apprendimento per rinforzo con una funzione di ricompensa combinata di WER e score di preservazione semantica (MP)
Raggiunge miglioramenti significativi nel riconoscimento del linguaggio disordinato: Rispetto al fine-tuning supervisionato, il metodo RLHF ha ottenuto miglioramenti significativi delle prestazioni sul dataset Euphonia
Fornisce una nuova prospettiva sulla valutazione della preservazione semantica: Combina accuratezza sintattica (WER) e accuratezza semantica (MP) per una valutazione completa
Utilizza l'encoder vocale USM (addestrato in modo simile a w2v-BERT) per generare token a 25 Hz
Estrae embedding da strati intermedi (strato 16) e li raggruppa in 1024 cluster
Mappa gli embedding audio agli ID del cluster più vicino
Rimappatura del Vocabolario:
Mappa gli 1024 ID cluster audio agli ultimi 1024 token di testo a frequenza più bassa nel vocabolario LLM
La motivazione per la selezione di token a bassa frequenza: questi sono tipicamente caratteri multilingue o unicode che possono essere riutilizzati come token audio
Utilizza il fine-tuning supervisionato standard sui dati ASR, con input come token audio discretizzati e output come trascrizioni testuali
γ=0.00 (solo WER): WER più basso ma score MP inferiore
γ=0.25-0.50: Punto di equilibrio tra WER e MP
γ=1.00: Score MP più alto, aumento lieve di WER ma senza significatività statistica (p=0.54)
Analisi per Livello di Gravità:
Il modello RLHF mostra miglioramenti dello score MP a tutti i livelli di gravità, con miglioramenti più evidenti nel linguaggio disordinato moderato e grave.
Valutazione Media di Preservazione Semantica: 29.10% per il modello γ=0.0, 40.45% per il modello γ=1.0
Correlazione con la Valutazione del Modello: Coefficiente di correlazione di Spearman rispettivamente di 0.684 e 0.639, entrambi statisticamente significativi
RLHF Significativamente Superiore al Fine-tuning Supervisionato: Nel compito di adattamento al linguaggio disordinato, il metodo RLHF raggiunge miglioramenti significativi rispetto al fine-tuning supervisionato continuo
Efficacia della Ricompensa Multi-Obiettivo: La funzione di ricompensa che combina WER e MP raggiunge un buon equilibrio tra accuratezza sintattica e semantica
Importanza della Preservazione Semantica: Nel riconoscimento del linguaggio disordinato, la preservazione semantica è più importante della corrispondenza lessicale rigorosa
Miglioramento di Prestazione Limitato: Sebbene il miglioramento relativo sia significativo, le prestazioni assolute hanno ancora spazio di miglioramento
Problemi di Efficienza Computazionale: Il metodo RLHF ha costi computazionali superiori rispetto al fine-tuning diretto
Verifica di Generalizzazione Insufficiente: Verificato solo su due dataset, la generalizzazione richiede ulteriore verifica
Mancanza di Analisi Teorica: Manca l'analisi teorica del perché RLHF sia più efficace in questo compito
L'articolo cita 35 lavori correlati, coprendo molteplici campi inclusa l'espansione multimodale degli LLM, il riconoscimento vocale e l'apprendimento per rinforzo, fornendo una base teorica solida per la ricerca.
Valutazione Complessiva: Questo articolo ha significato importante sia in termini di innovazione tecnica che di valore sociale. Il metodo proposto di riconoscimento vocale LLM senza modifiche architettoniche e la strategia di adattamento di dominio RLHF forniscono nuove prospettive per la ricerca correlata. Sebbene vi sia ancora spazio di miglioramento nelle prestazioni assolute, i miglioramenti significativi nello scenario di applicazione importante del riconoscimento del linguaggio disordinato dimostrano il valore pratico di questo metodo.