2025-11-13T12:49:11.039710

Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning

Nagpal, Venugopalan, Tobin et al.

We introduce a large language model (LLM) capable of processing speech inputs and show that tuning it further with reinforcement learning on human preference (RLHF) enables it to adapt better to disordered speech than traditional fine-tuning. Our method replaces low-frequency text tokens in an LLM's vocabulary with audio tokens and enables the model to recognize speech by fine-tuning it on speech with transcripts. We then use RL with rewards based on syntactic and semantic accuracy measures generalizing the LLM further to recognize disordered speech. While the resulting LLM does not outperform existing systems for speech recognition, we find that tuning with reinforcement learning using custom rewards leads to substantially better performance than supervised fine-tuning of the language model, specifically when adapting to speech in a different setting. This presents a compelling alternative tuning strategy for speech recognition using large language models.

academic

Reconocimiento de Voz con LLMs Adaptados al Habla Desordenada Utilizando Aprendizaje por Refuerzo

Información Básica

ID del Artículo: 2501.00039
Título: Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning
Autores: Chirag Nagpal, Subhashini Venugopalan, Jimmy Tobin, Marilyn Ladewig, Katherine Heller, Katrin Tomanek (Google Research)
Clasificación: eess.AS cs.CL cs.LG cs.SD
Fecha de Publicación: 25 de diciembre de 2024 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2501.00039

Resumen

Este artículo propone un modelo de lenguaje grande (LLM) capaz de procesar entrada de voz y demuestra que el ajuste fino adicional mediante aprendizaje por refuerzo basado en preferencias humanas (RLHF) puede adaptarse mejor al habla desordenada que el ajuste fino tradicional. El método reemplaza tokens de texto de baja frecuencia en el vocabulario del LLM con tokens de audio, permitiendo que el modelo reconozca voz mediante ajuste fino en datos de transcripción de voz. Posteriormente, se utiliza aprendizaje por refuerzo con recompensas basadas en métricas de precisión sintáctica y semántica para generalizar aún más el LLM para reconocer habla desordenada. Aunque el modelo resultante no supera los sistemas existentes en reconocimiento de voz, la investigación encuentra que el ajuste fino mediante aprendizaje por refuerzo con recompensas personalizadas muestra un desempeño significativamente superior al ajuste fino supervisado del modelo de lenguaje al adaptar la voz en diferentes configuraciones.

Antecedentes de Investigación y Motivación

Definición del Problema

Esta investigación aborda dos problemas centrales:

Cómo habilitar los LLMs existentes para procesar entrada de voz y realizar reconocimiento de voz
Cómo adaptar efectivamente sistemas ASR basados en LLM a tareas de reconocimiento de habla desordenada

Importancia

Expansión de Capacidades Multimodales: Mejorar las capacidades de procesamiento de audio de los LLMs mientras se mantiene su capacidad de comprensión del lenguaje es significativo para aplicaciones de automatización controlada por voz
Tecnología de Accesibilidad: Para individuos con trastornos del habla, la tecnología de reconocimiento de voz que puede combinar contexto visual y textual tiene un valor social especial
Adaptación en Escenarios de Bajo Recurso: La adaptación de modelos en escenarios de bajo recurso como el habla desordenada es un desafío técnico importante

Limitaciones de Métodos Existentes

Complejidad de Modificación Arquitectónica: La mayoría de trabajos existentes requieren modificar la arquitectura del LLM o utilizar codificadores de voz para extraer incrustaciones
Costo de Expansión del Vocabulario: Algunos métodos procesan audio expandiendo el vocabulario del LLM, aumentando el costo computacional
Limitaciones de Métricas de Evaluación: Los sistemas ASR tradicionales dependen principalmente de métricas sintácticas como WER, con evaluación insuficiente en preservación semántica
Dificultad en Adaptación de Habla Desordenada: Los métodos de ajuste fino tradicional tienen efectividad limitada en la adaptación al habla desordenada

Contribuciones Principales

Propone un método de reconocimiento de voz con LLM sin modificación arquitectónica: Mediante mapeo de tokens de audio a tokens de texto de baja frecuencia en el vocabulario existente, evita modificaciones arquitectónicas
Introduce una estrategia de adaptación de dominio ASR basada en RLHF: Utiliza aprendizaje por refuerzo con función de recompensa combinada de WER y puntuación de preservación semántica (MP)
Logra mejoras significativas en reconocimiento de habla desordenada: Comparado con ajuste fino supervisado, el método RLHF logra mejoras significativas de desempeño en el conjunto de datos Euphonia
Proporciona una nueva perspectiva en evaluación de preservación semántica: Evaluación integral combinando precisión sintáctica (WER) y precisión semántica (MP)

Explicación Detallada del Método

Definición de la Tarea

Entrada: Señal de audio sin procesar Salida: Transcripción de texto correspondiente Restricciones: Mantener la arquitectura original del LLM sin cambios, adaptarse al dominio de habla desordenada

Arquitectura del Modelo

Fase Uno: Construcción de Capacidad de Reconocimiento de Voz del LLM

Tokenización y Discretización de Audio:

Utiliza codificador de voz USM (entrenado similarmente a w2v-BERT) para generar tokens a frecuencia de 25Hz
Extrae incrustaciones de capas intermedias (capa 16) y agrupa en 1024 clústeres
Mapea incrustaciones de audio a IDs de clúster más cercanos

Remapeo del Vocabulario:

Mapea 1024 IDs de clúster de audio a los últimos 1024 tokens de texto de frecuencia más baja en el vocabulario del LLM
Motivación para seleccionar tokens de baja frecuencia: estos suelen ser caracteres multilingües o unicode que pueden reutilizarse como tokens de audio
Utiliza ajuste fino supervisado estándar en datos ASR, con entrada de tokens de audio discretizados y salida de transcripción de texto

Fase Dos: Adaptación de Dominio Basada en RLHF

Diseño de Función de Recompensa:

R(x,y;y*) = γ · MP(y,y*) + ln(1 - WER(y,y*))

Donde:

x: entrada original
y: transcripción predicha
y*: transcripción verdadera
γ: hiperparámetro para equilibrar puntuaciones WER y MP
MP: puntuación de preservación semántica
WER: tasa de error de palabras

Modelo de Recompensa de Preservación Semántica:

Entrena Gemma-2B en tarea de clasificación binaria de preservación semántica
Entrena con pérdida de entropía cruzada en 2840 pares de transcripción predicha-verdadera
Logra 0.87 AUC en conjunto de prueba (comparado con 0.89 AUC de 16)

Optimización de Aprendizaje por Refuerzo:

Utiliza PPO (Proximal Policy Optimization)
Emplea recorte de gradientes y regularización KL
Selecciona punto de control óptimo mediante experimentación con diferentes valores de γ

Puntos de Innovación Técnica

Procesamiento de Audio sin Modificación Arquitectónica: Evita modificaciones arquitectónicas complejas mediante reutilización del vocabulario existente
Función de Recompensa Multiobjetivo: Combina precisión sintáctica (WER) y semántica (MP), previniendo engaño de recompensas
Estrategia de Entrenamiento Progresivo: Ajuste fino supervisado primero en datos mixtos, luego adaptación de dominio con RLHF
Evaluación de Preservación Semántica: Introduce métrica de evaluación semántica basada en preferencias humanas

Configuración Experimental

Conjuntos de Datos

LibriSpeech:
- 1000 horas de datos de voz estándar
- Grabaciones limpias de un solo hablante de audiolibros en inglés
- Utiliza división dev-clean para validación
Euphonia:
- Más de 1 millón de enunciados de habla desordenada (~1k horas)
- De 1246 hablantes diferentes con trastornos del habla
- Conjunto de entrenamiento: 900k+ enunciados, conjunto de prueba: 5699 enunciados (200 hablantes), conjunto de validación: 343 enunciados (24 hablantes)
- Incluye etiquetas de severidad anotadas por patólogos del lenguaje

Métricas de Evaluación

WER (Word Error Rate): Tasa de error de palabras, métrica de precisión sintáctica
MP (Meaning Preservation): Puntuación de preservación semántica, utiliza LLM para determinar si la transcripción predicha preserva el significado original

Métodos de Comparación

Librispeech Only: Entrenamiento solo en LibriSpeech
30:70 mixture: Mezcla de 30% Euphonia + 70% LibriSpeech
Continued SFT: Ajuste fino supervisado continuo en habla desordenada
RLHF variants: Métodos de aprendizaje por refuerzo con diferentes valores de γ

Detalles de Implementación

Modelo Base: Gemma 2B (vocabulario de 256k)
Tasa de Aprendizaje: 5×10^-6, decaimiento coseno
Optimizador: Adam
Dropout de Entrada: 5×10^-2
Agrupamiento de Audio: 1024 clústeres aprendidos basados en LibriSpeech

Resultados Experimentales

Resultados Principales

Fase de Ajuste Fino Supervisado:

Proporción de Mezcla de Datos	Euphonia Test WER↓	Euphonia Test MP↑	LibriSpeech Dev WER↓
LibriSpeech Only	70.9	39.0	17.1
30:70 mixture	50.4	48.2	17.2

La proporción de mezcla 30:70 logra mejora significativa en habla desordenada mientras mantiene desempeño en voz estándar.

Resultados de Adaptación RLHF:

Estrategia de Ajuste Fino	Euphonia Test WER↓	Euphonia Test MP↑	LibriSpeech Dev WER↓
Base SFT model	50.4	48.2	17.2
Continued SFT	57.1	42.8	22.9
RLHF (γ=0.00)	41.0	50.4	20.2
RLHF (γ=1.00)	42.6	55.7	22.0

Experimentos de Ablación

Impacto de Diferentes Valores de γ:

γ=0.00 (solo WER): WER más bajo pero puntuación MP más baja
γ=0.25-0.50: Punto de equilibrio entre WER y MP
γ=1.00: Puntuación MP más alta, WER ligeramente superior pero sin significancia estadística (p=0.54)

Análisis de Severidad: El modelo RLHF muestra mejora en puntuación MP en todos los niveles de severidad, con mejoras más pronunciadas en habla desordenada moderada y severa.

Análisis de Casos

Transcripción Verdadera	Severidad	RLHF(γ=0.0)	WER	RLHF(γ=1.0)	WER
"not so good today"	MILD	"not so good to the."	0.5	"not so good to day."	0.5
"every one of my family listens to music"	MODERATE	"every once in my frame and listen to music"	0.62	"everybody in my family listens to music"	0.38
"dancing is so much fun"	MODERATE	"that's so much fun."	0.40	"dancing so much fun."	0.20

Evaluación Humana

En evaluación humana de 220 muestras:

Evaluación Promedio de Preservación Semántica: Modelo γ=0.0 con 29.10%, modelo γ=1.0 con 40.45%
Correlación con Evaluación de Modelo: Coeficiente de correlación de Spearman de 0.684 y 0.639 respectivamente, ambos estadísticamente significativos

Trabajo Relacionado

Investigación en ASR Basado en LLM

Métodos de Modificación Arquitectónica: Como AudioPaLM que implementan procesamiento de voz modificando arquitectura del LLM
Métodos de Postprocesamiento: Trabajos tempranos utilizan principalmente LLM para corregir salida de sistemas ASR
Métodos Extremo a Extremo: Trabajos recientes ajustan directamente LLM para reconocimiento de voz

Medidas de Distancia Semántica

Limitaciones de Métricas Tradicionales: Métricas sintácticas como WER no reflejan suficientemente preservación semántica
Extensión de BERTScore: Utiliza modelos preentrenados para calcular similitud semántica
Aprendizaje de Preferencias Humanas: Entrena modelo de juicio de preservación semántica basado en anotaciones de expertos

Conclusiones y Discusión

Conclusiones Principales

RLHF Significativamente Superior al Ajuste Fino Supervisado: En tareas de adaptación de habla desordenada, el método RLHF logra mejora significativa comparado con ajuste fino supervisado continuo
Efectividad de Recompensa Multiobjetivo: La función de recompensa combinando WER y MP logra buen equilibrio entre precisión sintáctica y semántica
Importancia de Preservación Semántica: En reconocimiento de habla desordenada, la preservación semántica es más importante que coincidencia léxica estricta

Limitaciones

Limitación de Desempeño General: El método LLM no supera sistemas ASR especializados existentes
Requisitos de Recursos Computacionales: El entrenamiento RLHF requiere recursos computacionales y tiempo de entrenamiento adicionales
Limitación de Lenguaje: Los experimentos se realizan solo en inglés, la aplicabilidad multilingüe no está verificada
Limitación de Escala de Modelo: Experimentos solo en Gemma 2B, el efecto en modelos más grandes es desconocido

Direcciones Futuras

Verificación en Modelos Más Grandes: Verificar efectividad del método en LLMs de mayor escala
Extensión Multilingüe: Extender el método a reconocimiento de habla desordenada en otros idiomas
Mejora de Discretización de Audio: Desarrollar estrategias mejoradas de discretización de tokens de audio
Fusión de Múltiples Señales de Recompensa: Explorar posibilidad de combinar más señales de recompensa

Evaluación Profunda

Fortalezas

Fuerte Innovación Metodológica: El método de procesamiento de audio sin modificación arquitectónica tiene valor práctico
Diseño Experimental Completo: La estrategia de entrenamiento progresivo de ajuste fino supervisado a RLHF es razonable
Sistema de Evaluación Integral: Combinación de métricas sintácticas y semánticas, incluyendo verificación de evaluación humana
Valor Social Significativo: La investigación en habla desordenada tiene importancia social significativa

Insuficiencias

Mejora de Desempeño Limitada: Aunque la mejora relativa es significativa, el desempeño absoluto aún tiene espacio de mejora
Problema de Eficiencia Computacional: El método RLHF tiene costo computacional más alto comparado con ajuste fino directo
Verificación de Generalización Insuficiente: Verificación solo en dos conjuntos de datos, la generalización requiere verificación adicional
Falta de Análisis Teórico: Falta explicación teórica de por qué RLHF es más efectivo en esta tarea

Impacto

Contribución Técnica: Proporciona nuevas ideas para aplicación de LLM en tareas de reconocimiento de voz
Valor de Aplicación: Proporciona ruta técnica valiosa para desarrollo de tecnología de accesibilidad
Inspiración de Investigación: Demuestra potencial de RLHF en adaptación de dominio especializado

Escenarios Aplicables

Asistencia de Habla Desordenada: Puede aplicarse a sistemas de comunicación asistida para personas con trastornos del habla
Sistemas de Diálogo Multimodal: Adecuado para escenarios de aplicación que requieren procesamiento simultáneo de voz y texto
Reconocimiento de Voz de Bajo Recurso: Tiene valor de referencia para dominios de voz especiales con datos de entrenamiento escasos

Referencias

El artículo cita 35 referencias relacionadas, cubriendo múltiples campos incluyendo expansión multimodal de LLM, reconocimiento de voz y aprendizaje por refuerzo, proporcionando base teórica sólida para la investigación.

Evaluación General: Este artículo tiene importancia significativa tanto en innovación técnica como en valor social, proponiendo método de reconocimiento de voz con LLM sin modificación arquitectónica y estrategia de adaptación de dominio RLHF que proporciona nuevas ideas para investigación relacionada. Aunque aún hay espacio de mejora en desempeño absoluto, la mejora significativa en este importante escenario de aplicación de reconocimiento de habla desordenada demuestra el valor práctico del método.