Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning
Nagpal, Venugopalan, Tobin et al.
We introduce a large language model (LLM) capable of processing speech inputs and show that tuning it further with reinforcement learning on human preference (RLHF) enables it to adapt better to disordered speech than traditional fine-tuning. Our method replaces low-frequency text tokens in an LLM's vocabulary with audio tokens and enables the model to recognize speech by fine-tuning it on speech with transcripts. We then use RL with rewards based on syntactic and semantic accuracy measures generalizing the LLM further to recognize disordered speech. While the resulting LLM does not outperform existing systems for speech recognition, we find that tuning with reinforcement learning using custom rewards leads to substantially better performance than supervised fine-tuning of the language model, specifically when adapting to speech in a different setting. This presents a compelling alternative tuning strategy for speech recognition using large language models.
academic
Reconocimiento de Voz con LLMs Adaptados al Habla Desordenada Utilizando Aprendizaje por Refuerzo
Este artículo propone un modelo de lenguaje grande (LLM) capaz de procesar entrada de voz y demuestra que el ajuste fino adicional mediante aprendizaje por refuerzo basado en preferencias humanas (RLHF) puede adaptarse mejor al habla desordenada que el ajuste fino tradicional. El método reemplaza tokens de texto de baja frecuencia en el vocabulario del LLM con tokens de audio, permitiendo que el modelo reconozca voz mediante ajuste fino en datos de transcripción de voz. Posteriormente, se utiliza aprendizaje por refuerzo con recompensas basadas en métricas de precisión sintáctica y semántica para generalizar aún más el LLM para reconocer habla desordenada. Aunque el modelo resultante no supera los sistemas existentes en reconocimiento de voz, la investigación encuentra que el ajuste fino mediante aprendizaje por refuerzo con recompensas personalizadas muestra un desempeño significativamente superior al ajuste fino supervisado del modelo de lenguaje al adaptar la voz en diferentes configuraciones.
Expansión de Capacidades Multimodales: Mejorar las capacidades de procesamiento de audio de los LLMs mientras se mantiene su capacidad de comprensión del lenguaje es significativo para aplicaciones de automatización controlada por voz
Tecnología de Accesibilidad: Para individuos con trastornos del habla, la tecnología de reconocimiento de voz que puede combinar contexto visual y textual tiene un valor social especial
Adaptación en Escenarios de Bajo Recurso: La adaptación de modelos en escenarios de bajo recurso como el habla desordenada es un desafío técnico importante
Complejidad de Modificación Arquitectónica: La mayoría de trabajos existentes requieren modificar la arquitectura del LLM o utilizar codificadores de voz para extraer incrustaciones
Costo de Expansión del Vocabulario: Algunos métodos procesan audio expandiendo el vocabulario del LLM, aumentando el costo computacional
Limitaciones de Métricas de Evaluación: Los sistemas ASR tradicionales dependen principalmente de métricas sintácticas como WER, con evaluación insuficiente en preservación semántica
Dificultad en Adaptación de Habla Desordenada: Los métodos de ajuste fino tradicional tienen efectividad limitada en la adaptación al habla desordenada
Propone un método de reconocimiento de voz con LLM sin modificación arquitectónica: Mediante mapeo de tokens de audio a tokens de texto de baja frecuencia en el vocabulario existente, evita modificaciones arquitectónicas
Introduce una estrategia de adaptación de dominio ASR basada en RLHF: Utiliza aprendizaje por refuerzo con función de recompensa combinada de WER y puntuación de preservación semántica (MP)
Logra mejoras significativas en reconocimiento de habla desordenada: Comparado con ajuste fino supervisado, el método RLHF logra mejoras significativas de desempeño en el conjunto de datos Euphonia
Proporciona una nueva perspectiva en evaluación de preservación semántica: Evaluación integral combinando precisión sintáctica (WER) y precisión semántica (MP)
Entrada: Señal de audio sin procesar
Salida: Transcripción de texto correspondiente
Restricciones: Mantener la arquitectura original del LLM sin cambios, adaptarse al dominio de habla desordenada
Procesamiento de Audio sin Modificación Arquitectónica: Evita modificaciones arquitectónicas complejas mediante reutilización del vocabulario existente
Función de Recompensa Multiobjetivo: Combina precisión sintáctica (WER) y semántica (MP), previniendo engaño de recompensas
Estrategia de Entrenamiento Progresivo: Ajuste fino supervisado primero en datos mixtos, luego adaptación de dominio con RLHF
Evaluación de Preservación Semántica: Introduce métrica de evaluación semántica basada en preferencias humanas
Grabaciones limpias de un solo hablante de audiolibros en inglés
Utiliza división dev-clean para validación
Euphonia:
Más de 1 millón de enunciados de habla desordenada (~1k horas)
De 1246 hablantes diferentes con trastornos del habla
Conjunto de entrenamiento: 900k+ enunciados, conjunto de prueba: 5699 enunciados (200 hablantes), conjunto de validación: 343 enunciados (24 hablantes)
Incluye etiquetas de severidad anotadas por patólogos del lenguaje
WER (Word Error Rate): Tasa de error de palabras, métrica de precisión sintáctica
MP (Meaning Preservation): Puntuación de preservación semántica, utiliza LLM para determinar si la transcripción predicha preserva el significado original
γ=0.00 (solo WER): WER más bajo pero puntuación MP más baja
γ=0.25-0.50: Punto de equilibrio entre WER y MP
γ=1.00: Puntuación MP más alta, WER ligeramente superior pero sin significancia estadística (p=0.54)
Análisis de Severidad:
El modelo RLHF muestra mejora en puntuación MP en todos los niveles de severidad, con mejoras más pronunciadas en habla desordenada moderada y severa.
RLHF Significativamente Superior al Ajuste Fino Supervisado: En tareas de adaptación de habla desordenada, el método RLHF logra mejora significativa comparado con ajuste fino supervisado continuo
Efectividad de Recompensa Multiobjetivo: La función de recompensa combinando WER y MP logra buen equilibrio entre precisión sintáctica y semántica
Importancia de Preservación Semántica: En reconocimiento de habla desordenada, la preservación semántica es más importante que coincidencia léxica estricta
El artículo cita 35 referencias relacionadas, cubriendo múltiples campos incluyendo expansión multimodal de LLM, reconocimiento de voz y aprendizaje por refuerzo, proporcionando base teórica sólida para la investigación.
Evaluación General: Este artículo tiene importancia significativa tanto en innovación técnica como en valor social, proponiendo método de reconocimiento de voz con LLM sin modificación arquitectónica y estrategia de adaptación de dominio RLHF que proporciona nuevas ideas para investigación relacionada. Aunque aún hay espacio de mejora en desempeño absoluto, la mejora significativa en este importante escenario de aplicación de reconocimiento de habla desordenada demuestra el valor práctico del método.