Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning
Nagpal, Venugopalan, Tobin et al.
We introduce a large language model (LLM) capable of processing speech inputs and show that tuning it further with reinforcement learning on human preference (RLHF) enables it to adapt better to disordered speech than traditional fine-tuning. Our method replaces low-frequency text tokens in an LLM's vocabulary with audio tokens and enables the model to recognize speech by fine-tuning it on speech with transcripts. We then use RL with rewards based on syntactic and semantic accuracy measures generalizing the LLM further to recognize disordered speech. While the resulting LLM does not outperform existing systems for speech recognition, we find that tuning with reinforcement learning using custom rewards leads to substantially better performance than supervised fine-tuning of the language model, specifically when adapting to speech in a different setting. This presents a compelling alternative tuning strategy for speech recognition using large language models.
academic
Распознавание речи с помощью LLM, адаптированных к нарушенной речи с использованием обучения с подкреплением
В данной работе предлагается метод адаптации больших языковых моделей (LLM) для обработки речевого ввода и демонстрируется, что дополнительная оптимизация с использованием обучения с подкреплением на основе предпочтений человека (RLHF) обеспечивает лучшую адаптацию к нарушенной речи по сравнению с традиционной тонкой настройкой. Метод заменяет низкочастотные текстовые токены в словаре LLM на аудиотокены и позволяет модели распознавать речь путём тонкой настройки на данных транскрипции речи. Впоследствии используется обучение с подкреплением с наградами, основанными на метриках синтаксической и семантической точности, для дальнейшей обобщения LLM при распознавании нарушенной речи. Хотя полученная модель не превосходит существующие системы распознавания речи, исследование показывает, что оптимизация с подкреплением с использованием пользовательских наград значительно превосходит контролируемую тонкую настройку языковой модели при адаптации к речи в различных условиях.
Расширение мультимодальных возможностей: Расширение возможностей обработки аудио в LLM при сохранении способностей языкового понимания имеет важное значение для приложений голосового управления и автоматизации
Технология доступности: Для лиц с нарушениями речи технология распознавания речи, способная интегрировать визуальный и текстовый контекст, имеет особую социальную ценность
Адаптация в условиях ограниченных ресурсов: Адаптация моделей в сценариях с ограниченными ресурсами, таких как распознавание нарушенной речи, представляет собой важный технический вызов
Сложность модификации архитектуры: Большинство существующих работ требуют изменения архитектуры LLM или использования кодировщиков речи для извлечения встраиваний
Стоимость расширения словаря: Некоторые методы обрабатывают аудио путём расширения словаря LLM, что увеличивает вычислительные затраты
Ограничения метрик оценки: Традиционные системы распознавания речи в основном полагаются на метрики синтаксиса, такие как WER, с недостаточной оценкой сохранения семантики
Сложность адаптации к нарушенной речи: Традиционные методы тонкой настройки имеют ограниченную эффективность при адаптации к нарушенной речи
Предложен метод распознавания речи LLM без модификации архитектуры: Путём отображения аудиотокенов на низкочастотные текстовые токены в существующем словаре избегаются модификации архитектуры
Введена стратегия адаптации домена ASR на основе RLHF: Используется обучение с подкреплением с комбинированной наградой, состоящей из WER и оценки сохранения смысла (MP)
Достигнуты значительные улучшения при распознавании нарушенной речи: По сравнению с контролируемой тонкой настройкой метод RLHF показывает значительные улучшения производительности на наборе данных Euphonia
Предоставлена новая перспектива оценки сохранения семантики: Комплексная оценка синтаксической точности (WER) и семантической точности (MP)
Использование кодировщика речи USM (обученного аналогично w2v-BERT) для генерации токенов с частотой 25 Гц
Извлечение встраиваний из промежуточного слоя (слой 16) и кластеризация в 1024 кластера
Отображение аудиовстраиваний на ближайшие ID центров кластеров
Переотображение словаря:
Отображение 1024 ID аудиокластеров на последние 1024 низкочастотных текстовых токена словаря LLM
Мотивация выбора низкочастотных токенов: они обычно являются многоязычными или символами Unicode и могут быть переиспользованы как аудиотокены
Использование стандартной контролируемой тонкой настройки на данных ASR, где вход представляет собой дискретизированные аудиотокены, а выход — текстовую транскрипцию
γ=0.00 (только WER): Самый низкий WER, но более низкая оценка MP
γ=0.25-0.50: Точка баланса между WER и MP
γ=1.00: Самая высокая оценка MP, незначительное увеличение WER без статистической значимости (p=0.54)
Анализ степени тяжести:
Модель RLHF показывает улучшение оценки MP на всех уровнях степени тяжести, с более заметным улучшением при умеренных и тяжёлых нарушениях речи.
RLHF значительно превосходит контролируемую тонкую настройку: При адаптации к нарушенной речи метод RLHF показывает значительные улучшения по сравнению с продолжением контролируемой тонкой настройки
Эффективность многоцелевой функции награды: Функция награды, комбинирующая WER и MP, достигает хорошего баланса между синтаксической и семантической точностью
Важность сохранения семантики: При распознавании нарушенной речи сохранение семантики более важно, чем точное совпадение слов
Ограниченное улучшение производительности: Хотя относительное улучшение значительно, абсолютная производительность оставляет место для совершенствования
Проблемы вычислительной эффективности: Метод RLHF имеет более высокие вычислительные затраты по сравнению с прямой тонкой настройкой
Недостаточная проверка обобщаемости: Проверка только на двух наборах данных, обобщаемость требует дальнейшей проверки
Отсутствие теоретического анализа: Недостаёт теоретического объяснения того, почему RLHF более эффективен в этой задаче
Статья цитирует 35 связанных работ, охватывающих множество областей, включая мультимодальное расширение LLM, распознавание речи и обучение с подкреплением, обеспечивая прочную теоретическую основу для исследования.
Общая оценка: Данная статья имеет важное значение как с точки зрения технических инноваций, так и с точки зрения социальной ценности. Предложенный метод распознавания речи LLM без модификации архитектуры и стратегия адаптации домена RLHF предоставляют новые идеи для соответствующих исследований. Хотя абсолютная производительность оставляет место для улучшения, значительное улучшение в этом важном приложении распознавания нарушенной речи демонстрирует практическую ценность метода.