2025-11-13T12:49:11.039710

Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning

Nagpal, Venugopalan, Tobin et al.

We introduce a large language model (LLM) capable of processing speech inputs and show that tuning it further with reinforcement learning on human preference (RLHF) enables it to adapt better to disordered speech than traditional fine-tuning. Our method replaces low-frequency text tokens in an LLM's vocabulary with audio tokens and enables the model to recognize speech by fine-tuning it on speech with transcripts. We then use RL with rewards based on syntactic and semantic accuracy measures generalizing the LLM further to recognize disordered speech. While the resulting LLM does not outperform existing systems for speech recognition, we find that tuning with reinforcement learning using custom rewards leads to substantially better performance than supervised fine-tuning of the language model, specifically when adapting to speech in a different setting. This presents a compelling alternative tuning strategy for speech recognition using large language models.

academic

Распознавание речи с помощью LLM, адаптированных к нарушенной речи с использованием обучения с подкреплением

Основная информация

ID статьи: 2501.00039
Название: Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning
Авторы: Chirag Nagpal, Subhashini Venugopalan, Jimmy Tobin, Marilyn Ladewig, Katherine Heller, Katrin Tomanek (Google Research)
Классификация: eess.AS cs.CL cs.LG cs.SD
Дата публикации: 25 декабря 2024 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2501.00039

Аннотация

В данной работе предлагается метод адаптации больших языковых моделей (LLM) для обработки речевого ввода и демонстрируется, что дополнительная оптимизация с использованием обучения с подкреплением на основе предпочтений человека (RLHF) обеспечивает лучшую адаптацию к нарушенной речи по сравнению с традиционной тонкой настройкой. Метод заменяет низкочастотные текстовые токены в словаре LLM на аудиотокены и позволяет модели распознавать речь путём тонкой настройки на данных транскрипции речи. Впоследствии используется обучение с подкреплением с наградами, основанными на метриках синтаксической и семантической точности, для дальнейшей обобщения LLM при распознавании нарушенной речи. Хотя полученная модель не превосходит существующие системы распознавания речи, исследование показывает, что оптимизация с подкреплением с использованием пользовательских наград значительно превосходит контролируемую тонкую настройку языковой модели при адаптации к речи в различных условиях.

Исследовательский контекст и мотивация

Определение проблемы

Данное исследование решает две основные задачи:

Как адаптировать существующие LLM для обработки речевого ввода и распознавания речи
Как эффективно адаптировать системы распознавания речи на основе LLM к задачам распознавания нарушенной речи

Значимость

Расширение мультимодальных возможностей: Расширение возможностей обработки аудио в LLM при сохранении способностей языкового понимания имеет важное значение для приложений голосового управления и автоматизации
Технология доступности: Для лиц с нарушениями речи технология распознавания речи, способная интегрировать визуальный и текстовый контекст, имеет особую социальную ценность
Адаптация в условиях ограниченных ресурсов: Адаптация моделей в сценариях с ограниченными ресурсами, таких как распознавание нарушенной речи, представляет собой важный технический вызов

Ограничения существующих методов

Сложность модификации архитектуры: Большинство существующих работ требуют изменения архитектуры LLM или использования кодировщиков речи для извлечения встраиваний
Стоимость расширения словаря: Некоторые методы обрабатывают аудио путём расширения словаря LLM, что увеличивает вычислительные затраты
Ограничения метрик оценки: Традиционные системы распознавания речи в основном полагаются на метрики синтаксиса, такие как WER, с недостаточной оценкой сохранения семантики
Сложность адаптации к нарушенной речи: Традиционные методы тонкой настройки имеют ограниченную эффективность при адаптации к нарушенной речи

Основные вклады

Предложен метод распознавания речи LLM без модификации архитектуры: Путём отображения аудиотокенов на низкочастотные текстовые токены в существующем словаре избегаются модификации архитектуры
Введена стратегия адаптации домена ASR на основе RLHF: Используется обучение с подкреплением с комбинированной наградой, состоящей из WER и оценки сохранения смысла (MP)
Достигнуты значительные улучшения при распознавании нарушенной речи: По сравнению с контролируемой тонкой настройкой метод RLHF показывает значительные улучшения производительности на наборе данных Euphonia
Предоставлена новая перспектива оценки сохранения семантики: Комплексная оценка синтаксической точности (WER) и семантической точности (MP)

Подробное описание метода

Определение задачи

Вход: Исходный аудиосигнал Выход: Соответствующая текстовая транскрипция Ограничения: Сохранение исходной архитектуры LLM, адаптация к домену нарушенной речи

Архитектура модели

Первый этап: Построение способности распознавания речи LLM

Токенизация и дискретизация аудио:

Использование кодировщика речи USM (обученного аналогично w2v-BERT) для генерации токенов с частотой 25 Гц
Извлечение встраиваний из промежуточного слоя (слой 16) и кластеризация в 1024 кластера
Отображение аудиовстраиваний на ближайшие ID центров кластеров

Переотображение словаря:

Отображение 1024 ID аудиокластеров на последние 1024 низкочастотных текстовых токена словаря LLM
Мотивация выбора низкочастотных токенов: они обычно являются многоязычными или символами Unicode и могут быть переиспользованы как аудиотокены
Использование стандартной контролируемой тонкой настройки на данных ASR, где вход представляет собой дискретизированные аудиотокены, а выход — текстовую транскрипцию

Второй этап: Адаптация домена на основе RLHF

Проектирование функции награды:

R(x,y;y*) = γ · MP(y,y*) + ln(1 - WER(y,y*))

где:

x: исходный вход
y: предсказанная транскрипция
y*: истинная транскрипция
γ: гиперпараметр для балансировки оценок WER и MP
MP: оценка сохранения смысла
WER: коэффициент ошибок слов

Модель награды за сохранение семантики:

Обучение Gemma-2B на задаче бинарной классификации сохранения семантики
Обучение с использованием потерь кросс-энтропии на 2840 парах предсказанных-истинных транскрипций
Достижение AUC 0,87 на тестовом наборе (в сравнении с 0,89 AUC в 16)

Оптимизация обучения с подкреплением:

Использование PPO (Proximal Policy Optimization)
Применение отсечения градиентов и KL-регуляризации
Выбор оптимальной контрольной точки путём экспериментов с различными значениями γ

Технические инновации

Обработка аудио без модификации архитектуры: Переиспользование существующего словаря избегает сложных модификаций архитектуры
Многоцелевая функция награды: Комбинирование синтаксической (WER) и семантической (MP) точности предотвращает обман награды
Прогрессивная стратегия обучения: Сначала контролируемая тонкая настройка на смешанных данных, затем адаптация домена с помощью RLHF
Оценка сохранения семантики: Введение метрики семантической оценки на основе предпочтений человека

Экспериментальная установка

Наборы данных

LibriSpeech:
- 1000 часов стандартных речевых данных
- Чистые записи одного говорящего из английских аудиокниг в контролируемой среде
- Использование разделения dev-clean для валидации
Euphonia:
- Более 1 миллиона высказываний нарушенной речи (~1k часов)
- От 1246 различных говорящих с нарушениями речи
- Обучающий набор: 900k+ высказываний, тестовый набор: 5699 высказываний (200 говорящих), валидационный набор: 343 высказывания (24 говорящих)
- Включает метки степени тяжести, аннотированные логопедами

Метрики оценки

WER (Word Error Rate): Коэффициент ошибок слов, метрика синтаксической точности
MP (Meaning Preservation): Оценка сохранения смысла, использующая LLM для определения сохранения смысла предсказанной транскрипции

Методы сравнения

Librispeech Only: Обучение только на LibriSpeech
30:70 mixture: Смешанное обучение 30% Euphonia + 70% LibriSpeech
Continued SFT: Продолжение контролируемой тонкой настройки на нарушенной речи
RLHF variants: Методы обучения с подкреплением с различными значениями γ

Детали реализации

Базовая модель: Gemma 2B (словарь из 256k токенов)
Скорость обучения: 5×10^-6, косинусное затухание
Оптимизатор: Adam
Входной dropout: 5×10^-2
Кластеризация аудио: 1024 кластера, обученные на LibriSpeech

Результаты экспериментов

Основные результаты

Этап контролируемой тонкой настройки:

Соотношение смешивания данных	Euphonia Test WER↓	Euphonia Test MP↑	LibriSpeech Dev WER↓
LibriSpeech Only	70.9	39.0	17.1
30:70 mixture	50.4	48.2	17.2

Соотношение 30:70 достигает значительного улучшения на нарушенной речи, сохраняя производительность на стандартной речи.

Результаты адаптации RLHF:

Стратегия оптимизации	Euphonia Test WER↓	Euphonia Test MP↑	LibriSpeech Dev WER↓
Base SFT model	50.4	48.2	17.2
Continued SFT	57.1	42.8	22.9
RLHF (γ=0.00)	41.0	50.4	20.2
RLHF (γ=1.00)	42.6	55.7	22.0

Абляционные исследования

Влияние различных значений γ:

γ=0.00 (только WER): Самый низкий WER, но более низкая оценка MP
γ=0.25-0.50: Точка баланса между WER и MP
γ=1.00: Самая высокая оценка MP, незначительное увеличение WER без статистической значимости (p=0.54)

Анализ степени тяжести: Модель RLHF показывает улучшение оценки MP на всех уровнях степени тяжести, с более заметным улучшением при умеренных и тяжёлых нарушениях речи.

Анализ примеров

Истинная транскрипция	Степень тяжести	RLHF(γ=0.0)	WER	RLHF(γ=1.0)	WER
"not so good today"	MILD	"not so good to the."	0.5	"not so good to day."	0.5
"every one of my family listens to music"	MODERATE	"every once in my frame and listen to music"	0.62	"everybody in my family listens to music"	0.38
"dancing is so much fun"	MODERATE	"that's so much fun."	0.40	"dancing so much fun."	0.20

Оценка человеком

При оценке 220 образцов человеком:

Средняя оценка сохранения семантики: 29.10% для модели γ=0.0, 40.45% для модели γ=1.0
Корреляция с оценкой модели: Коэффициент ранговой корреляции Спирмена составляет 0.684 и 0.639 соответственно, оба статистически значимы

Связанные работы

Исследования ASR на основе LLM

Методы модификации архитектуры: Такие как AudioPaLM, реализующие обработку речи путём модификации архитектуры LLM
Методы постобработки: Ранние работы в основном использовали LLM для исправления выходных данных систем ASR
Сквозные методы: Недавние работы непосредственно оптимизируют LLM для распознавания речи

Измерение семантического расстояния

Ограничения традиционных метрик: Метрики синтаксиса, такие как WER, не могут полностью отразить сохранение семантики
Расширение BERTScore: Использование предварительно обученных моделей для вычисления семантического сходства
Обучение на основе предпочтений человека: Обучение моделей определения сохранения семантики на основе аннотаций экспертов

Выводы и обсуждение

Основные выводы

RLHF значительно превосходит контролируемую тонкую настройку: При адаптации к нарушенной речи метод RLHF показывает значительные улучшения по сравнению с продолжением контролируемой тонкой настройки
Эффективность многоцелевой функции награды: Функция награды, комбинирующая WER и MP, достигает хорошего баланса между синтаксической и семантической точностью
Важность сохранения семантики: При распознавании нарушенной речи сохранение семантики более важно, чем точное совпадение слов

Ограничения

Ограничение общей производительности: Метод LLM не превосходит существующие специализированные системы распознавания речи
Требования к вычислительным ресурсам: Обучение RLHF требует дополнительных вычислительных ресурсов и времени обучения
Языковые ограничения: Эксперименты проводились только на английском языке, многоязычная применимость не проверена
Ограничение размера модели: Эксперименты проводились только на Gemma 2B, эффективность на более крупных моделях неизвестна

Направления будущих исследований

Проверка на более крупных моделях: Проверка эффективности метода на LLM большего масштаба
Расширение на несколько языков: Расширение метода на распознавание нарушенной речи на других языках
Улучшение дискретизации аудио: Разработка лучших стратегий дискретизации аудиотокенов
Интеграция нескольких сигналов награды: Исследование возможности интеграции дополнительных сигналов награды

Глубокая оценка

Преимущества

Сильная инновационность метода: Метод обработки аудио без модификации архитектуры LLM имеет практическую ценность
Совершенный дизайн экспериментов: Прогрессивная стратегия обучения от контролируемой тонкой настройки к RLHF логична и обоснована
Комплексная система оценки: Комбинирование синтаксических и семантических метрик с включением оценки человеком
Значительная социальная ценность: Исследование распознавания нарушенной речи имеет важное социальное значение

Недостатки

Ограниченное улучшение производительности: Хотя относительное улучшение значительно, абсолютная производительность оставляет место для совершенствования
Проблемы вычислительной эффективности: Метод RLHF имеет более высокие вычислительные затраты по сравнению с прямой тонкой настройкой
Недостаточная проверка обобщаемости: Проверка только на двух наборах данных, обобщаемость требует дальнейшей проверки
Отсутствие теоретического анализа: Недостаёт теоретического объяснения того, почему RLHF более эффективен в этой задаче

Влияние

Технический вклад: Предоставляет новые идеи для применения LLM в задачах распознавания речи
Практическая ценность: Предоставляет ценный технический путь для развития технологии доступности
Исследовательское вдохновение: Демонстрирует потенциал RLHF в специализированной адаптации домена

Применимые сценарии

Вспомогательное средство для нарушенной речи: Может применяться в системах вспомогательной коммуникации для лиц с нарушениями речи
Мультимодальные диалоговые системы: Подходит для приложений, требующих одновременной обработки речи и текста
Распознавание речи в условиях ограниченных ресурсов: Имеет справочную ценность для специальных речевых доменов с дефицитом обучающих данных

Список литературы

Статья цитирует 35 связанных работ, охватывающих множество областей, включая мультимодальное расширение LLM, распознавание речи и обучение с подкреплением, обеспечивая прочную теоретическую основу для исследования.

Общая оценка: Данная статья имеет важное значение как с точки зрения технических инноваций, так и с точки зрения социальной ценности. Предложенный метод распознавания речи LLM без модификации архитектуры и стратегия адаптации домена RLHF предоставляют новые идеи для соответствующих исследований. Хотя абсолютная производительность оставляет место для улучшения, значительное улучшение в этом важном приложении распознавания нарушенной речи демонстрирует практическую ценность метода.