2025-11-13T12:49:11.039710

Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning

Nagpal, Venugopalan, Tobin et al.

We introduce a large language model (LLM) capable of processing speech inputs and show that tuning it further with reinforcement learning on human preference (RLHF) enables it to adapt better to disordered speech than traditional fine-tuning. Our method replaces low-frequency text tokens in an LLM's vocabulary with audio tokens and enables the model to recognize speech by fine-tuning it on speech with transcripts. We then use RL with rewards based on syntactic and semantic accuracy measures generalizing the LLM further to recognize disordered speech. While the resulting LLM does not outperform existing systems for speech recognition, we find that tuning with reinforcement learning using custom rewards leads to substantially better performance than supervised fine-tuning of the language model, specifically when adapting to speech in a different setting. This presents a compelling alternative tuning strategy for speech recognition using large language models.

academic

Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning

基本信息

论文ID: 2501.00039
标题: Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning
作者: Chirag Nagpal, Subhashini Venugopalan, Jimmy Tobin, Marilyn Ladewig, Katherine Heller, Katrin Tomanek (Google Research)
分类: eess.AS cs.CL cs.LG cs.SD
发表时间: 2024年12月25日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2501.00039

摘要

本文提出了一种能够处理语音输入的大型语言模型(LLM)，并展示了通过基于人类偏好的强化学习(RLHF)进一步调优能够比传统微调更好地适应障碍性语音。该方法将LLM词汇表中的低频文本token替换为音频token，通过在语音转录数据上微调使模型能够识别语音。随后使用基于句法和语义准确性度量的强化学习奖励，进一步泛化LLM以识别障碍性语音。虽然结果模型在语音识别上未超越现有系统，但研究发现使用自定义奖励的强化学习调优在适应不同设置的语音时，性能显著优于语言模型的监督微调。

研究背景与动机

问题定义

本研究要解决两个核心问题：

如何使现有的LLM能够处理语音输入并进行语音识别
如何有效地将LLM-based ASR系统适配到障碍性语音识别任务

重要性

多模态能力扩展：增强LLM的音频处理能力，同时保持其语言理解能力，对语音控制自动化应用具有重要意义
无障碍技术：对于有语音障碍的个体，能够结合视觉和文本上下文的语音识别技术具有特殊的社会价值
低资源场景适配：在障碍性语音等低资源场景下的模型适配是一个重要的技术挑战

现有方法局限性

架构修改复杂：大多数现有工作需要修改LLM架构或使用语音编码器提取嵌入
词汇表扩展成本：一些方法通过扩展LLM词汇表来处理音频，增加了计算成本
评估指标局限：传统ASR系统主要依赖WER等句法指标，在语义保持方面评估不足
障碍性语音适配困难：传统微调方法在适配障碍性语音时效果有限

核心贡献

提出了无需架构修改的LLM语音识别方法：通过将音频token映射到现有词汇表中的低频文本token，避免了架构修改
引入了基于RLHF的ASR域适配策略：使用WER和语义保持(MP)分数的组合奖励进行强化学习优化
在障碍性语音识别上取得显著提升：相比监督微调，RLHF方法在Euphonia数据集上取得了显著的性能改进
提供了语义保持评估的新视角：结合句法准确性(WER)和语义准确性(MP)进行综合评估

方法详解

任务定义

输入：原始音频信号输出：对应的文本转录约束：保持LLM原有架构不变，适配到障碍性语音域

模型架构

第一阶段：LLM语音识别能力构建

音频token化与离散化：

使用USM语音编码器（类似w2v-BERT训练）以25Hz频率生成token
从中间层（第16层）提取嵌入并聚类为1024个簇
将音频嵌入映射到最近的簇中心ID

词汇表重映射：

将1024个音频簇ID映射到LLM词汇表中最后1024个最低频文本token
选择低频token的动机：这些通常是多语言或unicode字符，可以重新用作音频token
使用标准监督微调在ASR数据上训练，输入为离散化音频token，输出为文本转录

第二阶段：基于RLHF的域适配

奖励函数设计：

R(x,y;y*) = γ · MP(y,y*) + ln(1 - WER(y,y*))

其中：

x：原始输入
y：预测转录
y*：真实转录
γ：权衡WER和MP分数的超参数
MP：语义保持分数
WER：词错误率

语义保持奖励模型：

使用Gemma-2B在语义保持二分类任务上训练
在2840对预测-真实转录对上使用交叉熵损失训练
在测试集上达到0.87 AUC（对比16的0.89 AUC）

强化学习优化：

使用PPO（Proximal Policy Optimization）
采用梯度裁剪和KL正则化
通过不同γ值实验选择最优检查点

技术创新点

无架构修改的音频处理：通过重用现有词汇表避免了复杂的架构修改
多目标奖励函数：结合句法(WER)和语义(MP)准确性，防止奖励欺骗
渐进式训练策略：先在混合数据上监督微调，再用RLHF进行域适配
语义保持评估：引入基于人类偏好的语义评估指标

实验设置

数据集

LibriSpeech：
- 1000小时标准语音数据
- 来自英语有声书的清洁环境单说话人录音
- 使用dev-clean分割进行验证
Euphonia：
- 超过100万条障碍性语音话语(~1k小时)
- 来自1246个不同语音障碍说话人
- 训练集：900k+话语，测试集：5699话语(200说话人)，验证集：343话语(24说话人)
- 包含语言病理学家标注的严重程度标签

评价指标

WER (Word Error Rate)：词错误率，句法准确性指标
MP (Meaning Preservation)：语义保持分数，使用LLM判断预测转录是否保持原意

对比方法

Librispeech Only：仅在LibriSpeech上训练
30:70 mixture：30% Euphonia + 70% LibriSpeech混合训练
Continued SFT：在障碍性语音上继续监督微调
RLHF variants：不同γ值的强化学习方法

实现细节

基础模型：Gemma 2B (256k词汇表)
学习率：5×10^-6，余弦衰减
优化器：Adam
输入dropout：5×10^-2
音频聚类：基于LibriSpeech学习1024个簇

实验结果

主要结果

监督微调阶段：

数据混合比例	Euphonia Test WER↓	Euphonia Test MP↑	LibriSpeech Dev WER↓
LibriSpeech Only	70.9	39.0	17.1
30:70 mixture	50.4	48.2	17.2

30:70混合比例在障碍性语音上取得显著改进，同时在标准语音上保持性能。

RLHF适配结果：

调优策略	Euphonia Test WER↓	Euphonia Test MP↑	LibriSpeech Dev WER↓
Base SFT model	50.4	48.2	17.2
Continued SFT	57.1	42.8	22.9
RLHF (γ=0.00)	41.0	50.4	20.2
RLHF (γ=1.00)	42.6	55.7	22.0

消融实验

不同γ值的影响：

γ=0.00（仅WER）：WER最低但MP分数较低
γ=0.25-0.50：WER和MP的平衡点
γ=1.00：MP分数最高，WER轻微上升但无统计显著性(p=0.54)

严重程度分析： RLHF模型在所有严重程度级别上都显示出MP分数的改进，在中度和重度障碍性语音上改进更为明显。

案例分析

真实转录	严重程度	RLHF(γ=0.0)	WER	RLHF(γ=1.0)	WER
"not so good today"	MILD	"not so good to the."	0.5	"not so good to day."	0.5
"every one of my family listens to music"	MODERATE	"every once in my frame and listen to music"	0.62	"everybody in my family listens to music"	0.38
"dancing is so much fun"	MODERATE	"that's so much fun."	0.40	"dancing so much fun."	0.20