We introduce a large language model (LLM) capable of processing speech inputs and show that tuning it further with reinforcement learning on human preference (RLHF) enables it to adapt better to disordered speech than traditional fine-tuning. Our method replaces low-frequency text tokens in an LLM's vocabulary with audio tokens and enables the model to recognize speech by fine-tuning it on speech with transcripts. We then use RL with rewards based on syntactic and semantic accuracy measures generalizing the LLM further to recognize disordered speech. While the resulting LLM does not outperform existing systems for speech recognition, we find that tuning with reinforcement learning using custom rewards leads to substantially better performance than supervised fine-tuning of the language model, specifically when adapting to speech in a different setting. This presents a compelling alternative tuning strategy for speech recognition using large language models.
论文ID : 2501.00039标题 : Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning作者 : Chirag Nagpal, Subhashini Venugopalan, Jimmy Tobin, Marilyn Ladewig, Katherine Heller, Katrin Tomanek (Google Research)分类 : eess.AS cs.CL cs.LG cs.SD发表时间 : 2024年12月25日 (arXiv预印本)论文链接 : https://arxiv.org/abs/2501.00039 本文提出了一种能够处理语音输入的大型语言模型(LLM),并展示了通过基于人类偏好的强化学习(RLHF)进一步调优能够比传统微调更好地适应障碍性语音。该方法将LLM词汇表中的低频文本token替换为音频token,通过在语音转录数据上微调使模型能够识别语音。随后使用基于句法和语义准确性度量的强化学习奖励,进一步泛化LLM以识别障碍性语音。虽然结果模型在语音识别上未超越现有系统,但研究发现使用自定义奖励的强化学习调优在适应不同设置的语音时,性能显著优于语言模型的监督微调。
本研究要解决两个核心问题:
如何使现有的LLM能够处理语音输入并进行语音识别 如何有效地将LLM-based ASR系统适配到障碍性语音识别任务 多模态能力扩展 :增强LLM的音频处理能力,同时保持其语言理解能力,对语音控制自动化应用具有重要意义无障碍技术 :对于有语音障碍的个体,能够结合视觉和文本上下文的语音识别技术具有特殊的社会价值低资源场景适配 :在障碍性语音等低资源场景下的模型适配是一个重要的技术挑战架构修改复杂 :大多数现有工作需要修改LLM架构或使用语音编码器提取嵌入词汇表扩展成本 :一些方法通过扩展LLM词汇表来处理音频,增加了计算成本评估指标局限 :传统ASR系统主要依赖WER等句法指标,在语义保持方面评估不足障碍性语音适配困难 :传统微调方法在适配障碍性语音时效果有限提出了无需架构修改的LLM语音识别方法 :通过将音频token映射到现有词汇表中的低频文本token,避免了架构修改引入了基于RLHF的ASR域适配策略 :使用WER和语义保持(MP)分数的组合奖励进行强化学习优化在障碍性语音识别上取得显著提升 :相比监督微调,RLHF方法在Euphonia数据集上取得了显著的性能改进提供了语义保持评估的新视角 :结合句法准确性(WER)和语义准确性(MP)进行综合评估输入 :原始音频信号
输出 :对应的文本转录
约束 :保持LLM原有架构不变,适配到障碍性语音域
音频token化与离散化 :
使用USM语音编码器(类似w2v-BERT训练)以25Hz频率生成token 从中间层(第16层)提取嵌入并聚类为1024个簇 将音频嵌入映射到最近的簇中心ID 词汇表重映射 :
将1024个音频簇ID映射到LLM词汇表中最后1024个最低频文本token 选择低频token的动机:这些通常是多语言或unicode字符,可以重新用作音频token 使用标准监督微调在ASR数据上训练,输入为离散化音频token,输出为文本转录 奖励函数设计 :
R(x,y;y*) = γ · MP(y,y*) + ln(1 - WER(y,y*))
其中:
x:原始输入 y:预测转录 y*:真实转录 γ:权衡WER和MP分数的超参数 MP:语义保持分数 WER:词错误率 语义保持奖励模型 :
使用Gemma-2B在语义保持二分类任务上训练 在2840对预测-真实转录对上使用交叉熵损失训练 在测试集上达到0.87 AUC(对比16 的0.89 AUC) 强化学习优化 :
使用PPO(Proximal Policy Optimization) 采用梯度裁剪和KL正则化 通过不同γ值实验选择最优检查点 无架构修改的音频处理 :通过重用现有词汇表避免了复杂的架构修改多目标奖励函数 :结合句法(WER)和语义(MP)准确性,防止奖励欺骗渐进式训练策略 :先在混合数据上监督微调,再用RLHF进行域适配语义保持评估 :引入基于人类偏好的语义评估指标LibriSpeech :1000小时标准语音数据 来自英语有声书的清洁环境单说话人录音 使用dev-clean分割进行验证 Euphonia :超过100万条障碍性语音话语(~1k小时) 来自1246个不同语音障碍说话人 训练集:900k+话语,测试集:5699话语(200说话人),验证集:343话语(24说话人) 包含语言病理学家标注的严重程度标签 WER (Word Error Rate) :词错误率,句法准确性指标MP (Meaning Preservation) :语义保持分数,使用LLM判断预测转录是否保持原意Librispeech Only :仅在LibriSpeech上训练30:70 mixture :30% Euphonia + 70% LibriSpeech混合训练Continued SFT :在障碍性语音上继续监督微调RLHF variants :不同γ值的强化学习方法基础模型 :Gemma 2B (256k词汇表)学习率 :5×10^-6,余弦衰减优化器 :Adam输入dropout :5×10^-2音频聚类 :基于LibriSpeech学习1024个簇监督微调阶段 :
数据混合比例 Euphonia Test WER↓ Euphonia Test MP↑ LibriSpeech Dev WER↓ LibriSpeech Only 70.9 39.0 17.1 30:70 mixture 50.4 48.2 17.2
30:70混合比例在障碍性语音上取得显著改进,同时在标准语音上保持性能。
RLHF适配结果 :
调优策略 Euphonia Test WER↓ Euphonia Test MP↑ LibriSpeech Dev WER↓ Base SFT model 50.4 48.2 17.2 Continued SFT 57.1 42.8 22.9 RLHF (γ=0.00) 41.0 50.4 20.2 RLHF (γ=1.00) 42.6 55.7 22.0
不同γ值的影响 :
γ=0.00(仅WER):WER最低但MP分数较低 γ=0.25-0.50:WER和MP的平衡点 γ=1.00:MP分数最高,WER轻微上升但无统计显著性(p=0.54) 严重程度分析 :
RLHF模型在所有严重程度级别上都显示出MP分数的改进,在中度和重度障碍性语音上改进更为明显。
真实转录 严重程度 RLHF(γ=0.0) WER RLHF(γ=1.0) WER "not so good today" MILD "not so good to the." 0.5 "not so good to day." 0.5 "every one of my family listens to music" MODERATE "every once in my frame and listen to music" 0.62 "everybody in my family listens to music" 0.38 "dancing is so much fun" MODERATE "that's so much fun." 0.40 "dancing so much fun." 0.20
在220个样本的人工评估中:
平均语义保持评估 :γ=0.0模型为29.10%,γ=1.0模型为40.45%与模型评估的相关性 :Spearman相关系数分别为0.684和0.639,均具有统计显著性架构修改方法 :如AudioPaLM等通过修改LLM架构实现语音处理后处理方法 :早期工作主要使用LLM修正ASR系统输出端到端方法 :近期工作直接调优LLM进行语音识别传统指标局限 :WER等句法指标无法充分反映语义保持BERTScore扩展 :使用预训练模型计算语义相似性人类偏好学习 :基于专家标注训练语义保持判断模型RLHF显著优于监督微调 :在障碍性语音适配任务上,RLHF方法比继续监督微调取得显著改进多目标奖励的有效性 :结合WER和MP的奖励函数能够在句法和语义准确性间取得良好平衡语义保持的重要性 :在障碍性语音识别中,语义保持比严格的词汇匹配更重要整体性能限制 :该LLM方法未超越现有专门的ASR系统计算资源需求 :RLHF训练需要额外的计算资源和训练时间语言局限性 :实验仅在英语上进行,多语言适用性未验证模型规模限制 :仅在Gemma 2B上实验,更大模型的效果未知更大模型验证 :在更大规模的LLM上验证方法有效性多语言扩展 :将方法扩展到其他语言的障碍性语音识别音频离散化改进 :开发更好的音频token离散化策略多奖励信号融合 :探索结合更多奖励信号的可能性方法创新性强 :无需修改LLM架构的音频处理方法具有实用价值实验设计完善 :从监督微调到RLHF的渐进式训练策略合理评估体系全面 :结合句法和语义指标,包含人工评估验证社会价值显著 :针对障碍性语音的研究具有重要的社会意义性能提升有限 :虽然相对改进显著,但绝对性能仍有提升空间计算效率问题 :相比直接微调,RLHF方法计算成本更高泛化性验证不足 :仅在两个数据集上验证,泛化性有待进一步验证理论分析缺失 :缺乏对为什么RLHF在此任务上更有效的理论解释技术贡献 :为LLM在语音识别任务上的应用提供了新思路应用价值 :为无障碍技术发展提供了有价值的技术路径研究启发 :展示了RLHF在专门域适配中的潜力障碍性语音辅助 :可应用于语音障碍人群的辅助沟通系统多模态对话系统 :适合需要同时处理语音和文本的应用场景低资源语音识别 :对于训练数据稀少的特殊语音域具有参考价值论文引用了35篇相关文献,涵盖了LLM多模态扩展、语音识别、强化学习等多个领域的重要工作,为研究提供了坚实的理论基础。
总评 :这篇论文在技术创新和社会价值方面都具有重要意义,提出的无架构修改LLM语音识别方法和RLHF域适配策略为相关研究提供了新的思路。虽然在绝对性能上仍有提升空间,但其在障碍性语音识别这一重要应用场景下的显著改进展现了该方法的实用价值。