2025-11-13T12:49:11.039710

Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning

Nagpal, Venugopalan, Tobin et al.
We introduce a large language model (LLM) capable of processing speech inputs and show that tuning it further with reinforcement learning on human preference (RLHF) enables it to adapt better to disordered speech than traditional fine-tuning. Our method replaces low-frequency text tokens in an LLM's vocabulary with audio tokens and enables the model to recognize speech by fine-tuning it on speech with transcripts. We then use RL with rewards based on syntactic and semantic accuracy measures generalizing the LLM further to recognize disordered speech. While the resulting LLM does not outperform existing systems for speech recognition, we find that tuning with reinforcement learning using custom rewards leads to substantially better performance than supervised fine-tuning of the language model, specifically when adapting to speech in a different setting. This presents a compelling alternative tuning strategy for speech recognition using large language models.
academic

Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning

基本信息

  • 论文ID: 2501.00039
  • 标题: Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning
  • 作者: Chirag Nagpal, Subhashini Venugopalan, Jimmy Tobin, Marilyn Ladewig, Katherine Heller, Katrin Tomanek (Google Research)
  • 分类: eess.AS cs.CL cs.LG cs.SD
  • 发表时间: 2024年12月25日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2501.00039

摘要

本文提出了一种能够处理语音输入的大型语言模型(LLM),并展示了通过基于人类偏好的强化学习(RLHF)进一步调优能够比传统微调更好地适应障碍性语音。该方法将LLM词汇表中的低频文本token替换为音频token,通过在语音转录数据上微调使模型能够识别语音。随后使用基于句法和语义准确性度量的强化学习奖励,进一步泛化LLM以识别障碍性语音。虽然结果模型在语音识别上未超越现有系统,但研究发现使用自定义奖励的强化学习调优在适应不同设置的语音时,性能显著优于语言模型的监督微调。

研究背景与动机

问题定义

本研究要解决两个核心问题:

  1. 如何使现有的LLM能够处理语音输入并进行语音识别
  2. 如何有效地将LLM-based ASR系统适配到障碍性语音识别任务

重要性

  • 多模态能力扩展:增强LLM的音频处理能力,同时保持其语言理解能力,对语音控制自动化应用具有重要意义
  • 无障碍技术:对于有语音障碍的个体,能够结合视觉和文本上下文的语音识别技术具有特殊的社会价值
  • 低资源场景适配:在障碍性语音等低资源场景下的模型适配是一个重要的技术挑战

现有方法局限性

  1. 架构修改复杂:大多数现有工作需要修改LLM架构或使用语音编码器提取嵌入
  2. 词汇表扩展成本:一些方法通过扩展LLM词汇表来处理音频,增加了计算成本
  3. 评估指标局限:传统ASR系统主要依赖WER等句法指标,在语义保持方面评估不足
  4. 障碍性语音适配困难:传统微调方法在适配障碍性语音时效果有限

核心贡献

  1. 提出了无需架构修改的LLM语音识别方法:通过将音频token映射到现有词汇表中的低频文本token,避免了架构修改
  2. 引入了基于RLHF的ASR域适配策略:使用WER和语义保持(MP)分数的组合奖励进行强化学习优化
  3. 在障碍性语音识别上取得显著提升:相比监督微调,RLHF方法在Euphonia数据集上取得了显著的性能改进
  4. 提供了语义保持评估的新视角:结合句法准确性(WER)和语义准确性(MP)进行综合评估

方法详解

任务定义

输入:原始音频信号 输出:对应的文本转录 约束:保持LLM原有架构不变,适配到障碍性语音域

模型架构

第一阶段:LLM语音识别能力构建

音频token化与离散化

  • 使用USM语音编码器(类似w2v-BERT训练)以25Hz频率生成token
  • 从中间层(第16层)提取嵌入并聚类为1024个簇
  • 将音频嵌入映射到最近的簇中心ID

词汇表重映射

  • 将1024个音频簇ID映射到LLM词汇表中最后1024个最低频文本token
  • 选择低频token的动机:这些通常是多语言或unicode字符,可以重新用作音频token
  • 使用标准监督微调在ASR数据上训练,输入为离散化音频token,输出为文本转录

第二阶段:基于RLHF的域适配

奖励函数设计

R(x,y;y*) = γ · MP(y,y*) + ln(1 - WER(y,y*))

其中:

  • x:原始输入
  • y:预测转录
  • y*:真实转录
  • γ:权衡WER和MP分数的超参数
  • MP:语义保持分数
  • WER:词错误率

语义保持奖励模型

  • 使用Gemma-2B在语义保持二分类任务上训练
  • 在2840对预测-真实转录对上使用交叉熵损失训练
  • 在测试集上达到0.87 AUC(对比16的0.89 AUC)

强化学习优化

  • 使用PPO(Proximal Policy Optimization)
  • 采用梯度裁剪和KL正则化
  • 通过不同γ值实验选择最优检查点

技术创新点

  1. 无架构修改的音频处理:通过重用现有词汇表避免了复杂的架构修改
  2. 多目标奖励函数:结合句法(WER)和语义(MP)准确性,防止奖励欺骗
  3. 渐进式训练策略:先在混合数据上监督微调,再用RLHF进行域适配
  4. 语义保持评估:引入基于人类偏好的语义评估指标

实验设置

数据集

  1. LibriSpeech
    • 1000小时标准语音数据
    • 来自英语有声书的清洁环境单说话人录音
    • 使用dev-clean分割进行验证
  2. Euphonia
    • 超过100万条障碍性语音话语(~1k小时)
    • 来自1246个不同语音障碍说话人
    • 训练集:900k+话语,测试集:5699话语(200说话人),验证集:343话语(24说话人)
    • 包含语言病理学家标注的严重程度标签

评价指标

  • WER (Word Error Rate):词错误率,句法准确性指标
  • MP (Meaning Preservation):语义保持分数,使用LLM判断预测转录是否保持原意

对比方法

  • Librispeech Only:仅在LibriSpeech上训练
  • 30:70 mixture:30% Euphonia + 70% LibriSpeech混合训练
  • Continued SFT:在障碍性语音上继续监督微调
  • RLHF variants:不同γ值的强化学习方法

实现细节

  • 基础模型:Gemma 2B (256k词汇表)
  • 学习率:5×10^-6,余弦衰减
  • 优化器:Adam
  • 输入dropout:5×10^-2
  • 音频聚类:基于LibriSpeech学习1024个簇

实验结果

主要结果

监督微调阶段

数据混合比例Euphonia Test WER↓Euphonia Test MP↑LibriSpeech Dev WER↓
LibriSpeech Only70.939.017.1
30:70 mixture50.448.217.2

30:70混合比例在障碍性语音上取得显著改进,同时在标准语音上保持性能。

RLHF适配结果

调优策略Euphonia Test WER↓Euphonia Test MP↑LibriSpeech Dev WER↓
Base SFT model50.448.217.2
Continued SFT57.142.822.9
RLHF (γ=0.00)41.050.420.2
RLHF (γ=1.00)42.655.722.0

消融实验

不同γ值的影响

  • γ=0.00(仅WER):WER最低但MP分数较低
  • γ=0.25-0.50:WER和MP的平衡点
  • γ=1.00:MP分数最高,WER轻微上升但无统计显著性(p=0.54)

严重程度分析: RLHF模型在所有严重程度级别上都显示出MP分数的改进,在中度和重度障碍性语音上改进更为明显。

案例分析

真实转录严重程度RLHF(γ=0.0)WERRLHF(γ=1.0)WER
"not so good today"MILD"not so good to the."0.5"not so good to day."0.5
"every one of my family listens to music"MODERATE"every once in my frame and listen to music"0.62"everybody in my family listens to music"0.38
"dancing is so much fun"MODERATE"that's so much fun."0.40"dancing so much fun."0.20

人工评估

在220个样本的人工评估中:

  • 平均语义保持评估:γ=0.0模型为29.10%,γ=1.0模型为40.45%
  • 与模型评估的相关性:Spearman相关系数分别为0.684和0.639,均具有统计显著性

相关工作

LLM-based ASR研究

  1. 架构修改方法:如AudioPaLM等通过修改LLM架构实现语音处理
  2. 后处理方法:早期工作主要使用LLM修正ASR系统输出
  3. 端到端方法:近期工作直接调优LLM进行语音识别

语义距离度量

  1. 传统指标局限:WER等句法指标无法充分反映语义保持
  2. BERTScore扩展:使用预训练模型计算语义相似性
  3. 人类偏好学习:基于专家标注训练语义保持判断模型

结论与讨论

主要结论

  1. RLHF显著优于监督微调:在障碍性语音适配任务上,RLHF方法比继续监督微调取得显著改进
  2. 多目标奖励的有效性:结合WER和MP的奖励函数能够在句法和语义准确性间取得良好平衡
  3. 语义保持的重要性:在障碍性语音识别中,语义保持比严格的词汇匹配更重要

局限性

  1. 整体性能限制:该LLM方法未超越现有专门的ASR系统
  2. 计算资源需求:RLHF训练需要额外的计算资源和训练时间
  3. 语言局限性:实验仅在英语上进行,多语言适用性未验证
  4. 模型规模限制:仅在Gemma 2B上实验,更大模型的效果未知

未来方向

  1. 更大模型验证:在更大规模的LLM上验证方法有效性
  2. 多语言扩展:将方法扩展到其他语言的障碍性语音识别
  3. 音频离散化改进:开发更好的音频token离散化策略
  4. 多奖励信号融合:探索结合更多奖励信号的可能性

深度评价

优点

  1. 方法创新性强:无需修改LLM架构的音频处理方法具有实用价值
  2. 实验设计完善:从监督微调到RLHF的渐进式训练策略合理
  3. 评估体系全面:结合句法和语义指标,包含人工评估验证
  4. 社会价值显著:针对障碍性语音的研究具有重要的社会意义

不足

  1. 性能提升有限:虽然相对改进显著,但绝对性能仍有提升空间
  2. 计算效率问题:相比直接微调,RLHF方法计算成本更高
  3. 泛化性验证不足:仅在两个数据集上验证,泛化性有待进一步验证
  4. 理论分析缺失:缺乏对为什么RLHF在此任务上更有效的理论解释

影响力

  1. 技术贡献:为LLM在语音识别任务上的应用提供了新思路
  2. 应用价值:为无障碍技术发展提供了有价值的技术路径
  3. 研究启发:展示了RLHF在专门域适配中的潜力

适用场景

  1. 障碍性语音辅助:可应用于语音障碍人群的辅助沟通系统
  2. 多模态对话系统:适合需要同时处理语音和文本的应用场景
  3. 低资源语音识别:对于训练数据稀少的特殊语音域具有参考价值

参考文献

论文引用了35篇相关文献,涵盖了LLM多模态扩展、语音识别、强化学习等多个领域的重要工作,为研究提供了坚实的理论基础。


总评:这篇论文在技术创新和社会价值方面都具有重要意义,提出的无架构修改LLM语音识别方法和RLHF域适配策略为相关研究提供了新的思路。虽然在绝对性能上仍有提升空间,但其在障碍性语音识别这一重要应用场景下的显著改进展现了该方法的实用价值。