2025-11-13T12:49:11.039710

Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning

Nagpal, Venugopalan, Tobin et al.

We introduce a large language model (LLM) capable of processing speech inputs and show that tuning it further with reinforcement learning on human preference (RLHF) enables it to adapt better to disordered speech than traditional fine-tuning. Our method replaces low-frequency text tokens in an LLM's vocabulary with audio tokens and enables the model to recognize speech by fine-tuning it on speech with transcripts. We then use RL with rewards based on syntactic and semantic accuracy measures generalizing the LLM further to recognize disordered speech. While the resulting LLM does not outperform existing systems for speech recognition, we find that tuning with reinforcement learning using custom rewards leads to substantially better performance than supervised fine-tuning of the language model, specifically when adapting to speech in a different setting. This presents a compelling alternative tuning strategy for speech recognition using large language models.

academic

強化学習を用いた障害音声に適応したLLMによる音声認識

基本情報

論文ID: 2501.00039
タイトル: Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning
著者: Chirag Nagpal, Subhashini Venugopalan, Jimmy Tobin, Marilyn Ladewig, Katherine Heller, Katrin Tomanek (Google Research)
分類: eess.AS cs.CL cs.LG cs.SD
発表日: 2024年12月25日 (arXiv プレプリント)
論文リンク: https://arxiv.org/abs/2501.00039

要旨

本論文は、音声入力を処理できる大規模言語モデル(LLM)を提案し、人間の嗜好に基づく強化学習(RLHF)による微調整が従来の微調整よりも障害音声への適応に優れていることを示している。本手法は、LLMの語彙表内の低頻度テキストトークンを音声トークンに置き換え、音声転写データ上での微調整により、モデルが音声認識を行えるようにする。その後、構文的および意味的正確性メトリクスに基づく強化学習報酬を用いて、LLMをさらに一般化し、障害音声認識を実現する。結果として得られたモデルは音声認識において既存システムを上回らないが、カスタム報酬を用いた強化学習微調整は、異なる設定の音声への適応において、言語モデルの教師あり微調整よりも大幅に優れた性能を示すことが判明した。

研究背景と動機

問題定義

本研究は以下の2つの中核的な問題に対処する:

既存のLLMが音声入力を処理し、音声認識を実行できるようにする方法
LLMベースのASRシステムを障害音声認識タスクに効果的に適応させる方法

重要性

マルチモーダル機能の拡張: LLMの音声処理能力を強化しながら言語理解能力を保持することは、音声制御自動化アプリケーションにとって重要である
アクセシビリティ技術: 音声障害を持つ個人にとって、視覚およびテキストコンテキストを組み合わせた音声認識技術は特別な社会的価値を有する
低リソースシナリオへの適応: 障害音声などの低リソースシナリオにおけるモデル適応は重要な技術的課題である

既存手法の限界

アーキテクチャ修正の複雑性: ほとんどの既存研究はLLMアーキテクチャの修正または音声エンコーダを使用した埋め込み抽出を必要とする
語彙表拡張のコスト: 音声処理のためにLLM語彙表を拡張する手法は計算コストを増加させる
評価指標の限界: 従来のASRシステムは主にWERなどの構文指標に依存し、意味保持の評価が不足している
障害音声適応の困難性: 従来の微調整手法は障害音声への適応において効果が限定的である

核心的貢献

アーキテクチャ修正を不要とするLLM音声認識手法の提案: 音声トークンを既存語彙表内の低頻度テキストトークンにマッピングすることで、アーキテクチャ修正を回避
RLHFベースのASR領域適応戦略の導入: WERと意味保持(MP)スコアの組み合わせ報酬を用いた強化学習最適化
障害音声認識における顕著な改善の達成: 教師あり微調整と比較して、RLHFはEuphoniaデータセットで顕著な性能改善を実現
意味保持評価の新しい視点の提供: 構文正確性(WER)と意味正確性(MP)を組み合わせた包括的評価

手法の詳細

タスク定義

入力: 原始音声信号出力: 対応するテキスト転写制約: LLMの元のアーキテクチャを変更せず、障害音声領域に適応

モデルアーキテクチャ

第1段階: LLM音声認識能力の構築

音声トークン化と離散化:

USM音声エンコーダ(w2v-BERTのような訓練)を使用して25Hzの周波数でトークンを生成
中間層(第16層)から埋め込みを抽出し、1024個のクラスタにクラスタリング
音声埋め込みを最も近いクラスタ中心IDにマッピング

語彙表の再マッピング:

1024個の音声クラスタIDをLLM語彙表の最後の1024個の最低頻度テキストトークンにマッピング
低頻度トークン選択の動機: これらは通常、多言語またはUnicode文字であり、音声トークンとして再利用可能
ASRデータ上での標準的な教師あり微調整を使用して訓練。入力は離散化音声トークン、出力はテキスト転写

第2段階: RLHFベースの領域適応

報酬関数の設計:

R(x,y;y*) = γ · MP(y,y*) + ln(1 - WER(y,y*))

ここで:

x: 原始入力
y: 予測転写
y*: 真実転写
γ: WERとMPスコアのバランスを取るハイパーパラメータ
MP: 意味保持スコア
WER: 単語誤り率

意味保持報酬モデル:

Gemma-2Bを意味保持二値分類タスク上で訓練
2840個の予測-真実転写ペアに対して交差エントロピー損失を使用して訓練
テストセット上で0.87 AUC達成(16の0.89 AUCと比較)

強化学習最適化:

PPO(近接方針最適化)を使用
勾配クリッピングとKL正則化を採用
異なるγ値の実験を通じて最適なチェックポイントを選択

技術的革新点

アーキテクチャ修正なしの音声処理: 既存語彙表の再利用により複雑なアーキテクチャ修正を回避
多目的報酬関数: 構文(WER)と意味(MP)正確性を組み合わせ、報酬ハッキングを防止
段階的訓練戦略: 混合データ上での教師あり微調整の後、RLHFによる領域適応
意味保持評価: 人間の嗜好に基づく意味評価指標の導入

実験設定

データセット

LibriSpeech:
- 1000時間の標準音声データ
- 英語オーディオブックからのクリーン環境単一話者録音
- 検証にはdev-cleanスプリットを使用
Euphonia:
- 100万以上の障害音声発話(~1000時間)
- 1246人の異なる音声障害を持つ話者から
- 訓練セット: 900k+発話、テストセット: 5699発話(200話者)、検証セット: 343発話(24話者)
- 言語病理学者による重症度ラベル付き

評価指標

WER (Word Error Rate): 単語誤り率、構文正確性指標
MP (Meaning Preservation): 意味保持スコア。LLMを使用して予測転写が元の意味を保持しているかを判定

比較手法

Librispeech Only: LibriSpeechのみで訓練
30:70 mixture: 30% Euphonia + 70% LibriSpeechの混合訓練
Continued SFT: 障害音声上での継続的な教師あり微調整
RLHFバリアント: 異なるγ値の強化学習手法

実装詳細

基本モデル: Gemma 2B (256k語彙表)
学習率: 5×10^-6、コサイン減衰
オプティマイザ: Adam
入力ドロップアウト: 5×10^-2
音声クラスタリング: LibriSpeechに基づいて学習した1024クラスタ

実験結果

主要結果

教師あり微調整段階:

データ混合比	Euphonia Test WER↓	Euphonia Test MP↑	LibriSpeech Dev WER↓
LibriSpeech Only	70.9	39.0	17.1
30:70 mixture	50.4	48.2	17.2

30:70混合比は障害音声で顕著な改善を達成しながら、標準音声での性能を維持する。

RLHF適応結果:

微調整戦略	Euphonia Test WER↓	Euphonia Test MP↑	LibriSpeech Dev WER↓
Base SFT model	50.4	48.2	17.2
Continued SFT	57.1	42.8	22.9
RLHF (γ=0.00)	41.0	50.4	20.2
RLHF (γ=1.00)	42.6	55.7	22.0

アブレーション実験

異なるγ値の影響:

γ=0.00(WERのみ): WER最小だがMPスコアが低い
γ=0.25-0.50: WERとMPのバランスポイント
γ=1.00: MPスコア最高、WER軽微上昇だが統計的有意性なし(p=0.54)

重症度分析: RLHFモデルはすべての重症度レベルでMPスコアの改善を示し、中等度および重度の障害音声でより顕著な改善を示す。

ケース分析

真実転写	重症度	RLHF(γ=0.0)	WER	RLHF(γ=1.0)	WER
"not so good today"	MILD	"not so good to the."	0.5	"not so good to day."	0.5
"every one of my family listens to music"	MODERATE	"every once in my frame and listen to music"	0.62	"everybody in my family listens to music"	0.38
"dancing is so much fun"	MODERATE	"that's so much fun."	0.40	"dancing so much fun."	0.20

人間による評価

220サンプルの人間評価では:

平均意味保持評価: γ=0.0モデルで29.10%、γ=1.0モデルで40.45%
モデル評価との相関: Spearman相関係数はそれぞれ0.684および0.639で、両者とも統計的に有意

結論と考察

主要な結論

RLHFは教師あり微調整を大幅に上回る: 障害音声適応タスクにおいて、RLHF手法は継続的な教師あり微調整よりも顕著な改善を達成
多目的報酬の有効性: WERとMPを組み合わせた報酬関数は構文と意味正確性間で良好なバランスを実現
意味保持の重要性: 障害音声認識では、意味保持が厳密な単語マッチングより重要

限界

全体的性能の制限: このLLM手法は既存の専門的ASRシステムを上回らない
計算リソース要件: RLHF訓練は追加の計算リソースと訓練時間を必要とする
言語の限定性: 実験は英語のみで実施され、多言語適用性は未検証
モデルサイズの制限: Gemma 2Bのみで実験され、より大規模モデルの効果は不明

今後の方向性

より大規模なモデルでの検証: より大規模なLLMでの手法の有効性を検証
多言語への拡張: 他言語の障害音声認識への手法の拡張
音声離散化の改善: より良い音声トークン離散化戦略の開発
複数報酬信号の融合: より多くの報酬信号を組み合わせた可能性の探索

深層的評価

利点

手法の革新性が高い: LLMアーキテクチャ修正を不要とする音声処理手法は実用的価値を有する
実験設計が完全: 教師あり微調整からRLHFへの段階的訓練戦略は合理的
評価体系が包括的: 構文および意味指標を組み合わせ、人間評価による検証を含む
社会的価値が顕著: 障害音声研究は重要な社会的意義を有する

不足点

性能向上が限定的: 相対的改善は顕著だが、絶対性能にはまだ改善の余地がある
計算効率の問題: 直接微調整と比較してRLHF手法の計算コストが高い
汎化性検証の不足: 2つのデータセットのみでの検証であり、汎化性の検証が不十分
理論分析の欠落: このタスクでRLHFがより有効である理由の理論的説明が不足

影響力

技術的貢献: 音声認識タスクにおけるLLM応用に新しい視点を提供
応用価値: アクセシビリティ技術開発に価値のある技術経路を提供
研究への示唆: 専門領域適応におけるRLHFの可能性を実証

適用シナリオ

障害音声支援: 音声障害者の支援コミュニケーションシステムに応用可能
マルチモーダル対話システム: 音声とテキストを同時に処理する必要があるアプリケーションに適切
低リソース音声認識: 訓練データが稀少な特殊音声領域に参考価値を有する

参考文献

論文は35篇の関連文献を引用しており、LLMマルチモーダル拡張、音声認識、強化学習など複数の領域の重要な研究をカバーし、研究に堅実な理論的基礎を提供している。

総合評価: 本論文は技術革新と社会的価値の両面で重要な意義を有し、提案されたアーキテクチャ修正なしのLLM音声認識手法とRLHF領域適応戦略は関連研究に新しい視点を提供する。絶対性能ではまだ改善の余地があるが、障害音声認識という重要な応用シナリオにおける顕著な改善は、本手法の実用的価値を示している。