We introduce a large language model (LLM) capable of processing speech inputs and show that tuning it further with reinforcement learning on human preference (RLHF) enables it to adapt better to disordered speech than traditional fine-tuning. Our method replaces low-frequency text tokens in an LLM's vocabulary with audio tokens and enables the model to recognize speech by fine-tuning it on speech with transcripts. We then use RL with rewards based on syntactic and semantic accuracy measures generalizing the LLM further to recognize disordered speech. While the resulting LLM does not outperform existing systems for speech recognition, we find that tuning with reinforcement learning using custom rewards leads to substantially better performance than supervised fine-tuning of the language model, specifically when adapting to speech in a different setting. This presents a compelling alternative tuning strategy for speech recognition using large language models.
論文ID : 2501.00039タイトル : Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning著者 : Chirag Nagpal, Subhashini Venugopalan, Jimmy Tobin, Marilyn Ladewig, Katherine Heller, Katrin Tomanek (Google Research)分類 : eess.AS cs.CL cs.LG cs.SD発表日 : 2024年12月25日 (arXiv プレプリント)論文リンク : https://arxiv.org/abs/2501.00039 本論文は、音声入力を処理できる大規模言語モデル(LLM)を提案し、人間の嗜好に基づく強化学習(RLHF)による微調整が従来の微調整よりも障害音声への適応に優れていることを示している。本手法は、LLMの語彙表内の低頻度テキストトークンを音声トークンに置き換え、音声転写データ上での微調整により、モデルが音声認識を行えるようにする。その後、構文的および意味的正確性メトリクスに基づく強化学習報酬を用いて、LLMをさらに一般化し、障害音声認識を実現する。結果として得られたモデルは音声認識において既存システムを上回らないが、カスタム報酬を用いた強化学習微調整は、異なる設定の音声への適応において、言語モデルの教師あり微調整よりも大幅に優れた性能を示すことが判明した。
本研究は以下の2つの中核的な問題に対処する:
既存のLLMが音声入力を処理し、音声認識を実行できるようにする方法 LLMベースのASRシステムを障害音声認識タスクに効果的に適応させる方法 マルチモーダル機能の拡張 : LLMの音声処理能力を強化しながら言語理解能力を保持することは、音声制御自動化アプリケーションにとって重要であるアクセシビリティ技術 : 音声障害を持つ個人にとって、視覚およびテキストコンテキストを組み合わせた音声認識技術は特別な社会的価値を有する低リソースシナリオへの適応 : 障害音声などの低リソースシナリオにおけるモデル適応は重要な技術的課題であるアーキテクチャ修正の複雑性 : ほとんどの既存研究はLLMアーキテクチャの修正または音声エンコーダを使用した埋め込み抽出を必要とする語彙表拡張のコスト : 音声処理のためにLLM語彙表を拡張する手法は計算コストを増加させる評価指標の限界 : 従来のASRシステムは主にWERなどの構文指標に依存し、意味保持の評価が不足している障害音声適応の困難性 : 従来の微調整手法は障害音声への適応において効果が限定的であるアーキテクチャ修正を不要とするLLM音声認識手法の提案 : 音声トークンを既存語彙表内の低頻度テキストトークンにマッピングすることで、アーキテクチャ修正を回避RLHFベースのASR領域適応戦略の導入 : WERと意味保持(MP)スコアの組み合わせ報酬を用いた強化学習最適化障害音声認識における顕著な改善の達成 : 教師あり微調整と比較して、RLHFはEuphoniaデータセットで顕著な性能改善を実現意味保持評価の新しい視点の提供 : 構文正確性(WER)と意味正確性(MP)を組み合わせた包括的評価入力 : 原始音声信号
出力 : 対応するテキスト転写
制約 : LLMの元のアーキテクチャを変更せず、障害音声領域に適応
音声トークン化と離散化 :
USM音声エンコーダ(w2v-BERTのような訓練)を使用して25Hzの周波数でトークンを生成 中間層(第16層)から埋め込みを抽出し、1024個のクラスタにクラスタリング 音声埋め込みを最も近いクラスタ中心IDにマッピング 語彙表の再マッピング :
1024個の音声クラスタIDをLLM語彙表の最後の1024個の最低頻度テキストトークンにマッピング 低頻度トークン選択の動機: これらは通常、多言語またはUnicode文字であり、音声トークンとして再利用可能 ASRデータ上での標準的な教師あり微調整を使用して訓練。入力は離散化音声トークン、出力はテキスト転写 報酬関数の設計 :
R(x,y;y*) = γ · MP(y,y*) + ln(1 - WER(y,y*))
ここで:
x: 原始入力 y: 予測転写 y*: 真実転写 γ: WERとMPスコアのバランスを取るハイパーパラメータ MP: 意味保持スコア WER: 単語誤り率 意味保持報酬モデル :
Gemma-2Bを意味保持二値分類タスク上で訓練 2840個の予測-真実転写ペアに対して交差エントロピー損失を使用して訓練 テストセット上で0.87 AUC達成(16 の0.89 AUCと比較) 強化学習最適化 :
PPO(近接方針最適化)を使用 勾配クリッピングとKL正則化を採用 異なるγ値の実験を通じて最適なチェックポイントを選択 アーキテクチャ修正なしの音声処理 : 既存語彙表の再利用により複雑なアーキテクチャ修正を回避多目的報酬関数 : 構文(WER)と意味(MP)正確性を組み合わせ、報酬ハッキングを防止段階的訓練戦略 : 混合データ上での教師あり微調整の後、RLHFによる領域適応意味保持評価 : 人間の嗜好に基づく意味評価指標の導入LibriSpeech :1000時間の標準音声データ 英語オーディオブックからのクリーン環境単一話者録音 検証にはdev-cleanスプリットを使用 Euphonia :100万以上の障害音声発話(~1000時間) 1246人の異なる音声障害を持つ話者から 訓練セット: 900k+発話、テストセット: 5699発話(200話者)、検証セット: 343発話(24話者) 言語病理学者による重症度ラベル付き WER (Word Error Rate) : 単語誤り率、構文正確性指標MP (Meaning Preservation) : 意味保持スコア。LLMを使用して予測転写が元の意味を保持しているかを判定Librispeech Only : LibriSpeechのみで訓練30:70 mixture : 30% Euphonia + 70% LibriSpeechの混合訓練Continued SFT : 障害音声上での継続的な教師あり微調整RLHFバリアント : 異なるγ値の強化学習手法基本モデル : Gemma 2B (256k語彙表)学習率 : 5×10^-6、コサイン減衰オプティマイザ : Adam入力ドロップアウト : 5×10^-2音声クラスタリング : LibriSpeechに基づいて学習した1024クラスタ教師あり微調整段階 :
データ混合比 Euphonia Test WER↓ Euphonia Test MP↑ LibriSpeech Dev WER↓ LibriSpeech Only 70.9 39.0 17.1 30:70 mixture 50.4 48.2 17.2
30:70混合比は障害音声で顕著な改善を達成しながら、標準音声での性能を維持する。
RLHF適応結果 :
微調整戦略 Euphonia Test WER↓ Euphonia Test MP↑ LibriSpeech Dev WER↓ Base SFT model 50.4 48.2 17.2 Continued SFT 57.1 42.8 22.9 RLHF (γ=0.00) 41.0 50.4 20.2 RLHF (γ=1.00) 42.6 55.7 22.0
異なるγ値の影響 :
γ=0.00(WERのみ): WER最小だがMPスコアが低い γ=0.25-0.50: WERとMPのバランスポイント γ=1.00: MPスコア最高、WER軽微上昇だが統計的有意性なし(p=0.54) 重症度分析 :
RLHFモデルはすべての重症度レベルでMPスコアの改善を示し、中等度および重度の障害音声でより顕著な改善を示す。
真実転写 重症度 RLHF(γ=0.0) WER RLHF(γ=1.0) WER "not so good today" MILD "not so good to the." 0.5 "not so good to day." 0.5 "every one of my family listens to music" MODERATE "every once in my frame and listen to music" 0.62 "everybody in my family listens to music" 0.38 "dancing is so much fun" MODERATE "that's so much fun." 0.40 "dancing so much fun." 0.20
220サンプルの人間評価では:
平均意味保持評価 : γ=0.0モデルで29.10%、γ=1.0モデルで40.45%モデル評価との相関 : Spearman相関係数はそれぞれ0.684および0.639で、両者とも統計的に有意アーキテクチャ修正手法 : AudioPaLMなど、LLMアーキテクチャを修正して音声処理を実現後処理手法 : 初期の研究は主にLLMを使用してASRシステム出力を修正エンドツーエンド手法 : 最近の研究は音声認識のためにLLMを直接微調整従来指標の限界 : WERなどの構文指標は意味保持を十分に反映できないBERTScoreの拡張 : 事前訓練済みモデルを使用して意味的類似性を計算人間の嗜好学習 : 専門家注釈に基づいて訓練された意味保持判定モデルRLHFは教師あり微調整を大幅に上回る : 障害音声適応タスクにおいて、RLHF手法は継続的な教師あり微調整よりも顕著な改善を達成多目的報酬の有効性 : WERとMPを組み合わせた報酬関数は構文と意味正確性間で良好なバランスを実現意味保持の重要性 : 障害音声認識では、意味保持が厳密な単語マッチングより重要全体的性能の制限 : このLLM手法は既存の専門的ASRシステムを上回らない計算リソース要件 : RLHF訓練は追加の計算リソースと訓練時間を必要とする言語の限定性 : 実験は英語のみで実施され、多言語適用性は未検証モデルサイズの制限 : Gemma 2Bのみで実験され、より大規模モデルの効果は不明より大規模なモデルでの検証 : より大規模なLLMでの手法の有効性を検証多言語への拡張 : 他言語の障害音声認識への手法の拡張音声離散化の改善 : より良い音声トークン離散化戦略の開発複数報酬信号の融合 : より多くの報酬信号を組み合わせた可能性の探索手法の革新性が高い : LLMアーキテクチャ修正を不要とする音声処理手法は実用的価値を有する実験設計が完全 : 教師あり微調整からRLHFへの段階的訓練戦略は合理的評価体系が包括的 : 構文および意味指標を組み合わせ、人間評価による検証を含む社会的価値が顕著 : 障害音声研究は重要な社会的意義を有する性能向上が限定的 : 相対的改善は顕著だが、絶対性能にはまだ改善の余地がある計算効率の問題 : 直接微調整と比較してRLHF手法の計算コストが高い汎化性検証の不足 : 2つのデータセットのみでの検証であり、汎化性の検証が不十分理論分析の欠落 : このタスクでRLHFがより有効である理由の理論的説明が不足技術的貢献 : 音声認識タスクにおけるLLM応用に新しい視点を提供応用価値 : アクセシビリティ技術開発に価値のある技術経路を提供研究への示唆 : 専門領域適応におけるRLHFの可能性を実証障害音声支援 : 音声障害者の支援コミュニケーションシステムに応用可能マルチモーダル対話システム : 音声とテキストを同時に処理する必要があるアプリケーションに適切低リソース音声認識 : 訓練データが稀少な特殊音声領域に参考価値を有する論文は35篇の関連文献を引用しており、LLMマルチモーダル拡張、音声認識、強化学習など複数の領域の重要な研究をカバーし、研究に堅実な理論的基礎を提供している。
総合評価 : 本論文は技術革新と社会的価値の両面で重要な意義を有し、提案されたアーキテクチャ修正なしのLLM音声認識手法とRLHF領域適応戦略は関連研究に新しい視点を提供する。絶対性能ではまだ改善の余地があるが、障害音声認識という重要な応用シナリオにおける顕著な改善は、本手法の実用的価値を示している。