CTC compressor can be an effective approach to integrate audio encoders to decoder-only models, which has gained growing interest for different speech applications. In this work, we propose a novel CTC compressor based joint speech and text training (CJST) framework for decoder-only ASR. CJST matches speech and text modalities from both directions by exploring a simple modality adaptor and several features of the CTC compressor, including sequence compression, on-the-fly forced peaky alignment and CTC class embeddings. Experimental results on the Librispeech and TED-LIUM2 corpora show that the proposed CJST achieves an effective text injection without the need of duration handling, leading to the best performance for both in-domain and cross-domain scenarios. We also provide a comprehensive study on CTC compressor, covering various compression modes, edge case handling and behavior under both clean and noisy data conditions, which reveals the most robust setting to use CTC compressor for decoder-only models.
CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR
- 論文ID: 2411.07607
- タイトル: CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR
- 著者: Wei Zhou, Junteng Jia, Leda Sari, Jay Mahadeokar, Ozlem Kalinli (Meta AI)
- 分類: eess.AS cs.LG cs.SD
- 発表時期: 2024年11月 (arXiv プレプリント)
- 論文リンク: https://arxiv.org/abs/2411.07607
CTCコンプレッサーは、音声エンコーダーをデコーダーのみのモデルに統合する効果的な方法として、様々な音声アプリケーションで注目を集めています。本論文では、デコーダーのみのASRのための、CTCコンプレッサーに基づいた新規な音声テキスト結合学習(CJST)フレームワークを提案します。CJSTは、シンプルなモダリティアダプターとCTCコンプレッサーの複数の特性(シーケンス圧縮、オンライン強制ピークアライメント、CTC埋め込みを含む)を探索することで、音声とテキストのモダリティを双方向から整合させます。LibrispeechおよびTED-LIUM2コーパスでの実験結果は、提案されたCJSTが継続時間処理を必要とせずに効果的なテキスト注入を実現し、ドメイン内およびクロスドメインシナリオの両方で最高性能を達成したことを示しています。
大規模言語モデル(LLM)の大きな成功に伴い、デコーダーのみのアーキテクチャが様々な音声アプリケーションに広く適用されています。しかし、音声情報をデコーダーのみのモデルに効果的に統合する方法、および音声テキスト結合学習によってASR性能を向上させる方法は、依然として課題です。
- 統合の課題: 連続的な音響埋め込みをデコーダーのみのモデルに効果的に統合するには、適切なアダプター方法が必要
- モダリティの整合: 音声とテキストのモダリティはシーケンス長と表現空間において大きな差異があり、効果的なアライメント機構が必要
- テキスト注入: 本番レベルのASRモデルにおいて、外部言語モデルを使用せずにテキストデータを効果的に活用してASR性能を向上させる方法
- シンプルなアダプター: 従来の時間縮減層と線形投影方法は、コンテンツ認識圧縮能力に欠ける
- RNN-T手法: 既存の結合学習手法は主にRNN-Tモデルを対象とし、複雑な継続時間処理が必要
- CTCコンプレッサーの感度: 既存のCTCコンプレッサー手法はノイズデータで不安定な性能を示す
- CJSTフレームワークの提案: CTCコンプレッサーに基づいた新規な音声テキスト結合学習フレームワークで、双方向モダリティ整合を実現
- CTCコンプレッサーの拡張: 様々な圧縮モード、境界ケース処理、クリーン/ノイズデータでの動作を包括的に研究
- 継続時間処理不要: オンライン強制ピークアライメントとCTC埋め込みにより、複雑な継続時間モデリングなしで効果的なテキスト注入を実現
- 性能向上: ドメイン内およびクロスドメインシナリオで最高性能を達成し、ベースラインと比較して約6%の相対改善を実現
本論文は、デコーダーのみのアーキテクチャを用いた自動音声認識タスクを研究しており、入力は音声特徴シーケンス、出力は対応するテキスト転写です。同時に、ペアの音声テキストデータとテキストのみのデータを利用した結合学習の方法を検討します。
論文では4つのCTCコンプレッサー圧縮モードを研究しています:
- 空白予測除去: 貪欲なCTC予測に基づいて、すべての空白フレームを除去
- 同一予測平均化: 同一予測の隣接フレームを平均化
- 空白確率除去: 空白確率が所定の閾値を超えるすべてのフレームを除去
- 複合モード: 先に空白確率除去を適用し、その後に同一予測平均化を適用
CTCコンプレッサーが空の出力を生成する可能性に対処するため、2つの解決策を提案:
- Empty Skip: 訓練中にこれらのutteranceをスキップし、推論時に直接EOSを出力
- Empty Fallback: すべてのエンコーダー出力を単一フレームに平均化し、その後通常に訓練と推論を実施
CTC類埋め込みとテキスト埋め込みの共有メカニズムを探索し、CTC目的関数を通じて音響エンコーダー出力をテキスト埋め込みに近づけます。
ペアの音声テキストデータについて:
- モデルの前向き伝播を通じて通常のASR訓練を実施
- 圧縮された音響埋め込みh'とCTC確率を利用して強制ピークアライメントを実施
- MSE損失を通じてモダリティアダプターを訓練し、h'を疑似音響埋め込みh'_textに整合させる
テキストのみのデータについて:
- 記録された長さ比R_len(h', y)に基づいてランダムに空白シンボルを挿入
- CTC埋め込みとモダリティアダプターを通じて疑似音響プロンプトh'_textを生成
- ASR目的関数を使用してデコーダーモデルを訓練
- h'_textに20%のランダムマスキングを適用して学習難度を維持
シンプルなConformer層をモダリティアダプターとして使用し、単一の注意ヘッド、畳み込みカーネルサイズ3、フィードフォワードモジュールの次元拡張なしで構成されます。
- Librispeech: 960時間のクリーン音声データ
- 内部データ: 2M時間の多様な音響条件データ、速度摂動、シミュレートされた残響、ランダム背景ノイズを含む
- テキストデータ: LibrispeechおよびTED-LIUM2のLM訓練テキストデータ
- デコーダー: 12層LLaMAデコーダー、768隠れ次元、12注意ヘッド
- 音声エンコーダー: 24層Conformer、512隠れ次元、8注意ヘッド
- 語彙: 各データセットに対して4k SentencePiece単位を使用
- 音声エンコーダー事前訓練:200kステップ
- 全モデル訓練:Librispeech 200kステップ、内部データ500kステップ
- 結合訓練における音声とテキスト損失の重み:両方とも1.0
- 補助CTC損失の重み:0.5
単語誤り率(WER)を主要な評価指標として使用し、テストセットで性能を報告します。
- すべてのCTCコンプレッサー手法がシンプルなアダプター手法を上回る
- 空白確率除去(閾値0.95)が最高性能:test-clean 2.17%、test-other 4.94%
- 埋め込み共有は場合によっては有用だが、一貫性に欠ける
- 貪欲予測ベースの手法はノイズデータで性能が低い
- 空白確率除去(閾値0.95)が最も堅牢:12.85% WER
- Empty fallback方案がempty skip方案を上回る
Librispeechでの結果:
- ベースラインアダプター: test-clean 3.38%、test-other 5.63%
- LM風テキスト注入: test-clean 2.54%、test-other 5.26%
- CJST: test-clean 2.09%、test-other 4.71%
ドメイン内およびクロスドメインテキストデータを使用:
- CJSTはすべてのシナリオで最高性能を達成
- クロスドメインTED-LIUM2テストセット:11.45%から**10.14%**に低下
- ベースラインと比較して約6%の相対改善を実現
- 空白確率除去が最も堅牢な圧縮モード
- LM風訓練は既に相当有効で、強いベースライン
- CJSTはすべてのシナリオでさらなる改善をもたらす
- CTCコンプレッサーはデータ品質に敏感で、適切な構成が必要
- 初期の研究は音声エンコーダーを統合するためにシンプルなアダプターを使用
- 最近の研究は離散音声トークン手法を探索
- 本論文は連続表現のASRタスクに焦点を当てる
- 元々は注意機構を用いた音声翻訳に使用
- デコーダーのみのモデルの音声翻訳に拡張
- 本論文はASRでの応用を初めて体系的に研究
- 従来の手法は主にRNN-Tモデルを対象
- JOIST、textogram、MAESTROなどを含む
- 本論文はデコーダーのみのASRに対する初の効果的なソリューション
- CJSTフレームワークは有効: 双方向モダリティ整合を通じて効果的なテキスト注入を実現
- CTCコンプレッサー構成が重要: 空白確率除去(高閾値)が最も堅牢
- 継続時間処理不要: 強制アライメントとCTC埋め込みにより複雑な継続時間モデリングを回避
- 一貫した改善: ドメイン内およびクロスドメインシナリオで顕著な向上を達成
- 計算オーバーヘッド: オンライン強制アライメントは訓練時の計算コストを増加させる
- データ依存性: CTCコンプレッサーの性能はデータ品質に大きく依存
- パラメーター感度: 空白確率閾値などのハイパーパラメーターの慎重な調整が必要
- 評価範囲: 主に英語データで評価され、多言語への汎化性は不明
- より効率的なオンラインアライメント手法の探索
- 多言語および低リソースシナリオでの性能研究
- 離散音声トークンとのハイブリッド手法の結合
- CTCコンプレッサーの堅牢性の最適化
- 手法の革新性: CTCコンプレッサーをデコーダーのみのASR音声テキスト結合訓練に初めて適用
- 体系的研究: CTCコンプレッサーの包括的な実験分析を実施
- 実用的価値: 継続時間処理不要で、実装の複雑さを簡素化
- 十分な実験: 複数のデータセットとシナリオで手法の有効性を検証
- 明確な記述: 論文構造が明確で、技術詳細が詳細に記述されている
- 理論分析の不足: CJSTが有効である理由に関する深い理論分析が不足
- 計算コスト: 訓練と推論時の計算オーバーヘッドの詳細な分析が不足
- ハイパーパラメーター感度: 手法は複数のハイパーパラメーターを含み、調整の複雑さが高い
- 評価の限界: 主に英語データで評価され、多言語検証が不足
- 学術的貢献: デコーダーのみのASRのテキスト注入に新しい視点を提供
- 実用的価値: 手法は比較的シンプルで、本番環境での展開が容易
- 再現性: 詳細な実装詳細とハイパーパラメーター設定を提供
- 啓発性: CTCコンプレッサーのさらなる研究に有価値な洞察を提供
- 本番レベルのASR: 外部言語モデルが使用できないシナリオに適切
- クロスドメイン適応: 新しいドメインへの迅速な適応が必要なアプリケーションに特に適切
- リソース制限: 複雑な継続時間モデリング手法と比較してより効率的
- 結合訓練: テキストデータが豊富だが音声データが相対的に限定されているシナリオに適切
論文は32の関連文献を引用しており、大規模言語モデル、デコーダーのみのアーキテクチャ、CTC手法、音声認識、結合訓練など複数の関連分野の重要な研究をカバーしており、研究に堅実な理論的基礎を提供しています。
総合評価: これは高品質な技術論文であり、デコーダーのみのASRにおける音声テキスト結合訓練の重要な問題を解決する革新的なCJSTフレームワークを提案しています。論文の実験設計は十分で、結果は説得力があり、この分野に対して重要な学術的および実用的価値を持ちます。