本論文は、現代の自動音声認識(ASR)に関する包括的なサーベイを提供し、従来のハイブリッドシステム(GMM-HMMおよびDNN-HMM)から端末間ニューラルアーキテクチャへの進化を追跡しています。論文は、3つの基本的な端末間パラダイムを体系的に検討しています:接続主義時間分類(CTC)、注意ベースのエンコーダ-デコーダモデル、および再帰型ニューラルネットワークトランスデューサ(RNN-T)であり、TransformerおよびConformerモデルへのアーキテクチャシフトについて詳述しています。本論文は、完全教師あり学習から自己教師あり学習(wav2vec 2.0など)および大規模弱教師あり学習モデル(Whisperなど)の台頭への訓練パラダイムの革命を重点的に分析しています。さらに、主要なデータセット、評価指標、および実際の展開における流式推論、デバイス上の効率性、公平性などの考慮事項をカバーしています。
自動音声認識分野は、従来の統計的手法から深層学習への根本的な転換を経験しており、現代ASRの発展軌跡、中核技術、および将来の傾向を体系的に整理および分析する必要があります。
現代ASRに焦点を当てた包括的なリファレンスを提供し、アーキテクチャ進化、訓練パラダイム革命、展開実践、倫理的考慮という4つの主要な側面を統合します。
ASRタスクは、可変長の音声入力シーケンスX = (x₁, ..., xₜ)を可変長のテキスト出力シーケンスY = (y₁, ..., yᵤ)にマッピングするプロセスとして定義されます。
| データセット | 時間(時間) | 話者数 | ドメイン特性 |
|---|---|---|---|
| LibriSpeech | 960 | 2484 | 英語オーディオブック |
| Switchboard | 300 | 543 | 英語電話対話 |
| TED-LIUM 3 | 452 | 2351 | 英語講演、多様なアクセント |
| CHiME-6 | 50 | 20 | ノイズ環境、遠距離マイク |
| Common Voice 17.0 | >20000 | >100k | クラウドソーシング、124言語 |
| モデル | test-clean | test-other | 備考 |
|---|---|---|---|
| Conformer-T (with LM) | 1.9% | 3.9% | 非流式、外部言語モデル |
| wav2vec 2.0 (LARGE, with LM) | 1.8% | 3.3% | 自己教師あり事前訓練 |
| Whisper (large-v2) | 2.7% | 5.0% | ゼロショット性能 |
| Streaming Conformer | 2.72% | 6.47% | 流式処理 |
論文は、古典的なCTC、注意メカニズムから最新のwav2vec 2.0、Whisperなどの主要な研究を含む45篇の重要な文献を引用し、読者に完全な技術発展軌跡を提供しています。
総合評価:これは高品質のASRサーベイ論文であり、現代ASRの発展軌跡を体系的に整理し、特に端末間アーキテクチャと新しい訓練パラダイムについて深い分析を提供しています。サーベイ論文としてオリジナル技術貢献は不足していますが、その包括性、体系性、実用性により、該当分野の重要なリファレンス文献となっています。