異なる書記テキスト間の発音相関を効果的に区別することは、言語音響学における重要な課題である。従来、この発音相関は人工設計された発音辞書を通じて取得されていた。本論文は、自動テキスト発音相関(ATPC)と呼ばれる、これらの発音相関を自動的に取得するためのデータ駆動型手法を提案する。本手法に必要な教師信号は、エンドツーエンド自動音声認識(E2E-ASR)システムの訓練に用いられる教師信号と同一である。すなわち、音声と対応するテキスト注釈である。まず、反復的訓練タイムスタンプ推定器(ITSE)アルゴリズムを採用して、音声を対応する注釈テキスト記号と整列させる。次に、音声エンコーダを使用して音声を音声埋め込みに変換する。最後に、異なるテキスト記号の音声埋め込み距離を比較することにより、ATPCを取得する。中国語での実験結果は、ATPCがE2E-ASRの文脈バイアスにおけるパフォーマンスを向上させ、人工発音辞書が不足している方言または言語に希望をもたらすことを示している。
本研究が解決すべき核心的な問題は、テキスト記号間の発音相関性を自動的に取得する方法である。これは言語音響学における重要な課題である。従来の手法は、この相関を確立するために人工設計された発音辞書に依存しているが、この方法には明らかな限界がある。
発音相関は複数の言語処理タスクにおいて重要な役割を果たす:
E2E-ASRモデルは音声からテキストへのモデリングにおいて顕著な進歩を遂げているが、特に文脈バイアスが必要なシナリオにおいて、テキストから発音相関への効果的なモデリングにおいてはまだ不足している。
入力:音声信号と対応するテキスト注釈
出力:テキスト記号間の発音相関行列
制約:追加の発音辞書または専門知識を必要としない
ATPC生成は3つの主要段階を含む:
Dist(cj, ck) = (1/(M×N)) × Σ(m=1 to M)Σ(n=1 to N) DTW(V^m_j, W^n_k)
ここで、cjとckはそれぞれ第j番目と第k番目の文字を表し、MとNは対応する文字の埋め込み数である。
| モデル | ユークリッド距離 | コサイン距離 | 相対差異度 |
|---|---|---|---|
| XLSR-layer15 | 同音異義語:105.67、非同音異義語:131.66 | 同音異義語:0.183、非同音異義語:0.258 | 19.7% / 29.1% |
| IPA-layer15 | 同音異義語:394.47、非同音異義語:499.87 | 同音異義語:0.136、非同音異義語:0.191 | 21.1% / 28.8% |
主要な発見:
| 手法 | CER (U-CER/B-CER) | F1スコア(再現率/適合率) |
|---|---|---|
| ベースライン | 13.8 (7.3/41.8) | 44 (28/99) |
| ATPC | 12.0 (7.3/32.4) | 68 (53/96) |
| C-g + ATPC | 10.3 (7.7/21.5) | 80 (70/94) |
| C-g + 人工辞書 | 8.9 (7.4/15.3) | 86 (77/98) |
パフォーマンス向上:
実験により、第15層の埋め込みが発音区別タスクで最適なパフォーマンスを示すことが明らかになった。これは、この層が音響特性、音声特性、語彙的同一性、および語彙的意味情報の間で最適なバランスを達成しているためと考えられる。
コサイン距離はすべての構成においてユークリッド距離より優れており、相対差異度が顕著に向上している(例えば、IPA-layer15では21.1%から28.8%に向上)。
可視化分析により以下が発見された:
従来の発音モデリングは主に以下に依存している:
論文は26の重要な文献を引用しており、以下を含む:
総合評価:これは重要な実用的価値を持つ研究成果であり、発音相関モデリングの実際の問題を解決するための革新的なデータ駆動型手法を提案している。理論的深さと多言語検証の面でさらに改善の余地があるが、手法の単純性と実用性により、良好な応用前景を有している。