ヘブライ語音標記復元は、正確な発音を保証し、テキストの曖昧性を解消するための基本的なタスクである。音標記のないヘブライ語は高度に曖昧であるにもかかわらず、最近の機械学習手法はこのタスクのパフォーマンスを大幅に向上させている。本論文では、ヘブライ語音標記化タスクをゼロショット分類問題として再構成する新しいシステムDIVRITを提案する。本手法は単語レベルで動作し、動的に生成された候補集合から各音標記なし単語に対して最適な音標記パターンを選択し、周囲のテキスト文脈に基づいて条件付けられる。DIVRITの主要な革新は、ヘブライ語視覚言語モデルを使用して、音標記なしテキストを画像として処理することであり、これにより音標記情報を入力のベクトル表現に直接組み込むことができる。
ヘブライ語はセム語族の代表言語であり、主に子音を表記し、音標記符号(niqqud)の欠落は深刻な語彙的曖昧性をもたらす。例えば、子音列「mlk」は文脈に応じて「king」(melekh)、「reigned」(malakh)など複数の意味に解釈される可能性がある。
既存システムは主に文字レベルで動作するが、ヘブライ語の形態学は主に単語レベルのテンプレートによって制御されており、これは単語レベルの分析がこのタスクにより適していることを示唆している。
入力: 音標記なしのヘブライ語テキスト 出力: 各単語に対して最適な音標記パターンを選択 制約: 動的に生成された候補集合から選択し、文脈に基づいて条件付けられる
DIVRITは双エンコーダアーキテクチャを採用している:
内積により候補埋め込みと文脈埋め込みの類似度を計算:
score(candidate, context) = embedding_candidate · embedding_context
KNNベースの候補生成メカニズム:
| システム | DEC | CHA | WOR | VOC |
|---|---|---|---|---|
| MAJORITY BASELINE | 93.79 | 90.01 | 84.87 | 86.19 |
| KNN BASELINE | 96.20 | 94.09 | 87.09 | 87.39 |
| NAKDIMON | 97.91 | 96.37 | 89.75 | 91.64 |
| MENAKBERT | 98.82 | 97.95 | 94.12 | 95.22 |
| DIVRIT (Oracle) | 98.36 | 97.42 | 92.68 | 94.69 |
| DIVRIT (KNNベース) | 96.85 | 95.03 | 87.87 | 90.38 |
| DICTA | 98.94 | 98.23 | 95.83 | 95.93 |
音標記バッグ予測補助タスク:
L(w,C,cgt) = CELoss(P(c|w), one_hot(cgt)) +
0.5/Ncands * Σ BCELoss(ydiac(ci), ytarget_diac(ci))
論文は豊富な関連研究を引用しており、以下を含む:
総合評価: これは革新的な研究論文であり、視覚言語モデルをヘブライ語音標記化タスクに初めて適用し、ゼロショット分類の新しいフレームワークを提案している。特定の設定ではなおも既存手法を上回っていないが、その開拓的な手法と充実した実験検証は、この分野に価値のある貢献と新しい研究方向を提供している。