本研究は、低資源言語であるボド語を対象とした自然言語処理研究を実施しています。品詞タグ付け、固有表現認識、機械翻訳などのNLPタスクは高資源言語では深く研究されていますが、ボド語、ミゾ語、ナガメセ語などの低資源言語に関する研究はまだ初期段階にあります。本論文では、まずボド語言語モデルであるBodoBERTを提案しており、これはボド語を対象とした初の事前学習言語モデルです。次に、BiLSTM-CRFアーキテクチャとBodoBERTおよびBytePairEmbeddingsの積み重ねられた埋め込みに基づいて、統合深層学習POS標注モデルを開発しました。最良モデルはボド語のPOS標注タスクで0.8041のF1スコアを達成しました。
入力:ボド言語の文シーケンス 出力:各単語に対応するPOSラベル(BISタグセットに基づく34個のラベル) 制約:デーヴァナーガリー文字を使用し、インド言語標準(BISタグセット)に従います
| モデル | 訓練コーパス | データ量 |
|---|---|---|
| FastText | Wiki | <29M |
| BytePair | Wiki | 29M |
| BodoBERT | Bodo corpus | 1.6M |
| FlairEmbeddings | Wiki+OPUS | ≈29M |
| MuRIL | CommonCrawl+Wiki | 788M |
| XLM-R | CC-100 | 1.7B |
| IndicBERT | スクレイピング | 1.84B |
| 埋め込み方法 | 標注モデル | F1スコア(マイクロ) | F1スコア(加重) |
|---|---|---|---|
| BodoBERT | CRF | 0.7583 | 0.7454 |
| BodoBERT | ファインチューニングBERT | 0.7754 | 0.7775 |
| BodoBERT | BiLSTM + CRF | 0.7949 | 0.7898 |
| 埋め込みモデル | ボド語F1 | アッサム語F1 |
|---|---|---|
| FastText | 0.7686 | 0.6981 |
| BytePair | 0.7669 | 0.7099 |
| BodoBERT | 0.7949 | 0.7033 |
| FlairEmbeddings | 0.7885 | 0.7076 |
| MuRIL | 0.7708 | 0.7286 |
| XLM-R | 0.7638 | 0.7001 |
| IndicBERT | 0.7235 | 0.7293 |
| 積み重ねられた埋め込み組み合わせ | F1スコア |
|---|---|
| BodoBERT + FastText | 0.7928 |
| BodoBERT + BytePair | 0.8041 |
| BodoBERT + mBERT | 0.799 |
| BodoBERT + FlairEmbeddings | 0.801 |
| BodoBERT + MuRIL | 0.785 |
| BodoBERT + XLM-R | 0.8003 |
| BodoBERT + IndicBERT | 0.793 |
10k個の自動標注+人工校正文を追加することで:
最良モデルの主要POSラベルでの性能:
混同行列を通じて発見された主要なエラーパターン:
ボド語 vs アッサム語のPOS標注結果比較:
本論文は豊富な関連研究を引用しており、主に以下を含みます:
総合評価:これは低資源言語NLP研究の高品質な論文であり、方法の革新性、実験設計、実用的価値の面で重要な貢献をしています。データ規模に制限されていますが、ボド語NLP研究に新しい方向性を開拓しており、学術的および社会的価値が重要です。