2025-11-18T09:52:19.958339

Part-of-Speech Tagger for Bodo Language using Deep Learning approach

Pathak, Narzary, Nandi et al.

Language Processing systems such as Part-of-speech tagging, Named entity recognition, Machine translation, Speech recognition, and Language modeling (LM) are well-studied in high-resource languages. Nevertheless, research on these systems for several low-resource languages, including Bodo, Mizo, Nagamese, and others, is either yet to commence or is in its nascent stages. Language model plays a vital role in the downstream tasks of modern NLP. Extensive studies are carried out on LMs for high-resource languages. Nevertheless, languages such as Bodo, Rabha, and Mising continue to lack coverage. In this study, we first present BodoBERT, a language model for the Bodo language. To the best of our knowledge, this work is the first such effort to develop a language model for Bodo. Secondly, we present an ensemble DL-based POS tagging model for Bodo. The POS tagging model is based on combinations of BiLSTM with CRF and stacked embedding of BodoBERT with BytePairEmbeddings. We cover several language models in the experiment to see how well they work in POS tagging tasks. The best-performing model achieves an F1 score of 0.8041. A comparative experiment was also conducted on Assamese POS taggers, considering that the language is spoken in the same region as Bodo.

academic

ボド言語の品詞タグ付けの深層学習アプローチ

基本情報

論文ID: 2401.03175
タイトル: Part-of-Speech Tagger for Bodo Language using Deep Learning approach
著者: Dhrubajyoti Pathak, Sanjib Narzary, Sukumar Nandi, Bidisha Som
所属機関: Centre for Linguistic Science and Technology, IIT Guwahati
分類: cs.CL cs.AI cs.LG
掲載誌: Natural Language Engineering (採択済み)
論文リンク: https://arxiv.org/abs/2401.03175

要旨

本研究は、低資源言語であるボド語を対象とした自然言語処理研究を実施しています。品詞タグ付け、固有表現認識、機械翻訳などのNLPタスクは高資源言語では深く研究されていますが、ボド語、ミゾ語、ナガメセ語などの低資源言語に関する研究はまだ初期段階にあります。本論文では、まずボド語言語モデルであるBodoBERTを提案しており、これはボド語を対象とした初の事前学習言語モデルです。次に、BiLSTM-CRFアーキテクチャとBodoBERTおよびBytePairEmbeddingsの積み重ねられた埋め込みに基づいて、統合深層学習POS標注モデルを開発しました。最良モデルはボド語のPOS標注タスクで0.8041のF1スコアを達成しました。

研究背景と動機

問題定義

中核的問題：ボド語はインド北東部の重要な言語（150万人の使用者、インド第20位の言語）であり、基本的なNLPツールとリソースが不足しています
技術的課題：
- ボド語をカバーする事前学習言語モデルが存在しない
- 標注データが稀少（約30k文の標注コーパスのみ）
- 言語特性が複雑（シナ・チベット語族、形態が豊富）

重要性分析

言語的地位：ボド語はインドの22の公用語の1つであり、ボドランド領土地域の公用語です
応用ニーズ：150万人の使用者が相応のNLPツール支援を必要としています
学術的価値：低資源言語NLP研究の空白を埋めます

既存の制限

基本的なNLPタスク（形態素解析、依存構造解析、言語識別など）はまだ実施されていません
利用可能な事前学習言語モデルがありません
深層学習に基づく下流NLPツールが不足しています

中核的貢献

初のボド言語モデル：BERTアーキテクチャに基づいてBodoBERTを提案しており、これはボド語専用に学習された初の事前学習言語モデルです
複数アーキテクチャのPOS標注器比較：CRF、ファインチューニング、BiLSTM-CRFの3つのシーケンス標注アーキテクチャを体系的に比較しました
複数言語モデルの性能分析：FastText、BPE、XLM-R、FlairEmbedding、IndicBERT、MuRILなど複数の言語モデルのボド語POS標注タスクでの性能を評価しました
積み重ねられた埋め込み方法：IndividualおよびStackedの2つの埋め込み方法を提案し、Stacked方法が性能を大幅に向上させました
オープンソースリソース：最良のPOS標注モデルとBodoBERTモデルを公開リリースしました

方法の詳細

タスク定義

入力：ボド言語の文シーケンス出力：各単語に対応するPOSラベル（BISタグセットに基づく34個のラベル）制約：デーヴァナーガリー文字を使用し、インド言語標準（BISタグセット）に従います

BodoBERT言語モデル

コーパス構築

データソース：
- Linguistic Data Consortium for Indian Languages (LDC-IL)
- Narzary et al. (2022)の研究
コーパス規模：1.6M トークン、191k文
領域カバレッジ：美学、商業、大衆メディア、技術、社会科学など複数領域

モデルアーキテクチャ

基本アーキテクチャ：多層双方向Transformer（BERTフレームワークに基づく）
主要パラメータ：
- 6層のTransformerブロック
- 隠れ層次元：768
- 自己注意ヘッド数：6
- パラメータ総数：約103M
- 語彙表サイズ：50,000（WordPiece tokenizer）

学習設定

ハードウェア：Nvidia Tesla P100 GPU
学習ステップ数：300K steps
シーケンス長：128
バッチサイズ：64
オプティマイザー：Adam（学習率2e-5、最初の3000ステップでウォームアップ）
学習時間：約7日間

POS標注モデルアーキテクチャ

3つのシーケンス標注方法

CRFモデル：BodoBERT埋め込み + CRF層
ファインチューニングモデル：POS標注のためのBodoBERT直接ファインチューニング
BiLSTM-CRFモデル：BodoBERT埋め込み + BiLSTM + CRF層

埋め込み方法

Individual方法：各言語モデルを個別に使用
Stacked方法：BodoBERTを他の言語モデルと積み重ねて組み合わせ

技術的革新点

言語適応性：ボド語の特性に合わせて設計された初の専用言語モデル
複数モデル融合：複数の事前学習モデルの体系的な比較と融合
言語間転移：同じ文字体系（デーヴァナーガリー）のヒンディー語モデルを利用した知識転移
積み重ね戦略：専用言語モデルと汎用モデルを革新的に組み合わせ

実験設定

データセット

標注コーパス：Bodo Monolingual Text Corpus (ILCI-II)
データ規模：
- 訓練セット：24,003文、192k トークン
- 検証セット：2,325文、23k トークン
- テストセット：3,161文、23k トークン
ラベル体系：BISタグセット、11個のトップレベルカテゴリ、34個の具体的ラベル
データ形式：CoNLL-2003形式

評価指標

主要指標：F1スコア（マイクロ）
補助指標：F1スコア（加重）、適合率、再現率
ラベルレベル分析：各POSラベルの詳細な性能

比較方法

言語モデル比較

モデル	訓練コーパス	データ量
FastText	Wiki	<29M
BytePair	Wiki	29M
BodoBERT	Bodo corpus	1.6M
FlairEmbeddings	Wiki+OPUS	≈29M
MuRIL	CommonCrawl+Wiki	788M
XLM-R	CC-100	1.7B
IndicBERT	スクレイピング	1.84B

アーキテクチャ比較

CRF vs ファインチューニング vs BiLSTM-CRF
Individual vs Stacked埋め込み方法

実装の詳細

フレームワーク：Flairフレームワーク
バッチサイズ：32
早期停止戦略：検証セットの性能が向上しない場合に停止
学習率スケジューリング：Learning Rate Annealing

実験結果

主要結果

アーキテクチャ比較

埋め込み方法	標注モデル	F1スコア(マイクロ)	F1スコア(加重)
BodoBERT	CRF	0.7583	0.7454
BodoBERT	ファインチューニングBERT	0.7754	0.7775
BodoBERT	BiLSTM + CRF	0.7949	0.7898

Individual方法の言語モデル比較

埋め込みモデル	ボド語F1	アッサム語F1
FastText	0.7686	0.6981
BytePair	0.7669	0.7099
BodoBERT	0.7949	0.7033
FlairEmbeddings	0.7885	0.7076
MuRIL	0.7708	0.7286
XLM-R	0.7638	0.7001
IndicBERT	0.7235	0.7293

Stacked方法の結果

積み重ねられた埋め込み組み合わせ	F1スコア
BodoBERT + FastText	0.7928
BodoBERT + BytePair	0.8041
BodoBERT + mBERT	0.799
BodoBERT + FlairEmbeddings	0.801
BodoBERT + MuRIL	0.785
BodoBERT + XLM-R	0.8003
BodoBERT + IndicBERT	0.793