2025-11-18T09:52:19.958339

Part-of-Speech Tagger for Bodo Language using Deep Learning approach

Pathak, Narzary, Nandi et al.

Language Processing systems such as Part-of-speech tagging, Named entity recognition, Machine translation, Speech recognition, and Language modeling (LM) are well-studied in high-resource languages. Nevertheless, research on these systems for several low-resource languages, including Bodo, Mizo, Nagamese, and others, is either yet to commence or is in its nascent stages. Language model plays a vital role in the downstream tasks of modern NLP. Extensive studies are carried out on LMs for high-resource languages. Nevertheless, languages such as Bodo, Rabha, and Mising continue to lack coverage. In this study, we first present BodoBERT, a language model for the Bodo language. To the best of our knowledge, this work is the first such effort to develop a language model for Bodo. Secondly, we present an ensemble DL-based POS tagging model for Bodo. The POS tagging model is based on combinations of BiLSTM with CRF and stacked embedding of BodoBERT with BytePairEmbeddings. We cover several language models in the experiment to see how well they work in POS tagging tasks. The best-performing model achieves an F1 score of 0.8041. A comparative experiment was also conducted on Assamese POS taggers, considering that the language is spoken in the same region as Bodo.

academic

깊은 학습을 이용한 보도 언어 품사 태거

기본 정보

논문 ID: 2401.03175
제목: Part-of-Speech Tagger for Bodo Language using Deep Learning approach
저자: Dhrubajyoti Pathak, Sanjib Narzary, Sukumar Nandi, Bidisha Som
기관: Centre for Linguistic Science and Technology, IIT Guwahati
분류: cs.CL cs.AI cs.LG
게재 저널: Natural Language Engineering (수락됨)
논문 링크: https://arxiv.org/abs/2401.03175

초록

본 연구는 저자원 언어인 보도(Bodo)어에 대한 자연언어처리 연구를 수행합니다. 품사 태깅, 개명 인식, 기계 번역 등의 자연언어처리 작업이 고자원 언어에서는 광범위하게 연구되었으나, 보도어, 미조어, 나가메세어 등의 저자원 언어에 대한 연구는 아직 초기 단계입니다. 본 논문은 먼저 보도어를 위한 첫 번째 사전학습 언어 모델인 BodoBERT를 제안합니다. 다음으로, BiLSTM-CRF 아키텍처와 BodoBERT 및 BytePairEmbeddings의 스택 임베딩을 기반으로 통합 깊은 학습 품사 태깅 모델을 개발했습니다. 최적 모델은 보도어 품사 태깅 작업에서 0.8041의 F1 점수를 달성했습니다.

연구 배경 및 동기

문제 정의

핵심 문제: 인도 동북부의 중요 언어인 보도어(150만 사용자, 인도 제20대 언어)는 기초 자연언어처리 도구 및 자원이 부족합니다
기술적 과제:
- 보도어를 다루는 사전학습 언어 모델 부재
- 태깅 데이터 부족(약 30k 문장의 주석 말뭉치만 존재)
- 복잡한 언어 특성(티베토-버마 어족, 풍부한 형태론)

중요성 분석

언어 지위: 보도어는 인도의 22개 공식 언어 중 하나이며, 보도랜드 테리토리 지역의 공식 언어입니다
응용 수요: 150만 사용자가 해당 자연언어처리 도구 지원을 절실히 필요로 합니다
학술적 가치: 저자원 언어 자연언어처리 연구의 공백을 메웁니다

기존 한계

기초 자연언어처리 작업(형태 분석, 의존 구문 분석, 언어 식별 등)이 아직 수행되지 않음
사용 가능한 사전학습 언어 모델 부재
깊은 학습 기반 하위 자연언어처리 도구 부족

핵심 기여

첫 번째 보도어 언어 모델: BERT 아키텍처를 기반으로 한 BodoBERT 제안, 보도어를 위해 특별히 학습된 첫 번째 사전학습 언어 모델
다중 아키텍처 품사 태거 비교: CRF, 미세조정, BiLSTM-CRF 세 가지 수열 태깅 아키텍처의 체계적 비교
다중 언어 모델 성능 분석: FastText, BPE, XLM-R, FlairEmbedding, IndicBERT, MuRIL 등 다양한 언어 모델의 보도어 품사 태깅 작업 성능 평가
스택 임베딩 방법: Individual과 Stacked 두 가지 임베딩 방법 제안, Stacked 방법이 성능을 크게 향상시킴
오픈소스 자원: 최적 품사 태거 모델과 BodoBERT 모델 공개 배포

방법론 상세 설명

작업 정의

입력: 보도어 언어 문장 수열 출력: 각 단어에 해당하는 품사 태그(BIS 태그 집합 기반 34개 태그) 제약: Devanagari 문자 사용, 인도 언어 표준(BIS 태그 집합) 준수

BodoBERT 언어 모델

말뭉치 구성

데이터 출처:
- Linguistic Data Consortium for Indian Languages (LDC-IL)
- Narzary et al. (2022)의 연구
말뭉치 규모: 1.6M 토큰, 191k 문장
영역 범위: 미학, 상업, 대중 매체, 기술, 사회 과학 등 다양한 분야

모델 아키텍처

기본 아키텍처: 다층 양방향 Transformer(BERT 프레임워크 기반)
주요 매개변수:
- 6개 Transformer 블록
- 숨겨진 층 차원: 768
- 자기 주의 헤드 수: 6
- 총 매개변수: 약 103M
- 어휘 크기: 50,000(WordPiece 토크나이저)

학습 설정

하드웨어: Nvidia Tesla P100 GPU
학습 단계: 300K steps
수열 길이: 128
배치 크기: 64
최적화기: Adam (학습률 2e-5, 처음 3000 단계 warm-up)
학습 시간: 약 7일

품사 태깅 모델 아키텍처

세 가지 수열 태깅 방법

CRF 모델: BodoBERT 임베딩 + CRF 층 사용
미세조정 모델: 품사 태깅을 위한 BodoBERT 직접 미세조정
BiLSTM-CRF 모델: BodoBERT 임베딩 + BiLSTM + CRF 층

임베딩 방법

Individual 방법: 각 언어 모델 개별 사용
Stacked 방법: BodoBERT와 다른 언어 모델의 스택 조합

기술 혁신점

언어 적응성: 보도어 특성을 고려하여 설계된 첫 번째 전용 언어 모델
다중 모델 융합: 다양한 사전학습 모델의 체계적 비교 및 융합
교차 언어 전이: 동일 문자 체계(Devanagari)를 사용하는 힌디어 모델을 통한 지식 전이
스택 전략: 전용 언어 모델과 범용 모델의 혁신적 결합

실험 설정

데이터 집합

주석 말뭉치: Bodo Monolingual Text Corpus (ILCI-II)
데이터 규모:
- 학습 집합: 24,003 문장, 192k 토큰
- 검증 집합: 2,325 문장, 23k 토큰
- 테스트 집합: 3,161 문장, 23k 토큰
태그 체계: BIS 태그 집합, 11개 최상위 범주, 34개 구체적 태그
데이터 형식: CoNLL-2003 형식

평가 지표

주요 지표: F1-score (Micro)
보조 지표: F1-score (Weighted), Precision, Recall
태그 수준 분석: 각 품사 태그의 상세 성능

비교 방법

언어 모델 비교

모델	학습 말뭉치	데이터량
FastText	Wiki	<29M
BytePair	Wiki	29M
BodoBERT	Bodo 말뭉치	1.6M
FlairEmbeddings	Wiki+OPUS	≈29M
MuRIL	CommonCrawl+Wiki	788M
XLM-R	CC-100	1.7B
IndicBERT	스크래핑	1.84B

아키텍처 비교

CRF vs 미세조정 vs BiLSTM-CRF
Individual vs Stacked 임베딩 방법

구현 세부 사항

프레임워크: Flair framework
배치 크기: 32
조기 중단 전략: 검증 집합 성능 향상 없을 시 중단
학습률 스케줄: Learning Rate Annealing

실험 결과

주요 결과

아키텍처 비교

임베딩 방법	태깅 모델	F1-score(Micro)	F1-score(Weighted)
BodoBERT	CRF	0.7583	0.7454
BodoBERT	미세조정 BERT	0.7754	0.7775
BodoBERT	BiLSTM + CRF	0.7949	0.7898

Individual 방법 언어 모델 비교

임베딩 모델	보도어 F1	아삼어 F1
FastText	0.7686	0.6981
BytePair	0.7669	0.7099
BodoBERT	0.7949	0.7033
FlairEmbeddings	0.7885	0.7076
MuRIL	0.7708	0.7286
XLM-R	0.7638	0.7001
IndicBERT	0.7235	0.7293

Stacked 방법 결과

스택 임베딩 조합	F1 점수
BodoBERT + FastText	0.7928
BodoBERT + BytePair	0.8041
BodoBERT + mBERT	0.799
BodoBERT + FlairEmbeddings	0.801
BodoBERT + MuRIL	0.785
BodoBERT + XLM-R	0.8003
BodoBERT + IndicBERT	0.793

데이터 증강 실험

10k 자동 태깅 + 인간 교정 문장 추가를 통해:

성능 향상: F1이 0.8041에서 0.8494로 상승(+1-2%)
모델의 확장성 검증

태그 수준 분석

최적 모델의 주요 품사 태그 성능:

V_VM (동사): F1=0.9150 (최고)
RD_PUNC (구두점): F1=0.9944 (거의 완벽)
N_NN (명사): F1=0.7628 (최대 범주)
N_NNP (고유명사): F1=0.6946 (인식 어려움)

오류 분석

혼동 행렬을 통해 발견된 주요 오류 패턴:

범주 내 혼동: 일반 명사(N_NN)와 고유명사(N_NNP), 지명(N_NST)
품사 전환: 명사가 형용사로 사용될 때의 태깅 어려움
문자 체계 제한: 보도어는 영어의 대문자와 같은 고유명사 표식 부재

교차 언어 비교

보도어 vs 아삼어 품사 태깅 결과 비교:

보도어 최고: 0.8041 (BodoBERT+BytePair)
아삼어 최고: 0.7293 (IndicBERT)
차이 원인: 태그 집합 복잡도 차이(보도어 34개 태그 vs 아삼어 41개 태그)

결론 및 논의

주요 결론

BodoBERT 효과성: 전용 언어 모델이 하위 작업에서 최고 성능 달성
아키텍처 우월성: BiLSTM-CRF 아키텍처가 CRF 및 미세조정보다 우수
스택 전략 효과성: 조합 임베딩이 단일 임베딩보다 성능 우수
기준선 수립: 보도어 자연언어처리 연구를 위한 중요한 기준선 확립

한계점

데이터 규모: 주석 말뭉치 상대적으로 소규모(30k 문장)
언어 모델 학습 데이터: BodoBERT 학습 말뭉치 1.6M 토큰만 사용
성능 수준: 고자원 언어 대비 여전히 격차 존재(F1=0.8041 vs 90%+)
주석 품질: 일부 주석이 추가 교정 필요 가능성

향후 방향

말뭉치 확대: 더 많은 보도어 텍스트 및 주석 데이터 수집
모델 개선: BodoBERT 아키텍처 및 학습 전략 최적화
하위 작업 확장: 개명 인식, 구문 분석 등 다른 자연언어처리 작업으로 확대
다중 언어 모델링: 관련 언어와의 결합 모델링 탐색

심층 평가

장점

개척적 기여: 보도어를 위한 첫 번째 언어 모델 및 품사 태거 구축, 중요한 공백 메움
체계적 연구: 다양한 방법의 포괄적 비교, 합리적이고 완전한 실험 설계
기술 혁신: 스택 임베딩 전략이 성능을 효과적으로 향상
실용적 가치: 모델 오픈소스 배포, 커뮤니티에 기초 도구 제공
교차 언어 통찰: 아삼어 비교를 통한 가치 있는 교차 언어 분석 제공

부족한 점

데이터 제한: 학습 데이터 규모 상대적으로 소규모, 모델 일반화 능력에 영향 가능
평가 한계: 전통적 방법(HMM, 규칙 기반 방법)과의 비교 부재
오류 분석 깊이: 모델 실패 사례에 대한 언어학적 분석 부족
계산 자원: 모델 학습 비용 높음, 재현성 제한 가능성

영향력

학술적 가치: 저자원 언어 자연언어처리 연구에 중요한 패러다임 제공
실용적 의의: 보도어 커뮤니티의 실제 수요에 직접 서비스
방법론 기여: 스택 임베딩 전략을 다른 저자원 언어로 확대 가능
기초 시설: 후속 보도어 자연언어처리 연구의 기초 마련

적용 시나리오

직접 응용: 보도어 텍스트 처리, 정보 추출
연구 기초: 보도어 다른 자연언어처리 작업의 전처리 단계
방법 이전: 유사 저자원 언어의 품사 태깅 작업
다중 언어 시스템: 인도 동북부 다중 언어 자연언어처리 시스템의 구성 요소

참고문헌

본 논문은 풍부한 관련 연구를 인용하며, 주요 내용은 다음을 포함합니다:

BERT 관련: Devlin et al. (2018) - 원본 BERT 논문
수열 태깅: Huang et al. (2015) - BiLSTM-CRF 아키텍처
저자원 언어: 다양한 인도 지역 언어 자연언어처리 연구
언어 모델: 다양한 사전학습 모델의 원본 논문

종합 평가: 본 논문은 저자원 언어 자연언어처리 연구의 고품질 논문으로, 방법 혁신, 실험 설계, 실용적 가치 측면에서 중요한 기여를 합니다. 데이터 규모의 제약이 있지만, 보도어 자연언어처리 연구에 새로운 방향을 개척했으며, 학술적 및 사회적 가치가 중요합니다.