Language Processing systems such as Part-of-speech tagging, Named entity recognition, Machine translation, Speech recognition, and Language modeling (LM) are well-studied in high-resource languages. Nevertheless, research on these systems for several low-resource languages, including Bodo, Mizo, Nagamese, and others, is either yet to commence or is in its nascent stages. Language model plays a vital role in the downstream tasks of modern NLP. Extensive studies are carried out on LMs for high-resource languages. Nevertheless, languages such as Bodo, Rabha, and Mising continue to lack coverage. In this study, we first present BodoBERT, a language model for the Bodo language. To the best of our knowledge, this work is the first such effort to develop a language model for Bodo. Secondly, we present an ensemble DL-based POS tagging model for Bodo. The POS tagging model is based on combinations of BiLSTM with CRF and stacked embedding of BodoBERT with BytePairEmbeddings. We cover several language models in the experiment to see how well they work in POS tagging tasks. The best-performing model achieves an F1 score of 0.8041. A comparative experiment was also conducted on Assamese POS taggers, considering that the language is spoken in the same region as Bodo.
academic- 논문 ID: 2401.03175
- 제목: Part-of-Speech Tagger for Bodo Language using Deep Learning approach
- 저자: Dhrubajyoti Pathak, Sanjib Narzary, Sukumar Nandi, Bidisha Som
- 기관: Centre for Linguistic Science and Technology, IIT Guwahati
- 분류: cs.CL cs.AI cs.LG
- 게재 저널: Natural Language Engineering (수락됨)
- 논문 링크: https://arxiv.org/abs/2401.03175
본 연구는 저자원 언어인 보도(Bodo)어에 대한 자연언어처리 연구를 수행합니다. 품사 태깅, 개명 인식, 기계 번역 등의 자연언어처리 작업이 고자원 언어에서는 광범위하게 연구되었으나, 보도어, 미조어, 나가메세어 등의 저자원 언어에 대한 연구는 아직 초기 단계입니다. 본 논문은 먼저 보도어를 위한 첫 번째 사전학습 언어 모델인 BodoBERT를 제안합니다. 다음으로, BiLSTM-CRF 아키텍처와 BodoBERT 및 BytePairEmbeddings의 스택 임베딩을 기반으로 통합 깊은 학습 품사 태깅 모델을 개발했습니다. 최적 모델은 보도어 품사 태깅 작업에서 0.8041의 F1 점수를 달성했습니다.
- 핵심 문제: 인도 동북부의 중요 언어인 보도어(150만 사용자, 인도 제20대 언어)는 기초 자연언어처리 도구 및 자원이 부족합니다
- 기술적 과제:
- 보도어를 다루는 사전학습 언어 모델 부재
- 태깅 데이터 부족(약 30k 문장의 주석 말뭉치만 존재)
- 복잡한 언어 특성(티베토-버마 어족, 풍부한 형태론)
- 언어 지위: 보도어는 인도의 22개 공식 언어 중 하나이며, 보도랜드 테리토리 지역의 공식 언어입니다
- 응용 수요: 150만 사용자가 해당 자연언어처리 도구 지원을 절실히 필요로 합니다
- 학술적 가치: 저자원 언어 자연언어처리 연구의 공백을 메웁니다
- 기초 자연언어처리 작업(형태 분석, 의존 구문 분석, 언어 식별 등)이 아직 수행되지 않음
- 사용 가능한 사전학습 언어 모델 부재
- 깊은 학습 기반 하위 자연언어처리 도구 부족
- 첫 번째 보도어 언어 모델: BERT 아키텍처를 기반으로 한 BodoBERT 제안, 보도어를 위해 특별히 학습된 첫 번째 사전학습 언어 모델
- 다중 아키텍처 품사 태거 비교: CRF, 미세조정, BiLSTM-CRF 세 가지 수열 태깅 아키텍처의 체계적 비교
- 다중 언어 모델 성능 분석: FastText, BPE, XLM-R, FlairEmbedding, IndicBERT, MuRIL 등 다양한 언어 모델의 보도어 품사 태깅 작업 성능 평가
- 스택 임베딩 방법: Individual과 Stacked 두 가지 임베딩 방법 제안, Stacked 방법이 성능을 크게 향상시킴
- 오픈소스 자원: 최적 품사 태거 모델과 BodoBERT 모델 공개 배포
입력: 보도어 언어 문장 수열
출력: 각 단어에 해당하는 품사 태그(BIS 태그 집합 기반 34개 태그)
제약: Devanagari 문자 사용, 인도 언어 표준(BIS 태그 집합) 준수
- 데이터 출처:
- Linguistic Data Consortium for Indian Languages (LDC-IL)
- Narzary et al. (2022)의 연구
- 말뭉치 규모: 1.6M 토큰, 191k 문장
- 영역 범위: 미학, 상업, 대중 매체, 기술, 사회 과학 등 다양한 분야
- 기본 아키텍처: 다층 양방향 Transformer(BERT 프레임워크 기반)
- 주요 매개변수:
- 6개 Transformer 블록
- 숨겨진 층 차원: 768
- 자기 주의 헤드 수: 6
- 총 매개변수: 약 103M
- 어휘 크기: 50,000(WordPiece 토크나이저)
- 하드웨어: Nvidia Tesla P100 GPU
- 학습 단계: 300K steps
- 수열 길이: 128
- 배치 크기: 64
- 최적화기: Adam (학습률 2e-5, 처음 3000 단계 warm-up)
- 학습 시간: 약 7일
- CRF 모델: BodoBERT 임베딩 + CRF 층 사용
- 미세조정 모델: 품사 태깅을 위한 BodoBERT 직접 미세조정
- BiLSTM-CRF 모델: BodoBERT 임베딩 + BiLSTM + CRF 층
- Individual 방법: 각 언어 모델 개별 사용
- Stacked 방법: BodoBERT와 다른 언어 모델의 스택 조합
- 언어 적응성: 보도어 특성을 고려하여 설계된 첫 번째 전용 언어 모델
- 다중 모델 융합: 다양한 사전학습 모델의 체계적 비교 및 융합
- 교차 언어 전이: 동일 문자 체계(Devanagari)를 사용하는 힌디어 모델을 통한 지식 전이
- 스택 전략: 전용 언어 모델과 범용 모델의 혁신적 결합
- 주석 말뭉치: Bodo Monolingual Text Corpus (ILCI-II)
- 데이터 규모:
- 학습 집합: 24,003 문장, 192k 토큰
- 검증 집합: 2,325 문장, 23k 토큰
- 테스트 집합: 3,161 문장, 23k 토큰
- 태그 체계: BIS 태그 집합, 11개 최상위 범주, 34개 구체적 태그
- 데이터 형식: CoNLL-2003 형식
- 주요 지표: F1-score (Micro)
- 보조 지표: F1-score (Weighted), Precision, Recall
- 태그 수준 분석: 각 품사 태그의 상세 성능
| 모델 | 학습 말뭉치 | 데이터량 |
|---|
| FastText | Wiki | <29M |
| BytePair | Wiki | 29M |
| BodoBERT | Bodo 말뭉치 | 1.6M |
| FlairEmbeddings | Wiki+OPUS | ≈29M |
| MuRIL | CommonCrawl+Wiki | 788M |
| XLM-R | CC-100 | 1.7B |
| IndicBERT | 스크래핑 | 1.84B |
- CRF vs 미세조정 vs BiLSTM-CRF
- Individual vs Stacked 임베딩 방법
- 프레임워크: Flair framework
- 배치 크기: 32
- 조기 중단 전략: 검증 집합 성능 향상 없을 시 중단
- 학습률 스케줄: Learning Rate Annealing
| 임베딩 방법 | 태깅 모델 | F1-score(Micro) | F1-score(Weighted) |
|---|
| BodoBERT | CRF | 0.7583 | 0.7454 |
| BodoBERT | 미세조정 BERT | 0.7754 | 0.7775 |
| BodoBERT | BiLSTM + CRF | 0.7949 | 0.7898 |
| 임베딩 모델 | 보도어 F1 | 아삼어 F1 |
|---|
| FastText | 0.7686 | 0.6981 |
| BytePair | 0.7669 | 0.7099 |
| BodoBERT | 0.7949 | 0.7033 |
| FlairEmbeddings | 0.7885 | 0.7076 |
| MuRIL | 0.7708 | 0.7286 |
| XLM-R | 0.7638 | 0.7001 |
| IndicBERT | 0.7235 | 0.7293 |
| 스택 임베딩 조합 | F1 점수 |
|---|
| BodoBERT + FastText | 0.7928 |
| BodoBERT + BytePair | 0.8041 |
| BodoBERT + mBERT | 0.799 |
| BodoBERT + FlairEmbeddings | 0.801 |
| BodoBERT + MuRIL | 0.785 |
| BodoBERT + XLM-R | 0.8003 |
| BodoBERT + IndicBERT | 0.793 |
10k 자동 태깅 + 인간 교정 문장 추가를 통해:
- 성능 향상: F1이 0.8041에서 0.8494로 상승(+1-2%)
- 모델의 확장성 검증
최적 모델의 주요 품사 태그 성능:
- V_VM (동사): F1=0.9150 (최고)
- RD_PUNC (구두점): F1=0.9944 (거의 완벽)
- N_NN (명사): F1=0.7628 (최대 범주)
- N_NNP (고유명사): F1=0.6946 (인식 어려움)
혼동 행렬을 통해 발견된 주요 오류 패턴:
- 범주 내 혼동: 일반 명사(N_NN)와 고유명사(N_NNP), 지명(N_NST)
- 품사 전환: 명사가 형용사로 사용될 때의 태깅 어려움
- 문자 체계 제한: 보도어는 영어의 대문자와 같은 고유명사 표식 부재
보도어 vs 아삼어 품사 태깅 결과 비교:
- 보도어 최고: 0.8041 (BodoBERT+BytePair)
- 아삼어 최고: 0.7293 (IndicBERT)
- 차이 원인: 태그 집합 복잡도 차이(보도어 34개 태그 vs 아삼어 41개 태그)
- 아삼어: Pathak et al. (2022, 2023) - BiLSTM-CRF 86.52% F1 달성
- 카시어: Warjri et al. (2021) - 96.98% 정확도
- 벵골어: Alam et al. (2016) - 86.0% 정확도, Kabir et al. (2016) - 93.33% 정확도
- 미조어: Pandey et al. (2022) - LSTM 81.86% 정확도
- 선도성: 보도어 신경망 기반 품사 태거의 첫 번째 사례
- 체계성: 다양한 아키텍처 및 언어 모델의 포괄적 비교
- 실용성: 오픈소스 모델 및 도구 제공
- BodoBERT 효과성: 전용 언어 모델이 하위 작업에서 최고 성능 달성
- 아키텍처 우월성: BiLSTM-CRF 아키텍처가 CRF 및 미세조정보다 우수
- 스택 전략 효과성: 조합 임베딩이 단일 임베딩보다 성능 우수
- 기준선 수립: 보도어 자연언어처리 연구를 위한 중요한 기준선 확립
- 데이터 규모: 주석 말뭉치 상대적으로 소규모(30k 문장)
- 언어 모델 학습 데이터: BodoBERT 학습 말뭉치 1.6M 토큰만 사용
- 성능 수준: 고자원 언어 대비 여전히 격차 존재(F1=0.8041 vs 90%+)
- 주석 품질: 일부 주석이 추가 교정 필요 가능성
- 말뭉치 확대: 더 많은 보도어 텍스트 및 주석 데이터 수집
- 모델 개선: BodoBERT 아키텍처 및 학습 전략 최적화
- 하위 작업 확장: 개명 인식, 구문 분석 등 다른 자연언어처리 작업으로 확대
- 다중 언어 모델링: 관련 언어와의 결합 모델링 탐색
- 개척적 기여: 보도어를 위한 첫 번째 언어 모델 및 품사 태거 구축, 중요한 공백 메움
- 체계적 연구: 다양한 방법의 포괄적 비교, 합리적이고 완전한 실험 설계
- 기술 혁신: 스택 임베딩 전략이 성능을 효과적으로 향상
- 실용적 가치: 모델 오픈소스 배포, 커뮤니티에 기초 도구 제공
- 교차 언어 통찰: 아삼어 비교를 통한 가치 있는 교차 언어 분석 제공
- 데이터 제한: 학습 데이터 규모 상대적으로 소규모, 모델 일반화 능력에 영향 가능
- 평가 한계: 전통적 방법(HMM, 규칙 기반 방법)과의 비교 부재
- 오류 분석 깊이: 모델 실패 사례에 대한 언어학적 분석 부족
- 계산 자원: 모델 학습 비용 높음, 재현성 제한 가능성
- 학술적 가치: 저자원 언어 자연언어처리 연구에 중요한 패러다임 제공
- 실용적 의의: 보도어 커뮤니티의 실제 수요에 직접 서비스
- 방법론 기여: 스택 임베딩 전략을 다른 저자원 언어로 확대 가능
- 기초 시설: 후속 보도어 자연언어처리 연구의 기초 마련
- 직접 응용: 보도어 텍스트 처리, 정보 추출
- 연구 기초: 보도어 다른 자연언어처리 작업의 전처리 단계
- 방법 이전: 유사 저자원 언어의 품사 태깅 작업
- 다중 언어 시스템: 인도 동북부 다중 언어 자연언어처리 시스템의 구성 요소
본 논문은 풍부한 관련 연구를 인용하며, 주요 내용은 다음을 포함합니다:
- BERT 관련: Devlin et al. (2018) - 원본 BERT 논문
- 수열 태깅: Huang et al. (2015) - BiLSTM-CRF 아키텍처
- 저자원 언어: 다양한 인도 지역 언어 자연언어처리 연구
- 언어 모델: 다양한 사전학습 모델의 원본 논문
종합 평가: 본 논문은 저자원 언어 자연언어처리 연구의 고품질 논문으로, 방법 혁신, 실험 설계, 실용적 가치 측면에서 중요한 기여를 합니다. 데이터 규모의 제약이 있지만, 보도어 자연언어처리 연구에 새로운 방향을 개척했으며, 학술적 및 사회적 가치가 중요합니다.