2025-11-15T08:46:11.807319

Part-of-speech tagging for Nagamese Language using CRF

Shohe, Khiamungam, Angami

This paper investigates part-of-speech tagging, an important task in Natural Language Processing (NLP) for the Nagamese language. The Nagamese language, a.k.a. Naga Pidgin, is an Assamese-lexified Creole language developed primarily as a means of communication in trade between the Nagas and people from Assam in northeast India. A substantial amount of work in part-of-speech-tagging has been done for resource-rich languages like English, Hindi, etc. However, no work has been done in the Nagamese language. To the best of our knowledge, this is the first attempt at part-of-speech tagging for the Nagamese Language. The aim of this work is to identify the part-of-speech for a given sentence in the Nagamese language. An annotated corpus of 16,112 tokens is created and applied machine learning technique known as Conditional Random Fields (CRF). Using CRF, an overall tagging accuracy of 85.70%; precision, recall of 86%, and f1-score of 85% is achieved. Keywords. Nagamese, NLP, part-of-speech, machine learning, CRF.

academic

조건부 확률장(CRF)을 이용한 나가메세 언어의 품사 태깅

기본 정보

논문 ID: 2509.19343
제목: Part-of-speech tagging for Nagamese Language using CRF
저자: Alovi N Shohe, Chonglio Khiamungam, Teisovi Angami
소속: Department of Information Technology, Nagaland University, Kohima Campus, India
분류: cs.CL cs.AI
발표 시간: 2025년 10월 13일 (arXiv v3)
논문 링크: https://arxiv.org/abs/2509.19343

초록

본 논문은 자연언어처리(NLP)의 중요한 과제인 나가메세 언어의 품사 태깅 작업을 연구하였다. 나가메세 언어는 나가 피진(Naga Pidgin)이라고도 불리며, 아삼어 어휘를 기반으로 한 크리올 언어로서 인도 북동부의 나가인과 아삼인 간의 무역 통신 수단으로 발전하였다. 영어, 힌디어 등 자원이 풍부한 언어의 품사 태깅에 관한 많은 연구가 있지만, 나가메세 언어는 이 분야에서 관련 연구가 없었다. 저자들의 지식으로는 이것이 나가메세 언어에 대한 품사 태깅의 첫 시도이다. 본 연구는 16,112개의 토큰을 포함하는 주석 말뭉치를 구축하였고, 조건부 확률장(CRF) 기계학습 기술을 적용하여 85.70%의 전체 태깅 정확도, 정밀도 및 재현율 86%, F1 점수 85%를 달성하였다.

연구 배경 및 동기

문제 정의

본 연구는 나가메세 언어의 품사 태깅 도구 부재 문제를 해결하고자 한다. 품사 태깅은 NLP의 기초 과제로서 문장의 각 단어에 적절한 품사 레이블을 할당하는 작업을 포함한다.

중요성

언어 보존: 나가메세는 나갈란드의 통용어로서 대중 매체, 뉴스, 방송 및 정부 매체에서 광범위하게 사용됨
자원 부족: 나가메세는 저자원 언어로 분류되며 언어 처리 도구 및 자원이 부족함
기초 응용: 품사 태깅은 감정 분석, 기계 번역 등 다른 NLP 응용을 구축하기 위한 기초

기존 한계

주류 NLP 도구는 주로 영어, 힌디어 등 자원이 풍부한 언어를 위해 개발됨
나가메세 언어는 이전에 품사 태깅 관련 연구가 전혀 없었음
표준화된 주석 말뭉치 및 레이블 집합이 부재함

핵심 기여

개척적 연구: 나가메세 언어에 대한 첫 품사 태깅 연구
레이블 집합 설계: Penn Treebank 레이블 집합을 기반으로 나가메세에 적합한 15개의 품사 레이블 설계
말뭉치 구축: 16,115개의 토큰을 포함하는 수동 주석 말뭉치 구축
기준 모델: CRF 기술을 사용하여 나가메세 품사 태깅의 기준 모델 수립
성능 평가: 상세한 오류 분석 및 성능 평가 제공

방법론 상세 설명

과제 정의

나가메세 언어의 문장이 주어졌을 때, 각 단어에 해당하는 품사 레이블을 할당한다.

입력: 나가메세 문장의 단어 수열 출력: 대응하는 품사 레이블 수열 예시:

Itu/ADJECTIVE dikhikena/VERB Isor/NOUN khusi/ADJECTIVE lagise/VERB ./SYM
(하나님이 보신 것을 기뻐하셨다.)

나가메세 언어의 특징

문자 집합

모음: i, u, e, @, o, a (6개)
자음: p, t, c, k, b, d, j, g, ph, th, ch, kh, m, n, ṅ, s, š, h, r, I, w, y (22개)

음절 패턴

단음절: (C)(C)V(C)(C), 단 V는 단독으로 나타날 수 없음
쌍음절: V(C)(C)(C)V(C) 또는 (C)CV(C)(C)CV(C)(C)
삼음절: V(C)(C)CV(C)(C)CV(C) 또는 (C)CV(C)(C)V(C)(C)(C)V(C)
사음절: (C)V(C)CVCV(C)CV(C)
오음절 단어 없음(명백한 복합어 제외)

레이블 집합 설계

Penn Treebank의 36개 레이블을 나가메세에 적합한 15개로 단순화:

번호	범주	레이블
1	형용사	ADJ
2	부사	ADV
3	접속사	CONJ
4	보어 표지	CMP
5	한정사	DET
6	후치사/전치사	PP
7	감탄사	INTJ
8	명사	N
9	대명사	PN
10	양사	QN
11	동사	V
12	외래어	FW
13	기호	SYM
14	미지어	UNK
15	수사	NUM

모델 아키텍처

조건부 확률장(CRF)

선형 연쇄 CRF 모델을 채택하여 수열의 인접 레이블 간 문맥 정보를 고려할 수 있으며, 최대 엔트로피 마르코프 모델(MEMM)의 레이블 편향 문제를 극복한다.

특징 공학

풍부한 특징 집합을 설계:

현재 단어
문장 시작/종료 단어 여부
단어의 대소문자 정보
접두사(길이 ≤3) 및 접미사(길이 ≤4)
이전 단어 및 다음 단어
하이픈 포함 여부
숫자 포함 여부
단어 내 대문자 포함 여부

최적화 설정

경사 하강법: L-BFGS 방법
반복 횟수: 100회
정규화: 과적합 방지를 위한 L1 및 L2 정규화

실험 설정

데이터셋 구축

데이터 출처: 지역 신문 "Nagamese Khobor"에서 기사 수집, 시사, 스포츠 등 다양한 내용 포함
말뭉치 규모: 약 26,000개 단어의 원본 말뭉치, 16,115개 토큰 수동 주석(749개 문장)
주석 과정: 나가메세 모국어 사용자에 의한 수동 주석
품질 검증: 다른 주석자가 1,864개 토큰을 주석하여 검증, 외래어 포함 불일치율 6.7%, 외래어 제외 시 불일치율 1.23%

데이터 분포

레이블 빈도 분포는 데이터의 불균형을 보여줌:

최고 빈도: FW(외래어) - 3,744회
차순위: PP(후치사) - 2,418회
최저 빈도: CMP(보어 표지) - 35회

평가 지표

정확도(Accuracy): 전체 태깅 정확률
정밀도(Precision): TP/(TP+FP)
재현율(Recall): TP/(TP+FN)
F1 점수: 2×(Precision×Recall)/(Precision+Recall)

실험 구성

훈련/테스트 분할: 70:30
구현 도구: sklearn-crfsuite 라이브러리

실험 결과

주요 결과

지표	수치
전체 정확도	85.70%
평균 정밀도	86%
평균 재현율	86%
평균 F1 점수	85%

각 레이블별 성능 분석

최고 성능:

SYM(기호): F1=0.99, 정밀도=0.99, 재현율=0.98
NUM(수사): F1=0.95, 정밀도=0.99, 재현율=0.92
CONJ(접속사): F1=0.91, 정밀도=0.95, 재현율=0.87

낮은 성능:

UNK(미지어): F1=0.33, 정밀도=0.77, 재현율=0.21
N(명사): F1=0.70, 정밀도=0.70, 재현율=0.69
ADV(부사): F1=0.71, 정밀도=0.74, 재현율=0.69

오류 분석

주요 오류 패턴:

ADJ 오분류: PP(15회), V(15회), N(12회), FW(11회)
N 오분류: FW(76회), PP(26회), V(23회)
FW 오분류: N(81회), 외래어 인식의 어려움을 보여줌

전이 패턴 분석

가장 가능성 높은 전이: UNK → UNK
가장 가능성 낮은 전이: PP → NUM

결론 및 논의

주요 결론

나가메세 언어 품사 태깅의 첫 기준 시스템을 성공적으로 구축
CRF 모델이 해당 과제에서 합리적인 성능 달성(85.70% 정확도)
구축된 주석 말뭉치가 후속 연구의 기초 마련

한계

레이블 집합 규모: 15개 레이블만 사용하여 언어의 복잡성을 충분히 포착하지 못할 수 있음
데이터 규모: 16,115개 토큰은 상대적으로 작아 모델의 일반화 능력에 영향을 미칠 수 있음
데이터 불균형: 일부 레이블(예: CMP)의 샘플이 극히 적어 모델 학습에 영향을 미침
외래어 도전: FW 레이블의 높은 빈도와 혼동은 외래어 인식이 주요 어려움임을 나타냄

향후 방향

레이블 집합 확장: 더 세밀한 품사 레이블 추가
데이터 증대: 주석 말뭉치 규모 확대
응용 확대: 품사 태거를 감정 분석, 기계 번역 등 응용에 활용
전이 학습: 아삼어로부터의 전이 학습 방법 탐색
심층 학습: LSTM, BERT 등 현대 심층 학습 방법 시도

심층 평가

장점

개척적 의의: 나가메세 언어 NLP 연구의 공백 해소
언어학적 분석: 나가메세의 언어적 특징(음운체계, 음절 구조 등) 상세 기술
주석 품질: 이중 주석 검증을 통한 데이터 품질 보장
오류 분석: 상세한 혼동 행렬 및 오류 패턴 분석 제공
실용적 가치: 저자원 언어의 NLP 연구에 대한 범례 제시

부족점

방법론 한계: 전통적 CRF 방법만 사용하여 현대 심층 학습 기술 미시도
비교 부족: 다른 방법과의 비교 실험 부재
데이터 편향: 외래어 비중 과다(23%)로 모델의 실용성에 영향을 미칠 수 있음
특징 공학: 상대적으로 단순한 특징으로 중요한 언어학적 특징을 놓칠 수 있음
평가 한계: 단일 데이터셋에서만 평가하여 도메인 간 검증 부재

영향력

학술 기여: 저자원 언어 NLP 연구에 중요한 참고 제시
사회적 가치: 나가메세 언어의 디지털화 보존 및 발전에 기여
기술 기초: 더 복잡한 나가메세 NLP 응용 구축의 기초 마련
방법론: 저자원 언어를 위한 NLP 도구 구축의 완전한 프로세스 제시

적용 시나리오

교육 응용: 나가메세 언어 교수 및 학습 보조
미디어 처리: 나가메세 뉴스 및 소셜 미디어 콘텐츠 자동 처리
정부 서비스: 나갈란드의 다국어 정부 서비스 지원
연구 기초: 나가메세 언어의 추가 NLP 연구를 위한 기초 도구 제공

참고 문헌

논문은 다음의 주요 문헌을 인용:

Sreedhar, M. V. (1985). Standardized grammar of naga pidgin. - 나가메세 문법 표준화 연구
Saharia et al. (2009). Part of speech tagger for assamese text. - 아삼어 품사 태깅 선구적 연구
Pathak et al. (2022, 2023). 아삼어 심층 학습 품사 태깅 방법
Phukan et al. (2023, 2024). 아삼어 LSTM 품사 태깅 연구

종합 평가: 본 논문은 기술 방법론상 상대적으로 전통적이지만, 저자원 언어인 나가메세에 대한 첫 품사 태깅 시스템을 구축하여 중요한 개척적 의의를 가진다. 학술적 가치와 사회적 의의가 크며, 연구 방법이 엄밀하고 데이터 구축이 규범적이어서 후속 연구의 견고한 기초를 마련하였다.