2025-11-15T08:46:11.807319

Part-of-speech tagging for Nagamese Language using CRF

Shohe, Khiamungam, Angami
This paper investigates part-of-speech tagging, an important task in Natural Language Processing (NLP) for the Nagamese language. The Nagamese language, a.k.a. Naga Pidgin, is an Assamese-lexified Creole language developed primarily as a means of communication in trade between the Nagas and people from Assam in northeast India. A substantial amount of work in part-of-speech-tagging has been done for resource-rich languages like English, Hindi, etc. However, no work has been done in the Nagamese language. To the best of our knowledge, this is the first attempt at part-of-speech tagging for the Nagamese Language. The aim of this work is to identify the part-of-speech for a given sentence in the Nagamese language. An annotated corpus of 16,112 tokens is created and applied machine learning technique known as Conditional Random Fields (CRF). Using CRF, an overall tagging accuracy of 85.70%; precision, recall of 86%, and f1-score of 85% is achieved. Keywords. Nagamese, NLP, part-of-speech, machine learning, CRF.
academic

조건부 확률장(CRF)을 이용한 나가메세 언어의 품사 태깅

기본 정보

  • 논문 ID: 2509.19343
  • 제목: Part-of-speech tagging for Nagamese Language using CRF
  • 저자: Alovi N Shohe, Chonglio Khiamungam, Teisovi Angami
  • 소속: Department of Information Technology, Nagaland University, Kohima Campus, India
  • 분류: cs.CL cs.AI
  • 발표 시간: 2025년 10월 13일 (arXiv v3)
  • 논문 링크: https://arxiv.org/abs/2509.19343

초록

본 논문은 자연언어처리(NLP)의 중요한 과제인 나가메세 언어의 품사 태깅 작업을 연구하였다. 나가메세 언어는 나가 피진(Naga Pidgin)이라고도 불리며, 아삼어 어휘를 기반으로 한 크리올 언어로서 인도 북동부의 나가인과 아삼인 간의 무역 통신 수단으로 발전하였다. 영어, 힌디어 등 자원이 풍부한 언어의 품사 태깅에 관한 많은 연구가 있지만, 나가메세 언어는 이 분야에서 관련 연구가 없었다. 저자들의 지식으로는 이것이 나가메세 언어에 대한 품사 태깅의 첫 시도이다. 본 연구는 16,112개의 토큰을 포함하는 주석 말뭉치를 구축하였고, 조건부 확률장(CRF) 기계학습 기술을 적용하여 85.70%의 전체 태깅 정확도, 정밀도 및 재현율 86%, F1 점수 85%를 달성하였다.

연구 배경 및 동기

문제 정의

본 연구는 나가메세 언어의 품사 태깅 도구 부재 문제를 해결하고자 한다. 품사 태깅은 NLP의 기초 과제로서 문장의 각 단어에 적절한 품사 레이블을 할당하는 작업을 포함한다.

중요성

  1. 언어 보존: 나가메세는 나갈란드의 통용어로서 대중 매체, 뉴스, 방송 및 정부 매체에서 광범위하게 사용됨
  2. 자원 부족: 나가메세는 저자원 언어로 분류되며 언어 처리 도구 및 자원이 부족함
  3. 기초 응용: 품사 태깅은 감정 분석, 기계 번역 등 다른 NLP 응용을 구축하기 위한 기초

기존 한계

  • 주류 NLP 도구는 주로 영어, 힌디어 등 자원이 풍부한 언어를 위해 개발됨
  • 나가메세 언어는 이전에 품사 태깅 관련 연구가 전혀 없었음
  • 표준화된 주석 말뭉치 및 레이블 집합이 부재함

핵심 기여

  1. 개척적 연구: 나가메세 언어에 대한 첫 품사 태깅 연구
  2. 레이블 집합 설계: Penn Treebank 레이블 집합을 기반으로 나가메세에 적합한 15개의 품사 레이블 설계
  3. 말뭉치 구축: 16,115개의 토큰을 포함하는 수동 주석 말뭉치 구축
  4. 기준 모델: CRF 기술을 사용하여 나가메세 품사 태깅의 기준 모델 수립
  5. 성능 평가: 상세한 오류 분석 및 성능 평가 제공

방법론 상세 설명

과제 정의

나가메세 언어의 문장이 주어졌을 때, 각 단어에 해당하는 품사 레이블을 할당한다.

입력: 나가메세 문장의 단어 수열 출력: 대응하는 품사 레이블 수열 예시:

Itu/ADJECTIVE dikhikena/VERB Isor/NOUN khusi/ADJECTIVE lagise/VERB ./SYM
(하나님이 보신 것을 기뻐하셨다.)

나가메세 언어의 특징

문자 집합

  • 모음: i, u, e, @, o, a (6개)
  • 자음: p, t, c, k, b, d, j, g, ph, th, ch, kh, m, n, ṅ, s, š, h, r, I, w, y (22개)

음절 패턴

  • 단음절: (C)(C)V(C)(C), 단 V는 단독으로 나타날 수 없음
  • 쌍음절: V(C)(C)(C)V(C) 또는 (C)CV(C)(C)CV(C)(C)
  • 삼음절: V(C)(C)CV(C)(C)CV(C) 또는 (C)CV(C)(C)V(C)(C)(C)V(C)
  • 사음절: (C)V(C)CVCV(C)CV(C)
  • 오음절 단어 없음(명백한 복합어 제외)

레이블 집합 설계

Penn Treebank의 36개 레이블을 나가메세에 적합한 15개로 단순화:

번호범주레이블
1형용사ADJ
2부사ADV
3접속사CONJ
4보어 표지CMP
5한정사DET
6후치사/전치사PP
7감탄사INTJ
8명사N
9대명사PN
10양사QN
11동사V
12외래어FW
13기호SYM
14미지어UNK
15수사NUM

모델 아키텍처

조건부 확률장(CRF)

선형 연쇄 CRF 모델을 채택하여 수열의 인접 레이블 간 문맥 정보를 고려할 수 있으며, 최대 엔트로피 마르코프 모델(MEMM)의 레이블 편향 문제를 극복한다.

특징 공학

풍부한 특징 집합을 설계:

  • 현재 단어
  • 문장 시작/종료 단어 여부
  • 단어의 대소문자 정보
  • 접두사(길이 ≤3) 및 접미사(길이 ≤4)
  • 이전 단어 및 다음 단어
  • 하이픈 포함 여부
  • 숫자 포함 여부
  • 단어 내 대문자 포함 여부

최적화 설정

  • 경사 하강법: L-BFGS 방법
  • 반복 횟수: 100회
  • 정규화: 과적합 방지를 위한 L1 및 L2 정규화

실험 설정

데이터셋 구축

  1. 데이터 출처: 지역 신문 "Nagamese Khobor"에서 기사 수집, 시사, 스포츠 등 다양한 내용 포함
  2. 말뭉치 규모: 약 26,000개 단어의 원본 말뭉치, 16,115개 토큰 수동 주석(749개 문장)
  3. 주석 과정: 나가메세 모국어 사용자에 의한 수동 주석
  4. 품질 검증: 다른 주석자가 1,864개 토큰을 주석하여 검증, 외래어 포함 불일치율 6.7%, 외래어 제외 시 불일치율 1.23%

데이터 분포

레이블 빈도 분포는 데이터의 불균형을 보여줌:

  • 최고 빈도: FW(외래어) - 3,744회
  • 차순위: PP(후치사) - 2,418회
  • 최저 빈도: CMP(보어 표지) - 35회

평가 지표

  • 정확도(Accuracy): 전체 태깅 정확률
  • 정밀도(Precision): TP/(TP+FP)
  • 재현율(Recall): TP/(TP+FN)
  • F1 점수: 2×(Precision×Recall)/(Precision+Recall)

실험 구성

  • 훈련/테스트 분할: 70:30
  • 구현 도구: sklearn-crfsuite 라이브러리

실험 결과

주요 결과

지표수치
전체 정확도85.70%
평균 정밀도86%
평균 재현율86%
평균 F1 점수85%

각 레이블별 성능 분석

최고 성능:

  • SYM(기호): F1=0.99, 정밀도=0.99, 재현율=0.98
  • NUM(수사): F1=0.95, 정밀도=0.99, 재현율=0.92
  • CONJ(접속사): F1=0.91, 정밀도=0.95, 재현율=0.87

낮은 성능:

  • UNK(미지어): F1=0.33, 정밀도=0.77, 재현율=0.21
  • N(명사): F1=0.70, 정밀도=0.70, 재현율=0.69
  • ADV(부사): F1=0.71, 정밀도=0.74, 재현율=0.69

오류 분석

주요 오류 패턴:

  1. ADJ 오분류: PP(15회), V(15회), N(12회), FW(11회)
  2. N 오분류: FW(76회), PP(26회), V(23회)
  3. FW 오분류: N(81회), 외래어 인식의 어려움을 보여줌

전이 패턴 분석

  • 가장 가능성 높은 전이: UNK → UNK
  • 가장 가능성 낮은 전이: PP → NUM

관련 연구

나가메세가 아삼어 어휘화된 크리올 언어이므로, 논문은 아삼어 품사 태깅의 관련 연구를 검토하였다:

  1. Saharia et al. (2009): HMM 사용, 172개 레이블, 10k 단어 훈련, 87% 정확도
  2. Phukan et al. (2024): 문자 수준 LSTM 및 Bi-LSTM, 60k 단어, 93.36% 정확도
  3. Pathak et al. (2023): BiLSTM-CRF 아키텍처, 404k 토큰, F1=0.925
  4. Talukdar et al. (2024): RNN 및 GRU, 30k 단어, F1=94.56%

이러한 연구들은 본 연구에 기술적 참고를 제공하였으나, 나가메세는 크리올 언어로서 고유한 언어적 특징을 가진다.

결론 및 논의

주요 결론

  1. 나가메세 언어 품사 태깅의 첫 기준 시스템을 성공적으로 구축
  2. CRF 모델이 해당 과제에서 합리적인 성능 달성(85.70% 정확도)
  3. 구축된 주석 말뭉치가 후속 연구의 기초 마련

한계

  1. 레이블 집합 규모: 15개 레이블만 사용하여 언어의 복잡성을 충분히 포착하지 못할 수 있음
  2. 데이터 규모: 16,115개 토큰은 상대적으로 작아 모델의 일반화 능력에 영향을 미칠 수 있음
  3. 데이터 불균형: 일부 레이블(예: CMP)의 샘플이 극히 적어 모델 학습에 영향을 미침
  4. 외래어 도전: FW 레이블의 높은 빈도와 혼동은 외래어 인식이 주요 어려움임을 나타냄

향후 방향

  1. 레이블 집합 확장: 더 세밀한 품사 레이블 추가
  2. 데이터 증대: 주석 말뭉치 규모 확대
  3. 응용 확대: 품사 태거를 감정 분석, 기계 번역 등 응용에 활용
  4. 전이 학습: 아삼어로부터의 전이 학습 방법 탐색
  5. 심층 학습: LSTM, BERT 등 현대 심층 학습 방법 시도

심층 평가

장점

  1. 개척적 의의: 나가메세 언어 NLP 연구의 공백 해소
  2. 언어학적 분석: 나가메세의 언어적 특징(음운체계, 음절 구조 등) 상세 기술
  3. 주석 품질: 이중 주석 검증을 통한 데이터 품질 보장
  4. 오류 분석: 상세한 혼동 행렬 및 오류 패턴 분석 제공
  5. 실용적 가치: 저자원 언어의 NLP 연구에 대한 범례 제시

부족점

  1. 방법론 한계: 전통적 CRF 방법만 사용하여 현대 심층 학습 기술 미시도
  2. 비교 부족: 다른 방법과의 비교 실험 부재
  3. 데이터 편향: 외래어 비중 과다(23%)로 모델의 실용성에 영향을 미칠 수 있음
  4. 특징 공학: 상대적으로 단순한 특징으로 중요한 언어학적 특징을 놓칠 수 있음
  5. 평가 한계: 단일 데이터셋에서만 평가하여 도메인 간 검증 부재

영향력

  1. 학술 기여: 저자원 언어 NLP 연구에 중요한 참고 제시
  2. 사회적 가치: 나가메세 언어의 디지털화 보존 및 발전에 기여
  3. 기술 기초: 더 복잡한 나가메세 NLP 응용 구축의 기초 마련
  4. 방법론: 저자원 언어를 위한 NLP 도구 구축의 완전한 프로세스 제시

적용 시나리오

  1. 교육 응용: 나가메세 언어 교수 및 학습 보조
  2. 미디어 처리: 나가메세 뉴스 및 소셜 미디어 콘텐츠 자동 처리
  3. 정부 서비스: 나갈란드의 다국어 정부 서비스 지원
  4. 연구 기초: 나가메세 언어의 추가 NLP 연구를 위한 기초 도구 제공

참고 문헌

논문은 다음의 주요 문헌을 인용:

  1. Sreedhar, M. V. (1985). Standardized grammar of naga pidgin. - 나가메세 문법 표준화 연구
  2. Saharia et al. (2009). Part of speech tagger for assamese text. - 아삼어 품사 태깅 선구적 연구
  3. Pathak et al. (2022, 2023). 아삼어 심층 학습 품사 태깅 방법
  4. Phukan et al. (2023, 2024). 아삼어 LSTM 품사 태깅 연구

종합 평가: 본 논문은 기술 방법론상 상대적으로 전통적이지만, 저자원 언어인 나가메세에 대한 첫 품사 태깅 시스템을 구축하여 중요한 개척적 의의를 가진다. 학술적 가치와 사회적 의의가 크며, 연구 방법이 엄밀하고 데이터 구축이 규범적이어서 후속 연구의 견고한 기초를 마련하였다.