2025-11-15T08:46:11.807319

Part-of-speech tagging for Nagamese Language using CRF

Shohe, Khiamungam, Angami
This paper investigates part-of-speech tagging, an important task in Natural Language Processing (NLP) for the Nagamese language. The Nagamese language, a.k.a. Naga Pidgin, is an Assamese-lexified Creole language developed primarily as a means of communication in trade between the Nagas and people from Assam in northeast India. A substantial amount of work in part-of-speech-tagging has been done for resource-rich languages like English, Hindi, etc. However, no work has been done in the Nagamese language. To the best of our knowledge, this is the first attempt at part-of-speech tagging for the Nagamese Language. The aim of this work is to identify the part-of-speech for a given sentence in the Nagamese language. An annotated corpus of 16,112 tokens is created and applied machine learning technique known as Conditional Random Fields (CRF). Using CRF, an overall tagging accuracy of 85.70%; precision, recall of 86%, and f1-score of 85% is achieved. Keywords. Nagamese, NLP, part-of-speech, machine learning, CRF.
academic

Part-of-speech tagging for Nagamese Language using CRF

基本信息

  • 论文ID: 2509.19343
  • 标题: Part-of-speech tagging for Nagamese Language using CRF
  • 作者: Alovi N Shohe, Chonglio Khiamungam, Teisovi Angami
  • 单位: Department of Information Technology, Nagaland University, Kohima Campus, India
  • 分类: cs.CL cs.AI
  • 发表时间: 2025年10月13日 (arXiv v3)
  • 论文链接: https://arxiv.org/abs/2509.19343

摘要

本文研究了Nagamese语言的词性标注任务,这是自然语言处理(NLP)中的重要任务。Nagamese语言,又称Naga Pidgin,是一种以阿萨姆语为词汇基础的克里奥尔语言,主要作为印度东北部那加人与阿萨姆人之间贸易交流的通信手段而发展起来。虽然英语、印地语等资源丰富的语言在词性标注方面已有大量工作,但Nagamese语言在此领域尚无相关研究。据作者所知,这是首次针对Nagamese语言进行词性标注的尝试。研究创建了包含16,112个标记的标注语料库,并应用条件随机场(CRF)机器学习技术,实现了85.70%的整体标注准确率,精确率和召回率均为86%,F1分数为85%。

研究背景与动机

问题定义

本研究要解决Nagamese语言缺乏词性标注工具的问题。词性标注是NLP的基础任务,涉及为句子中的每个词分配适当的词性标签。

重要性

  1. 语言保护: Nagamese作为那加兰邦的通用语言,在大众媒体、新闻、广播和政府媒体中广泛使用
  2. 资源稀缺: Nagamese属于资源贫乏语言,缺乏语言处理工具和资源
  3. 基础应用: 词性标注是构建其他NLP应用(如情感分析、机器翻译)的基础

现有局限性

  • 主流NLP工具主要针对资源丰富的语言(如英语、印地语)开发
  • Nagamese语言此前完全没有词性标注相关工作
  • 缺乏标准化的标注语料库和标签集

核心贡献

  1. 首创性研究: 首次针对Nagamese语言进行词性标注研究
  2. 标签集设计: 基于Penn Treebank标签集,设计了适合Nagamese的15个词性标签
  3. 语料库构建: 创建了包含16,115个标记的手工标注语料库
  4. 基线模型: 使用CRF技术建立了Nagamese词性标注的基线模型
  5. 性能评估: 提供了详细的错误分析和性能评估

方法详解

任务定义

给定Nagamese语言的句子,为每个词分配相应的词性标签。

输入: Nagamese句子中的词序列 输出: 对应的词性标签序列 示例:

Itu/ADJECTIVE dikhikena/VERB Isor/NOUN khusi/ADJECTIVE lagise/VERB ./SYM
(God was pleased with what He saw.)

Nagamese语言特点

字符集

  • 元音: i, u, e, @, o, a (6个)
  • 辅音: p, t, c, k, b, d, j, g, ph, th, ch, kh, m, n, ṅ, s, š, h, r, I, w, y (22个)

音节模式

  • 单音节: (C)(C)V(C)(C),但V不能单独出现
  • 双音节: V(C)(C)(C)V(C) 或 (C)CV(C)(C)CV(C)(C)
  • 三音节: V(C)(C)CV(C)(C)CV(C) 或 (C)CV(C)(C)V(C)(C)(C)V(C)
  • 四音节: (C)V(C)CVCV(C)CV(C)
  • 无五音节词(除明显复合词外)

标签集设计

从Penn Treebank的36个标签简化为15个适合Nagamese的标签:

序号类别标签
1形容词ADJ
2副词ADV
3连词CONJ
4补语标记CMP
5限定词DET
6后置词/前置词PP
7感叹词INTJ
8名词N
9代词PN
10量词QN
11动词V
12外来词FW
13符号SYM
14未知词UNK
15数词NUM

模型架构

条件随机场(CRF)

采用线性链CRF模型,能够考虑序列中相邻标记的上下文信息,克服了最大熵马尔可夫模型(MEMM)的标签偏置问题。

特征工程

设计了丰富的特征集:

  • 当前词
  • 是否为句首/句尾词
  • 词的大小写信息
  • 前缀(长度≤3)和后缀(长度≤4)
  • 前一个词和后一个词
  • 是否包含连字符
  • 是否为数字
  • 词内是否包含大写字母

优化设置

  • 梯度下降: L-BFGS方法
  • 迭代次数: 100次
  • 正则化: L1和L2正则化防止过拟合

实验设置

数据集构建

  1. 数据来源: 从当地报纸"Nagamese Khobor"收集文章,包含时事、体育等多样化内容
  2. 语料规模: 约26,000词的原始语料,手工标注16,115个标记(749个句子)
  3. 标注过程: 由Nagamese母语者进行手工标注
  4. 质量验证: 另一标注者标注1,864个标记进行验证,包含外来词的分歧率为6.7%,排除外来词后分歧率仅1.23%

数据分布

标签频率分布显示数据的不平衡性:

  • 最高频: FW(外来词) - 3,744次
  • 其次: PP(后置词) - 2,418次
  • 最低频: CMP(补语标记) - 35次

评价指标

  • 准确率(Accuracy): 整体标注正确率
  • 精确率(Precision): TP/(TP+FP)
  • 召回率(Recall): TP/(TP+FN)
  • F1分数: 2×(Precision×Recall)/(Precision+Recall)

实验配置

  • 训练/测试划分: 70:30
  • 实现工具: sklearn-crfsuite库

实验结果

主要结果

指标数值
整体准确率85.70%
平均精确率86%
平均召回率86%
平均F1分数85%

各标签性能分析

最佳表现:

  • SYM(符号): F1=0.99, 精确率=0.99, 召回率=0.98
  • NUM(数词): F1=0.95, 精确率=0.99, 召回率=0.92
  • CONJ(连词): F1=0.91, 精确率=0.95, 召回率=0.87

较差表现:

  • UNK(未知词): F1=0.33, 精确率=0.77, 召回率=0.21
  • N(名词): F1=0.70, 精确率=0.70, 召回率=0.69
  • ADV(副词): F1=0.71, 精确率=0.74, 召回率=0.69

错误分析

主要错误模式包括:

  1. ADJ误标为: PP(15次)、V(15次)、N(12次)、FW(11次)
  2. N误标为: FW(76次)、PP(26次)、V(23次)
  3. FW误标为: N(81次),显示外来词识别的挑战性

转移模式分析

  • 最可能转移: UNK → UNK
  • 最不可能转移: PP → NUM

相关工作

由于Nagamese是阿萨姆语词汇化的克里奥尔语言,论文回顾了阿萨姆语词性标注的相关工作:

  1. Saharia et al. (2009): 使用HMM,172个标签,10k词训练,87%准确率
  2. Phukan et al. (2024): 字符级LSTM和Bi-LSTM,60k词,93.36%准确率
  3. Pathak et al. (2023): BiLSTM-CRF架构,404k标记,F1=0.925
  4. Talukdar et al. (2024): RNN和GRU,30k词,F1=94.56%

这些工作为本研究提供了技术参考,但Nagamese作为克里奥尔语言具有独特的语言特征。

结论与讨论

主要结论

  1. 成功建立了Nagamese语言词性标注的首个基线系统
  2. CRF模型在该任务上取得了合理的性能(85.70%准确率)
  3. 创建的标注语料库为后续研究奠定了基础

局限性

  1. 标签集规模: 仅使用15个标签,可能无法充分捕捉语言的复杂性
  2. 数据规模: 16,115个标记相对较小,可能影响模型泛化能力
  3. 数据不平衡: 某些标签(如CMP)样本极少,影响模型学习
  4. 外来词挑战: FW标签的高频率和混淆表明外来词识别是主要难点

未来方向

  1. 扩展标签集: 增加更细粒度的词性标签
  2. 增加数据量: 扩大标注语料库规模
  3. 应用拓展: 将词性标注器用于构建情感分析、机器翻译等应用
  4. 迁移学习: 探索从阿萨姆语的迁移学习方法
  5. 深度学习: 尝试LSTM、BERT等现代深度学习方法

深度评价

优点

  1. 开创性意义: 填补了Nagamese语言NLP研究的空白
  2. 语言学分析: 详细描述了Nagamese的语言特征(音系、音节结构等)
  3. 标注质量: 通过双重标注验证确保了数据质量
  4. 错误分析: 提供了详细的混淆矩阵和错误模式分析
  5. 实用价值: 为资源稀缺语言的NLP研究提供了范例

不足

  1. 方法局限: 仅使用了传统的CRF方法,未尝试现代深度学习技术
  2. 对比不足: 缺乏与其他方法的对比实验
  3. 数据偏斜: 外来词占比过高(23%)可能影响模型的实用性
  4. 特征工程: 特征相对简单,可能遗漏了重要的语言学特征
  5. 评估局限: 仅在单一数据集上评估,缺乏跨域验证

影响力

  1. 学术贡献: 为低资源语言NLP研究提供了重要参考
  2. 社会价值: 有助于Nagamese语言的数字化保护和发展
  3. 技术基础: 为构建更复杂的Nagamese NLP应用奠定基础
  4. 方法论: 展示了如何为资源稀缺语言构建NLP工具的完整流程

适用场景

  1. 教育应用: 辅助Nagamese语言教学和学习
  2. 媒体处理: 自动化处理Nagamese新闻和社交媒体内容
  3. 政府服务: 支持那加兰邦的多语言政府服务
  4. 研究基础: 为Nagamese语言的进一步NLP研究提供基础工具

参考文献

论文引用了以下关键文献:

  1. Sreedhar, M. V. (1985). Standardized grammar of naga pidgin. - Nagamese语法标准化研究
  2. Saharia et al. (2009). Part of speech tagger for assamese text. - 阿萨姆语词性标注先驱工作
  3. Pathak et al. (2022, 2023). 阿萨姆语深度学习词性标注方法
  4. Phukan et al. (2023, 2024). 阿萨姆语LSTM词性标注研究

总体评价: 这是一篇具有重要开创意义的论文,虽然在技术方法上相对传统,但为Nagamese这一资源稀缺语言建立了首个词性标注系统,具有重要的学术价值和社会意义。研究方法严谨,数据构建规范,为后续研究奠定了坚实基础。