2025-11-15T08:46:11.807319

Part-of-speech tagging for Nagamese Language using CRF

Shohe, Khiamungam, Angami
This paper investigates part-of-speech tagging, an important task in Natural Language Processing (NLP) for the Nagamese language. The Nagamese language, a.k.a. Naga Pidgin, is an Assamese-lexified Creole language developed primarily as a means of communication in trade between the Nagas and people from Assam in northeast India. A substantial amount of work in part-of-speech-tagging has been done for resource-rich languages like English, Hindi, etc. However, no work has been done in the Nagamese language. To the best of our knowledge, this is the first attempt at part-of-speech tagging for the Nagamese Language. The aim of this work is to identify the part-of-speech for a given sentence in the Nagamese language. An annotated corpus of 16,112 tokens is created and applied machine learning technique known as Conditional Random Fields (CRF). Using CRF, an overall tagging accuracy of 85.70%; precision, recall of 86%, and f1-score of 85% is achieved. Keywords. Nagamese, NLP, part-of-speech, machine learning, CRF.
academic

Разметка частей речи для языка Нагаме с использованием CRF

Основная информация

  • ID статьи: 2509.19343
  • Название: Part-of-speech tagging for Nagamese Language using CRF
  • Авторы: Alovi N Shohe, Chonglio Khiamungam, Teisovi Angami
  • Учреждение: Department of Information Technology, Nagaland University, Kohima Campus, India
  • Классификация: cs.CL cs.AI
  • Дата публикации: 13 октября 2025 г. (arXiv v3)
  • Ссылка на статью: https://arxiv.org/abs/2509.19343

Аннотация

В данной работе исследуется задача разметки частей речи для языка Нагаме, что является важной задачей в обработке естественного языка (NLP). Язык Нагаме, также известный как Naga Pidgin, представляет собой креольский язык с лексической базой на ассамском языке, развившийся в качестве средства коммуникации для торговли между нагами и ассамцами в северо-восточной Индии. Хотя для богатых ресурсами языков, таких как английский и хинди, существует значительный объём работ по разметке частей речи, язык Нагаме в этой области ранее не исследовался. По знанию авторов, это первая попытка разметки частей речи для языка Нагаме. Исследование создало аннотированный корпус, содержащий 16 112 токенов, и применило технику машинного обучения на основе условных случайных полей (CRF), достигнув общей точности разметки 85,70%, с точностью и полнотой 86% и F1-мерой 85%.

Исследовательский контекст и мотивация

Определение проблемы

Данное исследование решает проблему отсутствия инструментов разметки частей речи для языка Нагаме. Разметка частей речи является фундаментальной задачей NLP, заключающейся в присвоении каждому слову в предложении соответствующей метки части речи.

Значимость

  1. Сохранение языка: Нагаме как общий язык штата Нагаланд широко используется в средствах массовой информации, новостях, радиовещании и государственных медиа
  2. Дефицит ресурсов: Нагаме относится к языкам с ограниченными ресурсами, испытывающим недостаток инструментов и ресурсов для обработки языка
  3. Фундаментальное приложение: Разметка частей речи является основой для построения других приложений NLP, таких как анализ тональности и машинный перевод

Существующие ограничения

  • Основные инструменты NLP разработаны в основном для языков с богатыми ресурсами (например, английский, хинди)
  • Язык Нагаме ранее полностью отсутствовал в работах по разметке частей речи
  • Отсутствуют стандартизированные аннотированные корпусы и наборы меток

Основные вклады

  1. Новаторское исследование: Первое исследование разметки частей речи для языка Нагаме
  2. Разработка набора меток: Разработан набор из 15 меток частей речи, адаптированный для Нагаме на основе Penn Treebank
  3. Построение корпуса: Создан вручную аннотированный корпус, содержащий 16 115 токенов
  4. Базовая модель: Установлена базовая модель разметки частей речи для Нагаме с использованием CRF
  5. Оценка производительности: Предоставлен подробный анализ ошибок и оценка производительности

Подробное описание методологии

Определение задачи

Для предложения на языке Нагаме необходимо присвоить каждому слову соответствующую метку части речи.

Входные данные: Последовательность слов в предложении на языке Нагаме Выходные данные: Соответствующая последовательность меток частей речи Пример:

Itu/ADJECTIVE dikhikena/VERB Isor/NOUN khusi/ADJECTIVE lagise/VERB ./SYM
(Бог был доволен тем, что Он видел.)

Характеристики языка Нагаме

Набор символов

  • Гласные: i, u, e, @, o, a (6 штук)
  • Согласные: p, t, c, k, b, d, j, g, ph, th, ch, kh, m, n, ṅ, s, š, h, r, I, w, y (22 штуки)

Слоговые паттерны

  • Односложные: (C)(C)V(C)(C), но V не может встречаться отдельно
  • Двусложные: V(C)(C)(C)V(C) или (C)CV(C)(C)CV(C)(C)
  • Трёхсложные: V(C)(C)CV(C)(C)CV(C) или (C)CV(C)(C)V(C)(C)(C)V(C)
  • Четырёхсложные: (C)V(C)CVCV(C)CV(C)
  • Пятисложные слова отсутствуют (кроме явных сложных слов)

Разработка набора меток

Упрощение с 36 меток Penn Treebank до 15 меток, адаптированных для Нагаме:

КатегорияМетка
1ПрилагательноеADJ
2НаречиеADV
3СоюзCONJ
4Маркер дополненияCMP
5ОпределительDET
6Послелог/ПредлогPP
7МеждометиеINTJ
8СуществительноеN
9МестоимениеPN
10КвантификаторQN
11ГлаголV
12Иностранное словоFW
13СимволSYM
14Неизвестное словоUNK
15ЧислительноеNUM

Архитектура модели

Условные случайные поля (CRF)

Применена модель линейной цепи CRF, которая способна учитывать контекстную информацию соседних меток в последовательности, преодолевая проблему смещения меток в моделях максимальной энтропии Маркова (MEMM).

Инженерия признаков

Разработан богатый набор признаков:

  • Текущее слово
  • Является ли словом в начале/конце предложения
  • Информация о регистре слова
  • Префиксы (длина ≤3) и суффиксы (длина ≤4)
  • Предыдущее и следующее слова
  • Наличие дефиса
  • Является ли числом
  • Наличие прописных букв в слове

Параметры оптимизации

  • Градиентный спуск: метод L-BFGS
  • Количество итераций: 100
  • Регуляризация: L1 и L2 регуляризация для предотвращения переобучения

Экспериментальная установка

Построение набора данных

  1. Источник данных: Статьи, собранные из местной газеты "Nagamese Khobor", включающие новости, спорт и другое разнообразное содержание
  2. Размер корпуса: Примерно 26 000 слов исходного корпуса, вручную аннотировано 16 115 токенов (749 предложений)
  3. Процесс аннотирования: Вручную аннотировано носителями языка Нагаме
  4. Проверка качества: Другой аннотатор аннотировал 1 864 токена для проверки, коэффициент разногласия для иностранных слов составил 6,7%, без иностранных слов только 1,23%

Распределение данных

Распределение частоты меток показывает дисбаланс данных:

  • Наиболее частая: FW (иностранные слова) - 3 744 раза
  • Далее: PP (послелоги) - 2 418 раз
  • Наименее частая: CMP (маркер дополнения) - 35 раз

Метрики оценки

  • Точность (Accuracy): Общая доля правильно размеченных токенов
  • Точность (Precision): TP/(TP+FP)
  • Полнота (Recall): TP/(TP+FN)
  • F1-мера: 2×(Precision×Recall)/(Precision+Recall)

Конфигурация эксперимента

  • Разделение обучение/тестирование: 70:30
  • Инструмент реализации: библиотека sklearn-crfsuite

Результаты экспериментов

Основные результаты

МетрикаЗначение
Общая точность85,70%
Средняя точность86%
Средняя полнота86%
Средняя F1-мера85%

Анализ производительности по меткам

Лучшие результаты:

  • SYM (символ): F1=0,99, точность=0,99, полнота=0,98
  • NUM (числительное): F1=0,95, точность=0,99, полнота=0,92
  • CONJ (союз): F1=0,91, точность=0,95, полнота=0,87

Худшие результаты:

  • UNK (неизвестное слово): F1=0,33, точность=0,77, полнота=0,21
  • N (существительное): F1=0,70, точность=0,70, полнота=0,69
  • ADV (наречие): F1=0,71, точность=0,74, полнота=0,69

Анализ ошибок

Основные модели ошибок включают:

  1. ADJ ошибочно размечено как: PP (15 раз), V (15 раз), N (12 раз), FW (11 раз)
  2. N ошибочно размечено как: FW (76 раз), PP (26 раз), V (23 раза)
  3. FW ошибочно размечено как: N (81 раз), что демонстрирует сложность распознавания иностранных слов

Анализ переходных паттернов

  • Наиболее вероятный переход: UNK → UNK
  • Наименее вероятный переход: PP → NUM

Связанные работы

Поскольку Нагаме является креольским языком с лексикой на основе ассамского, в статье рассматриваются связанные работы по разметке частей речи ассамского языка:

  1. Saharia et al. (2009): Использование HMM, 172 метки, 10k слов обучения, точность 87%
  2. Phukan et al. (2024): Символьный уровень LSTM и Bi-LSTM, 60k слов, точность 93,36%
  3. Pathak et al. (2023): Архитектура BiLSTM-CRF, 404k токенов, F1=0,925
  4. Talukdar et al. (2024): RNN и GRU, 30k слов, F1=94,56%

Эти работы предоставили технические ориентиры для данного исследования, однако Нагаме как креольский язык обладает уникальными лингвистическими характеристиками.

Заключение и обсуждение

Основные выводы

  1. Успешно установлена первая базовая система разметки частей речи для языка Нагаме
  2. Модель CRF достигла разумной производительности на этой задаче (точность 85,70%)
  3. Созданный аннотированный корпус создал основу для последующих исследований

Ограничения

  1. Размер набора меток: Использовано только 15 меток, что может быть недостаточно для полного захвата сложности языка
  2. Размер данных: 16 115 токенов относительно невелико, что может повлиять на обобщающую способность модели
  3. Дисбаланс данных: Некоторые метки (например, CMP) имеют очень мало образцов, что влияет на обучение модели
  4. Проблема иностранных слов: Высокая частота метки FW и путаница указывают на то, что распознавание иностранных слов является основной сложностью

Направления будущих исследований

  1. Расширение набора меток: Добавление более детальных меток частей речи
  2. Увеличение объёма данных: Расширение размера аннотированного корпуса
  3. Расширение приложений: Использование разметчика частей речи для построения приложений анализа тональности, машинного перевода и т.д.
  4. Трансферное обучение: Исследование методов трансферного обучения с ассамского языка
  5. Глубокое обучение: Попытка применения современных методов глубокого обучения, таких как LSTM, BERT

Глубокая оценка

Преимущества

  1. Новаторское значение: Заполняет пробел в исследованиях NLP языка Нагаме
  2. Лингвистический анализ: Подробное описание лингвистических характеристик Нагаме (фонология, слоговая структура и т.д.)
  3. Качество аннотирования: Двойная аннотация обеспечивает качество данных
  4. Анализ ошибок: Предоставлены подробные матрицы ошибок и анализ моделей ошибок
  5. Практическая ценность: Служит примером для исследований NLP языков с ограниченными ресурсами

Недостатки

  1. Методологические ограничения: Использован только традиционный метод CRF без попыток применения современных методов глубокого обучения
  2. Недостаток сравнений: Отсутствуют сравнительные эксперименты с другими методами
  3. Смещение данных: Высокая доля иностранных слов (23%) может повлиять на практическую применимость модели
  4. Инженерия признаков: Признаки относительно просты, могут упускать важные лингвистические особенности
  5. Ограничения оценки: Оценка проведена только на одном наборе данных, отсутствует кросс-доменная валидация

Влияние

  1. Академический вклад: Предоставляет важный ориентир для исследований NLP языков с ограниченными ресурсами
  2. Социальная ценность: Способствует цифровой защите и развитию языка Нагаме
  3. Технологическая основа: Создаёт основу для построения более сложных приложений NLP для Нагаме
  4. Методология: Демонстрирует полный процесс построения инструментов NLP для языков с ограниченными ресурсами

Применимые сценарии

  1. Образовательные приложения: Поддержка обучения и преподавания языка Нагаме
  2. Обработка медиа: Автоматизированная обработка новостей и содержания социальных сетей на Нагаме
  3. Государственные услуги: Поддержка многоязычных государственных услуг штата Нагаланд
  4. Исследовательская база: Предоставление базовых инструментов для дальнейших исследований NLP языка Нагаме

Библиография

Статья ссылается на следующие ключевые работы:

  1. Sreedhar, M. V. (1985). Standardized grammar of naga pidgin. - Исследование стандартизации грамматики языка Нагаме
  2. Saharia et al. (2009). Part of speech tagger for assamese text. - Пионерская работа по разметке частей речи ассамского языка
  3. Pathak et al. (2022, 2023). Методы глубокого обучения для разметки частей речи ассамского языка
  4. Phukan et al. (2023, 2024). Исследования LSTM для разметки частей речи ассамского языка

Общая оценка: Это статья с важным новаторским значением, которая, хотя и использует относительно традиционные технические методы, устанавливает первую систему разметки частей речи для языка Нагаме с ограниченными ресурсами, обладая значительной академической ценностью и социальным значением. Методология исследования строга, построение данных соответствует стандартам, создавая прочную основу для последующих исследований.