Part-of-speech tagging for Nagamese Language using CRF
Shohe, Khiamungam, Angami
This paper investigates part-of-speech tagging, an important task in Natural Language Processing (NLP) for the Nagamese language. The Nagamese language, a.k.a. Naga Pidgin, is an Assamese-lexified Creole language developed primarily as a means of communication in trade between the Nagas and people from Assam in northeast India. A substantial amount of work in part-of-speech-tagging has been done for resource-rich languages like English, Hindi, etc. However, no work has been done in the Nagamese language. To the best of our knowledge, this is the first attempt at part-of-speech tagging for the Nagamese Language. The aim of this work is to identify the part-of-speech for a given sentence in the Nagamese language. An annotated corpus of 16,112 tokens is created and applied machine learning technique known as Conditional Random Fields (CRF). Using CRF, an overall tagging accuracy of 85.70%; precision, recall of 86%, and f1-score of 85% is achieved.
Keywords. Nagamese, NLP, part-of-speech, machine learning, CRF.
academic
Разметка частей речи для языка Нагаме с использованием CRF
В данной работе исследуется задача разметки частей речи для языка Нагаме, что является важной задачей в обработке естественного языка (NLP). Язык Нагаме, также известный как Naga Pidgin, представляет собой креольский язык с лексической базой на ассамском языке, развившийся в качестве средства коммуникации для торговли между нагами и ассамцами в северо-восточной Индии. Хотя для богатых ресурсами языков, таких как английский и хинди, существует значительный объём работ по разметке частей речи, язык Нагаме в этой области ранее не исследовался. По знанию авторов, это первая попытка разметки частей речи для языка Нагаме. Исследование создало аннотированный корпус, содержащий 16 112 токенов, и применило технику машинного обучения на основе условных случайных полей (CRF), достигнув общей точности разметки 85,70%, с точностью и полнотой 86% и F1-мерой 85%.
Данное исследование решает проблему отсутствия инструментов разметки частей речи для языка Нагаме. Разметка частей речи является фундаментальной задачей NLP, заключающейся в присвоении каждому слову в предложении соответствующей метки части речи.
Сохранение языка: Нагаме как общий язык штата Нагаланд широко используется в средствах массовой информации, новостях, радиовещании и государственных медиа
Дефицит ресурсов: Нагаме относится к языкам с ограниченными ресурсами, испытывающим недостаток инструментов и ресурсов для обработки языка
Фундаментальное приложение: Разметка частей речи является основой для построения других приложений NLP, таких как анализ тональности и машинный перевод
Применена модель линейной цепи CRF, которая способна учитывать контекстную информацию соседних меток в последовательности, преодолевая проблему смещения меток в моделях максимальной энтропии Маркова (MEMM).
Источник данных: Статьи, собранные из местной газеты "Nagamese Khobor", включающие новости, спорт и другое разнообразное содержание
Размер корпуса: Примерно 26 000 слов исходного корпуса, вручную аннотировано 16 115 токенов (749 предложений)
Процесс аннотирования: Вручную аннотировано носителями языка Нагаме
Проверка качества: Другой аннотатор аннотировал 1 864 токена для проверки, коэффициент разногласия для иностранных слов составил 6,7%, без иностранных слов только 1,23%
Поскольку Нагаме является креольским языком с лексикой на основе ассамского, в статье рассматриваются связанные работы по разметке частей речи ассамского языка:
Saharia et al. (2009): Использование HMM, 172 метки, 10k слов обучения, точность 87%
Phukan et al. (2024): Символьный уровень LSTM и Bi-LSTM, 60k слов, точность 93,36%
Pathak et al. (2023): Архитектура BiLSTM-CRF, 404k токенов, F1=0,925
Talukdar et al. (2024): RNN и GRU, 30k слов, F1=94,56%
Эти работы предоставили технические ориентиры для данного исследования, однако Нагаме как креольский язык обладает уникальными лингвистическими характеристиками.
Sreedhar, M. V. (1985). Standardized grammar of naga pidgin. - Исследование стандартизации грамматики языка Нагаме
Saharia et al. (2009). Part of speech tagger for assamese text. - Пионерская работа по разметке частей речи ассамского языка
Pathak et al. (2022, 2023). Методы глубокого обучения для разметки частей речи ассамского языка
Phukan et al. (2023, 2024). Исследования LSTM для разметки частей речи ассамского языка
Общая оценка: Это статья с важным новаторским значением, которая, хотя и использует относительно традиционные технические методы, устанавливает первую систему разметки частей речи для языка Нагаме с ограниченными ресурсами, обладая значительной академической ценностью и социальным значением. Методология исследования строга, построение данных соответствует стандартам, создавая прочную основу для последующих исследований.