2025-11-18T09:52:19.958339

Part-of-Speech Tagger for Bodo Language using Deep Learning approach

Pathak, Narzary, Nandi et al.

Language Processing systems such as Part-of-speech tagging, Named entity recognition, Machine translation, Speech recognition, and Language modeling (LM) are well-studied in high-resource languages. Nevertheless, research on these systems for several low-resource languages, including Bodo, Mizo, Nagamese, and others, is either yet to commence or is in its nascent stages. Language model plays a vital role in the downstream tasks of modern NLP. Extensive studies are carried out on LMs for high-resource languages. Nevertheless, languages such as Bodo, Rabha, and Mising continue to lack coverage. In this study, we first present BodoBERT, a language model for the Bodo language. To the best of our knowledge, this work is the first such effort to develop a language model for Bodo. Secondly, we present an ensemble DL-based POS tagging model for Bodo. The POS tagging model is based on combinations of BiLSTM with CRF and stacked embedding of BodoBERT with BytePairEmbeddings. We cover several language models in the experiment to see how well they work in POS tagging tasks. The best-performing model achieves an F1 score of 0.8041. A comparative experiment was also conducted on Assamese POS taggers, considering that the language is spoken in the same region as Bodo.

academic

Тегер частей речи для языка Бодо с использованием подхода глубокого обучения

Основная информация

ID статьи: 2401.03175
Название: Part-of-Speech Tagger for Bodo Language using Deep Learning approach
Авторы: Dhrubajyoti Pathak, Sanjib Narzary, Sukumar Nandi, Bidisha Som
Учреждение: Centre for Linguistic Science and Technology, IIT Guwahati
Классификация: cs.CL cs.AI cs.LG
Журнал публикации: Natural Language Engineering (Принята)
Ссылка на статью: https://arxiv.org/abs/2401.03175

Аннотация

Данное исследование посвящено обработке естественного языка для языка Бодо (низкоресурсный язык). Хотя задачи NLP, такие как разметка частей речи, распознавание именованных сущностей и машинный перевод, хорошо изучены для высокоресурсных языков, исследования низкоресурсных языков, таких как Бодо, Мизо и Нагамезе, находятся на начальной стадии. В данной работе предложена модель языка BodoBERT — первая предварительно обученная языковая модель для языка Бодо. Кроме того, на основе архитектуры BiLSTM-CRF и составленных вложений BodoBERT с BytePairEmbeddings разработана интегрированная модель разметки частей речи глубокого обучения. Лучшая модель достигла оценки F1 0,8041 на задаче разметки частей речи для языка Бодо.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема: Язык Бодо, являющийся важным языком северо-восточной Индии (1,5 млн пользователей, 20-й по величине язык Индии), испытывает недостаток в базовых инструментах и ресурсах NLP
Технические вызовы:
- Отсутствие предварительно обученных языковых моделей для языка Бодо
- Дефицит размеченных данных (только около 30 тыс. размеченных предложений)
- Сложные языковые особенности (тибето-бирманская семья, богатая морфология)

Анализ значимости

Статус языка: Бодо является одним из 22 официальных языков Индии, официальный язык Bodoland Territorial Region
Потребность в приложениях: 1,5 млн пользователей нуждаются в соответствующих инструментах NLP
Академическая ценность: Заполнение пробела в исследованиях NLP для низкоресурсных языков

Существующие ограничения

Базовые задачи NLP (морфологический анализ, синтаксический анализ зависимостей, определение языка) еще не проводились
Отсутствуют доступные предварительно обученные языковые модели
Недостаток инструментов NLP на основе глубокого обучения для нижестоящих задач

Основные вклады

Первая языковая модель Бодо: Предложена BodoBERT на основе архитектуры BERT — первая предварительно обученная языковая модель, специально разработанная для языка Бодо
Сравнение архитектур разметки частей речи: Систематическое сравнение трех архитектур последовательной разметки: CRF, Fine-tuning и BiLSTM-CRF
Анализ производительности многоязычных моделей: Оценка производительности FastText, BPE, XLM-R, FlairEmbedding, IndicBERT, MuRIL и других языковых моделей на задаче разметки частей речи для языка Бодо
Метод составленных вложений: Предложены два метода вложений — Individual и Stacked, где метод Stacked значительно повышает производительность
Открытые ресурсы: Опубликованы лучшая модель разметки частей речи и модель BodoBERT

Подробное описание методов

Определение задачи

Входные данные: Последовательность предложений на языке Бодо Выходные данные: Теги частей речи для каждого слова (34 теги на основе набора тегов BIS) Ограничения: Использование письма Деванагари, соответствие индийскому языковому стандарту (набор тегов BIS)

Языковая модель BodoBERT

Построение корпуса

Источники данных:
- Linguistic Data Consortium for Indian Languages (LDC-IL)
- Работа Narzary et al. (2022)
Размер корпуса: 1,6M токенов, 191k предложений
Охват областей: Эстетика, бизнес, массовые медиа, технология, социальные науки и другие

Архитектура модели

Базовая архитектура: Многоуровневый двунаправленный Transformer (на основе фреймворка BERT)
Ключевые параметры:
- 6 слоев блоков Transformer
- Размерность скрытого слоя: 768
- Количество голов самовнимания: 6
- Общее количество параметров: около 103M
- Размер словаря: 50 000 (токенизатор WordPiece)

Параметры обучения

Оборудование: GPU Nvidia Tesla P100
Количество шагов обучения: 300K steps
Длина последовательности: 128
Размер пакета: 64
Оптимизатор: Adam (скорость обучения 2e-5, разминка на первых 3000 шагов)
Время обучения: около 7 дней

Архитектура модели разметки частей речи

Три метода последовательной разметки

Модель CRF: Вложения BodoBERT + слой CRF
Модель Fine-tuning: Прямая тонкая настройка BodoBERT для разметки частей речи
Модель BiLSTM-CRF: Вложения BodoBERT + BiLSTM + слой CRF

Методы вложений

Метод Individual: Отдельное использование различных языковых моделей
Метод Stacked: Составление BodoBERT с другими языковыми моделями

Технические инновационные моменты

Языковая адаптивность: Первая специализированная языковая модель, разработанная с учетом особенностей языка Бодо
Слияние многих моделей: Систематическое сравнение и слияние различных предварительно обученных моделей
Кросс-языковая передача: Использование знаний из моделей на языке Хинди, использующих ту же систему письма (Деванагари)
Стратегия составления: Инновационное объединение специализированной языковой модели с универсальными моделями

Экспериментальная установка

Набор данных

Размеченный корпус: Bodo Monolingual Text Corpus (ILCI-II)
Размер данных:
- Обучающий набор: 24 003 предложения, 192k токенов
- Набор валидации: 2 325 предложений, 23k токенов
- Тестовый набор: 3 161 предложение, 23k токенов
Система тегов: Набор тегов BIS, 11 основных категорий, 34 конкретных тега
Формат данных: Формат CoNLL-2003

Метрики оценки

Основная метрика: F1-score (Micro)
Вспомогательные метрики: F1-score (Weighted), Precision, Recall
Анализ на уровне тегов: Детальная производительность для каждого тега части речи

Методы сравнения

Сравнение языковых моделей

Модель	Обучающий корпус	Объем данных
FastText	Wiki	<29M
BytePair	Wiki	29M
BodoBERT	Bodo corpus	1,6M
FlairEmbeddings	Wiki+OPUS	≈29M
MuRIL	CommonCrawl+Wiki	788M
XLM-R	CC-100	1,7B
IndicBERT	Scraping	1,84B

Сравнение архитектур

CRF vs Fine-tuning vs BiLSTM-CRF
Individual vs Stacked embedding methods

Детали реализации

Фреймворк: Flair framework
Размер пакета: 32
Стратегия ранней остановки: Остановка при отсутствии улучшения на наборе валидации
Расписание скорости обучения: Learning Rate Annealing

Результаты экспериментов

Основные результаты

Сравнение архитектур

Метод вложений	Модель разметки	F1-score(Micro)	F1-score(Weighted)
BodoBERT	CRF	0,7583	0,7454
BodoBERT	Fine-tuned BERT	0,7754	0,7775
BodoBERT	BiLSTM + CRF	0,7949	0,7898

Сравнение языковых моделей методом Individual

Модель вложений	F1 Бодо	F1 Ассамезе
FastText	0,7686	0,6981
BytePair	0,7669	0,7099
BodoBERT	0,7949	0,7033
FlairEmbeddings	0,7885	0,7076
MuRIL	0,7708	0,7286
XLM-R	0,7638	0,7001
IndicBERT	0,7235	0,7293

Результаты метода Stacked

Комбинация составленных вложений	F1 score
BodoBERT + FastText	0,7928
BodoBERT + BytePair	0,8041
BodoBERT + mBERT	0,799
BodoBERT + FlairEmbeddings	0,801
BodoBERT + MuRIL	0,785
BodoBERT + XLM-R	0,8003
BodoBERT + IndicBERT	0,793

Эксперименты по увеличению данных

Добавление 10k автоматически размеченных и вручную проверенных предложений:

Улучшение производительности: F1 повысился с 0,8041 до 0,8494 (+1-2%)
Подтверждение масштабируемости модели

Анализ на уровне тегов

Производительность лучшей модели на основных тегах частей речи:

V_VM (глагол): F1=0,9150 (наивысший)
RD_PUNC (пунктуация): F1=0,9944 (близко к идеальному)
N_NN (существительное): F1=0,7628 (самый большой класс)
N_NNP (собственное имя): F1=0,6946 (сложнее распознавать)

Анализ ошибок

Основные модели ошибок, выявленные матрицей ошибок:

Путаница внутри класса: Обычные существительные (N_NN) с собственными именами (N_NNP), существительными мест (N_NST)
Переход частей речи: Сложность разметки существительных, используемых как прилагательные
Ограничения системы письма: Отсутствие в Бодо эквивалента заглавных букв английского языка для обозначения собственных имен

Кросс-языковое сравнение

Сравнение результатов разметки частей речи Бодо и Ассамезе:

Максимум для Бодо: 0,8041 (BodoBERT+BytePair)
Максимум для Ассамезе: 0,7293 (IndicBERT)
Причины различий: Различная сложность набора тегов (34 тега для Бодо vs 41 тег для Ассамезе)

Связанные работы

Разметка частей речи для низкоресурсных языков

Ассамезе: Pathak et al. (2022, 2023) - BiLSTM-CRF достигает 86,52% F1
Хаси: Warjri et al. (2021) - 96,98% точность
Бенгальский: Alam et al. (2016) - 86,0% точность, Kabir et al. (2016) - 93,33% точность
Мизо: Pandey et al. (2022) - LSTM достигает 81,86% точность

Преимущества данной работы

Новаторство: Первый нейросетевой тегер частей речи для языка Бодо
Систематичность: Полное сравнение различных архитектур и языковых моделей
Практичность: Предоставление открытых моделей и инструментов

Заключение и обсуждение

Основные выводы

Эффективность BodoBERT: Специализированная языковая модель показывает лучшие результаты на нижестоящих задачах
Преимущество архитектуры: Архитектура BiLSTM-CRF превосходит CRF и Fine-tuning
Эффективность стратегии составления: Комбинированные вложения показывают лучшую производительность, чем одиночные вложения
Установление базовой линии: Установлена важная базовая линия для исследований NLP языка Бодо

Ограничения

Размер данных: Размеченный корпус относительно небольшой (30k предложений)
Данные обучения языковой модели: Обучающий корпус BodoBERT содержит только 1,6M токенов
Уровень производительности: По сравнению с высокоресурсными языками остается разрыв (F1=0,8041 vs 90%+)
Качество разметки: Некоторые разметки могут требовать дальнейшей проверки

Будущие направления

Расширение корпуса: Сбор большего количества текстов на языке Бодо и размеченных данных
Улучшение модели: Оптимизация архитектуры BodoBERT и стратегий обучения
Нижестоящие задачи: Расширение на другие задачи NLP, такие как распознавание именованных сущностей и синтаксический анализ
Многоязычное моделирование: Исследование совместного моделирования с родственными языками

Глубокая оценка

Преимущества

Новаторский вклад: Первое построение языковой модели и тегера частей речи для языка Бодо, заполнение важного пробела
Систематическое исследование: Полное сравнение различных методов, разумный и полный дизайн экспериментов
Технологическая инновация: Стратегия составленных вложений эффективно повышает производительность
Практическая ценность: Открытая публикация моделей, предоставление базовых инструментов сообществу
Кросс-языковые инсайты: Ценный кросс-языковой анализ через сравнение с Ассамезе

Недостатки

Ограничения данных: Относительно небольшой размер обучающих данных может влиять на обобщающую способность модели
Ограничения оценки: Отсутствие сравнения с традиционными методами (HMM, методы на основе правил)
Глубина анализа ошибок: Недостаточный лингвистический анализ случаев отказа модели
Вычислительные ресурсы: Высокая стоимость обучения модели может ограничить воспроизводимость

Влияние

Академическая ценность: Предоставление важной парадигмы для исследований NLP низкоресурсных языков
Практическое значение: Прямое обслуживание практических потребностей языкового сообщества Бодо
Методологический вклад: Стратегия составленных вложений может быть распространена на другие низкоресурсные языки
Инфраструктура: Закладка основы для последующих исследований NLP языка Бодо

Применимые сценарии

Прямое применение: Обработка текстов на языке Бодо, извлечение информации
Исследовательская основа: Этап предварительной обработки для других задач NLP языка Бодо
Передача методов: Задачи разметки частей речи для аналогичных низкоресурсных языков
Многоязычные системы: Компонент многоязычных систем NLP северо-восточной Индии

Библиография

В статье цитируется богатая база связанных работ, включающая:

Работы, связанные с BERT: Devlin et al. (2018) - оригинальная статья BERT
Последовательная разметка: Huang et al. (2015) - архитектура BiLSTM-CRF
Низкоресурсные языки: Множество исследований NLP индийских местных языков
Языковые модели: Оригинальные статьи различных предварительно обученных моделей

Общая оценка: Это высококачественная исследовательская работа по NLP низкоресурсных языков с важными вкладами в методологическую инновацию, дизайн экспериментов и практическую ценность. Хотя ограничена размером данных, она открывает новое направление для исследований NLP языка Бодо и имеет важное академическое и социальное значение.