Language Processing systems such as Part-of-speech tagging, Named entity recognition, Machine translation, Speech recognition, and Language modeling (LM) are well-studied in high-resource languages. Nevertheless, research on these systems for several low-resource languages, including Bodo, Mizo, Nagamese, and others, is either yet to commence or is in its nascent stages. Language model plays a vital role in the downstream tasks of modern NLP. Extensive studies are carried out on LMs for high-resource languages. Nevertheless, languages such as Bodo, Rabha, and Mising continue to lack coverage. In this study, we first present BodoBERT, a language model for the Bodo language. To the best of our knowledge, this work is the first such effort to develop a language model for Bodo. Secondly, we present an ensemble DL-based POS tagging model for Bodo. The POS tagging model is based on combinations of BiLSTM with CRF and stacked embedding of BodoBERT with BytePairEmbeddings. We cover several language models in the experiment to see how well they work in POS tagging tasks. The best-performing model achieves an F1 score of 0.8041. A comparative experiment was also conducted on Assamese POS taggers, considering that the language is spoken in the same region as Bodo.
academic- ID статьи: 2401.03175
- Название: Part-of-Speech Tagger for Bodo Language using Deep Learning approach
- Авторы: Dhrubajyoti Pathak, Sanjib Narzary, Sukumar Nandi, Bidisha Som
- Учреждение: Centre for Linguistic Science and Technology, IIT Guwahati
- Классификация: cs.CL cs.AI cs.LG
- Журнал публикации: Natural Language Engineering (Принята)
- Ссылка на статью: https://arxiv.org/abs/2401.03175
Данное исследование посвящено обработке естественного языка для языка Бодо (низкоресурсный язык). Хотя задачи NLP, такие как разметка частей речи, распознавание именованных сущностей и машинный перевод, хорошо изучены для высокоресурсных языков, исследования низкоресурсных языков, таких как Бодо, Мизо и Нагамезе, находятся на начальной стадии. В данной работе предложена модель языка BodoBERT — первая предварительно обученная языковая модель для языка Бодо. Кроме того, на основе архитектуры BiLSTM-CRF и составленных вложений BodoBERT с BytePairEmbeddings разработана интегрированная модель разметки частей речи глубокого обучения. Лучшая модель достигла оценки F1 0,8041 на задаче разметки частей речи для языка Бодо.
- Основная проблема: Язык Бодо, являющийся важным языком северо-восточной Индии (1,5 млн пользователей, 20-й по величине язык Индии), испытывает недостаток в базовых инструментах и ресурсах NLP
- Технические вызовы:
- Отсутствие предварительно обученных языковых моделей для языка Бодо
- Дефицит размеченных данных (только около 30 тыс. размеченных предложений)
- Сложные языковые особенности (тибето-бирманская семья, богатая морфология)
- Статус языка: Бодо является одним из 22 официальных языков Индии, официальный язык Bodoland Territorial Region
- Потребность в приложениях: 1,5 млн пользователей нуждаются в соответствующих инструментах NLP
- Академическая ценность: Заполнение пробела в исследованиях NLP для низкоресурсных языков
- Базовые задачи NLP (морфологический анализ, синтаксический анализ зависимостей, определение языка) еще не проводились
- Отсутствуют доступные предварительно обученные языковые модели
- Недостаток инструментов NLP на основе глубокого обучения для нижестоящих задач
- Первая языковая модель Бодо: Предложена BodoBERT на основе архитектуры BERT — первая предварительно обученная языковая модель, специально разработанная для языка Бодо
- Сравнение архитектур разметки частей речи: Систематическое сравнение трех архитектур последовательной разметки: CRF, Fine-tuning и BiLSTM-CRF
- Анализ производительности многоязычных моделей: Оценка производительности FastText, BPE, XLM-R, FlairEmbedding, IndicBERT, MuRIL и других языковых моделей на задаче разметки частей речи для языка Бодо
- Метод составленных вложений: Предложены два метода вложений — Individual и Stacked, где метод Stacked значительно повышает производительность
- Открытые ресурсы: Опубликованы лучшая модель разметки частей речи и модель BodoBERT
Входные данные: Последовательность предложений на языке Бодо
Выходные данные: Теги частей речи для каждого слова (34 теги на основе набора тегов BIS)
Ограничения: Использование письма Деванагари, соответствие индийскому языковому стандарту (набор тегов BIS)
- Источники данных:
- Linguistic Data Consortium for Indian Languages (LDC-IL)
- Работа Narzary et al. (2022)
- Размер корпуса: 1,6M токенов, 191k предложений
- Охват областей: Эстетика, бизнес, массовые медиа, технология, социальные науки и другие
- Базовая архитектура: Многоуровневый двунаправленный Transformer (на основе фреймворка BERT)
- Ключевые параметры:
- 6 слоев блоков Transformer
- Размерность скрытого слоя: 768
- Количество голов самовнимания: 6
- Общее количество параметров: около 103M
- Размер словаря: 50 000 (токенизатор WordPiece)
- Оборудование: GPU Nvidia Tesla P100
- Количество шагов обучения: 300K steps
- Длина последовательности: 128
- Размер пакета: 64
- Оптимизатор: Adam (скорость обучения 2e-5, разминка на первых 3000 шагов)
- Время обучения: около 7 дней
- Модель CRF: Вложения BodoBERT + слой CRF
- Модель Fine-tuning: Прямая тонкая настройка BodoBERT для разметки частей речи
- Модель BiLSTM-CRF: Вложения BodoBERT + BiLSTM + слой CRF
- Метод Individual: Отдельное использование различных языковых моделей
- Метод Stacked: Составление BodoBERT с другими языковыми моделями
- Языковая адаптивность: Первая специализированная языковая модель, разработанная с учетом особенностей языка Бодо
- Слияние многих моделей: Систематическое сравнение и слияние различных предварительно обученных моделей
- Кросс-языковая передача: Использование знаний из моделей на языке Хинди, использующих ту же систему письма (Деванагари)
- Стратегия составления: Инновационное объединение специализированной языковой модели с универсальными моделями
- Размеченный корпус: Bodo Monolingual Text Corpus (ILCI-II)
- Размер данных:
- Обучающий набор: 24 003 предложения, 192k токенов
- Набор валидации: 2 325 предложений, 23k токенов
- Тестовый набор: 3 161 предложение, 23k токенов
- Система тегов: Набор тегов BIS, 11 основных категорий, 34 конкретных тега
- Формат данных: Формат CoNLL-2003
- Основная метрика: F1-score (Micro)
- Вспомогательные метрики: F1-score (Weighted), Precision, Recall
- Анализ на уровне тегов: Детальная производительность для каждого тега части речи
| Модель | Обучающий корпус | Объем данных |
|---|
| FastText | Wiki | <29M |
| BytePair | Wiki | 29M |
| BodoBERT | Bodo corpus | 1,6M |
| FlairEmbeddings | Wiki+OPUS | ≈29M |
| MuRIL | CommonCrawl+Wiki | 788M |
| XLM-R | CC-100 | 1,7B |
| IndicBERT | Scraping | 1,84B |
- CRF vs Fine-tuning vs BiLSTM-CRF
- Individual vs Stacked embedding methods
- Фреймворк: Flair framework
- Размер пакета: 32
- Стратегия ранней остановки: Остановка при отсутствии улучшения на наборе валидации
- Расписание скорости обучения: Learning Rate Annealing
| Метод вложений | Модель разметки | F1-score(Micro) | F1-score(Weighted) |
|---|
| BodoBERT | CRF | 0,7583 | 0,7454 |
| BodoBERT | Fine-tuned BERT | 0,7754 | 0,7775 |
| BodoBERT | BiLSTM + CRF | 0,7949 | 0,7898 |
| Модель вложений | F1 Бодо | F1 Ассамезе |
|---|
| FastText | 0,7686 | 0,6981 |
| BytePair | 0,7669 | 0,7099 |
| BodoBERT | 0,7949 | 0,7033 |
| FlairEmbeddings | 0,7885 | 0,7076 |
| MuRIL | 0,7708 | 0,7286 |
| XLM-R | 0,7638 | 0,7001 |
| IndicBERT | 0,7235 | 0,7293 |
| Комбинация составленных вложений | F1 score |
|---|
| BodoBERT + FastText | 0,7928 |
| BodoBERT + BytePair | 0,8041 |
| BodoBERT + mBERT | 0,799 |
| BodoBERT + FlairEmbeddings | 0,801 |
| BodoBERT + MuRIL | 0,785 |
| BodoBERT + XLM-R | 0,8003 |
| BodoBERT + IndicBERT | 0,793 |
Добавление 10k автоматически размеченных и вручную проверенных предложений:
- Улучшение производительности: F1 повысился с 0,8041 до 0,8494 (+1-2%)
- Подтверждение масштабируемости модели
Производительность лучшей модели на основных тегах частей речи:
- V_VM (глагол): F1=0,9150 (наивысший)
- RD_PUNC (пунктуация): F1=0,9944 (близко к идеальному)
- N_NN (существительное): F1=0,7628 (самый большой класс)
- N_NNP (собственное имя): F1=0,6946 (сложнее распознавать)
Основные модели ошибок, выявленные матрицей ошибок:
- Путаница внутри класса: Обычные существительные (N_NN) с собственными именами (N_NNP), существительными мест (N_NST)
- Переход частей речи: Сложность разметки существительных, используемых как прилагательные
- Ограничения системы письма: Отсутствие в Бодо эквивалента заглавных букв английского языка для обозначения собственных имен
Сравнение результатов разметки частей речи Бодо и Ассамезе:
- Максимум для Бодо: 0,8041 (BodoBERT+BytePair)
- Максимум для Ассамезе: 0,7293 (IndicBERT)
- Причины различий: Различная сложность набора тегов (34 тега для Бодо vs 41 тег для Ассамезе)
- Ассамезе: Pathak et al. (2022, 2023) - BiLSTM-CRF достигает 86,52% F1
- Хаси: Warjri et al. (2021) - 96,98% точность
- Бенгальский: Alam et al. (2016) - 86,0% точность, Kabir et al. (2016) - 93,33% точность
- Мизо: Pandey et al. (2022) - LSTM достигает 81,86% точность
- Новаторство: Первый нейросетевой тегер частей речи для языка Бодо
- Систематичность: Полное сравнение различных архитектур и языковых моделей
- Практичность: Предоставление открытых моделей и инструментов
- Эффективность BodoBERT: Специализированная языковая модель показывает лучшие результаты на нижестоящих задачах
- Преимущество архитектуры: Архитектура BiLSTM-CRF превосходит CRF и Fine-tuning
- Эффективность стратегии составления: Комбинированные вложения показывают лучшую производительность, чем одиночные вложения
- Установление базовой линии: Установлена важная базовая линия для исследований NLP языка Бодо
- Размер данных: Размеченный корпус относительно небольшой (30k предложений)
- Данные обучения языковой модели: Обучающий корпус BodoBERT содержит только 1,6M токенов
- Уровень производительности: По сравнению с высокоресурсными языками остается разрыв (F1=0,8041 vs 90%+)
- Качество разметки: Некоторые разметки могут требовать дальнейшей проверки
- Расширение корпуса: Сбор большего количества текстов на языке Бодо и размеченных данных
- Улучшение модели: Оптимизация архитектуры BodoBERT и стратегий обучения
- Нижестоящие задачи: Расширение на другие задачи NLP, такие как распознавание именованных сущностей и синтаксический анализ
- Многоязычное моделирование: Исследование совместного моделирования с родственными языками
- Новаторский вклад: Первое построение языковой модели и тегера частей речи для языка Бодо, заполнение важного пробела
- Систематическое исследование: Полное сравнение различных методов, разумный и полный дизайн экспериментов
- Технологическая инновация: Стратегия составленных вложений эффективно повышает производительность
- Практическая ценность: Открытая публикация моделей, предоставление базовых инструментов сообществу
- Кросс-языковые инсайты: Ценный кросс-языковой анализ через сравнение с Ассамезе
- Ограничения данных: Относительно небольшой размер обучающих данных может влиять на обобщающую способность модели
- Ограничения оценки: Отсутствие сравнения с традиционными методами (HMM, методы на основе правил)
- Глубина анализа ошибок: Недостаточный лингвистический анализ случаев отказа модели
- Вычислительные ресурсы: Высокая стоимость обучения модели может ограничить воспроизводимость
- Академическая ценность: Предоставление важной парадигмы для исследований NLP низкоресурсных языков
- Практическое значение: Прямое обслуживание практических потребностей языкового сообщества Бодо
- Методологический вклад: Стратегия составленных вложений может быть распространена на другие низкоресурсные языки
- Инфраструктура: Закладка основы для последующих исследований NLP языка Бодо
- Прямое применение: Обработка текстов на языке Бодо, извлечение информации
- Исследовательская основа: Этап предварительной обработки для других задач NLP языка Бодо
- Передача методов: Задачи разметки частей речи для аналогичных низкоресурсных языков
- Многоязычные системы: Компонент многоязычных систем NLP северо-восточной Индии
В статье цитируется богатая база связанных работ, включающая:
- Работы, связанные с BERT: Devlin et al. (2018) - оригинальная статья BERT
- Последовательная разметка: Huang et al. (2015) - архитектура BiLSTM-CRF
- Низкоресурсные языки: Множество исследований NLP индийских местных языков
- Языковые модели: Оригинальные статьи различных предварительно обученных моделей
Общая оценка: Это высококачественная исследовательская работа по NLP низкоресурсных языков с важными вкладами в методологическую инновацию, дизайн экспериментов и практическую ценность. Хотя ограничена размером данных, она открывает новое направление для исследований NLP языка Бодо и имеет важное академическое и социальное значение.