Part-of-speech tagging for Nagamese Language using CRF
Shohe, Khiamungam, Angami
This paper investigates part-of-speech tagging, an important task in Natural Language Processing (NLP) for the Nagamese language. The Nagamese language, a.k.a. Naga Pidgin, is an Assamese-lexified Creole language developed primarily as a means of communication in trade between the Nagas and people from Assam in northeast India. A substantial amount of work in part-of-speech-tagging has been done for resource-rich languages like English, Hindi, etc. However, no work has been done in the Nagamese language. To the best of our knowledge, this is the first attempt at part-of-speech tagging for the Nagamese Language. The aim of this work is to identify the part-of-speech for a given sentence in the Nagamese language. An annotated corpus of 16,112 tokens is created and applied machine learning technique known as Conditional Random Fields (CRF). Using CRF, an overall tagging accuracy of 85.70%; precision, recall of 86%, and f1-score of 85% is achieved.
Keywords. Nagamese, NLP, part-of-speech, machine learning, CRF.
تتناول هذه الورقة مهمة وسم الأجزاء من الكلام (POS) للغة ناجامية، وهي مهمة مهمة في معالجة اللغات الطبيعية (NLP). لغة ناجامية، المعروفة أيضاً بـ Naga Pidgin، هي لغة كريولية مستندة إلى المفردات الآسامية، تطورت بشكل أساسي كوسيلة اتصال للتجارة بين شعب ناجا والآساميين في شمال شرق الهند. بينما تتمتع اللغات الغنية بالموارد مثل الإنجليزية والهندية بأعمال واسعة في مجال وسم الأجزاء من الكلام، لم تكن هناك أي أبحاث سابقة في هذا المجال للغة ناجامية. وفقاً لمعرفة المؤلفين، هذه هي المحاولة الأولى لوسم الأجزاء من الكلام للغة ناجامية. أنشأت الدراسة مدونة معلَّمة تحتوي على 16,112 رمزاً، وطبقت تقنية التعلم الآلي للحقول العشوائية المشروطة (CRF)، محققة دقة وسم إجمالية بنسبة 85.70%، مع دقة واستدعاء بنسبة 86%، ودرجة F1 بنسبة 85%.
يسعى هذا البحث إلى حل مشكلة افتقار لغة ناجامية إلى أدوات وسم الأجزاء من الكلام. يعتبر وسم الأجزاء من الكلام مهمة أساسية في معالجة اللغات الطبيعية، وتتضمن إسناد علامات أجزاء الكلام المناسبة لكل كلمة في الجملة.
تم استخدام نموذج CRF ذي السلسلة الخطية، الذي يمكنه الأخذ في الاعتبار معلومات السياق للعلامات المجاورة في التسلسل، مما يتغلب على مشكلة انحياز العلامات في نماذج ماركوف ذات الإنتروبيا القصوى (MEMM).
مصادر البيانات: تم جمع المقالات من الصحيفة المحلية "Nagamese Khobor"، تتضمن محتوى متنوعاً مثل الأخبار والرياضة
حجم المدونة: حوالي 26,000 كلمة من المدونة الأصلية، مع تعليم يدوي لـ 16,115 رمزاً (749 جملة)
عملية التعليم: تم إجراء التعليم اليدوي بواسطة متحدثين أصليين للغة ناجامية
التحقق من الجودة: قام معلِّم آخر بتعليم 1,864 رمزاً للتحقق، مع معدل اختلاف بنسبة 6.7% يتضمن الكلمات الأجنبية، وانخفض معدل الاختلاف إلى 1.23% فقط عند استبعاد الكلمات الأجنبية
Sreedhar, M. V. (1985). قواعس موحدة لـ Naga Pidgin - دراسة توحيد قواعد لغة ناجامية
Saharia et al. (2009). موسم الأجزاء من الكلام لنص الآسامية - عمل رائد في وسم الأجزاء من الكلام للغة الآسامية
Pathak et al. (2022, 2023). طرق التعلم العميق لوسم الأجزاء من الكلام للغة الآسامية
Phukan et al. (2023, 2024). أبحاث LSTM لوسم الأجزاء من الكلام للغة الآسامية
التقييم الإجمالي: هذه ورقة ذات أهمية رائدة كبيرة، وعلى الرغم من أن الطرق التقنية نسبياً تقليدية، إلا أنها أنشأت أول نظام لوسم الأجزاء من الكلام للغة ناجامية الفقيرة بالموارد، مما يتمتع بقيمة أكاديمية واجتماعية مهمة. تتسم منهجية البحث بالصرامة، وبناء البيانات منظم، مما يضع أساساً متيناً للأبحاث اللاحقة.