2025-11-15T08:46:11.807319

Part-of-speech tagging for Nagamese Language using CRF

Shohe, Khiamungam, Angami
This paper investigates part-of-speech tagging, an important task in Natural Language Processing (NLP) for the Nagamese language. The Nagamese language, a.k.a. Naga Pidgin, is an Assamese-lexified Creole language developed primarily as a means of communication in trade between the Nagas and people from Assam in northeast India. A substantial amount of work in part-of-speech-tagging has been done for resource-rich languages like English, Hindi, etc. However, no work has been done in the Nagamese language. To the best of our knowledge, this is the first attempt at part-of-speech tagging for the Nagamese Language. The aim of this work is to identify the part-of-speech for a given sentence in the Nagamese language. An annotated corpus of 16,112 tokens is created and applied machine learning technique known as Conditional Random Fields (CRF). Using CRF, an overall tagging accuracy of 85.70%; precision, recall of 86%, and f1-score of 85% is achieved. Keywords. Nagamese, NLP, part-of-speech, machine learning, CRF.
academic

وسم الأجزاء من الكلام للغة ناجامية باستخدام CRF

المعلومات الأساسية

  • معرّف الورقة: 2509.19343
  • العنوان: وسم الأجزاء من الكلام للغة ناجامية باستخدام CRF
  • المؤلفون: Alovi N Shohe, Chonglio Khiamungam, Teisovi Angami
  • المؤسسة: قسم تكنولوجيا المعلومات، جامعة ناجالاند، حرم كوهيما، الهند
  • التصنيف: cs.CL cs.AI
  • تاريخ النشر: 13 أكتوبر 2025 (arXiv v3)
  • رابط الورقة: https://arxiv.org/abs/2509.19343

الملخص

تتناول هذه الورقة مهمة وسم الأجزاء من الكلام (POS) للغة ناجامية، وهي مهمة مهمة في معالجة اللغات الطبيعية (NLP). لغة ناجامية، المعروفة أيضاً بـ Naga Pidgin، هي لغة كريولية مستندة إلى المفردات الآسامية، تطورت بشكل أساسي كوسيلة اتصال للتجارة بين شعب ناجا والآساميين في شمال شرق الهند. بينما تتمتع اللغات الغنية بالموارد مثل الإنجليزية والهندية بأعمال واسعة في مجال وسم الأجزاء من الكلام، لم تكن هناك أي أبحاث سابقة في هذا المجال للغة ناجامية. وفقاً لمعرفة المؤلفين، هذه هي المحاولة الأولى لوسم الأجزاء من الكلام للغة ناجامية. أنشأت الدراسة مدونة معلَّمة تحتوي على 16,112 رمزاً، وطبقت تقنية التعلم الآلي للحقول العشوائية المشروطة (CRF)، محققة دقة وسم إجمالية بنسبة 85.70%، مع دقة واستدعاء بنسبة 86%، ودرجة F1 بنسبة 85%.

خلفية البحث والدافع

تعريف المشكلة

يسعى هذا البحث إلى حل مشكلة افتقار لغة ناجامية إلى أدوات وسم الأجزاء من الكلام. يعتبر وسم الأجزاء من الكلام مهمة أساسية في معالجة اللغات الطبيعية، وتتضمن إسناد علامات أجزاء الكلام المناسبة لكل كلمة في الجملة.

الأهمية

  1. حماية اللغة: تُستخدم لغة ناجامية كلغة مشتركة في ولاية ناجالاند على نطاق واسع في وسائل الإعلام الجماهيرية والأخبار والبث الإذاعي والإعلام الحكومي
  2. ندرة الموارد: تنتمي لغة ناجامية إلى فئة اللغات الفقيرة بالموارد، وتفتقر إلى أدوات ومصادر معالجة اللغات
  3. التطبيقات الأساسية: يعتبر وسم الأجزاء من الكلام أساساً لبناء تطبيقات معالجة لغات طبيعية أخرى (مثل تحليل المشاعر والترجمة الآلية)

القيود الموجودة

  • تركز أدوات معالجة اللغات الطبيعية الرئيسية على اللغات الغنية بالموارد (مثل الإنجليزية والهندية)
  • لم تكن هناك أي أعمال سابقة متعلقة بوسم الأجزاء من الكلام للغة ناجامية
  • نقص المدونات المعيارية والمعلَّمة ومجموعات العلامات

المساهمات الأساسية

  1. البحث الرائد: أول بحث يتناول وسم الأجزاء من الكلام للغة ناجامية
  2. تصميم مجموعة العلامات: تصميم 15 علامة لأجزاء الكلام مناسبة للغة ناجامية بناءً على مجموعة علامات Penn Treebank
  3. بناء المدونة: إنشاء مدونة معلَّمة يدوياً تحتوي على 16,115 رمزاً
  4. نموذج الأساس: إنشاء نموذج أساسي لوسم الأجزاء من الكلام للغة ناجامية باستخدام تقنية CRF
  5. تقييم الأداء: توفير تحليل تفصيلي للأخطاء وتقييم الأداء

شرح المنهجية

تعريف المهمة

بالنظر إلى جملة باللغة ناجامية، إسناد علامة أجزاء الكلام المناسبة لكل كلمة.

الإدخال: تسلسل الكلمات في جملة باللغة ناجامية الإخراج: تسلسل علامات الأجزاء من الكلام المقابلة مثال:

Itu/ADJECTIVE dikhikena/VERB Isor/NOUN khusi/ADJECTIVE lagise/VERB ./SYM
(الله كان راضياً عما رآه.)

خصائص لغة ناجامية

مجموعة الأحرف

  • الحروف الصوتية: i, u, e, @, o, a (6 حروف)
  • الحروف الساكنة: p, t, c, k, b, d, j, g, ph, th, ch, kh, m, n, ṅ, s, š, h, r, I, w, y (22 حرفاً)

أنماط المقاطع

  • أحادي المقطع: (C)(C)V(C)(C)، لكن V لا يمكن أن يظهر بمفرده
  • ثنائي المقطع: V(C)(C)(C)V(C) أو (C)CV(C)(C)CV(C)(C)
  • ثلاثي المقطع: V(C)(C)CV(C)(C)CV(C) أو (C)CV(C)(C)V(C)(C)(C)V(C)
  • رباعي المقطع: (C)V(C)CVCV(C)CV(C)
  • لا توجد كلمات خماسية المقطع (باستثناء الكلمات المركبة الواضحة)

تصميم مجموعة العلامات

تم تبسيط 36 علامة من Penn Treebank إلى 15 علامة مناسبة للغة ناجامية:

الرقمالفئةالعلامة
1الصفةADJ
2الظرفADV
3حرف العطفCONJ
4علامة المتممCMP
5المحددDET
6حرف الجر/اللاحقةPP
7حرف التعجبINTJ
8الاسمN
9الضميرPN
10كلمة القياسQN
11الفعلV
12كلمة أجنبيةFW
13الرمزSYM
14كلمة غير معروفةUNK
15العددNUM

معمارية النموذج

الحقول العشوائية المشروطة (CRF)

تم استخدام نموذج CRF ذي السلسلة الخطية، الذي يمكنه الأخذ في الاعتبار معلومات السياق للعلامات المجاورة في التسلسل، مما يتغلب على مشكلة انحياز العلامات في نماذج ماركوف ذات الإنتروبيا القصوى (MEMM).

هندسة الميزات

تم تصميم مجموعة ميزات غنية:

  • الكلمة الحالية
  • ما إذا كانت الكلمة في بداية أو نهاية الجملة
  • معلومات الأحرف الكبيرة والصغيرة في الكلمة
  • البادئات (بطول ≤3) واللواحق (بطول ≤4)
  • الكلمة السابقة والكلمة التالية
  • ما إذا كانت تحتوي على واصلة
  • ما إذا كانت رقماً
  • ما إذا كانت تحتوي على أحرف كبيرة

إعدادات التحسين

  • الانحدار التدريجي: طريقة L-BFGS
  • عدد التكرارات: 100 تكرار
  • التنظيم: تنظيم L1 و L2 لمنع الإفراط في التدريب

إعداد التجارب

بناء مجموعة البيانات

  1. مصادر البيانات: تم جمع المقالات من الصحيفة المحلية "Nagamese Khobor"، تتضمن محتوى متنوعاً مثل الأخبار والرياضة
  2. حجم المدونة: حوالي 26,000 كلمة من المدونة الأصلية، مع تعليم يدوي لـ 16,115 رمزاً (749 جملة)
  3. عملية التعليم: تم إجراء التعليم اليدوي بواسطة متحدثين أصليين للغة ناجامية
  4. التحقق من الجودة: قام معلِّم آخر بتعليم 1,864 رمزاً للتحقق، مع معدل اختلاف بنسبة 6.7% يتضمن الكلمات الأجنبية، وانخفض معدل الاختلاف إلى 1.23% فقط عند استبعاد الكلمات الأجنبية

توزيع البيانات

يُظهر توزيع تكرار العلامات عدم توازن البيانات:

  • الأعلى تكراراً: FW (الكلمات الأجنبية) - 3,744 مرة
  • يليها: PP (حروف الجر) - 2,418 مرة
  • الأقل تكراراً: CMP (علامة المتمم) - 35 مرة

مؤشرات التقييم

  • الدقة (Accuracy): معدل صحة الوسم الإجمالي
  • الدقة (Precision): TP/(TP+FP)
  • الاستدعاء (Recall): TP/(TP+FN)
  • درجة F1: 2×(Precision×Recall)/(Precision+Recall)

إعدادات التجربة

  • تقسيم التدريب/الاختبار: 70:30
  • أداة التنفيذ: مكتبة sklearn-crfsuite

نتائج التجارب

النتائج الرئيسية

المؤشرالقيمة
الدقة الإجمالية85.70%
متوسط الدقة86%
متوسط الاستدعاء86%
متوسط درجة F185%

تحليل أداء كل علامة

الأداء الأفضل:

  • SYM (الرمز): F1=0.99, الدقة=0.99, الاستدعاء=0.98
  • NUM (العدد): F1=0.95, الدقة=0.99, الاستدعاء=0.92
  • CONJ (حرف العطف): F1=0.91, الدقة=0.95, الاستدعاء=0.87

الأداء الأضعف:

  • UNK (كلمة غير معروفة): F1=0.33, الدقة=0.77, الاستدعاء=0.21
  • N (الاسم): F1=0.70, الدقة=0.70, الاستدعاء=0.69
  • ADV (الظرف): F1=0.71, الدقة=0.74, الاستدعاء=0.69

تحليل الأخطاء

تتضمن أنماط الأخطاء الرئيسية:

  1. ADJ يتم وسمه بشكل خاطئ كـ: PP (15 مرة)، V (15 مرة)، N (12 مرة)، FW (11 مرة)
  2. N يتم وسمه بشكل خاطئ كـ: FW (76 مرة)، PP (26 مرة)، V (23 مرة)
  3. FW يتم وسمه بشكل خاطئ كـ: N (81 مرة)، مما يُظهر تحدي التعرف على الكلمات الأجنبية

تحليل أنماط الانتقال

  • الانتقال الأكثر احتمالاً: UNK → UNK
  • الانتقال الأقل احتمالاً: PP → NUM

الأعمال ذات الصلة

نظراً لأن لغة ناجامية هي لغة كريولية مع مفردات آسامية، تستعرض الورقة الأعمال ذات الصلة بوسم الأجزاء من الكلام للغة الآسامية:

  1. Saharia et al. (2009): استخدام HMM، 172 علامة، 10k كلمة للتدريب، دقة 87%
  2. Phukan et al. (2024): LSTM على مستوى الأحرف و Bi-LSTM، 60k كلمة، دقة 93.36%
  3. Pathak et al. (2023): معمارية BiLSTM-CRF، 404k رمز، F1=0.925
  4. Talukdar et al. (2024): RNN و GRU، 30k كلمة، F1=94.56%

توفر هذه الأعمال مراجع تقنية لهذا البحث، لكن لغة ناجامية كلغة كريولية تتمتع بخصائص لغوية فريدة.

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. تم بنجاح إنشاء أول نظام أساسي لوسم الأجزاء من الكلام للغة ناجامية
  2. حقق نموذج CRF أداءً معقولاً في هذه المهمة (دقة 85.70%)
  3. توفر المدونة المعلَّمة المُنشأة أساساً لأبحاث لاحقة

القيود

  1. حجم مجموعة العلامات: استخدام 15 علامة فقط قد لا يكون كافياً لالتقاط التعقيد الكامل للغة
  2. حجم البيانات: 16,115 رمزاً نسبياً صغير، قد يؤثر على قدرة النموذج على التعميم
  3. عدم توازن البيانات: بعض العلامات (مثل CMP) لديها عينات قليلة جداً، مما يؤثر على تعلم النموذج
  4. تحدي الكلمات الأجنبية: التكرار العالي لعلامة FW والالتباس يشير إلى أن التعرف على الكلمات الأجنبية هو الصعوبة الرئيسية

الاتجاهات المستقبلية

  1. توسيع مجموعة العلامات: إضافة علامات أجزاء كلام أكثر دقة
  2. زيادة حجم البيانات: توسيع حجم المدونة المعلَّمة
  3. توسيع التطبيقات: استخدام موسم الأجزاء من الكلام لبناء تطبيقات مثل تحليل المشاعر والترجمة الآلية
  4. التعلم بالنقل: استكشاف طرق التعلم بالنقل من اللغة الآسامية
  5. التعلم العميق: تجربة طرق التعلم العميق الحديثة مثل LSTM و BERT

التقييم المتعمق

المزايا

  1. الأهمية الرائدة: ملء الفراغ في أبحاث معالجة اللغات الطبيعية للغة ناجامية
  2. التحليل اللغوي: وصف تفصيلي لخصائص لغة ناجامية (النظام الصوتي وبنية المقاطع وغيرها)
  3. جودة التعليم: ضمان جودة البيانات من خلال التحقق بالتعليم المزدوج
  4. تحليل الأخطاء: توفير مصفوفة التشويش التفصيلية وتحليل أنماط الأخطاء
  5. القيمة العملية: توفير نموذج يُحتذى به لأبحاث معالجة اللغات الطبيعية للغات الفقيرة بالموارد

أوجه القصور

  1. قيود الطريقة: استخدام طريقة CRF التقليدية فقط، دون تجربة تقنيات التعلم العميق الحديثة
  2. نقص المقارنة: افتقار إلى تجارب مقارنة مع طرق أخرى
  3. انحراف البيانات: النسبة العالية من الكلمات الأجنبية (23%) قد تؤثر على الفائدة العملية للنموذج
  4. هندسة الميزات: الميزات نسبياً بسيطة، قد تفتقد ميزات لغوية مهمة
  5. قيود التقييم: التقييم على مجموعة بيانات واحدة فقط، افتقار إلى التحقق عبر المجالات

التأثير

  1. المساهمة الأكاديمية: توفير مرجع مهم لأبحاث معالجة اللغات الطبيعية للغات الفقيرة بالموارد
  2. القيمة الاجتماعية: المساهمة في الحماية الرقمية وتطور لغة ناجامية
  3. الأساس التقني: وضع أساس لبناء تطبيقات معالجة لغات طبيعية أكثر تعقيداً للغة ناجامية
  4. المنهجية: إظهار عملية كاملة لكيفية بناء أدوات معالجة لغات طبيعية للغات الفقيرة بالموارد

السيناريوهات المعمول بها

  1. التطبيقات التعليمية: مساعدة تعليم وتعلم لغة ناجامية
  2. معالجة الوسائط: معالجة آلية لمحتوى أخبار ناجامية ومحتوى وسائل التواصل الاجتماعي
  3. الخدمات الحكومية: دعم الخدمات الحكومية متعددة اللغات في ولاية ناجالاند
  4. أساس البحث: توفير أداة أساسية لأبحاث معالجة اللغات الطبيعية الإضافية للغة ناجامية

المراجع

تستشهد الورقة بالمراجع الرئيسية التالية:

  1. Sreedhar, M. V. (1985). قواعس موحدة لـ Naga Pidgin - دراسة توحيد قواعد لغة ناجامية
  2. Saharia et al. (2009). موسم الأجزاء من الكلام لنص الآسامية - عمل رائد في وسم الأجزاء من الكلام للغة الآسامية
  3. Pathak et al. (2022, 2023). طرق التعلم العميق لوسم الأجزاء من الكلام للغة الآسامية
  4. Phukan et al. (2023, 2024). أبحاث LSTM لوسم الأجزاء من الكلام للغة الآسامية

التقييم الإجمالي: هذه ورقة ذات أهمية رائدة كبيرة، وعلى الرغم من أن الطرق التقنية نسبياً تقليدية، إلا أنها أنشأت أول نظام لوسم الأجزاء من الكلام للغة ناجامية الفقيرة بالموارد، مما يتمتع بقيمة أكاديمية واجتماعية مهمة. تتسم منهجية البحث بالصرامة، وبناء البيانات منظم، مما يضع أساساً متيناً للأبحاث اللاحقة.