يتناول هذا البحث معالجة اللغات الطبيعية للغة بودو (Bodo)، وهي لغة منخفضة الموارد. بينما تم إجراء أبحاث متقدمة حول مهام معالجة اللغات الطبيعية مثل وضع العلامات النحوية والتعرف على الكيانات المسماة والترجمة الآلية للغات عالية الموارد، فإن البحث عن لغات منخفضة الموارد مثل بودو وميزو وناجامي لا يزال في مراحله الأولى. تقدم هذه الورقة أولاً نموذج اللغة BodoBERT، وهو أول نموذج لغة مدرب مسبقاً متخصص للغة بودو. ثانياً، تم تطوير نموذج وضع العلامات النحوية المتكامل للتعلم العميق بناءً على معمارية BiLSTM-CRF والتضمينات المكدسة من BodoBERT و BytePairEmbeddings. حقق أفضل نموذج درجة F1 بقيمة 0.8041 في مهمة وضع العلامات النحوية للغة بودو.
الإدخال: تسلسل جمل باللغة بودو الإخراج: علامة نحوية لكل كلمة (بناءً على مجموعة علامات BIS التي تحتوي على 34 علامة) القيود: استخدام نص Devanagari، الامتثال للمعايير الهندية (مجموعة علامات BIS)
| النموذج | بيانات التدريب | حجم البيانات |
|---|---|---|
| FastText | Wiki | <29M |
| BytePair | Wiki | 29M |
| BodoBERT | مدونة بودو | 1.6M |
| FlairEmbeddings | Wiki+OPUS | ≈29M |
| MuRIL | CommonCrawl+Wiki | 788M |
| XLM-R | CC-100 | 1.7B |
| IndicBERT | الكشط | 1.84B |
| طريقة التضمين | نموذج الوضع | F1-score(Micro) | F1-score(Weighted) |
|---|---|---|---|
| BodoBERT | CRF | 0.7583 | 0.7454 |
| BodoBERT | BERT المضبوط | 0.7754 | 0.7775 |
| BodoBERT | BiLSTM + CRF | 0.7949 | 0.7898 |
| نموذج التضمين | F1 بودو | F1 أسامي |
|---|---|---|
| FastText | 0.7686 | 0.6981 |
| BytePair | 0.7669 | 0.7099 |
| BodoBERT | 0.7949 | 0.7033 |
| FlairEmbeddings | 0.7885 | 0.7076 |
| MuRIL | 0.7708 | 0.7286 |
| XLM-R | 0.7638 | 0.7001 |
| IndicBERT | 0.7235 | 0.7293 |
| مزيج التضمينات المكدسة | درجة F1 |
|---|---|
| BodoBERT + FastText | 0.7928 |
| BodoBERT + BytePair | 0.8041 |
| BodoBERT + mBERT | 0.799 |
| BodoBERT + FlairEmbeddings | 0.801 |
| BodoBERT + MuRIL | 0.785 |
| BodoBERT + XLM-R | 0.8003 |
| BodoBERT + IndicBERT | 0.793 |
من خلال إضافة 10 آلاف جملة مشروحة تلقائياً ومصححة يدوياً:
أداء أفضل نموذج على علامات POS الرئيسية:
أنماط الأخطاء الرئيسية المكتشفة من خلال مصفوفة الالتباس:
مقارنة نتائج وضع العلامات النحوية بودو مقابل أسامي:
تستشهد هذه الورقة بأعمال ذات صلة غنية، تشمل بشكل أساسي:
التقييم الشامل: هذه ورقة بحثية عالية الجودة في مجال معالجة اللغات الطبيعية للغات منخفضة الموارد، مع مساهمات مهمة في الابتكار المنهجي وتصميم التجارب والقيمة العملية. على الرغم من القيود المفروضة بحجم البيانات، فإنها تفتح اتجاهاً جديداً لأبحاث معالجة اللغات الطبيعية للغة بودو، وتتمتع بقيمة أكاديمية واجتماعية مهمة.