2025-11-18T09:52:19.958339

Part-of-Speech Tagger for Bodo Language using Deep Learning approach

Pathak, Narzary, Nandi et al.
Language Processing systems such as Part-of-speech tagging, Named entity recognition, Machine translation, Speech recognition, and Language modeling (LM) are well-studied in high-resource languages. Nevertheless, research on these systems for several low-resource languages, including Bodo, Mizo, Nagamese, and others, is either yet to commence or is in its nascent stages. Language model plays a vital role in the downstream tasks of modern NLP. Extensive studies are carried out on LMs for high-resource languages. Nevertheless, languages such as Bodo, Rabha, and Mising continue to lack coverage. In this study, we first present BodoBERT, a language model for the Bodo language. To the best of our knowledge, this work is the first such effort to develop a language model for Bodo. Secondly, we present an ensemble DL-based POS tagging model for Bodo. The POS tagging model is based on combinations of BiLSTM with CRF and stacked embedding of BodoBERT with BytePairEmbeddings. We cover several language models in the experiment to see how well they work in POS tagging tasks. The best-performing model achieves an F1 score of 0.8041. A comparative experiment was also conducted on Assamese POS taggers, considering that the language is spoken in the same region as Bodo.
academic

বোডো ভাষার জন্য গভীর শিক্ষা পদ্ধতি ব্যবহার করে পদ-বিভাগ ট্যাগার

মৌলিক তথ্য

  • পেপার আইডি: 2401.03175
  • শিরোনাম: Part-of-Speech Tagger for Bodo Language using Deep Learning approach
  • লেখক: ধ্রুবজ্যোতি পাঠক, সঞ্জীব নার্জারি, সুকুমার নন্দী, বিদিশা সোম
  • প্রতিষ্ঠান: ভারতীয় প্রযুক্তি প্রতিষ্ঠান গুয়াহাটি, ভাষাগত বিজ্ঞান ও প্রযুক্তি কেন্দ্র
  • শ্রেণীবিভাগ: cs.CL cs.AI cs.LG
  • প্রকাশিত জার্নাল: Natural Language Engineering (গৃহীত)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2401.03175

সারসংক্ষেপ

এই গবেষণা নিম্ন-সম্পদ ভাষা বোডো (বোডো ভাষা) এর উপর প্রাকৃতিক ভাষা প্রক্রিয়াকরণ গবেষণা পরিচালনা করে। যদিও পদ-বিভাগ চিহ্নিতকরণ, নামকৃত সত্তা স্বীকৃতি, যন্ত্র অনুবাদ এবং অন্যান্য এনএলপি কাজ উচ্চ-সম্পদ ভাষায় গভীরভাবে অধ্যয়ন করা হয়েছে, বোডো, মিজো, নাগামিজ এবং অন্যান্য নিম্ন-সম্পদ ভাষার গবেষণা এখনও প্রাথমিক পর্যায়ে রয়েছে। এই পেপারটি প্রথমে বোডোবার্ট ভাষা মডেল প্রস্তাব করে, যা বোডো ভাষার জন্য প্রথম পূর্ব-প্রশিক্ষিত ভাষা মডেল। দ্বিতীয়ত, বাইএলএসটিএম-সিআরএফ আর্কিটেকচার এবং বোডোবার্ট ও বাইটপেয়ার এমবেডিংসের স্তরযুক্ত এমবেডিং এর উপর ভিত্তি করে, একটি সমন্বিত গভীর শিক্ষা পিওএস চিহ্নিতকরণ মডেল তৈরি করা হয়েছে। সর্বোত্তম মডেল বোডো ভাষার পিওএস চিহ্নিতকরণ কাজে ০.৮০৪১ এর এফ১ স্কোর অর্জন করেছে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যার সংজ্ঞা

১. মূল সমস্যা: বোডো ভাষা ভারতের উত্তর-পূর্বাঞ্চলের একটি গুরুত্বপূর্ণ ভাষা (১.৫ মিলিয়ন ব্যবহারকারী, ভারতের ২০তম বৃহত্তম ভাষা), যা মৌলিক এনএলপি সরঞ্জাম এবং সম্পদের অভাব রয়েছে ২. প্রযুক্তিগত চ্যালেঞ্জ:

  • বোডো ভাষা কভার করে এমন পূর্ব-প্রশিক্ষিত ভাষা মডেলের অভাব
  • চিহ্নিত ডেটা বিরল (শুধুমাত্র প্রায় ৩০কে বাক্যের চিহ্নিত কর্পাস)
  • ভাষার বৈশিষ্ট্য জটিল (তিব্বত-বার্মান ভাষা পরিবার, সমৃদ্ধ রূপবিজ্ঞান)

গুরুত্ব বিশ্লেষণ

  • ভাষার অবস্থান: বোডো ভারতের ২২টি সরকারী ভাষার একটি, বোডোল্যান্ড আঞ্চলিক অঞ্চলের সরকারী ভাষা
  • প্রয়োগের চাহিদা: ১.৫ মিলিয়ন ব্যবহারকারী সংশ্লিষ্ট এনএলপি সরঞ্জাম সহায়তার জরুরি প্রয়োজন
  • একাডেমিক মূল্য: নিম্ন-সম্পদ ভাষা এনএলপি গবেষণার শূন্যতা পূরণ করা

বিদ্যমান সীমাবদ্ধতা

  • মৌলিক এনএলপি কাজ (শব্দ বিশ্লেষণ, নির্ভরতা বাক্য বিশ্লেষণ, ভাষা সনাক্তকরণ ইত্যাদি) এখনও শুরু হয়নি
  • ব্যবহারযোগ্য পূর্ব-প্রশিক্ষিত ভাষা মডেল নেই
  • গভীর শিক্ষার উপর ভিত্তি করে ডাউনস্ট্রিম এনএলপি সরঞ্জামের অভাব

মূল অবদান

১. প্রথম বোডো ভাষা মডেল: বার্ট আর্কিটেকচারের উপর ভিত্তি করে বোডোবার্ট প্রস্তাব করা হয়েছে, যা বোডো ভাষার জন্য প্রথম বিশেষভাবে প্রশিক্ষিত পূর্ব-প্রশিক্ষিত ভাষা মডেল २. বহু-আর্কিটেকচার পিওএস চিহ্নিতকরণকারী তুলনা: সিআরএফ, ফাইন-টিউনিং, বাইএলএসটিএম-সিআরএফ তিনটি ক্রম চিহ্নিতকরণ আর্কিটেকচার সিস্টেমেটিকভাবে তুলনা করা হয়েছে ३. বহু-ভাষা মডেল কর্মক্ষমতা বিশ্লেষণ: ফাস্টটেক্সট, বিপিই, এক্সএলএম-আর, ফ্লেয়ারএমবেডিং, ইন্ডিকবার্ট, মুরিল এবং অন্যান্য বহু ভাষা মডেল বোডো পিওএস চিহ্নিতকরণ কাজে মূল্যায়ন করা হয়েছে ४. স্তরযুক্ত এমবেডিং পদ্ধতি: ব্যক্তিগত এবং স্তরযুক্ত দুটি এমবেডিং পদ্ধতি প্রস্তাব করা হয়েছে, স্তরযুক্ত পদ্ধতি উল্লেখযোগ্যভাবে কর্মক্ষমতা উন্নত করে ५. ওপেন-সোর্স সম্পদ: সর্বোত্তম পিওএস চিহ্নিতকরণ মডেল এবং বোডোবার্ট মডেল জনসাধারণের জন্য প্রকাশ করা হয়েছে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট: বোডো ভাষার বাক্য ক্রম আউটপুট: প্রতিটি শব্দের সংশ্লিষ্ট পিওএস লেবেল (বিআইএস লেবেল সেটের ৩৪টি লেবেলের উপর ভিত্তি করে) সীমাবদ্ধতা: দেবনাগরী লিপি ব্যবহার করা, ভারতীয় ভাষা মান মেনে চলা (বিআইএস ট্যাগসেট)

বোডোবার্ট ভাষা মডেল

কর্পাস নির্মাণ

  • ডেটা উৎস:
    • ভারতীয় ভাষার জন্য ভাষাগত ডেটা কনসোর্টিয়াম (এলডিসি-আইএল)
    • নার্জারি এট আল. (২০২২) এর কাজ
  • কর্পাস আকার: ১.৬এম টোকেন, ১৯১কে বাক্য
  • ডোমেইন কভারেজ: নান্দনিকতা, ব্যবসা, জনপ্রিয় মিডিয়া, প্রযুক্তি, সামাজিক বিজ্ঞান এবং অন্যান্য বহু-ডোমেইন

মডেল আর্কিটেকচার

  • মৌলিক আর্কিটেকচার: বহু-স্তরীয় দ্বিমুখী ট্রান্সফর্মার (বার্ট ফ্রেমওয়ার্কের উপর ভিত্তি করে)
  • মূল পরামিতি:
    • ৬টি ট্রান্সফর্মার ব্লক
    • লুকানো স্তরের মাত্রা: ৭৬৮
    • স্ব-মনোযোগ মাথার সংখ্যা: ৬
    • মোট পরামিতি: প্রায় ১০३এম
    • শব্দভাণ্ডার আকার: ৫০,০০০ (ওয়ার্ডপিস টোকেনাইজার)

প্রশিক্ষণ সেটিংস

  • হার্ডওয়্যার: এনভিডিয়া টেসলা পি১০০ জিপিইউ
  • প্রশিক্ষণ পদক্ষেপ: ৩০০কে ধাপ
  • ক্রম দৈর্ঘ্য: ১২८
  • ব্যাচ আকার: ৬४
  • অপটিমাইজার: অ্যাডাম (শিক্ষার হার ২ই-५, প্রথম ३০००ধাপে ওয়ার্ম-আপ)
  • প্রশিক্ষণ সময়: প্রায় ७ দিন

পিওএস চিহ্নিতকরণ মডেল আর্কিটেকচার

তিনটি ক্রম চিহ্নিতকরণ পদ্ধতি

१. সিআরএফ মডেল: বোডোবার্ট এমবেডিং + সিআরএফ স্তর ব্যবহার করা २. ফাইন-টিউনিং মডেল: পিওএস চিহ্নিতকরণের জন্য সরাসরি বোডোবার্ট মাইক্রো-টিউন করা ३. বাইএলএসটিএম-সিআরএফ মডেল: বোডোবার্ট এমবেডিং + বাইএলএসটিএম + সিআরএফ স্তর

এমবেডিং পদ্ধতি

१. ব্যক্তিগত পদ্ধতি: বিভিন্ন ভাষা মডেল আলাদাভাবে ব্যবহার করা २. স্তরযুক্ত পদ্ধতি: বোডোবার্টকে অন্যান্য ভাষা মডেলের সাথে স্তরযুক্ত করা

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. ভাষা অভিযোজনযোগ্যতা: বোডো ভাষার বৈশিষ্ট্যের জন্য ডিজাইন করা প্রথম বিশেষ ভাষা মডেল २. বহু-মডেল সংমিশ্রণ: বিভিন্ন পূর্ব-প্রশিক্ষিত মডেলের সিস্টেমেটিক তুলনা এবং সংমিশ্রণ ३. ক্রস-ভাষা স্থানান্তর: একই লিপি সিস্টেম (দেবনাগরী) এর হিন্দি মডেল থেকে জ্ঞান স্থানান্তর ব্যবহার করা ४. স্তরযুক্ত কৌশল: উদ্ভাবনীভাবে বিশেষ ভাষা মডেলকে সাধারণ মডেলের সাথে একত্রিত করা

পরীক্ষামূলক সেটআপ

ডেটাসেট

  • চিহ্নিত কর্পাস: বোডো মনোভাষিক পাঠ্য কর্পাস (আইএলসিআই-আইআই)
  • ডেটা আকার:
    • প্রশিক্ষণ সেট: ২४,००३ বাক্য, १९२কে টোকেন
    • যাচাইকরণ সেট: २,३२५ বাক্য, २३কে টোকেন
    • পরীক্ষা সেট: ३,१६१ বাক্য, २३কে টোকেন
  • লেবেল সিস্টেম: বিআইএস লেবেল সেট, ११টি শীর্ষ-স্তরের বিভাগ, ३४টি নির্দিষ্ট লেবেল
  • ডেটা ফর্ম্যাট: কোএনএলএল-२००३ ফর্ম্যাট

মূল্যায়ন মেট্রিক্স

  • প্রধান মেট্রিক: এফ१-স্কোর (মাইক্রো)
  • সহায়ক মেট্রিক্স: এফ१-স্কোর (ওয়েটেড), নির্ভুলতা, স্মরণ
  • লেবেল-স্তরের বিশ্লেষণ: প্রতিটি পিওএস লেবেলের বিস্তারিত কর্মক্ষমতা

তুলনামূলক পদ্ধতি

ভাষা মডেল তুলনা

মডেলপ্রশিক্ষণ কর্পাসডেটা পরিমাণ
ফাস্টটেক্সটউইকি<२९এম
বাইটপেয়ারউইকি२९এম
বোডোবার্টবোডো কর্পাস१.६এম
ফ্লেয়ারএমবেডিংসউইকি+ওপাস≈२९এম
মুরিলকমনক্রল+উইকি७८८এম
এক্সএলএম-আরসিসি-१००१.७বি
ইন্ডিকবার্টস্ক্র্যাপিং१.८४বি

আর্কিটেকচার তুলনা

  • সিআরএফ বনাম ফাইন-টিউনিং বনাম বাইএলএসটিএম-সিআরএফ
  • ব্যক্তিগত বনাম স্তরযুক্ত এমবেডিং পদ্ধতি

বাস্তবায়ন বিবরণ

  • ফ্রেমওয়ার্ক: ফ্লেয়ার ফ্রেমওয়ার্ক
  • ব্যাচ আকার: ३२
  • প্রাথমিক থামার কৌশল: যাচাইকরণ সেট কর্মক্ষমতা উন্নতি না হলে থামা
  • শিক্ষার হার সময়সূচী: শিক্ষার হার অ্যানিলিং

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

আর্কিটেকচার তুলনা

এমবেডিং পদ্ধতিচিহ্নিতকরণ মডেলএফ१-স্কোর(মাইক্রো)এফ१-স্কোর(ওয়েটেড)
বোডোবার্টসিআরএফ०.७५८३०.७४५४
বোডোবার্টফাইন-টিউনড বার्ट०.७७५४०.७७७५
বোডোবার্টবাইএলএসটিএম + সিআরএফ०.७९४९०.७८९८

ব্যক্তিগত পদ্ধতি ভাষা মডেল তুলনা

এমবেডিং মডেলবোডো এফ१অসমীয়া এফ१
ফাস্টটেক্সট०.७६८६०.६९८१
বাইটপেয়ার०.७६६९०.७०९९
বোডোবার্ট०.७९४९०.७०३३
ফ্লেয়ারএমবেডিংস०.७८८५०.७०७६
মুরিল०.७७०८०.७२८६
এক्सএলএম-आर०.७६३८०.७००१
ইন্ডিকবার्ट०.७२३५०.७२९३

স্তরযুক্ত পদ্ধতি ফলাফল

স্তরযুক্ত এমবেডিং সমন্বয়এফ१ স্কোর
বোডোবার्ट + ফাস্টটেক্সট०.७९२८
বোডোবার्ट + বাইটপেয়ার०.८०४१
বোডোবার्ट + এমবার्ट०.७९९०
বোডোবার्ट + ফ্লেয়ারএমবেডিংস०.८०१०
বোডোবার्ट + মুরিল०.७८५०
বোডোবার्ट + এক्सএলএम-आर०.८००३
বোডোবार्ट + ইন्डिकबर्ट०.७९३०

ডেটা বৃদ্ধি পরীক্ষা

१०कে স্বয়ংক্রিয় চিহ্নিত + মানব সংশোধিত বাক্য যোগ করার মাধ্যমে:

  • কর্মক্ষমতা উন্নতি: এফ१ ०.८०४१ থেকে ०.८४९४ এ উন্নীত (+१-२%)
  • মডেলের স্কেলেবিলিটি যাচাই করা হয়েছে

লেবেল-স্তরের বিশ্লেষণ

সর্বোত্তম মডেলের প্রধান পিওএস লেবেলে কর্মক্ষমতা:

  • ভি_ভিএম (ক্রিয়া): এফ१=०.९१५० (সর্বোচ্চ)
  • আরডি_পাঙ्क्ट (বিরাম চিহ্ন): এফ१=०.९९४४ (প্রায় নিখুঁত)
  • এন_এনএন (বিশেষ্য): এফ१=०.७६२८ (বৃহত্তম বিভাগ)
  • এন_এনএনপি (যথাযথ বিশেষ্য): এফ१=०.६९४६ (চিহ্নিত করা কঠিন)

ত্রুটি বিশ্লেষণ

বিভ্রান্তি ম্যাট্রিক্সের মাধ্যমে আবিষ্কৃত প্রধান ত্রুটি প্যাটার্ন: १. শ্রেণী-অভ্যন্তরীণ বিভ্রান্তি: সাধারণ বিশেষ্য (এন_এনএন) এবং যথাযথ বিশেষ্য (এন_এনএনপি), স্থান বিশেষ্য (এন_এনএসটি) २. শব্দ-বিভাগ রূপান্তর: বিশেষ্য যখন বিশেষণ হিসাবে ব্যবহৃত হয় তখন চিহ্নিতকরণ কঠিনতা ३. লিপি সিস্টেম সীমাবদ্ধতা: বোডো ইংরেজি বড় অক্ষরের মতো যথাযথ বিশেষ্য সনাক্তকারী অভাব

ক্রস-ভাষা তুলনা

বোডো বনাম অসমীয়া পিওএস চিহ্নিতকরণ ফলাফল তুলনা:

  • বোডো সর্বোচ্চ: ०.८०४१ (বোডোবার्ट+বাইটপেয়ার)
  • অসমীয়া সর্বোচ্চ: ०.७२९३ (ইন्डिকबर्ट)
  • পার্থক্যের কারণ: লেবেল সেট জটিলতা ভিন্ন (বোডো ३४ লেবেল বনাম অসমীয়া ४१ লেবেল)

সম্পর্কিত কাজ

নিম্ন-সম্পদ ভাষা পিওএস চিহ্নিতকরণ

  • অসমীয়া: পাঠক এট আল. (२०२२, २०२३) - বাইএলএসটিএম-সিআরএফ ८६.५२% এফ१ অর্জন করেছে
  • খাসি: ওয়ারজরি এট আল. (२०२१) - ९६.९८% নির্ভুলতা
  • বাংলা: আলাম এট আল. (२०१६) - ८६.०% নির্ভুলতা, কবির এট আল. (२०१६) - ९३.३३% নির্ভুলতা
  • মিজো: পান্ডে এট আল. (२०२२) - এলএসটিএম ८१.८६% নির্ভুলতা অর্জন করেছে

এই পেপারের সুবিধা

१. প্রথমত্ব: বোডো ভাষার প্রথম স্নায়ু নেটওয়ার্ক পিওএস চিহ্নিতকরণকারী २. সিস্টেমেটিকতা: বিভিন্ন আর্কিটেকচার এবং ভাষা মডেলের সম্পূর্ণ তুলনা ३. ব্যবহারিকতা: ওপেন-সোর্স মডেল এবং সরঞ্জাম প্রদান করা

উপসংহার এবং আলোচনা

প্রধান সিদ্ধান্ত

१. বোডোবার्ट কার্যকারিতা: বিশেষ ভাষা মডেল ডাউনস্ট্রিম কাজে সর্বোত্তম কর্মক্ষমতা প্রদর্শন করে २. আর্কিটেকচার সুবিধা: বাইএলএসটিএম-সিআরএফ আর্কিটেকচার সিআরএফ এবং ফাইন-টিউনিং এর চেয়ে উন্নত ३. স্তরযুক্ত কৌশল কার্যকর: সমন্বিত এমবেডিং একক এমবেডিং এর চেয়ে ভাল কর্মক্ষমতা প্রদান করে ४. বেসলাইন প্রতিষ্ঠা: বোডো ভাষা এনএলপি গবেষণার জন্য গুরুত্বপূর্ণ বেসলাইন প্রতিষ্ঠা করা হয়েছে

সীমাবদ্ধতা

१. ডেটা আকার: চিহ্নিত কর্পাস তুলনামূলকভাবে ছোট (३०কে বাক্য) २. ভাষা মডেল প্রশিক্ষণ ডেটা: বোডোবার्ट প্রশিক্ষণ কর্পাস শুধুমাত্র १.६এম টোকেন ३. কর্মক্ষমতা স্তর: উচ্চ-সম্পদ ভাষার তুলনায় এখনও ব্যবধান রয়েছে (এফ१=०.८०४१ বনাম ९०%+) ४. চিহ্নিতকরণ গুণমান: কিছু চিহ্নিতকরণ আরও সংশোধনের প্রয়োজন হতে পারে

ভবিষ্যত দিকনির্দেশনা

१. কর্পাস সম্প্রসারণ: আরও বোডো ভাষা পাঠ্য এবং চিহ্নিত ডেটা সংগ্রহ করা २. মডেল উন্নতি: বোডোবার्ट আর্কিটেকচার এবং প্রশিক্ষণ কৌশল অপটিমাইজ করা ३. ডাউনস্ট্রিম কাজ: এনইআর, বাক্য বিশ্লেষণ এবং অন্যান্য এনএলপি কাজে সম্প্রসারণ করা ४. বহু-ভাষা মডেলিং: সম্পর্কিত ভাষার সাথে যৌথ মডেলিং অন্বেষণ করা

গভীর মূল্যায়ন

শক্তি

१. যুগান্তকারী অবদান: বোডো ভাষার জন্য প্রথমবার ভাষা মডেল এবং পিওএস চিহ্নিতকরণকারী তৈরি করা, গুরুত্বপূর্ণ শূন্যতা পূরণ করা २. সিস্টেমেটিক গবেষণা: বিভিন্ন পদ্ধতির সম্পূর্ণ তুলনা, যুক্তিসঙ্গত এবং সম্পূর্ণ পরীক্ষামূলক ডিজাইন ३. প্রযুক্তিগত উদ্ভাবন: স্তরযুক্ত এমবেডিং কৌশল কার্যকরভাবে কর্মক্ষমতা উন্নত করে ४. ব্যবহারিক মূল্য: মডেল ওপেন-সোর্স প্রকাশ করা, সম্প্রদায়ের জন্য মৌলিক সরঞ্জাম প্রদান করা ५. ক্রস-ভাষা অন্তর্দৃষ্টি: অসমীয়ার সাথে তুলনার মাধ্যমে মূল্যবান ক্রস-ভাষা বিশ্লেষণ প্রদান করা

অপূর্ণতা

१. ডেটা সীমাবদ্ধতা: প্রশিক্ষণ ডেটা আকার তুলনামূলকভাবে ছোট, মডেল সাধারণীকরণ ক্ষমতা প্রভাবিত করতে পারে २. মূল্যায়ন সীমাবদ্ধতা: ঐতিহ্যবাহী পদ্ধতির সাথে অনুপস্থিত তুলনা (যেমন এইচএমএম, নিয়ম-ভিত্তিক পদ্ধতি) ३. ত্রুটি বিশ্লেষণ গভীরতা: মডেল ব্যর্থতার ক্ষেত্রে ভাষাগত বিশ্লেষণ যথেষ্ট গভীর নয় ४. গণনা সম্পদ: মডেল প্রশিক্ষণ খরচ বেশি, পুনরুৎপাদনযোগ্যতা সীমিত করতে পারে

প্রভাব

१. একাডেমিক মূল্য: নিম্ন-সম্পদ ভাষা এনএলপি গবেষণার জন্য গুরুত্বপূর্ণ প্যারাডাইম প্রদান করা २. ব্যবহারিক তাৎপর্য: বোডো ভাষা সম্প্রদায়ের প্রকৃত চাহিদা সরাসরি পূরণ করা ३. পদ্ধতি স্থানান্তর: স্তরযুক্ত এমবেডিং কৌশল অন্যান্য নিম্ন-সম্পদ ভাষায় প্রয়োগ করা যায় ४. অবকাঠামো ভিত্তি: পরবর্তী বোডো ভাষা এনএলপি গবেষণার জন্য ভিত্তি স্থাপন করা

প্রযোজ্য পরিস্থিতি

१. সরাসরি প্রয়োগ: বোডো ভাষা পাঠ্য প্রক্রিয়াকরণ, তথ্য নিষ্কাশন २. গবেষণা ভিত্তি: বোডো ভাষার অন্যান্য এনএলপি কাজের প্রাক-প্রক্রিয়াকরণ পদক্ষেপ ३. পদ্ধতি স্থানান্তর: অনুরূপ নিম্ন-সম্পদ ভাষার পিওএস চিহ্নিতকরণ কাজ ४. বহু-ভাষা সিস্টেম: ভারত উত্তর-পূর্বাঞ্চলের বহু-ভাষা এনএলপি সিস্টেমের উপাদান

তথ্যসূত্র

এই পেপারটি সমৃদ্ধ সম্পর্কিত কাজ উদ্ধৃত করে, প্রধানত অন্তর্ভুক্ত:

  • বার্ট সম্পর্কিত: ডেভলিন এট আল. (२०१८) - মূল বার্ট পেপার
  • ক্রম চিহ্নিতকরণ: হুয়াং এট আল. (२०१५) - বাইএলএসটিএম-সিআরএফ আর্কিটেকচার
  • নিম্ন-সম্পদ ভাষা: ভারতীয় স্থানীয় ভাষা এনএলপি গবেষণার একাধিক কাজ
  • ভাষা মডেল: বিভিন্ন পূর্ব-প্রশিক্ষিত মডেলের মূল পেপার

সামগ্রিক মূল্যায়ন: এটি নিম্ন-সম্পদ ভাষা এনএলপি গবেষণার একটি উচ্চ-মানের পেপার, যা পদ্ধতি উদ্ভাবন, পরীক্ষামূলক ডিজাইন এবং ব্যবহারিক মূল্যে গুরুত্বপূর্ণ অবদান রাখে। যদিও ডেটা আকার দ্বারা সীমাবদ্ধ, এটি বোডো ভাষা এনএলপি গবেষণার জন্য নতুন দিকনির্দেশনা খুলে দেয় এবং উল্লেখযোগ্য একাডেমিক এবং সামাজিক মূল্য রাখে।