এই গবেষণা নিম্ন-সম্পদ ভাষা বোডো (বোডো ভাষা) এর উপর প্রাকৃতিক ভাষা প্রক্রিয়াকরণ গবেষণা পরিচালনা করে। যদিও পদ-বিভাগ চিহ্নিতকরণ, নামকৃত সত্তা স্বীকৃতি, যন্ত্র অনুবাদ এবং অন্যান্য এনএলপি কাজ উচ্চ-সম্পদ ভাষায় গভীরভাবে অধ্যয়ন করা হয়েছে, বোডো, মিজো, নাগামিজ এবং অন্যান্য নিম্ন-সম্পদ ভাষার গবেষণা এখনও প্রাথমিক পর্যায়ে রয়েছে। এই পেপারটি প্রথমে বোডোবার্ট ভাষা মডেল প্রস্তাব করে, যা বোডো ভাষার জন্য প্রথম পূর্ব-প্রশিক্ষিত ভাষা মডেল। দ্বিতীয়ত, বাইএলএসটিএম-সিআরএফ আর্কিটেকচার এবং বোডোবার্ট ও বাইটপেয়ার এমবেডিংসের স্তরযুক্ত এমবেডিং এর উপর ভিত্তি করে, একটি সমন্বিত গভীর শিক্ষা পিওএস চিহ্নিতকরণ মডেল তৈরি করা হয়েছে। সর্বোত্তম মডেল বোডো ভাষার পিওএস চিহ্নিতকরণ কাজে ০.৮০৪১ এর এফ১ স্কোর অর্জন করেছে।
১. মূল সমস্যা: বোডো ভাষা ভারতের উত্তর-পূর্বাঞ্চলের একটি গুরুত্বপূর্ণ ভাষা (১.৫ মিলিয়ন ব্যবহারকারী, ভারতের ২০তম বৃহত্তম ভাষা), যা মৌলিক এনএলপি সরঞ্জাম এবং সম্পদের অভাব রয়েছে ২. প্রযুক্তিগত চ্যালেঞ্জ:
১. প্রথম বোডো ভাষা মডেল: বার্ট আর্কিটেকচারের উপর ভিত্তি করে বোডোবার্ট প্রস্তাব করা হয়েছে, যা বোডো ভাষার জন্য প্রথম বিশেষভাবে প্রশিক্ষিত পূর্ব-প্রশিক্ষিত ভাষা মডেল २. বহু-আর্কিটেকচার পিওএস চিহ্নিতকরণকারী তুলনা: সিআরএফ, ফাইন-টিউনিং, বাইএলএসটিএম-সিআরএফ তিনটি ক্রম চিহ্নিতকরণ আর্কিটেকচার সিস্টেমেটিকভাবে তুলনা করা হয়েছে ३. বহু-ভাষা মডেল কর্মক্ষমতা বিশ্লেষণ: ফাস্টটেক্সট, বিপিই, এক্সএলএম-আর, ফ্লেয়ারএমবেডিং, ইন্ডিকবার্ট, মুরিল এবং অন্যান্য বহু ভাষা মডেল বোডো পিওএস চিহ্নিতকরণ কাজে মূল্যায়ন করা হয়েছে ४. স্তরযুক্ত এমবেডিং পদ্ধতি: ব্যক্তিগত এবং স্তরযুক্ত দুটি এমবেডিং পদ্ধতি প্রস্তাব করা হয়েছে, স্তরযুক্ত পদ্ধতি উল্লেখযোগ্যভাবে কর্মক্ষমতা উন্নত করে ५. ওপেন-সোর্স সম্পদ: সর্বোত্তম পিওএস চিহ্নিতকরণ মডেল এবং বোডোবার্ট মডেল জনসাধারণের জন্য প্রকাশ করা হয়েছে
ইনপুট: বোডো ভাষার বাক্য ক্রম আউটপুট: প্রতিটি শব্দের সংশ্লিষ্ট পিওএস লেবেল (বিআইএস লেবেল সেটের ৩৪টি লেবেলের উপর ভিত্তি করে) সীমাবদ্ধতা: দেবনাগরী লিপি ব্যবহার করা, ভারতীয় ভাষা মান মেনে চলা (বিআইএস ট্যাগসেট)
१. সিআরএফ মডেল: বোডোবার্ট এমবেডিং + সিআরএফ স্তর ব্যবহার করা २. ফাইন-টিউনিং মডেল: পিওএস চিহ্নিতকরণের জন্য সরাসরি বোডোবার্ট মাইক্রো-টিউন করা ३. বাইএলএসটিএম-সিআরএফ মডেল: বোডোবার্ট এমবেডিং + বাইএলএসটিএম + সিআরএফ স্তর
१. ব্যক্তিগত পদ্ধতি: বিভিন্ন ভাষা মডেল আলাদাভাবে ব্যবহার করা २. স্তরযুক্ত পদ্ধতি: বোডোবার্টকে অন্যান্য ভাষা মডেলের সাথে স্তরযুক্ত করা
१. ভাষা অভিযোজনযোগ্যতা: বোডো ভাষার বৈশিষ্ট্যের জন্য ডিজাইন করা প্রথম বিশেষ ভাষা মডেল २. বহু-মডেল সংমিশ্রণ: বিভিন্ন পূর্ব-প্রশিক্ষিত মডেলের সিস্টেমেটিক তুলনা এবং সংমিশ্রণ ३. ক্রস-ভাষা স্থানান্তর: একই লিপি সিস্টেম (দেবনাগরী) এর হিন্দি মডেল থেকে জ্ঞান স্থানান্তর ব্যবহার করা ४. স্তরযুক্ত কৌশল: উদ্ভাবনীভাবে বিশেষ ভাষা মডেলকে সাধারণ মডেলের সাথে একত্রিত করা
| মডেল | প্রশিক্ষণ কর্পাস | ডেটা পরিমাণ |
|---|---|---|
| ফাস্টটেক্সট | উইকি | <२९এম |
| বাইটপেয়ার | উইকি | २९এম |
| বোডোবার্ট | বোডো কর্পাস | १.६এম |
| ফ্লেয়ারএমবেডিংস | উইকি+ওপাস | ≈२९এম |
| মুরিল | কমনক্রল+উইকি | ७८८এম |
| এক্সএলএম-আর | সিসি-१०० | १.७বি |
| ইন্ডিকবার্ট | স্ক্র্যাপিং | १.८४বি |
| এমবেডিং পদ্ধতি | চিহ্নিতকরণ মডেল | এফ१-স্কোর(মাইক্রো) | এফ१-স্কোর(ওয়েটেড) |
|---|---|---|---|
| বোডোবার্ট | সিআরএফ | ०.७५८३ | ०.७४५४ |
| বোডোবার্ট | ফাইন-টিউনড বার्ट | ०.७७५४ | ०.७७७५ |
| বোডোবার্ট | বাইএলএসটিএম + সিআরএফ | ०.७९४९ | ०.७८९८ |
| এমবেডিং মডেল | বোডো এফ१ | অসমীয়া এফ१ |
|---|---|---|
| ফাস্টটেক্সট | ०.७६८६ | ०.६९८१ |
| বাইটপেয়ার | ०.७६६९ | ०.७०९९ |
| বোডোবার্ট | ०.७९४९ | ०.७०३३ |
| ফ্লেয়ারএমবেডিংস | ०.७८८५ | ०.७०७६ |
| মুরিল | ०.७७०८ | ०.७२८६ |
| এক्सএলএম-आर | ०.७६३८ | ०.७००१ |
| ইন্ডিকবার्ट | ०.७२३५ | ०.७२९३ |
| স্তরযুক্ত এমবেডিং সমন্বয় | এফ१ স্কোর |
|---|---|
| বোডোবার्ट + ফাস্টটেক্সট | ०.७९२८ |
| বোডোবার्ट + বাইটপেয়ার | ०.८०४१ |
| বোডোবার्ट + এমবার्ट | ०.७९९० |
| বোডোবার्ट + ফ্লেয়ারএমবেডিংস | ०.८०१० |
| বোডোবার्ट + মুরিল | ०.७८५० |
| বোডোবার्ट + এক्सএলএम-आर | ०.८००३ |
| বোডোবार्ट + ইন्डिकबर्ट | ०.७९३० |
१०कে স্বয়ংক্রিয় চিহ্নিত + মানব সংশোধিত বাক্য যোগ করার মাধ্যমে:
সর্বোত্তম মডেলের প্রধান পিওএস লেবেলে কর্মক্ষমতা:
বিভ্রান্তি ম্যাট্রিক্সের মাধ্যমে আবিষ্কৃত প্রধান ত্রুটি প্যাটার্ন: १. শ্রেণী-অভ্যন্তরীণ বিভ্রান্তি: সাধারণ বিশেষ্য (এন_এনএন) এবং যথাযথ বিশেষ্য (এন_এনএনপি), স্থান বিশেষ্য (এন_এনএসটি) २. শব্দ-বিভাগ রূপান্তর: বিশেষ্য যখন বিশেষণ হিসাবে ব্যবহৃত হয় তখন চিহ্নিতকরণ কঠিনতা ३. লিপি সিস্টেম সীমাবদ্ধতা: বোডো ইংরেজি বড় অক্ষরের মতো যথাযথ বিশেষ্য সনাক্তকারী অভাব
বোডো বনাম অসমীয়া পিওএস চিহ্নিতকরণ ফলাফল তুলনা:
१. প্রথমত্ব: বোডো ভাষার প্রথম স্নায়ু নেটওয়ার্ক পিওএস চিহ্নিতকরণকারী २. সিস্টেমেটিকতা: বিভিন্ন আর্কিটেকচার এবং ভাষা মডেলের সম্পূর্ণ তুলনা ३. ব্যবহারিকতা: ওপেন-সোর্স মডেল এবং সরঞ্জাম প্রদান করা
१. বোডোবার्ट কার্যকারিতা: বিশেষ ভাষা মডেল ডাউনস্ট্রিম কাজে সর্বোত্তম কর্মক্ষমতা প্রদর্শন করে २. আর্কিটেকচার সুবিধা: বাইএলএসটিএম-সিআরএফ আর্কিটেকচার সিআরএফ এবং ফাইন-টিউনিং এর চেয়ে উন্নত ३. স্তরযুক্ত কৌশল কার্যকর: সমন্বিত এমবেডিং একক এমবেডিং এর চেয়ে ভাল কর্মক্ষমতা প্রদান করে ४. বেসলাইন প্রতিষ্ঠা: বোডো ভাষা এনএলপি গবেষণার জন্য গুরুত্বপূর্ণ বেসলাইন প্রতিষ্ঠা করা হয়েছে
१. ডেটা আকার: চিহ্নিত কর্পাস তুলনামূলকভাবে ছোট (३०কে বাক্য) २. ভাষা মডেল প্রশিক্ষণ ডেটা: বোডোবার्ट প্রশিক্ষণ কর্পাস শুধুমাত্র १.६এম টোকেন ३. কর্মক্ষমতা স্তর: উচ্চ-সম্পদ ভাষার তুলনায় এখনও ব্যবধান রয়েছে (এফ१=०.८०४१ বনাম ९०%+) ४. চিহ্নিতকরণ গুণমান: কিছু চিহ্নিতকরণ আরও সংশোধনের প্রয়োজন হতে পারে
१. কর্পাস সম্প্রসারণ: আরও বোডো ভাষা পাঠ্য এবং চিহ্নিত ডেটা সংগ্রহ করা २. মডেল উন্নতি: বোডোবার्ट আর্কিটেকচার এবং প্রশিক্ষণ কৌশল অপটিমাইজ করা ३. ডাউনস্ট্রিম কাজ: এনইআর, বাক্য বিশ্লেষণ এবং অন্যান্য এনএলপি কাজে সম্প্রসারণ করা ४. বহু-ভাষা মডেলিং: সম্পর্কিত ভাষার সাথে যৌথ মডেলিং অন্বেষণ করা
१. যুগান্তকারী অবদান: বোডো ভাষার জন্য প্রথমবার ভাষা মডেল এবং পিওএস চিহ্নিতকরণকারী তৈরি করা, গুরুত্বপূর্ণ শূন্যতা পূরণ করা २. সিস্টেমেটিক গবেষণা: বিভিন্ন পদ্ধতির সম্পূর্ণ তুলনা, যুক্তিসঙ্গত এবং সম্পূর্ণ পরীক্ষামূলক ডিজাইন ३. প্রযুক্তিগত উদ্ভাবন: স্তরযুক্ত এমবেডিং কৌশল কার্যকরভাবে কর্মক্ষমতা উন্নত করে ४. ব্যবহারিক মূল্য: মডেল ওপেন-সোর্স প্রকাশ করা, সম্প্রদায়ের জন্য মৌলিক সরঞ্জাম প্রদান করা ५. ক্রস-ভাষা অন্তর্দৃষ্টি: অসমীয়ার সাথে তুলনার মাধ্যমে মূল্যবান ক্রস-ভাষা বিশ্লেষণ প্রদান করা
१. ডেটা সীমাবদ্ধতা: প্রশিক্ষণ ডেটা আকার তুলনামূলকভাবে ছোট, মডেল সাধারণীকরণ ক্ষমতা প্রভাবিত করতে পারে २. মূল্যায়ন সীমাবদ্ধতা: ঐতিহ্যবাহী পদ্ধতির সাথে অনুপস্থিত তুলনা (যেমন এইচএমএম, নিয়ম-ভিত্তিক পদ্ধতি) ३. ত্রুটি বিশ্লেষণ গভীরতা: মডেল ব্যর্থতার ক্ষেত্রে ভাষাগত বিশ্লেষণ যথেষ্ট গভীর নয় ४. গণনা সম্পদ: মডেল প্রশিক্ষণ খরচ বেশি, পুনরুৎপাদনযোগ্যতা সীমিত করতে পারে
१. একাডেমিক মূল্য: নিম্ন-সম্পদ ভাষা এনএলপি গবেষণার জন্য গুরুত্বপূর্ণ প্যারাডাইম প্রদান করা २. ব্যবহারিক তাৎপর্য: বোডো ভাষা সম্প্রদায়ের প্রকৃত চাহিদা সরাসরি পূরণ করা ३. পদ্ধতি স্থানান্তর: স্তরযুক্ত এমবেডিং কৌশল অন্যান্য নিম্ন-সম্পদ ভাষায় প্রয়োগ করা যায় ४. অবকাঠামো ভিত্তি: পরবর্তী বোডো ভাষা এনএলপি গবেষণার জন্য ভিত্তি স্থাপন করা
१. সরাসরি প্রয়োগ: বোডো ভাষা পাঠ্য প্রক্রিয়াকরণ, তথ্য নিষ্কাশন २. গবেষণা ভিত্তি: বোডো ভাষার অন্যান্য এনএলপি কাজের প্রাক-প্রক্রিয়াকরণ পদক্ষেপ ३. পদ্ধতি স্থানান্তর: অনুরূপ নিম্ন-সম্পদ ভাষার পিওএস চিহ্নিতকরণ কাজ ४. বহু-ভাষা সিস্টেম: ভারত উত্তর-পূর্বাঞ্চলের বহু-ভাষা এনএলপি সিস্টেমের উপাদান
এই পেপারটি সমৃদ্ধ সম্পর্কিত কাজ উদ্ধৃত করে, প্রধানত অন্তর্ভুক্ত:
সামগ্রিক মূল্যায়ন: এটি নিম্ন-সম্পদ ভাষা এনএলপি গবেষণার একটি উচ্চ-মানের পেপার, যা পদ্ধতি উদ্ভাবন, পরীক্ষামূলক ডিজাইন এবং ব্যবহারিক মূল্যে গুরুত্বপূর্ণ অবদান রাখে। যদিও ডেটা আকার দ্বারা সীমাবদ্ধ, এটি বোডো ভাষা এনএলপি গবেষণার জন্য নতুন দিকনির্দেশনা খুলে দেয় এবং উল্লেখযোগ্য একাডেমিক এবং সামাজিক মূল্য রাখে।