পাঠ্য প্রাক-প্রক্রিয়াকরণ প্রাকৃতিক ভাষা প্রক্রিয়াকরণের একটি মৌলিক উপাদান, যা স্টপওয়ার্ড অপসারণ, স্টেমিং এবং লেমাটাইজেশন প্রযুক্তি জড়িত, যা পরবর্তী প্রক্রিয়াকরণ এবং বিশ্লেষণের জন্য পাঠ্য ইনপুট প্রস্তুত করতে ব্যবহৃত হয়। যদিও এই কৌশলগুলি প্রসঙ্গ-নির্ভর, ঐতিহ্যবাহী পদ্ধতিগুলি সাধারণত প্রসঙ্গ তথ্য উপেক্ষা করে। এই গবেষণা বৃহৎ ভাষা মডেল (LLMs) ব্যবহার করে বিভিন্ন প্রাক-প্রক্রিয়াকরণ কাজ সম্পাদনের ধারণা অনুসন্ধান করে, কারণ তারা বিস্তৃত ভাষা-নির্দিষ্ট টীকাযুক্ত সম্পদ ছাড়াই প্রসঙ্গ বিবেচনা করতে পারে। ওয়েব ডেটার একটি ব্যাপক মূল্যায়নের মাধ্যমে, আমরা ছয়টি ইউরোপীয় ভাষায় একাধিক পাঠ্য শ্রেণীবিভাগ কাজে LLM-ভিত্তিক প্রাক-প্রক্রিয়াকরণ ঐতিহ্যবাহী অ্যালগরিদমের সাথে তুলনা করি। বিশ্লেষণ দেখায় যে LLMs ঐতিহ্যবাহী স্টপওয়ার্ড অপসারণ, লেমাটাইজেশন এবং স্টেমিং পদ্ধতি প্রতিলিপি করতে পারে যথাক্রমে ৯৭%, ৮২% এবং ৭৪% নির্ভুলতার সাথে। অধিকন্তু, LLM প্রাক-প্রক্রিয়াকৃত পাঠ্যে প্রশিক্ষিত ML অ্যালগরিদম ঐতিহ্যবাহী কৌশলের তুলনায় F1 মেট্রিকে সর্বোচ্চ ৬% উন্নতি অর্জন করে।
পাঠ্য প্রাক-প্রক্রিয়াকরণ NLP পাইপলাইনে একটি গুরুত্বপূর্ণ পদক্ষেপ, যা স্টপওয়ার্ড অপসারণ, স্টেমিং এবং লেমাটাইজেশন অপারেশন অন্তর্ভুক্ত করে। এই অপারেশনগুলির উদ্দেশ্য হল পাঠ্য স্ট্যান্ডার্ডাইজ করা, গণনামূলক খরচ হ্রাস করা এবং শব্দ এবং অপ্রাসঙ্গিক তথ্য হ্রাস করা।
১. প্রসঙ্গ সচেতনতার অভাব: ঐতিহ্যবাহী প্রাক-প্রক্রিয়াকরণ পদ্ধতি প্রধানত পূর্বনির্ধারিত স্টপওয়ার্ড তালিকা এবং নির্দিষ্ট স্টেমিং/লেমাটাইজেশন নিয়মের উপর নির্ভর করে, ডোমেইন-নির্দিষ্ট তথ্য এবং প্রসঙ্গ উপেক্ষা করে ২. শব্দের অংশ অস্পষ্টতা সমস্যা: উদাহরণস্বরূপ, "saw" শব্দটি, ক্রিয়া হিসাবে "see"-তে হ্রাস করা উচিত, বিশেষ্য হিসাবে "saw" বজায় রাখা উচিত ३. ডোমেইন সংবেদনশীলতা: একই শব্দ বিভিন্ন ডোমেইনে বিভিন্ন উপায়ে প্রক্রিয়া করা যেতে পারে, যেমন "leaves" উদ্ভিদবিজ্ঞান নথিতে "leaf"-এ হ্রাস করা উচিত, কর্মচারী ছুটির নথিতে "leave"-তে হ্রাস করা উচিত
LLMs শক্তিশালী ভাষা বোঝার ক্ষমতা রাখে, বিস্তৃত ভাষা-নির্দিষ্ট টীকাযুক্ত সম্পদের প্রয়োজন ছাড়াই ভাষাগত প্রসঙ্গ বিবেচনা করতে পারে। এই গবেষণা অনুমান করে যে LLMs ইনপুট নথি, প্রসঙ্গ এবং কাজের উপর ভিত্তি করে গতিশীলভাবে স্টপওয়ার্ড, শব্দ ফর্ম এবং স্টেম সনাক্ত করতে পারে।
१. প্রথম সিস্টেমেটিক মূল্যায়ন: পাঠ্য প্রাক-প্রক্রিয়াকরণ কাজে (স্টপওয়ার্ড অপসারণ, লেমাটাইজেশন, স্টেমিং) LLMs এর ক্ষমতার একটি ব্যাপক মূল্যায়ন २. বহুভাষিক বিশ্লেষণ: ছয়টি ইউরোপীয় ভাষায় (ইংরেজি, ফরাসি, জার্মান, ইতালিয়ান, পর্তুগিজ, স্প্যানিশ) পদ্ধতির কার্যকারিতা যাচাই করা ३. ডাউনস্ট্রিম কাজ মূল্যায়ন: LLM প্রাক-প্রক্রিয়াকরণ ঐতিহ্যবাহী পদ্ধতির তুলনায় পাঠ্য শ্রেণীবিভাগ কাজে কর্মক্ষমতা উন্নতি প্রমাণ করা ४. ওপেন সোর্স অবদান: কোড, প্রম্পট এবং পরীক্ষামূলক ফলাফল প্রকাশ করা, পুনরুৎপাদনযোগ্য গবেষণা প্রচার করা
এই গবেষণা তিনটি মূল প্রাক-প্রক্রিয়াকরণ কাজ সংজ্ঞায়িত করে:
গবেষণা প্রসঙ্গ-মধ্যে শেখার (in-context learning) পদ্ধতি গ্রহণ করে, LLMs প্রদান করে: १. কাজ বর্ণনা: প্রাক-প্রক্রিয়াকরণ অপারেশনের আনুষ্ঠানিক সংজ্ঞা २. উদাহরণ: কম সংখ্যক প্রাক-প্রক্রিয়াকরণ উদাহরণ ३. ইনপুট পাঠ্য: প্রক্রিয়া করার জন্য পাঠ্য ४. ভাষা তথ্য: পাঠ্যের ভাষা সনাক্তকরণ ५. কাজ প্রসঙ্গ: ডাউনস্ট্রিম কাজের নির্দিষ্ট তথ্য
বিভিন্ন প্রাক-প্রক্রিয়াকরণ কাজের জন্য বিশেষায়িত প্রম্পট টেমপ্লেট ডিজাইন করা হয়েছে:
স্টপওয়ার্ড অপসারণ উদাহরণ:
আপনি পাঠ্য থেকে স্টপওয়ার্ড অপসারণে বিশেষজ্ঞ। স্টপওয়ার্ড হল এমন শব্দ যা পাঠ্য প্রক্রিয়াকরণের জন্য প্রাসঙ্গিক নয়। [...] এই ক্ষেত্রে, প্রাসঙ্গিক কাজ হল একটি টুইটের অনুভূতি সনাক্ত করা (ইতিবাচক, নেতিবাচক বা নিরপেক্ষ)। এই কাজে, 'not' শব্দটি প্রায়শই স্টপওয়ার্ড হিসাবে বিবেচনা করা হয় না এবং এটি পাঠ্যে রাখা উচিত।
লেমাটাইজেশন উদাহরণ:
আপনি পাঠ্য লেমাটাইজেশনে বিশেষজ্ঞ। [...] লেমাটাইজেশন একটি বাক্যে একটি শব্দের উদ্দেশ্যমূলক শব্দের অংশ এবং অর্থ সঠিকভাবে সনাক্ত করার, সেই সাথে সেই বাক্যের চারপাশের বৃহত্তর প্রসঙ্গের উপর নির্ভর করে।
পাঁচটি ওপেন সোর্স SOTA LLMs মূল্যায়ন করা হয়েছে:
१. প্রসঙ্গ সংবেদনশীলতা: LLMs প্রায়শই ঐতিহ্যবাহীভাবে স্টপওয়ার্ড হিসাবে বিবেচিত নয় এমন শব্দভাণ্ডার অপসারণ করে, যা প্রসঙ্গ বোঝা স্টপওয়ার্ড নির্বাচনকে প্রভাবিত করে এই অনুমানকে সমর্থন করে २. স্টেমিং অসঙ্গতি: LLMs বিভিন্ন নথিতে একই শব্দভাণ্ডারের জন্য বিভিন্ন স্টেম তৈরি করতে পারে, যা অ-স্ট্যান্ডার্ডাইজড পাঠ্য প্রতিনিধিত্বের দিকে পরিচালিত করে ३. মডেল আকার প্রভাব: Gemma-3 যদিও অন্যান্য বড় মডেলের প্যারামিটারের প্রায় অর্ধেক, কর্মক্ষমতা প্রায়শই তুলনীয় বা বৃহত্তর মডেলকে অতিক্রম করে
१. প্রতিলিপি ক্ষমতা: LLMs কার্যকরভাবে ঐতিহ্যবাহী প্রাক-প্রক্রিয়াকরণ পদ্ধতি প্রতিলিপি করতে পারে, স্টপওয়ার্ড অপসারণ, লেমাটাইজেশন এবং স্টেমিংয়ের নির্ভুলতা যথাক্রমে ९७%, ८२% এবং ७४% २. কর্মক্ষমতা উন্নতি: LLM প্রাক-প্রক্রিয়াকৃত ML অ্যালগরিদম F1 মেট্রিকে সর্বোচ্চ ६% উন্নতি অর্জন করে ३. বহুভাষিক কার্যকারিতা: পদ্ধতি একাধিক ইউরোপীয় ভাষায় কার্যকারিতা প্রদর্শন করে
१. মূল্যায়ন সীমাবদ্ধতা: এমন ক্ষেত্রে থাকতে পারে যেখানে LLM ঐতিহ্যবাহী লাইব্রেরির চেয়ে উন্নত কিন্তু মূল্যায়ন মেট্রিক্স দ্বারা ক্যাপচার করা হয় না २. গণনামূলক খরচ: LLM প্রাক-প্রক্রিয়াকরণের গণনামূলক খরচ ঐতিহ্যবাহী পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে বেশি ३. প্রম্পট ইঞ্জিনিয়ারিং: ব্যাপক প্রম্পট ইঞ্জিনিয়ারিং পরিচালিত হয়নি, যা ফলাফল প্রভাবিত করতে পারে ४. স্টেমিং সামঞ্জস্য: LLMs স্টেমিংয়ে সামঞ্জস্যের অভাব, ডাউনস্ট্রিম কাজ কর্মক্ষমতা প্রভাবিত করে
१. গবেষণা নতুনত্ব: পাঠ্য প্রাক-প্রক্রিয়াকরণ কাজে LLMs এর ক্ষমতার প্রথম সিস্টেমেটিক মূল্যায়ন २. পরীক্ষামূলক ব্যাপকতা: একাধিক ভাষা, একাধিক কাজ এবং একাধিক মডেল জড়িত ব্যাপক মূল্যায়ন ३. ব্যবহারিক মূল্য: কম-সম্পদ ভাষার জন্য পাঠ্য প্রাক-প্রক্রিয়াকরণের জন্য নতুন সমাধান প্রদান করে ४. ওপেন সোর্স অবদান: সম্পূর্ণ কোড এবং ডেটা প্রদান করে, পুনরুৎপাদনযোগ্য গবেষণা প্রচার করে
१. তাত্ত্বিক বিশ্লেষণের অভাব: LLM প্রাক-প্রক্রিয়াকরণ প্রক্রিয়ার গভীর তাত্ত্বিক বিশ্লেষণের অভাব २. গণনামূলক দক্ষতা সমস্যা: গণনামূলক খরচ এবং কর্মক্ষমতা উন্নতির মধ্যে ট্রেড-অফ পর্যাপ্তভাবে আলোচনা করা হয়নি ३. প্রম্পট সংবেদনশীলতা: বিভিন্ন প্রম্পট কৌশল ফলাফলের উপর প্রভাব গভীরভাবে অন্বেষণ করা হয়নি ४. ত্রুটি বিশ্লেষণ অনুপস্থিত: LLM প্রাক-প্রক্রিয়াকরণ ত্রুটির ধরনের বিস্তারিত বিশ্লেষণের অভাব
१. একাডেমিক অবদান: NLP প্রাক-প্রক্রিয়াকরণ ক্ষেত্রে নতুন গবেষণা দিকনির্দেশনা প্রদান করে २. ব্যবহারিক মূল্য: বিশেষত সম্পূর্ণ প্রাক-প্রক্রিয়াকরণ সরঞ্জাম অভাবী কম-সম্পদ ভাষার জন্য উপযুক্ত ३. পদ্ধতি অনুপ্রেরণা: ঐতিহ্যবাহী NLP কাজে LLMs এর সম্ভাবনা প্রদর্শন করে
१. কম-সম্পদ ভাষা প্রক্রিয়াকরণ: উচ্চ-মানের লেমাটাইজার এবং স্টেমার অভাবী ভাষা २. ডোমেইন-নির্দিষ্ট প্রয়োগ: প্রসঙ্গ-সংবেদনশীল প্রাক-প্রক্রিয়াকরণ প্রয়োজনীয় নির্দিষ্ট ডোমেইন কাজ ३. বহুভাষিক সিস্টেম: একীভূত প্রাক-প্রক্রিয়াকরণ স্কিম প্রয়োজনীয় ক্রস-ভাষা প্রয়োগ
গবেষণাপত্র ৩७টি সম্পর্কিত সংদর্ভ উদ্ধৃত করে, যা LLMs, পাঠ্য প্রাক-প্রক্রিয়াকরণ, তথ্য পুনরুদ্ধার এবং বহুভাষিক NLP সহ মূল ক্ষেত্রের গুরুত্বপূর্ণ কাজ কভার করে, গবেষণার জন্য একটি দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।
সারসংক্ষেপ: এই গবেষণাপত্র পাঠ্য প্রাক-প্রক্রিয়াকরণে LLMs এর প্রয়োগ অন্বেষণে অগ্রণী, ব্যাপক বহুভাষিক পরীক্ষার মাধ্যমে প্রসঙ্গ-সচেতন প্রাক-প্রক্রিয়াকরণে LLMs এর সুবিধা প্রমাণ করে। উচ্চ গণনামূলক খরচের মতো সীমাবদ্ধতা থাকলেও, এটি কম-সম্পদ ভাষা এবং প্রসঙ্গ-সংবেদনশীল প্রাক-প্রক্রিয়াকরণ কাজের জন্য মূল্যবান সমাধান প্রদান করে।