বৃহৎ ভাষা মডেল (LLMs) এর কর্মক্ষমতা প্রদত্ত প্রম্পটের প্রতি অত্যন্ত সংবেদনশীল। এই গবেষণা প্রম্পট অপ্টিমাইজেশন ক্ষেত্র দ্বারা অনুপ্রাণিত হয়ে, স্বয়ংক্রিয় প্রবন্ধ স্কোরিং (AES) উন্নত করার জন্য LLMs দ্বারা ব্যবহৃত স্কোরিং রুব্রিক্স উন্নত করার সম্ভাবনা অন্বেষণ করে। নির্দিষ্টভাবে, এই পদ্ধতিটি মডেলকে তার নিজস্ব স্কোরিং যুক্তি এবং মানব স্কোরিং এর সাথে পার্থক্য প্রতিফলিত করতে দিয়ে, স্কোরিং রুব্রিক্স পুনরাবৃত্তিমূলকভাবে উন্নত করার জন্য মডেলকে প্রম্পট করে। TOEFL11 এবং ASAP ডেটাসেটে GPT-4.1, Gemini-2.5-Pro এবং Qwen-3-Next-80B-A3B-Instruct ব্যবহার করে পরীক্ষা-নিরীক্ষা দেখায় যে দ্বিতীয় ওজনযুক্ত কাপা (QWK) যথাক্রমে সর্বোচ্চ ০.১৯ এবং ০.৪৭ দ্বারা উন্নত হয়েছে। উল্লেখযোগ্যভাবে, সহজ প্রাথমিক রুব্রিক্স ব্যবহার করলেও, এই পদ্ধতিটি বিস্তারিত মানব-লিখিত মান ব্যবহার করার সাথে সমান বা উন্নত QWK অর্জন করতে পারে। গবেষণার ফলাফল LLM-ভিত্তিক AES-এ মানব মূল্যায়নের সাথে সামঞ্জস্য বৃদ্ধির জন্য পুনরাবৃত্তিমূলক রুব্রিক্স উন্নতির গুরুত্ব তুলে ধরে।
১. মূল সমস্যা: ঐতিহ্যবাহী LLM স্বয়ংক্রিয় প্রবন্ধ স্কোরিং সিস্টেম স্থির, পূর্বনির্ধারিত স্কোরিং রুব্রিক্স ব্যবহার করে যা মানব স্কোরারদের জন্য ডিজাইন করা হয়েছে কিন্তু LLMs এর জন্য সর্বোত্তম নয়। ২. গুরুত্ব: শিক্ষা ক্ষেত্রে LLM এর ব্যাপক প্রয়োগের সাথে, শিক্ষকদের স্কোরিং বোঝা কমাতে রিয়েল-টাইম, স্কেলেবল প্রতিক্রিয়া প্রদান করতে সক্ষম AES সিস্টেমের প্রয়োজন। ३. বিদ্যমান সীমাবদ্ধতা:
প্রম্পট অপ্টিমাইজেশন কৌশল এবং মানব স্কোরারদের ক্যালিব্রেশন প্রক্রিয়া দ্বারা অনুপ্রাণিত হয়ে, লেখকরা একটি পুনরাবৃত্তিমূলক উন্নতি পদ্ধতি প্রস্তাব করেছেন যা LLMs কে নমুনা প্রবন্ধে তাদের স্কোরিং কর্মক্ষমতার উপর ভিত্তি করে স্কোরিং রুব্রিক্স প্রতিফলিত এবং উন্নত করতে সক্ষম করে।
১. পুনরাবৃত্তিমূলক রুব্রিক্স উন্নতি পদ্ধতি প্রস্তাব: প্রতিফলন-সংশোধন প্রক্রিয়ার উপর ভিত্তি করে, LLMs কে মানব স্কোরিং এর সাথে পার্থক্যের উপর ভিত্তি করে স্বয়ংক্রিয়ভাবে স্কোরিং রুব্রিক্স উন্নত করতে সক্ষম করে २. পদ্ধতির কার্যকারিতা যাচাই: দুটি মান ডেটাসেটে তিনটি ভিন্ন LLM ব্যবহার করে উল্লেখযোগ্য কর্মক্ষমতা উন্নতি প্রমাণ করে ३. রুব্রিক্স ডিজাইনে নতুন অন্তর্দৃষ্টি আবিষ্কার: সবচেয়ে সহজ মান থেকে শুরু করেও, উন্নত রুব্রিক্স সাবধানে ডিজাইন করা মানব মান অতিক্রম করতে পারে ४. ব্যবহারিক অ্যালগরিদম ফ্রেমওয়ার্ক প্রদান: সম্পূর্ণ পুনরাবৃত্তিমূলক উন্নতি অ্যালগরিদম প্রদান করে যা ভাল পুনরুৎপাদনযোগ্যতা সহ
পদ্ধতিটি নিম্নলিখিত মূল উপাদান অন্তর্ভুক্ত করে:
१. স্কোরিং ফাংশন: মডেল M রুব্রিক্স এবং প্রবন্ধ গ্রহণ করে, পূর্বাভাসিত স্কোর এবং পাঠ্য যুক্তি তৈরি করে २. উন্নতি ফাংশন: M পূর্ববর্তী রুব্রিক্স, উত্পন্ন যুক্তি এবং স্কোরিং পার্থক্যের উপর ভিত্তি করে উন্নত রুব্রিক্স তৈরি করে
ইনপুট: ডেটাসেট D, ভাষা মডেল M, প্রাথমিক রুব্রিক্স Rseed
প্যারামিটার: পুনরাবৃত্তি সংখ্যা T, ব্যাচ আকার b
१. Rbest ← Rinit
२. QWKbest ← EVALUATE(M, Rbest, Dval)
३. for t = १ to T do
४. B ← SAMPLEMINIBATCH(Dtrain, b)
५. FbData ← ∅
६. for each (x, y) ∈ B do
७. (ŷ, z) ← SCORE(M, Rbest, x)
८. Add (rationale=z, pred_score=ŷ, true_score=y) to FbData
९. end for
१०. Rnew ← REFINE(M, Rbest, FbData)
११. QWKnew ← EVALUATE(M, Rnew, Dval)
१२. if QWKnew > QWKbest then
१३. Rbest ← Rnew
१४. QWKbest ← QWKnew
१५. end if
१६. end for
१७. return Rbest
१. স্ব-প্রতিফলন প্রক্রিয়া: মডেল তার নিজস্ব স্কোরিং যুক্তি এবং মানব স্কোরিং এর সাথে পার্থক্য বিশ্লেষণ করতে পারে २. পুনরাবৃত্তিমূলক অপ্টিমাইজেশন: একাধিক রাউন্ড উন্নতির মাধ্যমে ধাপে ধাপে রুব্রিক্স গুণমান উন্নত করে ३. ন্যূনতম প্রাথমিক প্রয়োজনীয়তা: অত্যন্ত সহজ মান থেকে শুরু করতে পারে (যেমন "উত্তরের বিষয়বস্তুর উপর ভিত্তি করে, ১-৬ স্কেলে স্কোর করুন") ४. কর্মক্ষমতা-চালিত আপডেট: শুধুমাত্র যখন নতুন রুব্রিক্স যাচাইকরণ সেটে আরও ভাল পারফর্ম করে তখনই আপডেট হয়
simplest_rubric: সবচেয়ে সহজ রুব্রিক্সhuman_rubric: অফিসিয়াল বিস্তারিত স্কোরিং গাইডsimplified_human_rubric: সরলীকৃত মানব রুব্রিক্স| প্রাথমিক রুব্রিক্স | ASAP | TOEFL |
|---|---|---|
| উন্নত-মানব রুব্রিক্স | ०.४६ | ०.५६ |
| উন্নত-সরলীকৃত রুব্রিক্স | ०.४१ | ०.५८ |
| উন্নত-সবচেয়ে সহজ রুব্রিক্স | ०.४८ | ०.६४ |
| অ-উন্নত-মানব রুব্রিক্স | ०.२६ | ०.५८ |
| অ-উন্নত-সরলীকৃত রুব্রিক্স | ०.३३ | ०.५९ |
| অ-উন্নত-সবচেয়ে সহজ রুব্রিক্স | ०.१७ | ०.५७ |
१. সবচেয়ে সহজ রুব্রিক্সের সম্ভাবনা: সবচেয়ে সহজ রুব্রিক্স "উত্তরের বিষয়বস্তুর উপর ভিত্তি করে, १-६ স্কেলে স্কোর করুন" থেকে শুরু করে, উন্নত রুব্রিক্স সাবধানে তৈরি মানব রুব্রিক্স অতিক্রম করতে পারে
२. উন্নত রুব্রিক্সের বৈশিষ্ট্য:
३. ডেটাসেট পার্থক্য: TOEFL११ মোটা-দানাদার তিন-স্তরের স্কোরিং (নিম্ন/মধ্য/উচ্চ) ব্যবহার করে, সামগ্রিক QWK মান বেশি, যা উন্নতির স্থান সীমাবদ্ধ করতে পারে
চিত্র ३ সবচেয়ে সহজ রুব্রিক্স থেকে উন্নত ASAP P१ রুব্রিক্স প্রদর্শন করে, যা অন্তর্ভুক্ত করে:
१. LLM স্বয়ংক্রিয় মূল্যায়ন: চেকলিস্ট এবং মান ব্যবহার করে অ-যাচাইকৃত কাজ মূল্যায়ন २. AES প্রযুক্তি উন্নয়ন: বিভিন্ন স্বয়ংক্রিয় প্রবন্ধ স্কোরিং প্রযুক্তির প্রস্তাব ३. রুব্রিক্স ডিজাইন গবেষণা:
বিদ্যমান গবেষণার তুলনায়, এই প্রবন্ধ প্রথমবারের মতো LLM কে তাদের নিজস্ব আউটপুট প্রতিফলিত করতে এবং রুব্রিক্স পুনরাবৃত্তিমূলকভাবে উন্নত করতে দেওয়ার পদ্ধতি প্রস্তাব করে, যা মানব স্কোরারদের ক্যালিব্রেশন প্রক্রিয়া অনুকরণ করে।
१. পুনরাবৃত্তিমূলক রুব্রিক্স উন্নতি কার্যকর: একাধিক ডেটাসেট এবং মডেলে পদ্ধতির কার্যকারিতা যাচাই করা হয়েছে २. প্রাথমিক রুব্রিক্স গুরুত্বপূর্ণ নয়: এমনকি অত্যন্ত সহজ রুব্রিক্স থেকে শুরু করেও চমৎকার কর্মক্ষমতা অর্জন করা যায় ३. স্বয়ংক্রিয়করণ সম্ভব: LLMs স্বাধীনভাবে প্রাসঙ্গিক মূল্যায়ন মান চিহ্নিত করতে পারে
१. ডেটাসেট পরিসীমা সীমিত: শুধুমাত্র TOEFL११ এবং ASAP প্রম্পট १-এ পরীক্ষা-নিরীক্ষা পরিচালিত २. মন্তব্যকৃত ডেটা প্রয়োজনীয়তা: উন্নতি প্রক্রিয়া २००টি মন্তব্যকৃত নমুনা প্রয়োজন ३. মূল্যায়ন মেট্রিক একক: শুধুমাত্র QWK কে অপ্টিমাইজেশন লক্ষ্য হিসাবে ব্যবহার করা হয়, যা স্কোরিং গুণমানের সমস্ত দিক ক্যাপচার করতে পারে না ४. উচ্চ বেসলাইন সীমাবদ্ধতা: ইতিমধ্যে উচ্চ বেসলাইন স্কোর সহ ডেটাসেটে উন্নতির স্থান সীমিত
१. আরও প্রবন্ধ প্রকার এবং ডোমেনে সম্প্রসারণ २. মন্তব্যকৃত ডেটা প্রয়োজনীয়তা হ্রাস করার পদ্ধতি অন্বেষণ ३. বহু-মেট্রিক অপ্টিমাইজেশন কৌশল গবেষণা ४. LLM-প্রযোজ্য মানদণ্ডের বৈশিষ্ট্য গভীরভাবে বোঝা
१. পদ্ধতি উদ্ভাবনী শক্তিশালী:
२. পরীক্ষা-নিরীক্ষা ডিজাইন পর্যাপ্ত:
३. ফলাফল প্রভাবশালী শক্তিশালী:
४. ব্যবহারিক মূল্য উচ্চ:
१. পরীক্ষা-নিরীক্ষা পরিসীমা সীমিত:
२. তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত:
३. খরচ বিশ্লেষণ অনুপস্থিত:
१. একাডেমিক অবদান:
२. ব্যবহারিক মূল্য:
३. পুনরুৎপাদনযোগ্যতা:
१. শিক্ষা মূল্যায়ন: বিভিন্ন মানদণ্ডকৃত পরীক্ষার প্রবন্ধ স্কোরিং २. অনলাইন শিক্ষা: MOOC প্ল্যাটফর্মের অ্যাসাইনমেন্ট স্বয়ংক্রিয় স্কোরিং ३. ভাষা শিক্ষা: দ্বিতীয় ভাষা লেখার দক্ষতা মূল্যায়ন ४. এন্টারপ্রাইজ প্রশিক্ষণ: কর্মচারী লেখার দক্ষতা মূল্যায়ন
প্রবন্ধটি একাধিক গুরুত্বপূর্ণ সম্পর্কিত কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা প্রবন্ধ যা উদ্ভাবনী পদ্ধতি প্রস্তাব করে এবং উল্লেখযোগ্য পরীক্ষা-নিরীক্ষার ফলাফল অর্জন করে। যদিও পরীক্ষা-নিরীক্ষা পরিসীমা এবং তাত্ত্বিক বিশ্লেষণে উন্নতির অবকাশ রয়েছে, তবে এর মূল ধারণা অত্যন্ত ব্যবহারিক মূল্য এবং একাডেমিক তাৎপর্য রাখে, এবং AES ক্ষেত্রের উন্নয়নে গুরুত্বপূর্ণ অবদান রাখে।