2025-11-21T04:13:15.591642

Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise

Harada, Yoshida, Kojima et al.
The performance of Large Language Models (LLMs) is highly sensitive to the prompts they are given. Drawing inspiration from the field of prompt optimization, this study investigates the potential for enhancing Automated Essay Scoring (AES) by refining the scoring rubrics used by LLMs. Specifically, our approach prompts models to iteratively refine rubrics by reflecting on models' own scoring rationales and observed discrepancies with human scores on sample essays. Experiments on the TOEFL11 and ASAP datasets using GPT-4.1, Gemini-2.5-Pro, and Qwen-3-Next-80B-A3B-Instruct show Quadratic Weighted Kappa (QWK) improvements of up to 0.19 and 0.47, respectively. Notably, even with a simple initial rubric, our approach achieves comparable or better QWK than using detailed human-authored rubrics. Our findings highlight the importance of iterative rubric refinement in LLM-based AES to enhance alignment with human evaluations.
academic

ভাষা মডেলের জন্য প্রতিফলন-এবং-সংশোধন এর মাধ্যমে প্রবন্ধ স্কোরিং রুব্রিক্সের স্বয়ংক্রিয় পরিমার্জন

মৌলিক তথ্য

  • প্রবন্ধ আইডি: 2510.09030
  • শিরোনাম: Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise
  • লেখক: কেনো হারাডা, লুই ইয়োশিডা, তাকেশি কোজিমা, ইউসুকে ইওয়াসাওয়া, ইউতাকা মাৎসুও (টোকিও বিশ্ববিদ্যালয়)
  • শ্রেণীবিভাগ: cs.CL (কম্পিউটেশনাল ভাষাবিজ্ঞান)
  • প্রকাশনা সময়: ২০২৫ সালের ১০ অক্টোবর (arXiv প্রিপ্রিন্ট)
  • প্রবন্ধ লিঙ্ক: https://arxiv.org/abs/2510.09030

সারসংক্ষেপ

বৃহৎ ভাষা মডেল (LLMs) এর কর্মক্ষমতা প্রদত্ত প্রম্পটের প্রতি অত্যন্ত সংবেদনশীল। এই গবেষণা প্রম্পট অপ্টিমাইজেশন ক্ষেত্র দ্বারা অনুপ্রাণিত হয়ে, স্বয়ংক্রিয় প্রবন্ধ স্কোরিং (AES) উন্নত করার জন্য LLMs দ্বারা ব্যবহৃত স্কোরিং রুব্রিক্স উন্নত করার সম্ভাবনা অন্বেষণ করে। নির্দিষ্টভাবে, এই পদ্ধতিটি মডেলকে তার নিজস্ব স্কোরিং যুক্তি এবং মানব স্কোরিং এর সাথে পার্থক্য প্রতিফলিত করতে দিয়ে, স্কোরিং রুব্রিক্স পুনরাবৃত্তিমূলকভাবে উন্নত করার জন্য মডেলকে প্রম্পট করে। TOEFL11 এবং ASAP ডেটাসেটে GPT-4.1, Gemini-2.5-Pro এবং Qwen-3-Next-80B-A3B-Instruct ব্যবহার করে পরীক্ষা-নিরীক্ষা দেখায় যে দ্বিতীয় ওজনযুক্ত কাপা (QWK) যথাক্রমে সর্বোচ্চ ০.১৯ এবং ০.৪৭ দ্বারা উন্নত হয়েছে। উল্লেখযোগ্যভাবে, সহজ প্রাথমিক রুব্রিক্স ব্যবহার করলেও, এই পদ্ধতিটি বিস্তারিত মানব-লিখিত মান ব্যবহার করার সাথে সমান বা উন্নত QWK অর্জন করতে পারে। গবেষণার ফলাফল LLM-ভিত্তিক AES-এ মানব মূল্যায়নের সাথে সামঞ্জস্য বৃদ্ধির জন্য পুনরাবৃত্তিমূলক রুব্রিক্স উন্নতির গুরুত্ব তুলে ধরে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

১. মূল সমস্যা: ঐতিহ্যবাহী LLM স্বয়ংক্রিয় প্রবন্ধ স্কোরিং সিস্টেম স্থির, পূর্বনির্ধারিত স্কোরিং রুব্রিক্স ব্যবহার করে যা মানব স্কোরারদের জন্য ডিজাইন করা হয়েছে কিন্তু LLMs এর জন্য সর্বোত্তম নয়। ২. গুরুত্ব: শিক্ষা ক্ষেত্রে LLM এর ব্যাপক প্রয়োগের সাথে, শিক্ষকদের স্কোরিং বোঝা কমাতে রিয়েল-টাইম, স্কেলেবল প্রতিক্রিয়া প্রদান করতে সক্ষম AES সিস্টেমের প্রয়োজন। ३. বিদ্যমান সীমাবদ্ধতা:

  • বর্তমান LLM-ভিত্তিক AES মানব স্কোরারদের সহযোগিতামূলক ক্যালিব্রেশন প্রক্রিয়া উপেক্ষা করে
  • মানব স্কোরাররা সাধারণত নমুনা প্রবন্ধ স্কোর করে, বিচারের পার্থক্য নিয়ে আলোচনা করে এবং মানদণ্ডের প্রতি তাদের সাধারণ বোঝাপড়া উন্নত করে
  • এই পুনরাবৃত্তিমূলক প্রতিফলন অনুশীলন বর্তমান LLM-ভিত্তিক AES-এ উপেক্ষা করা হয়, যা মানব স্কোরিং প্যাটার্নের সাথে এর সামঞ্জস্য সীমাবদ্ধ করে

গবেষণা প্রেরণা

প্রম্পট অপ্টিমাইজেশন কৌশল এবং মানব স্কোরারদের ক্যালিব্রেশন প্রক্রিয়া দ্বারা অনুপ্রাণিত হয়ে, লেখকরা একটি পুনরাবৃত্তিমূলক উন্নতি পদ্ধতি প্রস্তাব করেছেন যা LLMs কে নমুনা প্রবন্ধে তাদের স্কোরিং কর্মক্ষমতার উপর ভিত্তি করে স্কোরিং রুব্রিক্স প্রতিফলিত এবং উন্নত করতে সক্ষম করে।

মূল অবদান

১. পুনরাবৃত্তিমূলক রুব্রিক্স উন্নতি পদ্ধতি প্রস্তাব: প্রতিফলন-সংশোধন প্রক্রিয়ার উপর ভিত্তি করে, LLMs কে মানব স্কোরিং এর সাথে পার্থক্যের উপর ভিত্তি করে স্বয়ংক্রিয়ভাবে স্কোরিং রুব্রিক্স উন্নত করতে সক্ষম করে २. পদ্ধতির কার্যকারিতা যাচাই: দুটি মান ডেটাসেটে তিনটি ভিন্ন LLM ব্যবহার করে উল্লেখযোগ্য কর্মক্ষমতা উন্নতি প্রমাণ করে ३. রুব্রিক্স ডিজাইনে নতুন অন্তর্দৃষ্টি আবিষ্কার: সবচেয়ে সহজ মান থেকে শুরু করেও, উন্নত রুব্রিক্স সাবধানে ডিজাইন করা মানব মান অতিক্রম করতে পারে ४. ব্যবহারিক অ্যালগরিদম ফ্রেমওয়ার্ক প্রদান: সম্পূর্ণ পুনরাবৃত্তিমূলক উন্নতি অ্যালগরিদম প্রদান করে যা ভাল পুনরুৎপাদনযোগ্যতা সহ

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

  • ইনপুট: প্রবন্ধ পাঠ x এবং স্কোরিং রুব্রিক্স R
  • আউটপুট: পূর্বাভাসিত স্কোর ŷ এবং স্কোরিং যুক্তি z
  • লক্ষ্য: LLM স্কোর এবং মানব স্কোরের মধ্যে দ্বিতীয় ওজনযুক্ত কাপা (QWK) সর্বাধিক করা

মডেল আর্কিটেকচার

অ্যালগরিদম প্রবাহ

পদ্ধতিটি নিম্নলিখিত মূল উপাদান অন্তর্ভুক্ত করে:

१. স্কোরিং ফাংশন: মডেল M রুব্রিক্স এবং প্রবন্ধ গ্রহণ করে, পূর্বাভাসিত স্কোর এবং পাঠ্য যুক্তি তৈরি করে २. উন্নতি ফাংশন: M পূর্ববর্তী রুব্রিক্স, উত্পন্ন যুক্তি এবং স্কোরিং পার্থক্যের উপর ভিত্তি করে উন্নত রুব্রিক্স তৈরি করে

পুনরাবৃত্তিমূলক উন্নতি অ্যালগরিদম (অ্যালগরিদম ১)

ইনপুট: ডেটাসেট D, ভাষা মডেল M, প্রাথমিক রুব্রিক্স Rseed
প্যারামিটার: পুনরাবৃত্তি সংখ্যা T, ব্যাচ আকার b

१. Rbest ← Rinit
२. QWKbest ← EVALUATE(M, Rbest, Dval)
३. for t = १ to T do
४.   B ← SAMPLEMINIBATCH(Dtrain, b)
५.   FbData ← ∅
६.   for each (x, y) ∈ B do
७.     (ŷ, z) ← SCORE(M, Rbest, x)
८.     Add (rationale=z, pred_score=ŷ, true_score=y) to FbData
९.   end for
१०.  Rnew ← REFINE(M, Rbest, FbData)
११.  QWKnew ← EVALUATE(M, Rnew, Dval)
१२.  if QWKnew > QWKbest then
१३.    Rbest ← Rnew
१४.    QWKbest ← QWKnew
१५.  end if
१६. end for
१७. return Rbest

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. স্ব-প্রতিফলন প্রক্রিয়া: মডেল তার নিজস্ব স্কোরিং যুক্তি এবং মানব স্কোরিং এর সাথে পার্থক্য বিশ্লেষণ করতে পারে २. পুনরাবৃত্তিমূলক অপ্টিমাইজেশন: একাধিক রাউন্ড উন্নতির মাধ্যমে ধাপে ধাপে রুব্রিক্স গুণমান উন্নত করে ३. ন্যূনতম প্রাথমিক প্রয়োজনীয়তা: অত্যন্ত সহজ মান থেকে শুরু করতে পারে (যেমন "উত্তরের বিষয়বস্তুর উপর ভিত্তি করে, ১-৬ স্কেলে স্কোর করুন") ४. কর্মক্ষমতা-চালিত আপডেট: শুধুমাত্র যখন নতুন রুব্রিক্স যাচাইকরণ সেটে আরও ভাল পারফর্ম করে তখনই আপডেট হয়

পরীক্ষা-নিরীক্ষা সেটআপ

ডেটাসেট

TOEFL11 ডেটাসেট

  • স্কেল: ১२,१००টি প্রবন্ধ, ८টি প্রবন্ধ প্রম্পট
  • স্কোরিং: ३টি দক্ষতা স্তর (উচ্চ, মধ্য, নিম্ন), মূল ५-পয়েন্ট স্কেল থেকে রূপান্তরিত
  • বিভাজন: প্রশিক্ষণ সেট १००টি, যাচাইকরণ সেট १००টি, পরীক্ষা সেট १,१००টি

ASAP ডেটাসেট

  • ব্যবহৃত সাবসেট: প্রম্পট १ (P१), ६-পয়েন্ট স্কেল স্কোরিং
  • বিভাজন: পরীক্ষা সেট १७९টি (१०%), প্রশিক্ষণ এবং যাচাইকরণ সেট প্রতিটি १००টি
  • বৈশিষ্ট্য: দুটি মানব স্কোরারের মন্তব্য অন্তর্ভুক্ত

মূল্যায়ন মেট্রিক্স

  • প্রধান মেট্রিক: দ্বিতীয় ওজনযুক্ত কাপা (QWK), AES মূল্যায়নে ব্যাপকভাবে ব্যবহৃত মেট্রিক
  • পরিসংখ্যান পদ্ধতি: প্রতিটি পরীক্ষা ३ বার চালানো হয়, গড় এবং মান বিচ্যুতি রিপোর্ট করা হয়

তুলনামূলক পদ্ধতি

  • বেসলাইন পদ্ধতি: মানব-লিখিত বিস্তারিত স্কোরিং রুব্রিক্স ব্যবহার করে
  • বীজ রুব্রিক্স প্রকার:
    • simplest_rubric: সবচেয়ে সহজ রুব্রিক্স
    • human_rubric: অফিসিয়াল বিস্তারিত স্কোরিং গাইড
    • simplified_human_rubric: সরলীকৃত মানব রুব্রিক্স

বাস্তবায়ন বিবরণ

  • পুনরাবৃত্তি সংখ্যা: T = १०
  • ব্যাচ আকার: B = १०
  • মডেল: GPT-4.1, GPT-5-mini, Gemini-2.5-Flash, Gemini-2.5-Pro, Qwen3-Next-80B-A3B-Instruct
  • তাপমাত্রা সেটিং: বিভিন্ন মডেল অনুযায়ী সামঞ্জস্য করা (०.७-१.०)

পরীক্ষা-নিরীক্ষার ফলাফল

প্রধান ফলাফল

QWK উন্নতির পরিমাণ

  • ASAP ডেটাসেট: সর্বোচ্চ ०.४७ QWK উন্নতি
  • TOEFL11 ডেটাসেট: সর্বোচ্চ ०.१९ QWK উন্নতি
  • মডেল কর্মক্ষমতা: ५টি মডেলের মধ্যে, ४টি ASAP-এ উন্নতি দেখিয়েছে, २টি TOEFL११-এ উন্নতি দেখিয়েছে

বিভিন্ন প্রাথমিক রুব্রিক্সের কর্মক্ষমতা (টেবিল १)

প্রাথমিক রুব্রিক্সASAPTOEFL
উন্নত-মানব রুব্রিক্স०.४६०.५६
উন্নত-সরলীকৃত রুব্রিক্স०.४१०.५८
উন্নত-সবচেয়ে সহজ রুব্রিক্স०.४८०.६४
অ-উন্নত-মানব রুব্রিক্স०.२६०.५८
অ-উন্নত-সরলীকৃত রুব্রিক্স०.३३०.५९
অ-উন্নত-সবচেয়ে সহজ রুব্রিক্স०.१७०.५७

মূল আবিষ্কার

१. সবচেয়ে সহজ রুব্রিক্সের সম্ভাবনা: সবচেয়ে সহজ রুব্রিক্স "উত্তরের বিষয়বস্তুর উপর ভিত্তি করে, १-६ স্কেলে স্কোর করুন" থেকে শুরু করে, উন্নত রুব্রিক্স সাবধানে তৈরি মানব রুব্রিক্স অতিক্রম করতে পারে

२. উন্নত রুব্রিক্সের বৈশিষ্ট্য:

  • ভিজ্যুয়াল জোর যোগ করা (যেমন সাহসী) মূল প্রমাণ হাইলাইট করতে
  • রুব্রিক্সের শেষে সংক্ষিপ্ত সারসংক্ষেপ টেবিল যোগ করা
  • স্পষ্ট শর্তসাপেক্ষ নিয়ম: "যদি X পর্যবেক্ষণ করা হয়, তাহলে স্কোর s দিন"

३. ডেটাসেট পার্থক্য: TOEFL११ মোটা-দানাদার তিন-স্তরের স্কোরিং (নিম্ন/মধ্য/উচ্চ) ব্যবহার করে, সামগ্রিক QWK মান বেশি, যা উন্নতির স্থান সীমাবদ্ধ করতে পারে

কেস বিশ্লেষণ

চিত্র ३ সবচেয়ে সহজ রুব্রিক্স থেকে উন্নত ASAP P१ রুব্রিক্স প্রদর্শন করে, যা অন্তর্ভুক্ত করে:

  • বিস্তারিত স্কোরিং নির্দেশনা নীতি
  • ४ এবং ५ স্কোরের মধ্যে পার্থক্যের নির্দিষ্ট ব্যাখ্যা
  • কাঠামোগত স্কোরিং সারসংক্ষেপ টেবিল
  • স্পষ্ট শর্তসাপেক্ষ বিচার নিয়ম

সম্পর্কিত কাজ

প্রধান গবেষণা দিকনির্দেশনা

१. LLM স্বয়ংক্রিয় মূল্যায়ন: চেকলিস্ট এবং মান ব্যবহার করে অ-যাচাইকৃত কাজ মূল্যায়ন २. AES প্রযুক্তি উন্নয়ন: বিভিন্ন স্বয়ংক্রিয় প্রবন্ধ স্কোরিং প্রযুক্তির প্রস্তাব ३. রুব্রিক্স ডিজাইন গবেষণা:

  • ফুরুহাশি এবং অন্যরা "নেতিবাচক আইটেম" ঘটনা আবিষ্কার করেছেন
  • ইয়োশিডা আবিষ্কার করেছেন যে আরও বিস্তারিত রুব্রিক্স সর্বদা কর্মক্ষমতা উন্নতি নিয়ে আসে না

এই প্রবন্ধের সুবিধা

বিদ্যমান গবেষণার তুলনায়, এই প্রবন্ধ প্রথমবারের মতো LLM কে তাদের নিজস্ব আউটপুট প্রতিফলিত করতে এবং রুব্রিক্স পুনরাবৃত্তিমূলকভাবে উন্নত করতে দেওয়ার পদ্ধতি প্রস্তাব করে, যা মানব স্কোরারদের ক্যালিব্রেশন প্রক্রিয়া অনুকরণ করে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. পুনরাবৃত্তিমূলক রুব্রিক্স উন্নতি কার্যকর: একাধিক ডেটাসেট এবং মডেলে পদ্ধতির কার্যকারিতা যাচাই করা হয়েছে २. প্রাথমিক রুব্রিক্স গুরুত্বপূর্ণ নয়: এমনকি অত্যন্ত সহজ রুব্রিক্স থেকে শুরু করেও চমৎকার কর্মক্ষমতা অর্জন করা যায় ३. স্বয়ংক্রিয়করণ সম্ভব: LLMs স্বাধীনভাবে প্রাসঙ্গিক মূল্যায়ন মান চিহ্নিত করতে পারে

সীমাবদ্ধতা

१. ডেটাসেট পরিসীমা সীমিত: শুধুমাত্র TOEFL११ এবং ASAP প্রম্পট १-এ পরীক্ষা-নিরীক্ষা পরিচালিত २. মন্তব্যকৃত ডেটা প্রয়োজনীয়তা: উন্নতি প্রক্রিয়া २००টি মন্তব্যকৃত নমুনা প্রয়োজন ३. মূল্যায়ন মেট্রিক একক: শুধুমাত্র QWK কে অপ্টিমাইজেশন লক্ষ্য হিসাবে ব্যবহার করা হয়, যা স্কোরিং গুণমানের সমস্ত দিক ক্যাপচার করতে পারে না ४. উচ্চ বেসলাইন সীমাবদ্ধতা: ইতিমধ্যে উচ্চ বেসলাইন স্কোর সহ ডেটাসেটে উন্নতির স্থান সীমিত

ভবিষ্যত দিকনির্দেশনা

१. আরও প্রবন্ধ প্রকার এবং ডোমেনে সম্প্রসারণ २. মন্তব্যকৃত ডেটা প্রয়োজনীয়তা হ্রাস করার পদ্ধতি অন্বেষণ ३. বহু-মেট্রিক অপ্টিমাইজেশন কৌশল গবেষণা ४. LLM-প্রযোজ্য মানদণ্ডের বৈশিষ্ট্য গভীরভাবে বোঝা

গভীর মূল্যায়ন

সুবিধা

१. পদ্ধতি উদ্ভাবনী শক্তিশালী:

  • প্রথমবারের মতো প্রম্পট অপ্টিমাইজেশন ধারণা AES রুব্রিক্স উন্নতিতে প্রয়োগ করা হয়েছে
  • মানব স্কোরারদের ক্যালিব্রেশন প্রক্রিয়া অনুকরণ করে, অত্যন্ত স্বজ্ঞাত যুক্তিসঙ্গততা সহ
  • অ্যালগরিদম ডিজাইন সহজ এবং কার্যকর

२. পরীক্ষা-নিরীক্ষা ডিজাইন পর্যাপ্ত:

  • একাধিক মডেল এবং ডেটাসেট ব্যবহার করে যাচাইকরণ
  • বিভিন্ন প্রাথমিক রুব্রিক্সের তুলনা অন্তর্ভুক্ত
  • সম্পূর্ণ পরিসংখ্যান তাৎপর্য বিশ্লেষণ

३. ফলাফল প্রভাবশালী শক্তিশালী:

  • উল্লেখযোগ্য কর্মক্ষমতা উন্নতি (সর্বোচ্চ ०.४७ QWK)
  • সবচেয়ে সহজ রুব্রিক্স মানব রুব্রিক্স অতিক্রম করার আবিষ্কার অত্যন্ত গুরুত্বপূর্ণ
  • নির্দিষ্ট উন্নত রুব্রিক্স উদাহরণ প্রদান করা হয়েছে

४. ব্যবহারিক মূল্য উচ্চ:

  • অ্যালগরিদম বাস্তবায়ন এবং পুনরুৎপাদন সহজ
  • মানব-লিখিত মান খরচ হ্রাস করতে পারে
  • AES সিস্টেম অপ্টিমাইজেশনের জন্য নতুন চিন্তাভাবনা প্রদান করে

অপূর্ণতা

१. পরীক্ষা-নিরীক্ষা পরিসীমা সীমিত:

  • শুধুমাত্র দুটি ডেটাসেট পরীক্ষা করা হয়েছে, সাধারণীকরণ যাচাই করা প্রয়োজন
  • বিভিন্ন ভাষা এবং সাংস্কৃতিক পটভূমির যাচাইকরণ অনুপস্থিত
  • বিভিন্ন প্রবন্ধ প্রকারের পার্থক্য বিবেচনা করা হয়নি

२. তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত:

  • এই পদ্ধতি কেন কার্যকর তার গভীর তাত্ত্বিক বিশ্লেষণ অনুপস্থিত
  • উন্নত রুব্রিক্সের অভ্যন্তরীণ বৈশিষ্ট্য এবং নিয়ম অন্বেষণ করা হয়নি
  • সংগ্রহ এবং স্থিতিশীলতার জন্য তাত্ত্বিক গ্যারান্টি অনুপস্থিত

३. খরচ বিশ্লেষণ অনুপস্থিত:

  • গণনা খরচ এবং সময় ওভারহেড বিস্তারিত বিশ্লেষণ অনুপস্থিত
  • ঐতিহ্যবাহী পদ্ধতির সাথে খরচ-সুবিধা তুলনা অনুপস্থিত
  • বাস্তব স্থাপনার সম্ভাব্যতা বিশ্লেষণ অপর্যাপ্ত

প্রভাব

१. একাডেমিক অবদান:

  • AES ক্ষেত্রে নতুন গবেষণা দিকনির্দেশনা প্রদান করে
  • মূল্যায়ন কাজে LLM স্ব-উন্নতি ক্ষমতার সম্ভাবনা প্রমাণ করে
  • আরও স্ব-অভিযোজিত মূল্যায়ন সিস্টেম গবেষণা অনুপ্রাণিত করতে পারে

२. ব্যবহারিক মূল্য:

  • বিদ্যমান LLM-ভিত্তিক AES সিস্টেমে সরাসরি প্রয়োগ করা যায়
  • শিক্ষা প্রযুক্তি কোম্পানিগুলিকে পণ্য উন্নত করতে সাহায্য করে
  • শিক্ষা মূল্যায়ন মানদণ্ডকরণের জন্য নতুন সরঞ্জাম প্রদান করে

३. পুনরুৎপাদনযোগ্যতা:

  • সম্পূর্ণ অ্যালগরিদম বর্ণনা প্রদান করা হয়েছে
  • বিস্তারিত পরীক্ষা-নিরীক্ষা সেটআপ অন্তর্ভুক্ত
  • কোড এবং ডেটা প্রাপ্যতা ভাল

প্রযোজ্য দৃশ্যকল্প

१. শিক্ষা মূল্যায়ন: বিভিন্ন মানদণ্ডকৃত পরীক্ষার প্রবন্ধ স্কোরিং २. অনলাইন শিক্ষা: MOOC প্ল্যাটফর্মের অ্যাসাইনমেন্ট স্বয়ংক্রিয় স্কোরিং ३. ভাষা শিক্ষা: দ্বিতীয় ভাষা লেখার দক্ষতা মূল্যায়ন ४. এন্টারপ্রাইজ প্রশিক্ষণ: কর্মচারী লেখার দক্ষতা মূল্যায়ন

সংদর্ভ

প্রবন্ধটি একাধিক গুরুত্বপূর্ণ সম্পর্কিত কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

  • প্রম্পট অপ্টিমাইজেশন সম্পর্কিত: খাত্তাব এবং অন্যরা (२०२३), আগ্রওয়াল এবং অন্যরা (२०२५)
  • AES সম্পর্কিত: মিজুমোটো এবং এগুচি (२०२३), লি এবং অন্যরা (२०२४)
  • মানব স্কোরার ক্যালিব্রেশন: ট্রেস এবং অন্যরা (२०१६), ওয়াইয়াং এবং অন্যরা (२०२२)
  • LLM স্ব-উন্নতি: মাদান এবং অন্যরা (२०२३), কামোই এবং অন্যরা (२०२४)

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা প্রবন্ধ যা উদ্ভাবনী পদ্ধতি প্রস্তাব করে এবং উল্লেখযোগ্য পরীক্ষা-নিরীক্ষার ফলাফল অর্জন করে। যদিও পরীক্ষা-নিরীক্ষা পরিসীমা এবং তাত্ত্বিক বিশ্লেষণে উন্নতির অবকাশ রয়েছে, তবে এর মূল ধারণা অত্যন্ত ব্যবহারিক মূল্য এবং একাডেমিক তাৎপর্য রাখে, এবং AES ক্ষেত্রের উন্নয়নে গুরুত্বপূর্ণ অবদান রাখে।