2025-11-21T04:13:15.591642

Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise

Harada, Yoshida, Kojima et al.

The performance of Large Language Models (LLMs) is highly sensitive to the prompts they are given. Drawing inspiration from the field of prompt optimization, this study investigates the potential for enhancing Automated Essay Scoring (AES) by refining the scoring rubrics used by LLMs. Specifically, our approach prompts models to iteratively refine rubrics by reflecting on models' own scoring rationales and observed discrepancies with human scores on sample essays. Experiments on the TOEFL11 and ASAP datasets using GPT-4.1, Gemini-2.5-Pro, and Qwen-3-Next-80B-A3B-Instruct show Quadratic Weighted Kappa (QWK) improvements of up to 0.19 and 0.47, respectively. Notably, even with a simple initial rubric, our approach achieves comparable or better QWK than using detailed human-authored rubrics. Our findings highlight the importance of iterative rubric refinement in LLM-based AES to enhance alignment with human evaluations.

academic

भाषा मॉडल के लिए निबंध स्कोरिंग रूब्रिक्स का स्वचालित परिशोधन प्रतिबिंब-और-संशोधन के माध्यम से

बुनियादी जानकारी

पेपर ID: 2510.09030
शीर्षक: Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise
लेखक: केनो हरदा, लुई योशिदा, तकेशी कोजिमा, यूसुके इवासावा, युताका मात्सुओ (टोक्यो विश्वविद्यालय)
वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
प्रकाशन तिथि: 10 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.09030

सारांश

बड़े भाषा मॉडल (LLMs) का प्रदर्शन दिए गए प्रॉम्प्ट के प्रति अत्यधिक संवेदनशील है। यह शोध प्रॉम्प्ट अनुकूलन के क्षेत्र से प्रेरित है और स्वचालित निबंध स्कोरिंग (AES) को बढ़ाने की क्षमता का पता लगाता है जो LLMs द्वारा उपयोग किए जाने वाले स्कोरिंग मानदंडों को सुधारकर। विशेष रूप से, यह विधि मॉडल को अपने स्कोरिंग कारणों और मानव स्कोरिंग के साथ अंतर पर विचार करने के लिए प्रेरित करके स्कोरिंग मानदंडों को पुनरावृत्तिपूर्वक सुधारती है। TOEFL11 और ASAP डेटासेट पर GPT-4.1, Gemini-2.5-Pro और Qwen-3-Next-80B-A3B-Instruct का उपयोग करके प्रयोग क्रमशः द्विघात भारित कप्पा (QWK) में अधिकतम 0.19 और 0.47 की वृद्धि दर्शाते हैं। उल्लेखनीय रूप से, सरल प्रारंभिक मानदंडों का उपयोग करते हुए भी, यह विधि विस्तृत मानव-लिखित मानदंडों का उपयोग करने के बराबर या बेहतर QWK प्राप्त करती है। शोध परिणाम LLM-आधारित AES में मानव मूल्यांकन के साथ सामंजस्य बढ़ाने के लिए पुनरावृत्तिपूर्ण मानदंड सुधार के महत्व को उजागर करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मुख्य समस्या: पारंपरिक LLM स्वचालित निबंध स्कोरिंग प्रणालियां स्थिर, पूर्वनिर्धारित स्कोरिंग मानदंडों का उपयोग करती हैं, जो मानव स्कोरर के लिए डिज़ाइन किए गए हैं लेकिन LLMs के लिए इष्टतम नहीं हो सकते हैं।
महत्व: शिक्षा क्षेत्र में LLM के व्यापक अनुप्रयोग के साथ, ऐसी AES प्रणालियों की आवश्यकता है जो शिक्षकों के मूल्यांकन बोझ को कम करने के लिए वास्तविक समय, स्केलेबल प्रतिक्रिया प्रदान कर सकें।
मौजूदा सीमाएं:
- वर्तमान LLM-आधारित AES मानव स्कोरर के सहयोगी अंशांकन प्रक्रिया को नजरअंदाज करता है
- मानव स्कोरर आमतौर पर नमूना निबंधों को स्कोर करते हैं, निर्णय अंतर पर चर्चा करते हैं, और मानदंडों की साझा समझ में सुधार करते हैं
- यह पुनरावृत्तिपूर्ण प्रतिबिंब अभ्यास वर्तमान LLM-आधारित AES में अनदेखा किया जाता है, जो मानव स्कोरिंग पैटर्न के साथ इसकी सामंजस्य को सीमित करता है

अनुसंधान प्रेरणा

प्रॉम्प्ट अनुकूलन तकनीकों और मानव स्कोरर अंशांकन प्रक्रिया से प्रेरित होकर, लेखकों ने एक पुनरावृत्तिपूर्ण सुधार विधि का प्रस्ताव दिया है जो LLMs को नमूना निबंधों पर अपने स्कोरिंग प्रदर्शन के आधार पर स्कोरिंग मानदंडों को स्वचालित रूप से सुधारने में सक्षम बनाता है।

मुख्य योगदान

पुनरावृत्तिपूर्ण मानदंड सुधार विधि का प्रस्ताव: प्रतिबिंब-संशोधन तंत्र पर आधारित, जो LLMs को मानव स्कोरिंग के साथ अंतर के आधार पर स्कोरिंग मानदंडों को स्वचालित रूप से सुधारने में सक्षम बनाता है
विधि की प्रभावशीलता का सत्यापन: दो मानक डेटासेट पर तीन विभिन्न LLMs का उपयोग करके महत्वपूर्ण प्रदर्शन सुधार का प्रमाण
मानदंड डिजाइन में नई अंतर्दृष्टि की खोज: सबसे सरल मानदंड से शुरू करते हुए, सुधारे गए मानदंड सावधानीपूर्वक डिज़ाइन किए गए मानव मानदंडों को पार कर सकते हैं
व्यावहारिक एल्गोरिदम फ्रेमवर्क प्रदान: अच्छी पुनरुत्पादनीयता के साथ पूर्ण पुनरावृत्तिपूर्ण सुधार एल्गोरिदम प्रदान करता है

विधि विवरण

कार्य परिभाषा

इनपुट: निबंध पाठ x और स्कोरिंग मानदंड R
आउटपुट: पूर्वानुमानित स्कोर ŷ और स्कोरिंग कारण z
उद्देश्य: LLM स्कोर और मानव स्कोर के बीच द्विघात भारित कप्पा (QWK) को अधिकतम करना

मॉडल आर्किटेक्चर

एल्गोरिदम प्रवाह

विधि में निम्नलिखित मुख्य घटक शामिल हैं:

स्कोरिंग फ़ंक्शन: मॉडल M मानदंड और निबंध प्राप्त करता है, पूर्वानुमानित स्कोर और पाठ कारण उत्पन्न करता है
सुधार फ़ंक्शन: M पिछले मानदंड, उत्पन्न कारणों और स्कोरिंग अंतर के आधार पर सुधारे गए मानदंड उत्पन्न करता है

पुनरावृत्तिपूर्ण सुधार एल्गोरिदम (Algorithm 1)

इनपुट: डेटासेट D, भाषा मॉडल M, प्रारंभिक मानदंड Rseed
पैरामीटर: पुनरावृत्ति संख्या T, बैच आकार b

1. Rbest ← Rinit
2. QWKbest ← EVALUATE(M, Rbest, Dval)
3. for t = 1 to T do
4.   B ← SAMPLEMINIBATCH(Dtrain, b)
5.   FbData ← ∅
6.   for each (x, y) ∈ B do
7.     (ŷ, z) ← SCORE(M, Rbest, x)
8.     FbData में (rationale=z, pred_score=ŷ, true_score=y) जोड़ें
9.   end for
10.  Rnew ← REFINE(M, Rbest, FbData)
11.  QWKnew ← EVALUATE(M, Rnew, Dval)
12.  if QWKnew > QWKbest then
13.    Rbest ← Rnew
14.    QWKbest ← QWKnew
15.  end if
16. end for
17. return Rbest

तकनीकी नवाचार बिंदु

आत्म-प्रतिबिंब तंत्र: मॉडल अपने स्कोरिंग कारणों और मानव स्कोरिंग के साथ अंतर का विश्लेषण कर सकता है
पुनरावृत्तिपूर्ण अनुकूलन: कई दौरों के माध्यम से मानदंड गुणवत्ता को क्रमिक रूप से सुधारता है
न्यूनतम प्रारंभिक आवश्यकता: अत्यंत सरल मानदंड से शुरू कर सकता है (जैसे "उत्तर सामग्री के आधार पर, 1-6 स्कोर रेंज में मूल्यांकन करें")
प्रदर्शन-संचालित अपडेट: केवल तभी अपडेट करता है जब नया मानदंड सत्यापन सेट पर बेहतर प्रदर्शन करता है

प्रयोगात्मक सेटअप

डेटासेट

TOEFL11 डेटासेट

आकार: 12,100 निबंध, 8 निबंध प्रॉम्प्ट
स्कोरिंग: 3 दक्षता स्तर (उच्च, मध्यम, निम्न), मूल 5-बिंदु स्केल से रूपांतरित
विभाजन: प्रशिक्षण सेट 100, सत्यापन सेट 100, परीक्षण सेट 1,100

ASAP डेटासेट

उपयोग किया गया उपसमुच्चय: Prompt 1 (P1), 6-बिंदु स्केल स्कोरिंग
विभाजन: परीक्षण सेट 179 (10%), प्रशिक्षण और सत्यापन सेट प्रत्येक 100
विशेषता: दो मानव स्कोरर की टिप्पणियां शामिल हैं

मूल्यांकन मेट्रिक्स

मुख्य मेट्रिक: द्विघात भारित कप्पा (QWK), AES मूल्यांकन के लिए व्यापक रूप से उपयोग किया जाता है
सांख्यिकीय विधि: प्रत्येक प्रयोग 3 बार चलाया जाता है, माध्य और मानक विचलन की रिपोर्ट की जाती है

तुलनात्मक विधियां

आधारभूत विधि: मानव-लिखित विस्तृत स्कोरिंग मानदंड का उपयोग
बीज मानदंड प्रकार:
- simplest_rubric: सबसे सरल मानदंड
- human_rubric: आधिकारिक विस्तृत स्कोरिंग गाइड
- simplified_human_rubric: सरलीकृत मानव मानदंड

कार्यान्वयन विवरण

पुनरावृत्ति संख्या: T = 10
बैच आकार: B = 10
मॉडल: GPT-4.1, GPT-5-mini, Gemini-2.5-Flash, Gemini-2.5-Pro, Qwen3-Next-80B-A3B-Instruct
तापमान सेटिंग: विभिन्न मॉडलों के अनुसार समायोजित (0.7-1.0)

प्रयोगात्मक परिणाम

मुख्य परिणाम

QWK सुधार परिमाण

ASAP डेटासेट: अधिकतम 0.47 QWK सुधार
TOEFL11 डेटासेट: अधिकतम 0.19 QWK सुधार
मॉडल प्रदर्शन: 5 मॉडलों में से 4 ASAP पर सुधार दिखाते हैं, 2 TOEFL11 पर सुधार दिखाते हैं

विभिन्न प्रारंभिक मानदंडों का प्रदर्शन (तालिका 1)

प्रारंभिक मानदंड	ASAP	TOEFL
सुधारा गया-मानव मानदंड	0.46	0.56
सुधारा गया-सरलीकृत मानदंड	0.41	0.58
सुधारा गया-सबसे सरल मानदंड	0.48	0.64
असुधारा-मानव मानदंड	0.26	0.58
असुधारा-सरलीकृत मानदंड	0.33	0.59
असुधारा-सबसे सरल मानदंड	0.17	0.57

मुख्य निष्कर्ष

सबसे सरल मानदंड की क्षमता: सबसे सरल मानदंड "उत्तर सामग्री के आधार पर, 1-6 स्कोर रेंज में मूल्यांकन करें" से शुरू करते हुए, सुधारे गए मानदंड सावधानीपूर्वक तैयार किए गए मानव मानदंडों को पार कर सकते हैं
सुधारे गए मानदंडों की विशेषताएं:
- मुख्य साक्ष्य को उजागर करने के लिए दृश्य जोर (जैसे बोल्ड) जोड़ता है
- मानदंड के अंत में संक्षिप्त सारांश तालिका जोड़ता है
- स्पष्ट शर्तीय नियम: "यदि X देखा जाता है, तो स्कोर s दें"
डेटासेट अंतर: TOEFL11 मोटे-अनाज वाली तीन-स्तरीय स्कोरिंग (निम्न/मध्यम/उच्च) का उपयोग करता है, समग्र QWK मान अधिक होते हैं, जो सुधार के लिए स्थान को सीमित कर सकता है

केस विश्लेषण

चित्र 3 सबसे सरल मानदंड से सुधारे गए ASAP P1 मानदंड को प्रदर्शित करता है, जिसमें शामिल हैं:

विस्तृत स्कोरिंग मार्गदर्शन सिद्धांत
4 और 5 स्कोर अंतर की विशिष्ट व्याख्या
संरचित स्कोरिंग सारांश तालिका
स्पष्ट शर्तीय निर्णय नियम

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

पुनरावृत्तिपूर्ण मानदंड सुधार प्रभावी है: कई डेटासेट और मॉडलों पर विधि की प्रभावशीलता सत्यापित की गई है
प्रारंभिक मानदंड महत्वपूर्ण नहीं है: अत्यंत सरल मानदंड से शुरू करते हुए भी उत्कृष्ट प्रदर्शन प्राप्त किया जा सकता है
स्वचालन व्यवहार्य है: LLMs स्वतंत्र रूप से प्रासंगिक मूल्यांकन मानदंडों की पहचान कर सकते हैं

सीमाएं

डेटासेट रेंज सीमित: केवल TOEFL11 और ASAP Prompt 1 पर प्रयोग
टिप्पणीकृत डेटा आवश्यकता: सुधार प्रक्रिया को 200 टिप्पणीकृत नमूनों की आवश्यकता है
मूल्यांकन मेट्रिक एकल: केवल QWK को अनुकूलन लक्ष्य के रूप में, स्कोरिंग गुणवत्ता के सभी पहलुओं को पकड़ने में विफल हो सकता है
उच्च आधारभूत सीमा: पहले से ही उच्च आधारभूत स्कोर वाले डेटासेट पर सुधार के लिए सीमित स्थान

भविष्य की दिशाएं

अधिक निबंध प्रकारों और डोमेन तक विस्तार
टिप्पणीकृत डेटा आवश्यकता को कम करने के तरीकों की खोज
बहु-मेट्रिक अनुकूलन रणनीति का अनुसंधान
LLM-उपयुक्त मानदंडों की विशेषताओं की गहन समझ

गहन मूल्यांकन

लाभ

विधि नवाचार मजबूत है:
- प्रॉम्प्ट अनुकूलन विचारों को पहली बार AES मानदंड सुधार में लागू करता है
- मानव स्कोरर अंशांकन प्रक्रिया को अनुकरण करता है, बहुत मजबूत सहज तर्कसंगतता है
- एल्गोरिदम डिजाइन सरल और प्रभावी है
प्रयोगात्मक डिजाइन पर्याप्त है:
- कई मॉडल और डेटासेट का उपयोग करके सत्यापन
- विभिन्न प्रारंभिक मानदंडों की तुलना शामिल है
- सांख्यिकीय महत्व विश्लेषण पूर्ण है
परिणाम प्रेरक शक्ति मजबूत है:
- महत्वपूर्ण प्रदर्शन सुधार (अधिकतम 0.47 QWK)
- सबसे सरल मानदंड मानव मानदंडों को पार करने की खोज महत्वपूर्ण है
- सुधारे गए मानदंडों के ठोस उदाहरण प्रदान करता है
व्यावहारिक मूल्य उच्च है:
- एल्गोरिदम कार्यान्वयन और पुनरुत्पादन में आसान है
- मानव-लिखित मानदंडों की लागत को कम कर सकता है
- AES प्रणाली अनुकूलन के लिए नई सोच प्रदान करता है

कमियां

प्रयोगात्मक रेंज सीमित है:
- केवल दो डेटासेट परीक्षण किए गए, सामान्यीकरण क्षमता सत्यापन की प्रतीक्षा में है
- विभिन्न भाषाओं और सांस्कृतिक पृष्ठभूमि के सत्यापन की कमी
- विभिन्न निबंध प्रकारों के अंतर पर विचार नहीं किया गया
सैद्धांतिक विश्लेषण अपर्याप्त है:
- इस बात की गहन सैद्धांतिक विश्लेषण की कमी कि विधि प्रभावी क्यों है
- सुधारे गए मानदंडों की आंतरिक विशेषताओं और पैटर्न की खोज नहीं की गई
- अभिसरण और स्थिरता के लिए सैद्धांतिक गारंटी की कमी
लागत विश्लेषण अनुपस्थित है:
- कम्प्यूटेशनल लागत और समय ओवरहेड का विस्तृत विश्लेषण नहीं
- पारंपरिक विधियों के साथ लागत-लाभ तुलना की कमी
- वास्तविक तैनाती की व्यवहार्यता विश्लेषण अपर्याप्त है

प्रभाव

शैक्षणिक योगदान:
- AES क्षेत्र के लिए नई अनुसंधान दिशा प्रदान करता है
- मूल्यांकन कार्यों में LLM आत्म-सुधार क्षमता की क्षमता सिद्ध करता है
- अधिक आत्मानुकूल मूल्यांकन प्रणालियों के अनुसंधान को प्रेरित कर सकता है
व्यावहारिक मूल्य:
- मौजूदा LLM-आधारित AES प्रणालियों में सीधे लागू किया जा सकता है
- शिक्षा प्रौद्योगिकी कंपनियों को उत्पाद सुधारने में सहायता करता है
- शिक्षा मूल्यांकन मानकीकरण के लिए नया उपकरण प्रदान करता है
पुनरुत्पादनीयता:
- पूर्ण एल्गोरिदम विवरण प्रदान करता है
- विस्तृत प्रयोगात्मक सेटअप शामिल है
- कोड और डेटा उपलब्धता अच्छी है

लागू परिदृश्य

शिक्षा मूल्यांकन: विभिन्न मानकीकृत परीक्षाओं की निबंध स्कोरिंग
ऑनलाइन शिक्षा: MOOC प्लेटफॉर्म की असाइनमेंट स्वचालित स्कोरिंग
भाषा सीखना: दूसरी भाषा लेखन क्षमता मूल्यांकन
कॉर्पोरेट प्रशिक्षण: कर्मचारी लेखन कौशल मूल्यांकन

संदर्भ

पेपर कई महत्वपूर्ण संबंधित कार्यों का हवाला देता है, जिनमें शामिल हैं:

प्रॉम्प्ट अनुकूलन संबंधित: Khattab et al. (2023), Agrawal et al. (2025)
AES संबंधित: Mizumoto and Eguchi (2023), Lee et al. (2024)
मानव स्कोरर अंशांकन: Trace et al. (2016), Ouyang et al. (2022)
LLM आत्म-सुधार: Madaan et al. (2023), Kamoi et al. (2024)

समग्र मूल्यांकन: यह एक उच्च गुणवत्ता का अनुसंधान पत्र है जो नवीन विधि का प्रस्ताव देता है और महत्वपूर्ण प्रयोगात्मक परिणाम प्राप्त करता है। यद्यपि प्रयोगात्मक रेंज और सैद्धांतिक विश्लेषण के पहलुओं में सुधार की गुंजाइश है, इसके मुख्य विचार में बहुत मजबूत व्यावहारिक मूल्य और शैक्षणिक महत्व है, जो AES क्षेत्र के विकास में महत्वपूर्ण योगदान देता है।

Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise

भाषा मॉडल के लिए निबंध स्कोरिंग रूब्रिक्स का स्वचालित परिशोधन प्रतिबिंब-और-संशोधन के माध्यम से

बुनियादी जानकारी

सारांश

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

अनुसंधान प्रेरणा

मुख्य योगदान

विधि विवरण

कार्य परिभाषा

मॉडल आर्किटेक्चर

एल्गोरिदम प्रवाह

पुनरावृत्तिपूर्ण सुधार एल्गोरिदम (Algorithm 1)

तकनीकी नवाचार बिंदु

प्रयोगात्मक सेटअप

डेटासेट

TOEFL11 डेटासेट

ASAP डेटासेट

मूल्यांकन मेट्रिक्स

तुलनात्मक विधियां

कार्यान्वयन विवरण

प्रयोगात्मक परिणाम

मुख्य परिणाम

QWK सुधार परिमाण

विभिन्न प्रारंभिक मानदंडों का प्रदर्शन (तालिका 1)

मुख्य निष्कर्ष

केस विश्लेषण

संबंधित कार्य

मुख्य अनुसंधान दिशाएं

इस पेपर के लाभ

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सीमाएं

भविष्य की दिशाएं

गहन मूल्यांकन

लाभ

कमियां

प्रभाव

लागू परिदृश्य

संदर्भ