Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise
Harada, Yoshida, Kojima et al.
The performance of Large Language Models (LLMs) is highly sensitive to the prompts they are given. Drawing inspiration from the field of prompt optimization, this study investigates the potential for enhancing Automated Essay Scoring (AES) by refining the scoring rubrics used by LLMs. Specifically, our approach prompts models to iteratively refine rubrics by reflecting on models' own scoring rationales and observed discrepancies with human scores on sample essays. Experiments on the TOEFL11 and ASAP datasets using GPT-4.1, Gemini-2.5-Pro, and Qwen-3-Next-80B-A3B-Instruct show Quadratic Weighted Kappa (QWK) improvements of up to 0.19 and 0.47, respectively. Notably, even with a simple initial rubric, our approach achieves comparable or better QWK than using detailed human-authored rubrics. Our findings highlight the importance of iterative rubric refinement in LLM-based AES to enhance alignment with human evaluations.
academic
تحسين معايير تقييم المقالات الآلية لنماذج اللغة من خلال التأمل والمراجعة
يتأثر أداء نماذج اللغة الكبيرة (LLMs) بشكل كبير بالمطالبات المعطاة. يستكشف هذا البحث، المستوحى من مجال تحسين المطالبات، إمكانية تعزيز التقييم الآلي للمقالات (AES) من خلال تحسين معايير التقييم التي تستخدمها نماذج اللغة. على وجه التحديد، تقوم الطريقة بمطالبة النموذج بالتأمل في أسباب تقييمه والاختلافات مع التقييمات البشرية، مما يؤدي إلى تحسين معايير التقييم بشكل متكرر. أظهرت التجارب باستخدام GPT-4.1 و Gemini-2.5-Pro و Qwen-3-Next-80B-A3B-Instruct على مجموعات بيانات TOEFL11 و ASAP تحسنًا في كابا المرجح التربيعي (QWK) بمقدار 0.19 و 0.47 على التوالي. وجدير بالملاحظة أنه حتى مع استخدام معايير ابتدائية بسيطة، تحقق الطريقة قيم QWK مماثلة أو أفضل من استخدام معايير مفصلة مكتوبة يدويًا. تبرز النتائج أهمية التحسين المتكرر للمعايير في أنظمة التقييم الآلي المستندة إلى نماذج اللغة لتعزيز الاتساق مع التقييم البشري.
المشكلة الأساسية: تستخدم أنظمة التقييم الآلي للمقالات المستندة إلى نماذج اللغة معايير تقييم ثابتة ومحددة مسبقًا، وهذه المعايير المصممة للمقيّمين البشريين قد لا تكون الخيار الأمثل لنماذج اللغة.
الأهمية: مع الاستخدام الواسع لنماذج اللغة في المجال التعليمي، هناك حاجة لأنظمة تقييم آلي قادرة على تقديم تعليقات فورية وقابلة للتوسع لتخفيف عبء التقييم على المعلمين.
القيود الحالية:
تتجاهل أنظمة التقييم الآلي المستندة إلى نماذج اللغة الحالية عملية المعايرة التعاونية للمقيّمين البشريين
يقوم المقيّمون البشريون عادة بتقييم عينات من المقالات، ومناقشة الاختلافات في الأحكام، وتحسين الفهم المشترك للمعايير
يتم تجاهل هذه الممارسة التأملية المتكررة في أنظمة التقييم الآلي الحالية، مما يحد من اتساقها مع نمط التقييم البشري
مستوحاة من تقنيات تحسين المطالبات وعملية معايرة المقيّمين البشريين، يقترح المؤلفون طريقة متكررة تمكّن نماذج اللغة من التأمل وتحسين معايير التقييم بناءً على أدائها في تقييم عينات من المقالات.
اقتراح طريقة تحسين معايير متكررة: بناءً على آلية التأمل والمراجعة، تمكّن نماذج اللغة من تحسين معايير التقييم تلقائيًا بناءً على الاختلافات مع التقييمات البشرية
التحقق من فعالية الطريقة: إثبات تحسن كبير في الأداء على مجموعتي بيانات قياسيتين باستخدام ثلاثة نماذج لغة مختلفة
اكتشاف رؤى جديدة حول تصميم المعايير: حتى عند البدء من أبسط المعايير، يمكن للمعايير المحسّنة أن تتفوق على المعايير البشرية المصممة بعناية
توفير إطار عمل خوارزمي عملي: تقديم خوارزمية تحسين متكررة كاملة بقابلية إعادة إنتاج جيدة
المدخلات: مجموعة البيانات D، نموذج اللغة M، المعايير الابتدائية Rseed
المعاملات: عدد التكرارات T، حجم الدفعة b
1. Rbest ← Rinit
2. QWKbest ← EVALUATE(M, Rbest, Dval)
3. for t = 1 to T do
4. B ← SAMPLEMINIBATCH(Dtrain, b)
5. FbData ← ∅
6. for each (x, y) ∈ B do
7. (ŷ, z) ← SCORE(M, Rbest, x)
8. Add (rationale=z, pred_score=ŷ, true_score=y) to FbData
9. end for
10. Rnew ← REFINE(M, Rbest, FbData)
11. QWKnew ← EVALUATE(M, Rnew, Dval)
12. if QWKnew > QWKbest then
13. Rbest ← Rnew
14. QWKbest ← QWKnew
15. end if
16. end for
17. return Rbest
إمكانات أبسط معيار: عند البدء من أبسط معيار "قيّم بناءً على محتوى الإجابة، في نطاق 1-6"، يمكن للمعايير المحسّنة أن تتفوق على المعايير البشرية المصممة بعناية
خصائص المعايير المحسّنة:
إضافة تأكيد بصري (مثل النص الغامق) لتبرز الأدلة الرئيسية
إضافة جدول ملخص موجز في نهاية المعيار
قواعد شرطية واضحة: "إذا لوحظ X، فأعط التقييم s"
الاختلافات بين مجموعات البيانات: يستخدم TOEFL11 تقييمًا ثلاثي الحبيبات (منخفض/متوسط/عالي)، مع قيم QWK الإجمالية الأعلى، مما قد يحد من مساحة التحسين
بالمقارنة مع الأبحاث الموجودة، تقترح هذه الورقة للمرة الأولى طريقة تمكّن نموذج اللغة من التأمل في مخرجاته الخاصة لتحسين المعايير بشكل متكرر، محاكاة عملية معايرة المقيّمين البشريين.
تستشهد الورقة بعدة أعمال ذات صلة مهمة، بما في ذلك:
المتعلقة بتحسين المطالبات: Khattab et al. (2023), Agrawal et al. (2025)
المتعلقة بالتقييم الآلي: Mizumoto and Eguchi (2023), Lee et al. (2024)
معايرة المقيّمين البشريين: Trace et al. (2016), Ouyang et al. (2022)
التحسين الذاتي لنماذج اللغة: Madaan et al. (2023), Kamoi et al. (2024)
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تقترح طريقة مبتكرة وتحقق نتائج تجريبية مهمة. على الرغم من وجود مجال للتحسين في نطاق التجارب والتحليل النظري، فإن الفكرة الأساسية لها قيمة عملية وأكاديمية قوية جدًا، وتقدم مساهمة مهمة لتطور مجال التقييم الآلي للمقالات.