Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise
Harada, Yoshida, Kojima et al.
The performance of Large Language Models (LLMs) is highly sensitive to the prompts they are given. Drawing inspiration from the field of prompt optimization, this study investigates the potential for enhancing Automated Essay Scoring (AES) by refining the scoring rubrics used by LLMs. Specifically, our approach prompts models to iteratively refine rubrics by reflecting on models' own scoring rationales and observed discrepancies with human scores on sample essays. Experiments on the TOEFL11 and ASAP datasets using GPT-4.1, Gemini-2.5-Pro, and Qwen-3-Next-80B-A3B-Instruct show Quadratic Weighted Kappa (QWK) improvements of up to 0.19 and 0.47, respectively. Notably, even with a simple initial rubric, our approach achieves comparable or better QWK than using detailed human-authored rubrics. Our findings highlight the importance of iterative rubric refinement in LLM-based AES to enhance alignment with human evaluations.
대규모 언어 모델(LLMs)의 성능은 주어진 프롬프트에 매우 민감합니다. 본 연구는 프롬프트 최적화 분야에서 영감을 받아, LLMs가 사용하는 채점 루브릭을 개선함으로써 자동 에세이 채점(AES)의 잠재력을 탐색합니다. 구체적으로, 이 방법은 모델이 자신의 채점 근거와 인간 채점 간의 차이를 반영하도록 하여 채점 루브릭을 반복적으로 개선하도록 프롬프트합니다. TOEFL11 및 ASAP 데이터셋에서 GPT-4.1, Gemini-2.5-Pro 및 Qwen-3-Next-80B-A3B-Instruct를 사용한 실험은 각각 최대 0.19 및 0.47의 이차 가중 카파(QWK) 향상을 보여줍니다. 주목할 점은, 단순한 초기 루브릭을 사용하더라도 이 방법이 상세한 인간 작성 루브릭을 사용한 것과 동등하거나 더 나은 QWK를 달성할 수 있다는 것입니다. 연구 결과는 LLM 기반 AES에서 반복적인 루브릭 개선이 인간 평가와의 일치성 향상에 중요함을 강조합니다.
입력: 데이터셋 D, 언어 모델 M, 초기 루브릭 Rseed
매개변수: 반복 횟수 T, 배치 크기 b
1. Rbest ← Rinit
2. QWKbest ← EVALUATE(M, Rbest, Dval)
3. for t = 1 to T do
4. B ← SAMPLEMINIBATCH(Dtrain, b)
5. FbData ← ∅
6. for each (x, y) ∈ B do
7. (ŷ, z) ← SCORE(M, Rbest, x)
8. Add (rationale=z, pred_score=ŷ, true_score=y) to FbData
9. end for
10. Rnew ← REFINE(M, Rbest, FbData)
11. QWKnew ← EVALUATE(M, Rnew, Dval)
12. if QWKnew > QWKbest then
13. Rbest ← Rnew
14. QWKbest ← QWKnew
15. end if
16. end for
17. return Rbest
프롬프트 최적화 관련: Khattab et al. (2023), Agrawal et al. (2025)
AES 관련: Mizumoto and Eguchi (2023), Lee et al. (2024)
인간 채점 보정: Trace et al. (2016), Ouyang et al. (2022)
LLM 자기 개선: Madaan et al. (2023), Kamoi et al. (2024)
종합 평가: 이것은 혁신적인 방법을 제안하고 현저한 실험 결과를 달성한 고품질의 연구 논문입니다. 실험 범위와 이론적 분석 측면에서 개선의 여지가 있지만, 핵심 아이디어는 매우 강한 실용적 가치와 학술적 의의를 가지고 있으며, AES 분야의 발전에 중요한 기여를 합니다.