Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise
Harada, Yoshida, Kojima et al.
The performance of Large Language Models (LLMs) is highly sensitive to the prompts they are given. Drawing inspiration from the field of prompt optimization, this study investigates the potential for enhancing Automated Essay Scoring (AES) by refining the scoring rubrics used by LLMs. Specifically, our approach prompts models to iteratively refine rubrics by reflecting on models' own scoring rationales and observed discrepancies with human scores on sample essays. Experiments on the TOEFL11 and ASAP datasets using GPT-4.1, Gemini-2.5-Pro, and Qwen-3-Next-80B-A3B-Instruct show Quadratic Weighted Kappa (QWK) improvements of up to 0.19 and 0.47, respectively. Notably, even with a simple initial rubric, our approach achieves comparable or better QWK than using detailed human-authored rubrics. Our findings highlight the importance of iterative rubric refinement in LLM-based AES to enhance alignment with human evaluations.
academic
Raffinement Automatisé des Barèmes de Notation d'Essais pour les Modèles de Langage via Reflect-and-Revise
La performance des grands modèles de langage (LLMs) est hautement sensible aux invites données. Cette recherche, inspirée par le domaine de l'optimisation d'invites, explore le potentiel d'améliorer la notation automatique d'essais (AES) en affinant les barèmes de notation utilisés par les LLMs. Spécifiquement, la méthode invite le modèle à améliorer itérativement les barèmes en réfléchissant à ses propres justifications de notation et aux différences avec les scores humains. Les expériences utilisant GPT-4.1, Gemini-2.5-Pro et Qwen-3-Next-80B-A3B-Instruct sur les ensembles de données TOEFL11 et ASAP montrent des améliorations du kappa pondéré quadratique (QWK) respectivement jusqu'à 0,19 et 0,47. Notamment, même en utilisant des barèmes initiaux simples, la méthode atteint un QWK comparable ou supérieur à celui obtenu avec des barèmes détaillés rédigés manuellement. Les résultats soulignent l'importance de l'amélioration itérative des barèmes dans l'AES basée sur les LLMs pour améliorer la cohérence avec l'évaluation humaine.
Problème central : Les systèmes traditionnels de notation automatique d'essais basés sur les LLMs utilisent des barèmes statiques et prédéfinis, conçus pour les évaluateurs humains, qui peuvent ne pas être optimaux pour les LLMs.
Importance : Avec l'application généralisée des LLMs dans l'éducation, il est nécessaire de disposer de systèmes AES capables de fournir des retours en temps réel et évolutifs pour alléger la charge d'évaluation des enseignants.
Limitations existantes :
L'AES basée sur les LLMs actuels ignore le processus d'étalonnage collaboratif des évaluateurs humains
Les évaluateurs humains évaluent généralement des essais d'exemple, discutent des différences de jugement et améliorent leur compréhension commune des barèmes
Cette pratique de réflexion itérative est négligée dans l'AES basée sur les LLMs actuels, limitant sa cohérence avec les modèles d'évaluation humaine
Inspirés par les techniques d'optimisation d'invites et le processus d'étalonnage des évaluateurs humains, les auteurs proposent une méthode d'amélioration itérative permettant aux LLMs de réfléchir et d'améliorer les barèmes de notation en fonction de leurs performances d'évaluation sur des essais d'exemple.
Proposition d'une méthode d'amélioration itérative des barèmes : Basée sur un mécanisme de réflexion-révision, permettant aux LLMs d'améliorer automatiquement les barèmes en fonction des différences avec les scores humains
Validation de l'efficacité de la méthode : Démonstration d'améliorations significatives de performance sur deux ensembles de données standard utilisant trois LLMs différents
Découverte de nouvelles perspectives sur la conception des barèmes : Les barèmes améliorés, même en commençant par les standards les plus simples, peuvent surpasser les barèmes humains soigneusement conçus
Fourniture d'un cadre algorithmique pratique : Présentation d'un algorithme d'amélioration itérative complet avec bonne reproductibilité
Entrée : Ensemble de données D, modèle de langage M, barème initial Rseed
Paramètres : Nombre d'itérations T, taille de lot b
1. Rbest ← Rinit
2. QWKbest ← EVALUATE(M, Rbest, Dval)
3. for t = 1 to T do
4. B ← SAMPLEMINIBATCH(Dtrain, b)
5. FbData ← ∅
6. for each (x, y) ∈ B do
7. (ŷ, z) ← SCORE(M, Rbest, x)
8. Add (rationale=z, pred_score=ŷ, true_score=y) to FbData
9. end for
10. Rnew ← REFINE(M, Rbest, FbData)
11. QWKnew ← EVALUATE(M, Rnew, Dval)
12. if QWKnew > QWKbest then
13. Rbest ← Rnew
14. QWKbest ← QWKnew
15. end if
16. end for
17. return Rbest
Mécanisme d'auto-réflexion : Le modèle peut analyser ses propres justifications de notation et les différences avec les scores humains
Optimisation itérative : Amélioration progressive de la qualité des barèmes à travers plusieurs cycles
Exigences initiales minimales : Possibilité de commencer par des barèmes extrêmement simples (par exemple, « Évaluer sur une échelle de 1 à 6 en fonction du contenu de la réponse »)
Mises à jour pilotées par la performance : Seuls les nouveaux barèmes montrant de meilleures performances sur l'ensemble de validation sont conservés
Potentiel des barèmes minimaux : En commençant par le barème le plus simple « Évaluer sur une échelle de 1 à 6 en fonction du contenu de la réponse », les barèmes améliorés peuvent surpasser les barèmes humains soigneusement élaborés
Caractéristiques des barèmes améliorés :
Ajout d'emphase visuelle (par exemple, gras) mettant en évidence les preuves clés
Ajout d'un tableau récapitulatif bref à la fin du barème
Règles conditionnelles explicites : « Si X est observé, attribuer le score s »
Différences entre ensembles de données : TOEFL11 utilisant une notation grossière à trois niveaux (faible/moyen/élevé), les valeurs QWK globales sont plus élevées, ce qui peut limiter l'espace d'amélioration
Comparé aux recherches existantes, cet article propose pour la première fois une méthode permettant aux LLMs de réfléchir à leurs propres résultats pour améliorer itérativement les barèmes, simulant le processus d'étalonnage des évaluateurs humains.
L'article cite plusieurs travaux connexes importants, notamment :
Optimisation d'invites : Khattab et al. (2023), Agrawal et al. (2025)
AES : Mizumoto and Eguchi (2023), Lee et al. (2024)
Étalonnage des évaluateurs humains : Trace et al. (2016), Ouyang et al. (2022)
Auto-amélioration des LLMs : Madaan et al. (2023), Kamoi et al. (2024)
Évaluation Générale : Cet article de recherche de haute qualité propose une méthode innovante et obtient des résultats expérimentaux significatifs. Bien qu'il y ait encore de la place pour l'amélioration en termes de portée expérimentale et d'analyse théorique, l'idée centrale possède une forte valeur pratique et une grande importance académique, contribuant de manière significative au développement du domaine AES.