2025-11-21T04:13:15.591642

Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise

Harada, Yoshida, Kojima et al.
The performance of Large Language Models (LLMs) is highly sensitive to the prompts they are given. Drawing inspiration from the field of prompt optimization, this study investigates the potential for enhancing Automated Essay Scoring (AES) by refining the scoring rubrics used by LLMs. Specifically, our approach prompts models to iteratively refine rubrics by reflecting on models' own scoring rationales and observed discrepancies with human scores on sample essays. Experiments on the TOEFL11 and ASAP datasets using GPT-4.1, Gemini-2.5-Pro, and Qwen-3-Next-80B-A3B-Instruct show Quadratic Weighted Kappa (QWK) improvements of up to 0.19 and 0.47, respectively. Notably, even with a simple initial rubric, our approach achieves comparable or better QWK than using detailed human-authored rubrics. Our findings highlight the importance of iterative rubric refinement in LLM-based AES to enhance alignment with human evaluations.
academic

Raffinement Automatisé des Barèmes de Notation d'Essais pour les Modèles de Langage via Reflect-and-Revise

Informations Fondamentales

  • ID de l'article : 2510.09030
  • Titre : Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise
  • Auteurs : Keno Harada, Lui Yoshida, Takeshi Kojima, Yusuke Iwasawa, Yutaka Matsuo (Université de Tokyo)
  • Classification : cs.CL (Linguistique Computationnelle)
  • Date de publication : 10 octobre 2025 (préimpression arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.09030

Résumé

La performance des grands modèles de langage (LLMs) est hautement sensible aux invites données. Cette recherche, inspirée par le domaine de l'optimisation d'invites, explore le potentiel d'améliorer la notation automatique d'essais (AES) en affinant les barèmes de notation utilisés par les LLMs. Spécifiquement, la méthode invite le modèle à améliorer itérativement les barèmes en réfléchissant à ses propres justifications de notation et aux différences avec les scores humains. Les expériences utilisant GPT-4.1, Gemini-2.5-Pro et Qwen-3-Next-80B-A3B-Instruct sur les ensembles de données TOEFL11 et ASAP montrent des améliorations du kappa pondéré quadratique (QWK) respectivement jusqu'à 0,19 et 0,47. Notamment, même en utilisant des barèmes initiaux simples, la méthode atteint un QWK comparable ou supérieur à celui obtenu avec des barèmes détaillés rédigés manuellement. Les résultats soulignent l'importance de l'amélioration itérative des barèmes dans l'AES basée sur les LLMs pour améliorer la cohérence avec l'évaluation humaine.

Contexte et Motivation de la Recherche

Définition du Problème

  1. Problème central : Les systèmes traditionnels de notation automatique d'essais basés sur les LLMs utilisent des barèmes statiques et prédéfinis, conçus pour les évaluateurs humains, qui peuvent ne pas être optimaux pour les LLMs.
  2. Importance : Avec l'application généralisée des LLMs dans l'éducation, il est nécessaire de disposer de systèmes AES capables de fournir des retours en temps réel et évolutifs pour alléger la charge d'évaluation des enseignants.
  3. Limitations existantes :
    • L'AES basée sur les LLMs actuels ignore le processus d'étalonnage collaboratif des évaluateurs humains
    • Les évaluateurs humains évaluent généralement des essais d'exemple, discutent des différences de jugement et améliorent leur compréhension commune des barèmes
    • Cette pratique de réflexion itérative est négligée dans l'AES basée sur les LLMs actuels, limitant sa cohérence avec les modèles d'évaluation humaine

Motivation de la Recherche

Inspirés par les techniques d'optimisation d'invites et le processus d'étalonnage des évaluateurs humains, les auteurs proposent une méthode d'amélioration itérative permettant aux LLMs de réfléchir et d'améliorer les barèmes de notation en fonction de leurs performances d'évaluation sur des essais d'exemple.

Contributions Principales

  1. Proposition d'une méthode d'amélioration itérative des barèmes : Basée sur un mécanisme de réflexion-révision, permettant aux LLMs d'améliorer automatiquement les barèmes en fonction des différences avec les scores humains
  2. Validation de l'efficacité de la méthode : Démonstration d'améliorations significatives de performance sur deux ensembles de données standard utilisant trois LLMs différents
  3. Découverte de nouvelles perspectives sur la conception des barèmes : Les barèmes améliorés, même en commençant par les standards les plus simples, peuvent surpasser les barèmes humains soigneusement conçus
  4. Fourniture d'un cadre algorithmique pratique : Présentation d'un algorithme d'amélioration itérative complet avec bonne reproductibilité

Explication Détaillée de la Méthode

Définition de la Tâche

  • Entrée : Texte d'essai x et barème de notation R
  • Sortie : Score prédit ŷ et justification de notation z
  • Objectif : Maximiser le kappa pondéré quadratique (QWK) entre les scores du LLM et les scores humains

Architecture du Modèle

Flux Algorithmique

La méthode comprend les composants principaux suivants :

  1. Fonction de notation : Le modèle M reçoit le barème et l'essai, générant un score prédit et une justification textuelle
  2. Fonction d'amélioration : M génère un barème amélioré basé sur le barème précédent, les justifications générées et les différences de scores

Algorithme d'Amélioration Itérative (Algorithme 1)

Entrée : Ensemble de données D, modèle de langage M, barème initial Rseed
Paramètres : Nombre d'itérations T, taille de lot b

1. Rbest ← Rinit
2. QWKbest ← EVALUATE(M, Rbest, Dval)
3. for t = 1 to T do
4.   B ← SAMPLEMINIBATCH(Dtrain, b)
5.   FbData ← ∅
6.   for each (x, y) ∈ B do
7.     (ŷ, z) ← SCORE(M, Rbest, x)
8.     Add (rationale=z, pred_score=ŷ, true_score=y) to FbData
9.   end for
10.  Rnew ← REFINE(M, Rbest, FbData)
11.  QWKnew ← EVALUATE(M, Rnew, Dval)
12.  if QWKnew > QWKbest then
13.    Rbest ← Rnew
14.    QWKbest ← QWKnew
15.  end if
16. end for
17. return Rbest

Points d'Innovation Technique

  1. Mécanisme d'auto-réflexion : Le modèle peut analyser ses propres justifications de notation et les différences avec les scores humains
  2. Optimisation itérative : Amélioration progressive de la qualité des barèmes à travers plusieurs cycles
  3. Exigences initiales minimales : Possibilité de commencer par des barèmes extrêmement simples (par exemple, « Évaluer sur une échelle de 1 à 6 en fonction du contenu de la réponse »)
  4. Mises à jour pilotées par la performance : Seuls les nouveaux barèmes montrant de meilleures performances sur l'ensemble de validation sont conservés

Configuration Expérimentale

Ensembles de Données

Ensemble de Données TOEFL11

  • Taille : 12 100 essais, 8 invites d'essai
  • Notation : 3 niveaux de compétence (élevé, moyen, faible), convertis à partir de l'échelle originale de 5 points
  • Division : 100 essais d'entraînement, 100 essais de validation, 1 100 essais de test

Ensemble de Données ASAP

  • Sous-ensemble utilisé : Invite 1 (P1), notation sur 6 points
  • Division : 179 essais de test (10 %), 100 essais d'entraînement et 100 essais de validation
  • Caractéristiques : Annotations de deux évaluateurs humains

Métriques d'Évaluation

  • Métrique principale : Kappa pondéré quadratique (QWK), largement utilisé pour l'évaluation AES
  • Méthode statistique : Chaque expérience exécutée 3 fois, rapportant moyenne et écart-type

Méthodes de Comparaison

  • Méthode de base : Utilisation de barèmes de notation détaillés rédigés manuellement
  • Types de barèmes initiaux :
    • simplest_rubric : Barème le plus simple
    • human_rubric : Guide officiel détaillé de notation
    • simplified_human_rubric : Barème humain simplifié

Détails d'Implémentation

  • Nombre d'itérations : T = 10
  • Taille de lot : B = 10
  • Modèles : GPT-4.1, GPT-5-mini, Gemini-2.5-Flash, Gemini-2.5-Pro, Qwen3-Next-80B-A3B-Instruct
  • Paramètre de température : Ajusté selon les différents modèles (0,7-1,0)

Résultats Expérimentaux

Résultats Principaux

Ampleur des Améliorations QWK

  • Ensemble de données ASAP : Amélioration maximale de 0,47 QWK
  • Ensemble de données TOEFL11 : Amélioration maximale de 0,19 QWK
  • Performance des modèles : Sur 5 modèles, 4 montrent une amélioration sur ASAP, 2 sur TOEFL11

Performance selon les Barèmes Initiaux Différents (Tableau 1)

Barème InitialASAPTOEFL
Amélioré - barème humain0,460,56
Amélioré - barème simplifié0,410,58
Amélioré - barème minimal0,480,64
Non amélioré - barème humain0,260,58
Non amélioré - barème simplifié0,330,59
Non amélioré - barème minimal0,170,57

Découvertes Clés

  1. Potentiel des barèmes minimaux : En commençant par le barème le plus simple « Évaluer sur une échelle de 1 à 6 en fonction du contenu de la réponse », les barèmes améliorés peuvent surpasser les barèmes humains soigneusement élaborés
  2. Caractéristiques des barèmes améliorés :
    • Ajout d'emphase visuelle (par exemple, gras) mettant en évidence les preuves clés
    • Ajout d'un tableau récapitulatif bref à la fin du barème
    • Règles conditionnelles explicites : « Si X est observé, attribuer le score s »
  3. Différences entre ensembles de données : TOEFL11 utilisant une notation grossière à trois niveaux (faible/moyen/élevé), les valeurs QWK globales sont plus élevées, ce qui peut limiter l'espace d'amélioration

Analyse de Cas

La Figure 3 présente le barème ASAP P1 amélioré à partir du barème minimal, contenant :

  • Principes directeurs de notation détaillés
  • Explications spécifiques des distinctions entre 4 et 5 points
  • Tableau récapitulatif de notation structuré
  • Règles de jugement conditionnel explicites

Travaux Connexes

Directions de Recherche Principales

  1. Évaluation par LLM : Utilisation de listes de contrôle et de barèmes pour l'évaluation de tâches non vérifiées
  2. Évolution de la technologie AES : Proposition de diverses techniques de notation automatique d'essais
  3. Recherche sur la conception des barèmes :
    • Furuhashi et al. ont découvert le phénomène des « éléments négatifs »
    • Yoshida a découvert que des barèmes plus détaillés n'apportent pas toujours une amélioration de performance

Avantages de cet Article

Comparé aux recherches existantes, cet article propose pour la première fois une méthode permettant aux LLMs de réfléchir à leurs propres résultats pour améliorer itérativement les barèmes, simulant le processus d'étalonnage des évaluateurs humains.

Conclusion et Discussion

Conclusions Principales

  1. L'amélioration itérative des barèmes est efficace : Validation de l'efficacité de la méthode sur plusieurs ensembles de données et modèles
  2. Le barème initial n'est pas important : Même en commençant par des barèmes extrêmement simples, on peut atteindre d'excellentes performances
  3. Faisabilité de l'automatisation : Les LLMs peuvent identifier indépendamment les critères d'évaluation pertinents

Limitations

  1. Portée limitée des ensembles de données : Expériences menées uniquement sur TOEFL11 et ASAP Invite 1
  2. Besoin de données annotées : Le processus d'amélioration nécessite 200 échantillons annotés
  3. Métrique d'évaluation unique : Optimisation basée uniquement sur QWK, ce qui peut ne pas capturer tous les aspects de la qualité de notation
  4. Limitation de la ligne de base élevée : Espace d'amélioration limité sur les ensembles de données avec des scores de base élevés

Directions Futures

  1. Extension à plus de types d'essais et de domaines
  2. Exploration de méthodes réduisant les besoins en données annotées
  3. Étude de stratégies d'optimisation multi-critères
  4. Compréhension approfondie des caractéristiques des barèmes applicables aux LLMs

Évaluation Approfondie

Points Forts

  1. Forte innovativité de la méthode :
    • Application pionnière des idées d'optimisation d'invites à l'amélioration des barèmes AES
    • Simulation du processus d'étalonnage des évaluateurs humains, avec une forte justification intuitive
    • Conception algorithmique simple et efficace
  2. Conception expérimentale complète :
    • Validation utilisant plusieurs modèles et ensembles de données
    • Comparaisons incluant différents barèmes initiaux
    • Analyse statistique complète de la significativité
  3. Résultats convaincants :
    • Améliorations significatives de performance (jusqu'à 0,47 QWK)
    • Découverte que les barèmes minimaux surpassent les barèmes humains, d'une grande importance
    • Fourniture d'exemples concrets de barèmes améliorés
  4. Valeur pratique élevée :
    • Algorithme facile à implémenter et reproduire
    • Peut réduire les coûts de rédaction manuelle des barèmes
    • Fournit de nouvelles perspectives pour l'optimisation des systèmes AES

Insuffisances

  1. Portée expérimentale limitée :
    • Test sur seulement deux ensembles de données, généralisation à vérifier
    • Manque de validation dans différents contextes linguistiques et culturels
    • Absence de considération des différences entre types d'essais
  2. Analyse théorique insuffisante :
    • Manque d'analyse théorique approfondie sur les raisons de l'efficacité de la méthode
    • Exploration insuffisante des caractéristiques intrinsèques et des régularités des barèmes améliorés
    • Absence de garanties théoriques sur la convergence et la stabilité
  3. Analyse des coûts manquante :
    • Analyse insuffisante des coûts computationnels et des délais
    • Manque de comparaison coût-bénéfice avec les méthodes traditionnelles
    • Analyse insuffisante de la faisabilité du déploiement pratique

Impact

  1. Contributions académiques :
    • Fourniture d'une nouvelle direction de recherche pour le domaine AES
    • Démonstration du potentiel des capacités d'auto-amélioration des LLMs dans les tâches d'évaluation
    • Peut inspirer davantage de recherches sur les systèmes d'évaluation adaptatifs
  2. Valeur pratique :
    • Application directe aux systèmes AES basés sur les LLMs existants
    • Aide les entreprises de technologie éducative à améliorer leurs produits
    • Fournit de nouveaux outils pour la normalisation des critères d'évaluation éducative
  3. Reproductibilité :
    • Fourniture d'une description algorithmique complète
    • Inclusion de paramètres expérimentaux détaillés
    • Bonne disponibilité du code et des données

Scénarios d'Application

  1. Évaluation éducative : Notation d'essais pour divers examens standardisés
  2. Éducation en ligne : Notation automatique des devoirs sur les plateformes MOOC
  3. Apprentissage des langues : Évaluation des compétences en rédaction en langue seconde
  4. Formation d'entreprise : Évaluation des compétences en rédaction des employés

Références

L'article cite plusieurs travaux connexes importants, notamment :

  • Optimisation d'invites : Khattab et al. (2023), Agrawal et al. (2025)
  • AES : Mizumoto and Eguchi (2023), Lee et al. (2024)
  • Étalonnage des évaluateurs humains : Trace et al. (2016), Ouyang et al. (2022)
  • Auto-amélioration des LLMs : Madaan et al. (2023), Kamoi et al. (2024)

Évaluation Générale : Cet article de recherche de haute qualité propose une méthode innovante et obtient des résultats expérimentaux significatifs. Bien qu'il y ait encore de la place pour l'amélioration en termes de portée expérimentale et d'analyse théorique, l'idée centrale possède une forte valeur pratique et une grande importance académique, contribuant de manière significative au développement du domaine AES.