Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise
Harada, Yoshida, Kojima et al.
The performance of Large Language Models (LLMs) is highly sensitive to the prompts they are given. Drawing inspiration from the field of prompt optimization, this study investigates the potential for enhancing Automated Essay Scoring (AES) by refining the scoring rubrics used by LLMs. Specifically, our approach prompts models to iteratively refine rubrics by reflecting on models' own scoring rationales and observed discrepancies with human scores on sample essays. Experiments on the TOEFL11 and ASAP datasets using GPT-4.1, Gemini-2.5-Pro, and Qwen-3-Next-80B-A3B-Instruct show Quadratic Weighted Kappa (QWK) improvements of up to 0.19 and 0.47, respectively. Notably, even with a simple initial rubric, our approach achieves comparable or better QWK than using detailed human-authored rubrics. Our findings highlight the importance of iterative rubric refinement in LLM-based AES to enhance alignment with human evaluations.
academic
Refinamiento Automatizado de Rúbricas de Calificación de Ensayos para Modelos de Lenguaje mediante Reflect-and-Revise
El rendimiento de los modelos de lenguaje de gran escala (LLMs) es altamente sensible a los indicadores dados. Este estudio, inspirado en el campo de la optimización de indicadores, explora el potencial de mejorar la calificación automática de ensayos (AES) mediante el refinamiento de las rúbricas de calificación utilizadas por los LLMs. Específicamente, el método permite que el modelo reflexione iterativamente sobre sus razonamientos de calificación y las diferencias con las calificaciones humanas para mejorar las rúbricas. Los experimentos utilizando GPT-4.1, Gemini-2.5-Pro y Qwen-3-Next-80B-A3B-Instruct en los conjuntos de datos TOEFL11 y ASAP muestran mejoras en el Kappa Ponderado Cuadrático (QWK) de hasta 0.19 y 0.47, respectivamente. Notablemente, incluso con rúbricas iniciales simples, el método logra un QWK comparable o superior al de las rúbricas detalladas escritas manualmente. Los resultados destacan la importancia del refinamiento iterativo de rúbricas en AES basado en LLM para mejorar la coherencia con la evaluación humana.
Problema Central: Los sistemas tradicionales de calificación automática de ensayos basados en LLM utilizan rúbricas estáticas y predefinidas, que fueron diseñadas para evaluadores humanos y pueden no ser óptimas para los LLMs.
Importancia: Con la aplicación generalizada de LLMs en educación, existe la necesidad de sistemas AES que proporcionen retroalimentación en tiempo real y escalable para aliviar la carga de calificación de los docentes.
Limitaciones Existentes:
Los AES basados en LLM actuales ignoran el proceso de calibración colaborativa de los evaluadores humanos
Los evaluadores humanos típicamente califican muestras de ensayos, discuten diferencias de juicio y mejoran la comprensión común de los estándares
Esta práctica de reflexión iterativa se descuida en los AES basados en LLM actuales, limitando su coherencia con los patrones de evaluación humana
Inspirados por técnicas de optimización de indicadores y el proceso de calibración de evaluadores humanos, los autores proponen un método iterativo que permite a los LLMs reflexionar y mejorar las rúbricas de calificación basándose en su desempeño de calificación en ensayos de muestra.
Propuesta de Método de Mejora Iterativa de Rúbricas: Basado en un mecanismo de reflexión-revisión, permite que los LLMs mejoren automáticamente las rúbricas de calificación según las diferencias con las calificaciones humanas
Validación de la Efectividad del Método: Utilizando tres LLMs diferentes en dos conjuntos de datos estándar, se demuestra una mejora de rendimiento significativa
Descubrimiento de Nuevas Perspectivas sobre Diseño de Rúbricas: Incluso comenzando con las rúbricas más simples, las rúbricas mejoradas pueden superar los estándares cuidadosamente diseñados manualmente
Provisión de Marco Algorítmico Práctico: Se proporciona un algoritmo de mejora iterativa completo con buena reproducibilidad
Entrada: Conjunto de datos D, modelo de lenguaje M, rúbrica inicial Rseed
Parámetros: Número de iteraciones T, tamaño de lote b
1. Rbest ← Rinit
2. QWKbest ← EVALUATE(M, Rbest, Dval)
3. for t = 1 to T do
4. B ← SAMPLEMINIBATCH(Dtrain, b)
5. FbData ← ∅
6. for each (x, y) ∈ B do
7. (ŷ, z) ← SCORE(M, Rbest, x)
8. Add (rationale=z, pred_score=ŷ, true_score=y) to FbData
9. end for
10. Rnew ← REFINE(M, Rbest, FbData)
11. QWKnew ← EVALUATE(M, Rnew, Dval)
12. if QWKnew > QWKbest then
13. Rbest ← Rnew
14. QWKbest ← QWKnew
15. end if
16. end for
17. return Rbest
Potencial de Rúbricas Simples: Comenzando con la rúbrica más simple "Calificar de 1-6 basándose en el contenido de la respuesta", las rúbricas mejoradas pueden superar los estándares cuidadosamente elaborados manualmente
Características de Rúbricas Mejoradas:
Adición de énfasis visual (como negrita) para destacar evidencia clave
Adición de tablas de resumen breve al final de la rúbrica
Reglas condicionales explícitas: "Si se observa X, entonces asignar calificación s"
Diferencias entre Conjuntos de Datos: TOEFL11 utiliza calificación de tres niveles de grano grueso (bajo/medio/alto), con valores QWK generalmente más altos, lo que puede limitar el espacio de mejora
En comparación con la investigación existente, este artículo propone por primera vez permitir que los LLMs reflexionen sobre sus propias salidas para mejorar iterativamente las rúbricas, simulando el proceso de calibración de evaluadores humanos.
El artículo cita múltiples trabajos relacionados importantes, incluyendo:
Optimización de Indicadores: Khattab et al. (2023), Agrawal et al. (2025)
AES Relacionado: Mizumoto and Eguchi (2023), Lee et al. (2024)
Calibración de Evaluadores Humanos: Trace et al. (2016), Ouyang et al. (2022)
Automejoría de LLM: Madaan et al. (2023), Kamoi et al. (2024)
Evaluación General: Este es un artículo de investigación de alta calidad que propone un método innovador y logra resultados experimentales significativos. Aunque hay espacio para mejora en el alcance experimental y análisis teórico, su idea central posee fuerte valor práctico e importancia académica, haciendo una contribución importante al desarrollo del campo AES.