2025-11-21T04:13:15.591642

Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise

Harada, Yoshida, Kojima et al.

The performance of Large Language Models (LLMs) is highly sensitive to the prompts they are given. Drawing inspiration from the field of prompt optimization, this study investigates the potential for enhancing Automated Essay Scoring (AES) by refining the scoring rubrics used by LLMs. Specifically, our approach prompts models to iteratively refine rubrics by reflecting on models' own scoring rationales and observed discrepancies with human scores on sample essays. Experiments on the TOEFL11 and ASAP datasets using GPT-4.1, Gemini-2.5-Pro, and Qwen-3-Next-80B-A3B-Instruct show Quadratic Weighted Kappa (QWK) improvements of up to 0.19 and 0.47, respectively. Notably, even with a simple initial rubric, our approach achieves comparable or better QWK than using detailed human-authored rubrics. Our findings highlight the importance of iterative rubric refinement in LLM-based AES to enhance alignment with human evaluations.

academic

Refinamiento Automatizado de Rúbricas de Calificación de Ensayos para Modelos de Lenguaje mediante Reflect-and-Revise

Información Básica

ID del Artículo: 2510.09030
Título: Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise
Autores: Keno Harada, Lui Yoshida, Takeshi Kojima, Yusuke Iwasawa, Yutaka Matsuo (Universidad de Tokio)
Clasificación: cs.CL (Lingüística Computacional)
Fecha de Publicación: 10 de octubre de 2025 (preimpresión de arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.09030

Resumen

El rendimiento de los modelos de lenguaje de gran escala (LLMs) es altamente sensible a los indicadores dados. Este estudio, inspirado en el campo de la optimización de indicadores, explora el potencial de mejorar la calificación automática de ensayos (AES) mediante el refinamiento de las rúbricas de calificación utilizadas por los LLMs. Específicamente, el método permite que el modelo reflexione iterativamente sobre sus razonamientos de calificación y las diferencias con las calificaciones humanas para mejorar las rúbricas. Los experimentos utilizando GPT-4.1, Gemini-2.5-Pro y Qwen-3-Next-80B-A3B-Instruct en los conjuntos de datos TOEFL11 y ASAP muestran mejoras en el Kappa Ponderado Cuadrático (QWK) de hasta 0.19 y 0.47, respectivamente. Notablemente, incluso con rúbricas iniciales simples, el método logra un QWK comparable o superior al de las rúbricas detalladas escritas manualmente. Los resultados destacan la importancia del refinamiento iterativo de rúbricas en AES basado en LLM para mejorar la coherencia con la evaluación humana.

Antecedentes y Motivación de la Investigación

Definición del Problema

Problema Central: Los sistemas tradicionales de calificación automática de ensayos basados en LLM utilizan rúbricas estáticas y predefinidas, que fueron diseñadas para evaluadores humanos y pueden no ser óptimas para los LLMs.
Importancia: Con la aplicación generalizada de LLMs en educación, existe la necesidad de sistemas AES que proporcionen retroalimentación en tiempo real y escalable para aliviar la carga de calificación de los docentes.
Limitaciones Existentes:
- Los AES basados en LLM actuales ignoran el proceso de calibración colaborativa de los evaluadores humanos
- Los evaluadores humanos típicamente califican muestras de ensayos, discuten diferencias de juicio y mejoran la comprensión común de los estándares
- Esta práctica de reflexión iterativa se descuida en los AES basados en LLM actuales, limitando su coherencia con los patrones de evaluación humana

Motivación de la Investigación

Inspirados por técnicas de optimización de indicadores y el proceso de calibración de evaluadores humanos, los autores proponen un método iterativo que permite a los LLMs reflexionar y mejorar las rúbricas de calificación basándose en su desempeño de calificación en ensayos de muestra.

Contribuciones Principales

Propuesta de Método de Mejora Iterativa de Rúbricas: Basado en un mecanismo de reflexión-revisión, permite que los LLMs mejoren automáticamente las rúbricas de calificación según las diferencias con las calificaciones humanas
Validación de la Efectividad del Método: Utilizando tres LLMs diferentes en dos conjuntos de datos estándar, se demuestra una mejora de rendimiento significativa
Descubrimiento de Nuevas Perspectivas sobre Diseño de Rúbricas: Incluso comenzando con las rúbricas más simples, las rúbricas mejoradas pueden superar los estándares cuidadosamente diseñados manualmente
Provisión de Marco Algorítmico Práctico: Se proporciona un algoritmo de mejora iterativa completo con buena reproducibilidad

Explicación Detallada del Método

Definición de la Tarea

Entrada: Texto del ensayo x y rúbrica de calificación R
Salida: Calificación predicha ŷ y justificación de calificación z
Objetivo: Maximizar el Kappa Ponderado Cuadrático (QWK) entre la calificación del LLM y la calificación humana

Arquitectura del Modelo

Flujo del Algoritmo

El método contiene los siguientes componentes principales:

Función de Calificación: El modelo M recibe la rúbrica y el ensayo, generando una calificación predicha y una justificación textual
Función de Mejora: M genera una rúbrica mejorada basada en la rúbrica anterior, las justificaciones generadas y las diferencias de calificación

Algoritmo de Mejora Iterativa (Algoritmo 1)

Entrada: Conjunto de datos D, modelo de lenguaje M, rúbrica inicial Rseed
Parámetros: Número de iteraciones T, tamaño de lote b

1. Rbest ← Rinit
2. QWKbest ← EVALUATE(M, Rbest, Dval)
3. for t = 1 to T do
4.   B ← SAMPLEMINIBATCH(Dtrain, b)
5.   FbData ← ∅
6.   for each (x, y) ∈ B do
7.     (ŷ, z) ← SCORE(M, Rbest, x)
8.     Add (rationale=z, pred_score=ŷ, true_score=y) to FbData
9.   end for
10.  Rnew ← REFINE(M, Rbest, FbData)
11.  QWKnew ← EVALUATE(M, Rnew, Dval)
12.  if QWKnew > QWKbest then
13.    Rbest ← Rnew
14.    QWKbest ← QWKnew
15.  end if
16. end for
17. return Rbest

Puntos de Innovación Técnica

Mecanismo de Autorreflexión: El modelo puede analizar sus propias justificaciones de calificación y las diferencias con las calificaciones humanas
Optimización Iterativa: Mejora progresiva de la calidad de las rúbricas a través de múltiples rondas
Requisito Inicial Mínimo: Puede comenzar con estándares extremadamente simples (como "Calificar de 1-6 basándose en el contenido de la respuesta")
Actualización Impulsada por Rendimiento: Las nuevas rúbricas se actualizan solo cuando muestran mejor desempeño en el conjunto de validación

Configuración Experimental

Conjuntos de Datos

Conjunto de Datos TOEFL11

Escala: 12,100 ensayos, 8 indicadores de ensayos
Calificación: 3 niveles de competencia (alto, medio, bajo), convertidos de la escala original de 5 puntos
División: Conjunto de entrenamiento 100 ensayos, conjunto de validación 100 ensayos, conjunto de prueba 1,100 ensayos

Conjunto de Datos ASAP

Subconjunto Utilizado: Indicador 1 (P1), calificación en escala de 6 puntos
División: Conjunto de prueba 179 ensayos (10%), conjunto de entrenamiento y validación 100 ensayos cada uno
Características: Incluye anotaciones de dos evaluadores humanos

Métricas de Evaluación

Métrica Principal: Kappa Ponderado Cuadrático (QWK), métrica ampliamente utilizada en evaluación de AES
Método Estadístico: Cada experimento se ejecuta 3 veces, reportando media y desviación estándar

Métodos de Comparación

Método Base: Uso de rúbricas de calificación detalladas escritas manualmente
Tipos de Rúbricas Semilla:
- simplest_rubric: Rúbrica más simple
- human_rubric: Guía de calificación oficial detallada
- simplified_human_rubric: Rúbrica humana simplificada

Detalles de Implementación

Número de Iteraciones: T = 10
Tamaño de Lote: B = 10
Modelos: GPT-4.1, GPT-5-mini, Gemini-2.5-Flash, Gemini-2.5-Pro, Qwen3-Next-80B-A3B-Instruct
Configuración de Temperatura: Ajustada según diferentes modelos (0.7-1.0)

Resultados Experimentales

Resultados Principales

Magnitud de Mejora de QWK

Conjunto de Datos ASAP: Mejora máxima de 0.47 QWK
Conjunto de Datos TOEFL11: Mejora máxima de 0.19 QWK
Desempeño del Modelo: De 5 modelos, 4 muestran mejora en ASAP, 2 en TOEFL11

Desempeño con Diferentes Rúbricas Iniciales (Tabla 1)

Rúbrica Inicial	ASAP	TOEFL
Mejorada - Rúbrica Humana	0.46	0.56
Mejorada - Rúbrica Simplificada	0.41	0.58
Mejorada - Rúbrica Más Simple	0.48	0.64
Sin Mejorar - Rúbrica Humana	0.26	0.58
Sin Mejorar - Rúbrica Simplificada	0.33	0.59
Sin Mejorar - Rúbrica Más Simple	0.17	0.57

Hallazgos Clave

Potencial de Rúbricas Simples: Comenzando con la rúbrica más simple "Calificar de 1-6 basándose en el contenido de la respuesta", las rúbricas mejoradas pueden superar los estándares cuidadosamente elaborados manualmente
Características de Rúbricas Mejoradas:
- Adición de énfasis visual (como negrita) para destacar evidencia clave
- Adición de tablas de resumen breve al final de la rúbrica
- Reglas condicionales explícitas: "Si se observa X, entonces asignar calificación s"
Diferencias entre Conjuntos de Datos: TOEFL11 utiliza calificación de tres niveles de grano grueso (bajo/medio/alto), con valores QWK generalmente más altos, lo que puede limitar el espacio de mejora

Análisis de Casos

La Figura 3 muestra la rúbrica ASAP P1 mejorada a partir de la rúbrica más simple, que incluye:

Principios detallados de orientación de calificación
Explicaciones específicas de la distinción entre calificaciones 4 y 5
Tabla de resumen de calificación estructurada
Reglas de juicio condicional explícitas

Trabajo Relacionado

Direcciones Principales de Investigación

Evaluación de LLM: Uso de listas de verificación y estándares para evaluación de tareas no verificadas
Desarrollo de Tecnología AES: Propuesta de diversas técnicas de calificación automática de ensayos
Investigación de Diseño de Rúbricas:
- Furuhashi et al. descubrieron el fenómeno de "elementos negativos"
- Yoshida descubrió que rúbricas más detalladas no siempre traen mejoras de rendimiento

Ventajas de Este Artículo

En comparación con la investigación existente, este artículo propone por primera vez permitir que los LLMs reflexionen sobre sus propias salidas para mejorar iterativamente las rúbricas, simulando el proceso de calibración de evaluadores humanos.

Conclusiones y Discusión

Conclusiones Principales

Mejora Iterativa de Rúbricas Efectiva: Se valida la efectividad del método en múltiples conjuntos de datos y modelos
Importancia de la Rúbrica Inicial Irrelevante: Incluso comenzando con rúbricas extremadamente simples se puede lograr un desempeño excelente
Viabilidad de Automatización: Los LLMs pueden identificar de forma autónoma estándares de evaluación relevantes

Limitaciones

Rango de Conjuntos de Datos Limitado: Experimentos realizados solo en TOEFL11 y ASAP Indicador 1
Requisito de Datos Anotados: El proceso de mejora requiere 200 muestras anotadas
Métrica de Evaluación Única: Solo se optimiza para QWK, lo que puede no capturar todos los aspectos de la calidad de calificación
Limitación de Línea Base Alta: Espacio de mejora limitado en conjuntos de datos con puntuaciones de línea base ya altas

Direcciones Futuras

Extensión a más tipos de ensayos y dominios
Exploración de métodos para reducir requisitos de datos anotados
Investigación de estrategias de optimización multimétrica
Comprensión profunda de características de estándares aplicables a LLM

Evaluación Profunda

Fortalezas

Metodología Altamente Innovadora:
- Primera aplicación de ideas de optimización de indicadores a mejora de rúbricas AES
- Simula el proceso de calibración de evaluadores humanos, con fuerte justificación intuitiva
- Diseño algorítmico simple y efectivo
Diseño Experimental Completo:
- Validación con múltiples modelos y conjuntos de datos
- Incluye comparaciones con diferentes rúbricas iniciales
- Análisis de significancia estadística completo
Resultados Convincentes:
- Mejoras significativas de rendimiento (máximo 0.47 QWK)
- El descubrimiento de que rúbricas simples superan estándares humanos tiene importancia significativa
- Proporciona ejemplos concretos de rúbricas mejoradas
Alto Valor Práctico:
- Algoritmo fácil de implementar y reproducir
- Puede reducir costos de escritura manual de estándares
- Proporciona nuevas perspectivas para optimización de sistemas AES

Deficiencias

Alcance Experimental Limitado:
- Solo dos conjuntos de datos probados, generalización pendiente de verificación
- Falta validación en diferentes idiomas y contextos culturales
- No considera diferencias en tipos de ensayos
Análisis Teórico Insuficiente:
- Falta análisis teórico profundo de por qué el método es efectivo
- No explora características intrínsecas y patrones de rúbricas mejoradas
- Falta garantías teóricas de convergencia y estabilidad
Análisis de Costos Faltante:
- No analiza en detalle costos computacionales y gastos de tiempo
- Falta comparación de costo-beneficio con métodos tradicionales
- Análisis insuficiente de viabilidad para implementación práctica

Impacto

Contribución Académica:
- Proporciona nueva dirección de investigación para campo AES
- Demuestra potencial de capacidad de automejoría de LLM en tareas de evaluación
- Puede inspirar más investigación en sistemas de evaluación adaptativos
Valor Práctico:
- Aplicable directamente a sistemas AES basados en LLM existentes
- Ayuda a empresas de tecnología educativa a mejorar productos
- Proporciona nuevas herramientas para estandarización de evaluación educativa
Reproducibilidad:
- Proporciona descripción completa del algoritmo
- Incluye configuración experimental detallada
- Buena disponibilidad de código y datos

Escenarios Aplicables

Evaluación Educativa: Calificación de ensayos en exámenes estandarizados de diversos tipos
Educación en Línea: Calificación automática de tareas en plataformas MOOC
Aprendizaje de Idiomas: Evaluación de capacidad de escritura en segundo idioma
Capacitación Empresarial: Evaluación de habilidades de escritura de empleados

Referencias

El artículo cita múltiples trabajos relacionados importantes, incluyendo:

Optimización de Indicadores: Khattab et al. (2023), Agrawal et al. (2025)
AES Relacionado: Mizumoto and Eguchi (2023), Lee et al. (2024)
Calibración de Evaluadores Humanos: Trace et al. (2016), Ouyang et al. (2022)
Automejoría de LLM: Madaan et al. (2023), Kamoi et al. (2024)

Evaluación General: Este es un artículo de investigación de alta calidad que propone un método innovador y logra resultados experimentales significativos. Aunque hay espacio para mejora en el alcance experimental y análisis teórico, su idea central posee fuerte valor práctico e importancia académica, haciendo una contribución importante al desarrollo del campo AES.