2025-11-21T04:13:15.591642

Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise

Harada, Yoshida, Kojima et al.
The performance of Large Language Models (LLMs) is highly sensitive to the prompts they are given. Drawing inspiration from the field of prompt optimization, this study investigates the potential for enhancing Automated Essay Scoring (AES) by refining the scoring rubrics used by LLMs. Specifically, our approach prompts models to iteratively refine rubrics by reflecting on models' own scoring rationales and observed discrepancies with human scores on sample essays. Experiments on the TOEFL11 and ASAP datasets using GPT-4.1, Gemini-2.5-Pro, and Qwen-3-Next-80B-A3B-Instruct show Quadratic Weighted Kappa (QWK) improvements of up to 0.19 and 0.47, respectively. Notably, even with a simple initial rubric, our approach achieves comparable or better QWK than using detailed human-authored rubrics. Our findings highlight the importance of iterative rubric refinement in LLM-based AES to enhance alignment with human evaluations.
academic

Refinamiento Automatizado de Rúbricas de Calificación de Ensayos para Modelos de Lenguaje mediante Reflect-and-Revise

Información Básica

  • ID del Artículo: 2510.09030
  • Título: Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise
  • Autores: Keno Harada, Lui Yoshida, Takeshi Kojima, Yusuke Iwasawa, Yutaka Matsuo (Universidad de Tokio)
  • Clasificación: cs.CL (Lingüística Computacional)
  • Fecha de Publicación: 10 de octubre de 2025 (preimpresión de arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.09030

Resumen

El rendimiento de los modelos de lenguaje de gran escala (LLMs) es altamente sensible a los indicadores dados. Este estudio, inspirado en el campo de la optimización de indicadores, explora el potencial de mejorar la calificación automática de ensayos (AES) mediante el refinamiento de las rúbricas de calificación utilizadas por los LLMs. Específicamente, el método permite que el modelo reflexione iterativamente sobre sus razonamientos de calificación y las diferencias con las calificaciones humanas para mejorar las rúbricas. Los experimentos utilizando GPT-4.1, Gemini-2.5-Pro y Qwen-3-Next-80B-A3B-Instruct en los conjuntos de datos TOEFL11 y ASAP muestran mejoras en el Kappa Ponderado Cuadrático (QWK) de hasta 0.19 y 0.47, respectivamente. Notablemente, incluso con rúbricas iniciales simples, el método logra un QWK comparable o superior al de las rúbricas detalladas escritas manualmente. Los resultados destacan la importancia del refinamiento iterativo de rúbricas en AES basado en LLM para mejorar la coherencia con la evaluación humana.

Antecedentes y Motivación de la Investigación

Definición del Problema

  1. Problema Central: Los sistemas tradicionales de calificación automática de ensayos basados en LLM utilizan rúbricas estáticas y predefinidas, que fueron diseñadas para evaluadores humanos y pueden no ser óptimas para los LLMs.
  2. Importancia: Con la aplicación generalizada de LLMs en educación, existe la necesidad de sistemas AES que proporcionen retroalimentación en tiempo real y escalable para aliviar la carga de calificación de los docentes.
  3. Limitaciones Existentes:
    • Los AES basados en LLM actuales ignoran el proceso de calibración colaborativa de los evaluadores humanos
    • Los evaluadores humanos típicamente califican muestras de ensayos, discuten diferencias de juicio y mejoran la comprensión común de los estándares
    • Esta práctica de reflexión iterativa se descuida en los AES basados en LLM actuales, limitando su coherencia con los patrones de evaluación humana

Motivación de la Investigación

Inspirados por técnicas de optimización de indicadores y el proceso de calibración de evaluadores humanos, los autores proponen un método iterativo que permite a los LLMs reflexionar y mejorar las rúbricas de calificación basándose en su desempeño de calificación en ensayos de muestra.

Contribuciones Principales

  1. Propuesta de Método de Mejora Iterativa de Rúbricas: Basado en un mecanismo de reflexión-revisión, permite que los LLMs mejoren automáticamente las rúbricas de calificación según las diferencias con las calificaciones humanas
  2. Validación de la Efectividad del Método: Utilizando tres LLMs diferentes en dos conjuntos de datos estándar, se demuestra una mejora de rendimiento significativa
  3. Descubrimiento de Nuevas Perspectivas sobre Diseño de Rúbricas: Incluso comenzando con las rúbricas más simples, las rúbricas mejoradas pueden superar los estándares cuidadosamente diseñados manualmente
  4. Provisión de Marco Algorítmico Práctico: Se proporciona un algoritmo de mejora iterativa completo con buena reproducibilidad

Explicación Detallada del Método

Definición de la Tarea

  • Entrada: Texto del ensayo x y rúbrica de calificación R
  • Salida: Calificación predicha ŷ y justificación de calificación z
  • Objetivo: Maximizar el Kappa Ponderado Cuadrático (QWK) entre la calificación del LLM y la calificación humana

Arquitectura del Modelo

Flujo del Algoritmo

El método contiene los siguientes componentes principales:

  1. Función de Calificación: El modelo M recibe la rúbrica y el ensayo, generando una calificación predicha y una justificación textual
  2. Función de Mejora: M genera una rúbrica mejorada basada en la rúbrica anterior, las justificaciones generadas y las diferencias de calificación

Algoritmo de Mejora Iterativa (Algoritmo 1)

Entrada: Conjunto de datos D, modelo de lenguaje M, rúbrica inicial Rseed
Parámetros: Número de iteraciones T, tamaño de lote b

1. Rbest ← Rinit
2. QWKbest ← EVALUATE(M, Rbest, Dval)
3. for t = 1 to T do
4.   B ← SAMPLEMINIBATCH(Dtrain, b)
5.   FbData ← ∅
6.   for each (x, y) ∈ B do
7.     (ŷ, z) ← SCORE(M, Rbest, x)
8.     Add (rationale=z, pred_score=ŷ, true_score=y) to FbData
9.   end for
10.  Rnew ← REFINE(M, Rbest, FbData)
11.  QWKnew ← EVALUATE(M, Rnew, Dval)
12.  if QWKnew > QWKbest then
13.    Rbest ← Rnew
14.    QWKbest ← QWKnew
15.  end if
16. end for
17. return Rbest

Puntos de Innovación Técnica

  1. Mecanismo de Autorreflexión: El modelo puede analizar sus propias justificaciones de calificación y las diferencias con las calificaciones humanas
  2. Optimización Iterativa: Mejora progresiva de la calidad de las rúbricas a través de múltiples rondas
  3. Requisito Inicial Mínimo: Puede comenzar con estándares extremadamente simples (como "Calificar de 1-6 basándose en el contenido de la respuesta")
  4. Actualización Impulsada por Rendimiento: Las nuevas rúbricas se actualizan solo cuando muestran mejor desempeño en el conjunto de validación

Configuración Experimental

Conjuntos de Datos

Conjunto de Datos TOEFL11

  • Escala: 12,100 ensayos, 8 indicadores de ensayos
  • Calificación: 3 niveles de competencia (alto, medio, bajo), convertidos de la escala original de 5 puntos
  • División: Conjunto de entrenamiento 100 ensayos, conjunto de validación 100 ensayos, conjunto de prueba 1,100 ensayos

Conjunto de Datos ASAP

  • Subconjunto Utilizado: Indicador 1 (P1), calificación en escala de 6 puntos
  • División: Conjunto de prueba 179 ensayos (10%), conjunto de entrenamiento y validación 100 ensayos cada uno
  • Características: Incluye anotaciones de dos evaluadores humanos

Métricas de Evaluación

  • Métrica Principal: Kappa Ponderado Cuadrático (QWK), métrica ampliamente utilizada en evaluación de AES
  • Método Estadístico: Cada experimento se ejecuta 3 veces, reportando media y desviación estándar

Métodos de Comparación

  • Método Base: Uso de rúbricas de calificación detalladas escritas manualmente
  • Tipos de Rúbricas Semilla:
    • simplest_rubric: Rúbrica más simple
    • human_rubric: Guía de calificación oficial detallada
    • simplified_human_rubric: Rúbrica humana simplificada

Detalles de Implementación

  • Número de Iteraciones: T = 10
  • Tamaño de Lote: B = 10
  • Modelos: GPT-4.1, GPT-5-mini, Gemini-2.5-Flash, Gemini-2.5-Pro, Qwen3-Next-80B-A3B-Instruct
  • Configuración de Temperatura: Ajustada según diferentes modelos (0.7-1.0)

Resultados Experimentales

Resultados Principales

Magnitud de Mejora de QWK

  • Conjunto de Datos ASAP: Mejora máxima de 0.47 QWK
  • Conjunto de Datos TOEFL11: Mejora máxima de 0.19 QWK
  • Desempeño del Modelo: De 5 modelos, 4 muestran mejora en ASAP, 2 en TOEFL11

Desempeño con Diferentes Rúbricas Iniciales (Tabla 1)

Rúbrica InicialASAPTOEFL
Mejorada - Rúbrica Humana0.460.56
Mejorada - Rúbrica Simplificada0.410.58
Mejorada - Rúbrica Más Simple0.480.64
Sin Mejorar - Rúbrica Humana0.260.58
Sin Mejorar - Rúbrica Simplificada0.330.59
Sin Mejorar - Rúbrica Más Simple0.170.57

Hallazgos Clave

  1. Potencial de Rúbricas Simples: Comenzando con la rúbrica más simple "Calificar de 1-6 basándose en el contenido de la respuesta", las rúbricas mejoradas pueden superar los estándares cuidadosamente elaborados manualmente
  2. Características de Rúbricas Mejoradas:
    • Adición de énfasis visual (como negrita) para destacar evidencia clave
    • Adición de tablas de resumen breve al final de la rúbrica
    • Reglas condicionales explícitas: "Si se observa X, entonces asignar calificación s"
  3. Diferencias entre Conjuntos de Datos: TOEFL11 utiliza calificación de tres niveles de grano grueso (bajo/medio/alto), con valores QWK generalmente más altos, lo que puede limitar el espacio de mejora

Análisis de Casos

La Figura 3 muestra la rúbrica ASAP P1 mejorada a partir de la rúbrica más simple, que incluye:

  • Principios detallados de orientación de calificación
  • Explicaciones específicas de la distinción entre calificaciones 4 y 5
  • Tabla de resumen de calificación estructurada
  • Reglas de juicio condicional explícitas

Trabajo Relacionado

Direcciones Principales de Investigación

  1. Evaluación de LLM: Uso de listas de verificación y estándares para evaluación de tareas no verificadas
  2. Desarrollo de Tecnología AES: Propuesta de diversas técnicas de calificación automática de ensayos
  3. Investigación de Diseño de Rúbricas:
    • Furuhashi et al. descubrieron el fenómeno de "elementos negativos"
    • Yoshida descubrió que rúbricas más detalladas no siempre traen mejoras de rendimiento

Ventajas de Este Artículo

En comparación con la investigación existente, este artículo propone por primera vez permitir que los LLMs reflexionen sobre sus propias salidas para mejorar iterativamente las rúbricas, simulando el proceso de calibración de evaluadores humanos.

Conclusiones y Discusión

Conclusiones Principales

  1. Mejora Iterativa de Rúbricas Efectiva: Se valida la efectividad del método en múltiples conjuntos de datos y modelos
  2. Importancia de la Rúbrica Inicial Irrelevante: Incluso comenzando con rúbricas extremadamente simples se puede lograr un desempeño excelente
  3. Viabilidad de Automatización: Los LLMs pueden identificar de forma autónoma estándares de evaluación relevantes

Limitaciones

  1. Rango de Conjuntos de Datos Limitado: Experimentos realizados solo en TOEFL11 y ASAP Indicador 1
  2. Requisito de Datos Anotados: El proceso de mejora requiere 200 muestras anotadas
  3. Métrica de Evaluación Única: Solo se optimiza para QWK, lo que puede no capturar todos los aspectos de la calidad de calificación
  4. Limitación de Línea Base Alta: Espacio de mejora limitado en conjuntos de datos con puntuaciones de línea base ya altas

Direcciones Futuras

  1. Extensión a más tipos de ensayos y dominios
  2. Exploración de métodos para reducir requisitos de datos anotados
  3. Investigación de estrategias de optimización multimétrica
  4. Comprensión profunda de características de estándares aplicables a LLM

Evaluación Profunda

Fortalezas

  1. Metodología Altamente Innovadora:
    • Primera aplicación de ideas de optimización de indicadores a mejora de rúbricas AES
    • Simula el proceso de calibración de evaluadores humanos, con fuerte justificación intuitiva
    • Diseño algorítmico simple y efectivo
  2. Diseño Experimental Completo:
    • Validación con múltiples modelos y conjuntos de datos
    • Incluye comparaciones con diferentes rúbricas iniciales
    • Análisis de significancia estadística completo
  3. Resultados Convincentes:
    • Mejoras significativas de rendimiento (máximo 0.47 QWK)
    • El descubrimiento de que rúbricas simples superan estándares humanos tiene importancia significativa
    • Proporciona ejemplos concretos de rúbricas mejoradas
  4. Alto Valor Práctico:
    • Algoritmo fácil de implementar y reproducir
    • Puede reducir costos de escritura manual de estándares
    • Proporciona nuevas perspectivas para optimización de sistemas AES

Deficiencias

  1. Alcance Experimental Limitado:
    • Solo dos conjuntos de datos probados, generalización pendiente de verificación
    • Falta validación en diferentes idiomas y contextos culturales
    • No considera diferencias en tipos de ensayos
  2. Análisis Teórico Insuficiente:
    • Falta análisis teórico profundo de por qué el método es efectivo
    • No explora características intrínsecas y patrones de rúbricas mejoradas
    • Falta garantías teóricas de convergencia y estabilidad
  3. Análisis de Costos Faltante:
    • No analiza en detalle costos computacionales y gastos de tiempo
    • Falta comparación de costo-beneficio con métodos tradicionales
    • Análisis insuficiente de viabilidad para implementación práctica

Impacto

  1. Contribución Académica:
    • Proporciona nueva dirección de investigación para campo AES
    • Demuestra potencial de capacidad de automejoría de LLM en tareas de evaluación
    • Puede inspirar más investigación en sistemas de evaluación adaptativos
  2. Valor Práctico:
    • Aplicable directamente a sistemas AES basados en LLM existentes
    • Ayuda a empresas de tecnología educativa a mejorar productos
    • Proporciona nuevas herramientas para estandarización de evaluación educativa
  3. Reproducibilidad:
    • Proporciona descripción completa del algoritmo
    • Incluye configuración experimental detallada
    • Buena disponibilidad de código y datos

Escenarios Aplicables

  1. Evaluación Educativa: Calificación de ensayos en exámenes estandarizados de diversos tipos
  2. Educación en Línea: Calificación automática de tareas en plataformas MOOC
  3. Aprendizaje de Idiomas: Evaluación de capacidad de escritura en segundo idioma
  4. Capacitación Empresarial: Evaluación de habilidades de escritura de empleados

Referencias

El artículo cita múltiples trabajos relacionados importantes, incluyendo:

  • Optimización de Indicadores: Khattab et al. (2023), Agrawal et al. (2025)
  • AES Relacionado: Mizumoto and Eguchi (2023), Lee et al. (2024)
  • Calibración de Evaluadores Humanos: Trace et al. (2016), Ouyang et al. (2022)
  • Automejoría de LLM: Madaan et al. (2023), Kamoi et al. (2024)

Evaluación General: Este es un artículo de investigación de alta calidad que propone un método innovador y logra resultados experimentales significativos. Aunque hay espacio para mejora en el alcance experimental y análisis teórico, su idea central posee fuerte valor práctico e importancia académica, haciendo una contribución importante al desarrollo del campo AES.