2025-11-21T04:13:15.591642

Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise

Harada, Yoshida, Kojima et al.

The performance of Large Language Models (LLMs) is highly sensitive to the prompts they are given. Drawing inspiration from the field of prompt optimization, this study investigates the potential for enhancing Automated Essay Scoring (AES) by refining the scoring rubrics used by LLMs. Specifically, our approach prompts models to iteratively refine rubrics by reflecting on models' own scoring rationales and observed discrepancies with human scores on sample essays. Experiments on the TOEFL11 and ASAP datasets using GPT-4.1, Gemini-2.5-Pro, and Qwen-3-Next-80B-A3B-Instruct show Quadratic Weighted Kappa (QWK) improvements of up to 0.19 and 0.47, respectively. Notably, even with a simple initial rubric, our approach achieves comparable or better QWK than using detailed human-authored rubrics. Our findings highlight the importance of iterative rubric refinement in LLM-based AES to enhance alignment with human evaluations.

academic

Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise

基本信息

论文ID: 2510.09030
标题: Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise
作者: Keno Harada, Lui Yoshida, Takeshi Kojima, Yusuke Iwasawa, Yutaka Matsuo (The University of Tokyo)
分类: cs.CL (Computational Linguistics)
发表时间: 2025年10月10日 (arXiv preprint)
论文链接: https://arxiv.org/abs/2510.09030

摘要

大型语言模型(LLMs)的性能对给定的提示高度敏感。本研究受提示优化领域启发，探索通过改进LLMs使用的评分标准来增强自动作文评分(AES)的潜力。具体而言，该方法通过让模型反思自身的评分理由和与人类评分的差异，提示模型迭代改进评分标准。在TOEFL11和ASAP数据集上使用GPT-4.1、Gemini-2.5-Pro和Qwen-3-Next-80B-A3B-Instruct的实验显示，二次加权卡帕(QWK)分别提升了最多0.19和0.47。值得注意的是，即使使用简单的初始标准，该方法也能达到与使用详细人工编写标准相当或更好的QWK。研究结果突出了在基于LLM的AES中迭代标准改进对增强与人类评估一致性的重要性。

研究背景与动机

问题定义

核心问题：传统的LLM自动作文评分系统使用静态、预定义的评分标准，这些为人类评分员设计的标准可能不是LLMs的最优选择。
重要性：随着LLM在教育领域的广泛应用，需要能够提供实时、可扩展反馈的AES系统来减轻教师评分负担。
现有局限性：
- 当前LLM-based AES忽略了人类评分员的协作校准过程
- 人类评分员通常会对样本作文进行评分，讨论判断差异，并改进对标准的共同理解
- 这种迭代反思实践在当前LLM-based AES中被忽视，限制了其与人类评分模式的一致性

研究动机

受到提示优化技术和人类评分员校准过程的启发，作者提出了一种迭代改进方法，让LLMs能够根据自身在样本作文上的评分表现来反思和改进评分标准。

核心贡献

提出了迭代标准改进方法：基于反思-修订机制，让LLMs能够根据与人类评分的差异自动改进评分标准
验证了方法的有效性：在两个标准数据集上使用三种不同LLMs证明了显著的性能提升
发现了标准设计的新洞察：即使从最简单的标准开始，改进后的标准也能超越精心设计的人工标准
提供了实用的算法框架：给出了完整的迭代改进算法，具有良好的可复现性

方法详解

任务定义

输入：作文文本 x 和评分标准 R
输出：预测评分 ŷ 和评分理由 z
目标：最大化LLM评分与人类评分之间的二次加权卡帕(QWK)

模型架构

算法流程

该方法包含以下核心组件：

评分功能：模型M接收标准和作文，生成预测评分和文本理由
改进功能：M根据之前的标准、生成的理由和评分差异生成改进的标准

迭代改进算法 (Algorithm 1)

输入：数据集D，语言模型M，初始标准Rseed
参数：迭代次数T，批次大小b

1. Rbest ← Rinit
2. QWKbest ← EVALUATE(M, Rbest, Dval)
3. for t = 1 to T do
4.   B ← SAMPLEMINIBATCH(Dtrain, b)
5.   FbData ← ∅
6.   for each (x, y) ∈ B do
7.     (ŷ, z) ← SCORE(M, Rbest, x)
8.     Add (rationale=z, pred_score=ŷ, true_score=y) to FbData
9.   end for
10.  Rnew ← REFINE(M, Rbest, FbData)
11.  QWKnew ← EVALUATE(M, Rnew, Dval)
12.  if QWKnew > QWKbest then
13.    Rbest ← Rnew
14.    QWKbest ← QWKnew
15.  end if
16. end for
17. return Rbest

技术创新点

自反思机制：模型能够分析自己的评分理由和与人类评分的差异
迭代优化：通过多轮改进逐步提升标准质量
最小初始要求：可以从极简的标准开始（如"基于回答内容，在1-6分范围内评分"）
性能驱动更新：只有当新标准在验证集上表现更好时才会更新

实验设置

数据集

TOEFL11数据集

规模：12,100篇作文，8个作文提示
评分：3个熟练度等级（高、中、低），从原始5分制转换
划分：训练集100篇，验证集100篇，测试集1,100篇

ASAP数据集

使用子集：Prompt 1 (P1)，6分制评分
划分：测试集179篇（10%），训练集和验证集各100篇
特点：包含两个人类评分员的标注

评价指标

主要指标：二次加权卡帕(QWK)，广泛用于AES评估的指标
统计方法：每个实验运行3次，报告均值和标准差

对比方法

基线方法：使用人工编写的详细评分标准
种子标准类型：
- simplest_rubric：最简单标准
- human_rubric：官方详细评分指南
- simplified_human_rubric：简化的人工标准

实现细节

迭代次数：T = 10
批次大小：B = 10
模型：GPT-4.1, GPT-5-mini, Gemini-2.5-Flash, Gemini-2.5-Pro, Qwen3-Next-80B-A3B-Instruct
温度设置：根据不同模型调整（0.7-1.0）

实验结果

主要结果

QWK提升幅度

ASAP数据集：最大提升0.47 QWK
TOEFL11数据集：最大提升0.19 QWK
模型表现：5个模型中，4个在ASAP上有提升，2个在TOEFL11上有提升

不同起始标准的表现（表1）

起始标准	ASAP	TOEFL
改进后-人工标准	0.46	0.56
改进后-简化标准	0.41	0.58
改进后-最简标准	0.48	0.64
未改进-人工标准	0.26	0.58
未改进-简化标准	0.33	0.59
未改进-最简标准	0.17	0.57