2025-11-21T04:13:15.591642

Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise

Harada, Yoshida, Kojima et al.
The performance of Large Language Models (LLMs) is highly sensitive to the prompts they are given. Drawing inspiration from the field of prompt optimization, this study investigates the potential for enhancing Automated Essay Scoring (AES) by refining the scoring rubrics used by LLMs. Specifically, our approach prompts models to iteratively refine rubrics by reflecting on models' own scoring rationales and observed discrepancies with human scores on sample essays. Experiments on the TOEFL11 and ASAP datasets using GPT-4.1, Gemini-2.5-Pro, and Qwen-3-Next-80B-A3B-Instruct show Quadratic Weighted Kappa (QWK) improvements of up to 0.19 and 0.47, respectively. Notably, even with a simple initial rubric, our approach achieves comparable or better QWK than using detailed human-authored rubrics. Our findings highlight the importance of iterative rubric refinement in LLM-based AES to enhance alignment with human evaluations.
academic

Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise

基本信息

  • 论文ID: 2510.09030
  • 标题: Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise
  • 作者: Keno Harada, Lui Yoshida, Takeshi Kojima, Yusuke Iwasawa, Yutaka Matsuo (The University of Tokyo)
  • 分类: cs.CL (Computational Linguistics)
  • 发表时间: 2025年10月10日 (arXiv preprint)
  • 论文链接: https://arxiv.org/abs/2510.09030

摘要

大型语言模型(LLMs)的性能对给定的提示高度敏感。本研究受提示优化领域启发,探索通过改进LLMs使用的评分标准来增强自动作文评分(AES)的潜力。具体而言,该方法通过让模型反思自身的评分理由和与人类评分的差异,提示模型迭代改进评分标准。在TOEFL11和ASAP数据集上使用GPT-4.1、Gemini-2.5-Pro和Qwen-3-Next-80B-A3B-Instruct的实验显示,二次加权卡帕(QWK)分别提升了最多0.19和0.47。值得注意的是,即使使用简单的初始标准,该方法也能达到与使用详细人工编写标准相当或更好的QWK。研究结果突出了在基于LLM的AES中迭代标准改进对增强与人类评估一致性的重要性。

研究背景与动机

问题定义

  1. 核心问题:传统的LLM自动作文评分系统使用静态、预定义的评分标准,这些为人类评分员设计的标准可能不是LLMs的最优选择。
  2. 重要性:随着LLM在教育领域的广泛应用,需要能够提供实时、可扩展反馈的AES系统来减轻教师评分负担。
  3. 现有局限性
    • 当前LLM-based AES忽略了人类评分员的协作校准过程
    • 人类评分员通常会对样本作文进行评分,讨论判断差异,并改进对标准的共同理解
    • 这种迭代反思实践在当前LLM-based AES中被忽视,限制了其与人类评分模式的一致性

研究动机

受到提示优化技术和人类评分员校准过程的启发,作者提出了一种迭代改进方法,让LLMs能够根据自身在样本作文上的评分表现来反思和改进评分标准。

核心贡献

  1. 提出了迭代标准改进方法:基于反思-修订机制,让LLMs能够根据与人类评分的差异自动改进评分标准
  2. 验证了方法的有效性:在两个标准数据集上使用三种不同LLMs证明了显著的性能提升
  3. 发现了标准设计的新洞察:即使从最简单的标准开始,改进后的标准也能超越精心设计的人工标准
  4. 提供了实用的算法框架:给出了完整的迭代改进算法,具有良好的可复现性

方法详解

任务定义

  • 输入:作文文本 x 和评分标准 R
  • 输出:预测评分 ŷ 和评分理由 z
  • 目标:最大化LLM评分与人类评分之间的二次加权卡帕(QWK)

模型架构

算法流程

该方法包含以下核心组件:

  1. 评分功能:模型M接收标准和作文,生成预测评分和文本理由
  2. 改进功能:M根据之前的标准、生成的理由和评分差异生成改进的标准

迭代改进算法 (Algorithm 1)

输入:数据集D,语言模型M,初始标准Rseed
参数:迭代次数T,批次大小b

1. Rbest ← Rinit
2. QWKbest ← EVALUATE(M, Rbest, Dval)
3. for t = 1 to T do
4.   B ← SAMPLEMINIBATCH(Dtrain, b)
5.   FbData ← ∅
6.   for each (x, y) ∈ B do
7.     (ŷ, z) ← SCORE(M, Rbest, x)
8.     Add (rationale=z, pred_score=ŷ, true_score=y) to FbData
9.   end for
10.  Rnew ← REFINE(M, Rbest, FbData)
11.  QWKnew ← EVALUATE(M, Rnew, Dval)
12.  if QWKnew > QWKbest then
13.    Rbest ← Rnew
14.    QWKbest ← QWKnew
15.  end if
16. end for
17. return Rbest

技术创新点

  1. 自反思机制:模型能够分析自己的评分理由和与人类评分的差异
  2. 迭代优化:通过多轮改进逐步提升标准质量
  3. 最小初始要求:可以从极简的标准开始(如"基于回答内容,在1-6分范围内评分")
  4. 性能驱动更新:只有当新标准在验证集上表现更好时才会更新

实验设置

数据集

TOEFL11数据集

  • 规模:12,100篇作文,8个作文提示
  • 评分:3个熟练度等级(高、中、低),从原始5分制转换
  • 划分:训练集100篇,验证集100篇,测试集1,100篇

ASAP数据集

  • 使用子集:Prompt 1 (P1),6分制评分
  • 划分:测试集179篇(10%),训练集和验证集各100篇
  • 特点:包含两个人类评分员的标注

评价指标

  • 主要指标:二次加权卡帕(QWK),广泛用于AES评估的指标
  • 统计方法:每个实验运行3次,报告均值和标准差

对比方法

  • 基线方法:使用人工编写的详细评分标准
  • 种子标准类型
    • simplest_rubric:最简单标准
    • human_rubric:官方详细评分指南
    • simplified_human_rubric:简化的人工标准

实现细节

  • 迭代次数:T = 10
  • 批次大小:B = 10
  • 模型:GPT-4.1, GPT-5-mini, Gemini-2.5-Flash, Gemini-2.5-Pro, Qwen3-Next-80B-A3B-Instruct
  • 温度设置:根据不同模型调整(0.7-1.0)

实验结果

主要结果

QWK提升幅度

  • ASAP数据集:最大提升0.47 QWK
  • TOEFL11数据集:最大提升0.19 QWK
  • 模型表现:5个模型中,4个在ASAP上有提升,2个在TOEFL11上有提升

不同起始标准的表现(表1)

起始标准ASAPTOEFL
改进后-人工标准0.460.56
改进后-简化标准0.410.58
改进后-最简标准0.480.64
未改进-人工标准0.260.58
未改进-简化标准0.330.59
未改进-最简标准0.170.57

关键发现

  1. 最简标准的潜力:从最简单的标准"基于回答内容,在1-6分范围内评分"开始,改进后的标准能够超越精心制作的人工标准
  2. 改进标准的特征
    • 添加视觉强调(如粗体)突出关键证据
    • 在标准末尾添加简要总结表
    • 明确的条件规则:"如果观察到X,则给予评分s"
  3. 数据集差异:TOEFL11使用粗粒度的三级评分(低/中/高),整体QWK值较高,可能限制了改进空间

案例分析

图3展示了从最简标准改进后的ASAP P1标准,包含:

  • 详细的评分指导原则
  • 4分和5分区别的具体说明
  • 结构化的评分总结表
  • 明确的条件判断规则

相关工作

主要研究方向

  1. LLM自动评估:使用检查清单和标准进行非验证性任务评估
  2. AES技术发展:各种自动作文评分技术的提出
  3. 标准设计研究
    • Furuhashi等发现"负面项目"现象
    • Yoshida发现更详细的标准不总是带来性能提升

本文优势

与现有研究相比,本文首次提出让LLM反思自身输出来迭代改进标准的方法,模拟了人类评分员的校准过程。

结论与讨论

主要结论

  1. 迭代标准改进有效:在多个数据集和模型上验证了方法的有效性
  2. 初始标准不重要:即使从极简标准开始也能达到优秀性能
  3. 自动化可行性:LLMs能够自主识别相关评估标准

局限性

  1. 数据集范围有限:仅在TOEFL11和ASAP Prompt 1上进行实验
  2. 标注数据需求:改进过程需要200个标注样本
  3. 评价指标单一:仅以QWK为优化目标,可能无法捕捉评分质量的所有方面
  4. 高基线限制:在已有高基线分数的数据集上改进空间有限

未来方向

  1. 扩展到更多作文类型和领域
  2. 探索减少标注数据需求的方法
  3. 研究多指标优化策略
  4. 深入理解LLM适用标准的特征

深度评价

优点

  1. 方法创新性强
    • 首次将提示优化思想应用到AES标准改进
    • 模拟人类评分员校准过程,具有很强的直觉合理性
    • 算法设计简洁有效
  2. 实验设计充分
    • 使用多个模型和数据集验证
    • 包含不同起始标准的对比
    • 统计显著性分析完整
  3. 结果说服力强
    • 显著的性能提升(最高0.47 QWK)
    • 最简标准超越人工标准的发现具有重要意义
    • 提供了具体的改进标准案例
  4. 实用价值高
    • 算法易于实现和复现
    • 可以减少人工编写标准的成本
    • 为AES系统优化提供新思路

不足

  1. 实验范围局限
    • 仅测试两个数据集,泛化性有待验证
    • 缺乏不同语言和文化背景的验证
    • 未考虑不同作文类型的差异
  2. 理论分析不足
    • 缺乏对为什么该方法有效的深入理论分析
    • 未探讨改进标准的内在特征和规律
    • 对收敛性和稳定性缺乏理论保证
  3. 成本分析缺失
    • 未详细分析计算成本和时间开销
    • 缺乏与传统方法的成本效益对比
    • 对实际部署的可行性分析不足

影响力

  1. 学术贡献
    • 为AES领域提供了新的研究方向
    • 证明了LLM自我改进能力在评估任务中的潜力
    • 可能启发更多自适应评估系统的研究
  2. 实用价值
    • 可直接应用于现有LLM-based AES系统
    • 有助于教育技术公司改进产品
    • 为教育评估标准化提供新工具
  3. 可复现性
    • 提供了完整的算法描述
    • 包含详细的实验设置
    • 代码和数据可获得性良好

适用场景

  1. 教育评估:各类标准化考试的作文评分
  2. 在线教育:MOOC平台的作业自动评分
  3. 语言学习:第二语言写作能力评估
  4. 企业培训:员工写作技能测评

参考文献

论文引用了多个重要的相关工作,包括:

  • 提示优化相关:Khattab et al. (2023), Agrawal et al. (2025)
  • AES相关:Mizumoto and Eguchi (2023), Lee et al. (2024)
  • 人类评分校准:Trace et al. (2016), Ouyang et al. (2022)
  • LLM自我改进:Madaan et al. (2023), Kamoi et al. (2024)

总体评价:这是一篇高质量的研究论文,提出了创新的方法并取得了显著的实验结果。虽然在实验范围和理论分析方面还有改进空间,但其核心思想具有很强的实用价值和学术意义,为AES领域的发展做出了重要贡献。