Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise
Harada, Yoshida, Kojima et al.
The performance of Large Language Models (LLMs) is highly sensitive to the prompts they are given. Drawing inspiration from the field of prompt optimization, this study investigates the potential for enhancing Automated Essay Scoring (AES) by refining the scoring rubrics used by LLMs. Specifically, our approach prompts models to iteratively refine rubrics by reflecting on models' own scoring rationales and observed discrepancies with human scores on sample essays. Experiments on the TOEFL11 and ASAP datasets using GPT-4.1, Gemini-2.5-Pro, and Qwen-3-Next-80B-A3B-Instruct show Quadratic Weighted Kappa (QWK) improvements of up to 0.19 and 0.47, respectively. Notably, even with a simple initial rubric, our approach achieves comparable or better QWK than using detailed human-authored rubrics. Our findings highlight the importance of iterative rubric refinement in LLM-based AES to enhance alignment with human evaluations.
academic
Автоматизированное совершенствование критериев оценки эссе для языковых моделей посредством рефлексии и пересмотра
Производительность больших языковых моделей (LLM) в высокой степени зависит от предоставленного запроса. Данное исследование, вдохновленное областью оптимизации запросов, исследует потенциал повышения эффективности автоматической оценки эссе (AES) путем совершенствования критериев оценки, используемых LLM. Конкретно, метод предполагает итеративное улучшение критериев оценки путем побуждения модели к рефлексии над собственными обоснованиями оценок и различиями с оценками человека. Эксперименты с использованием GPT-4.1, Gemini-2.5-Pro и Qwen-3-Next-80B-A3B-Instruct на наборах данных TOEFL11 и ASAP показывают повышение квадратично взвешенного каппа (QWK) на максимум 0,19 и 0,47 соответственно. Примечательно, что даже при использовании простых исходных критериев метод достигает QWK, сравнимого или превосходящего результаты при использовании детальных критериев, написанных человеком. Результаты исследования подчеркивают важность итеративного совершенствования критериев в системах AES на основе LLM для повышения согласованности с оценками человека.
Основная проблема: Традиционные системы автоматической оценки эссе на основе LLM используют статические, предопределенные критерии оценки, которые, будучи разработанными для человеческих оценивающих, могут быть неоптимальными для LLM.
Значимость: С широким внедрением LLM в образование необходимы системы AES, способные предоставлять своевременную, масштабируемую обратную связь для облегчения нагрузки на преподавателей.
Существующие ограничения:
Современные системы AES на основе LLM игнорируют процесс совместной калибровки человеческих оценивающих
Человеческие оценивающие обычно оценивают образцы эссе, обсуждают различия в суждениях и улучшают общее понимание критериев
Эта практика итеративной рефлексии упускается в современных системах AES на основе LLM, ограничивая их согласованность с моделью оценки человека
Вдохновленные методами оптимизации запросов и процессом калибровки человеческих оценивающих, авторы предлагают итеративный метод совершенствования, позволяющий LLM автоматически улучшать критерии оценки на основе собственной производительности при оценке образцов эссе.
Предложен метод итеративного совершенствования критериев: На основе механизма рефлексии-пересмотра, позволяющего LLM автоматически улучшать критерии оценки на основе различий с оценками человека
Подтверждена эффективность метода: На двух стандартных наборах данных с использованием трех различных LLM продемонстрировано значительное повышение производительности
Выявлены новые закономерности в разработке критериев: Даже начиная с самых простых критериев, улучшенные критерии могут превзойти тщательно разработанные критерии человека
Предоставлена практическая схема алгоритма: Представлен полный алгоритм итеративного совершенствования с хорошей воспроизводимостью
Входные данные: Набор данных D, языковая модель M, исходные критерии Rseed
Параметры: Количество итераций T, размер пакета b
1. Rbest ← Rinit
2. QWKbest ← EVALUATE(M, Rbest, Dval)
3. for t = 1 to T do
4. B ← SAMPLEMINIBATCH(Dtrain, b)
5. FbData ← ∅
6. for each (x, y) ∈ B do
7. (ŷ, z) ← SCORE(M, Rbest, x)
8. Add (rationale=z, pred_score=ŷ, true_score=y) to FbData
9. end for
10. Rnew ← REFINE(M, Rbest, FbData)
11. QWKnew ← EVALUATE(M, Rnew, Dval)
12. if QWKnew > QWKbest then
13. Rbest ← Rnew
14. QWKbest ← QWKnew
15. end if
16. end for
17. return Rbest
Потенциал самых простых критериев: Начиная с самых простых критериев "оценить ответ в диапазоне 1-6 баллов на основе содержания", улучшенные критерии могут превзойти тщательно разработанные критерии человека
Характеристики улучшенных критериев:
Добавление визуального выделения (например, полужирный шрифт) для подчеркивания ключевых доказательств
Добавление краткой сводной таблицы в конце критериев
Явные условные правила: "Если наблюдается X, то присвоить оценку s"
Различия между наборами данных: TOEFL11 использует грубую трехуровневую оценку (низкий/средний/высокий), общие значения QWK выше, что может ограничивать пространство для улучшения
В отличие от существующих исследований, данная работа впервые предлагает метод, позволяющий LLM размышлять над собственными выходными данными для итеративного совершенствования критериев, имитируя процесс калибровки человеческих оценивающих.
Статья ссылается на множество важных связанных работ, включая:
Оптимизация запросов: Khattab et al. (2023), Agrawal et al. (2025)
AES: Mizumoto and Eguchi (2023), Lee et al. (2024)
Калибровка человеческих оценивающих: Trace et al. (2016), Ouyang et al. (2022)
Самосовершенствование LLM: Madaan et al. (2023), Kamoi et al. (2024)
Общая оценка: Это высококачественная исследовательская работа, предлагающая инновационный метод и достигающая значительных экспериментальных результатов. Хотя в диапазоне экспериментов и теоретическом анализе есть место для улучшения, основная идея обладает сильной практической ценностью и академической значимостью, внося важный вклад в развитие области AES.