2025-11-21T04:13:15.591642

Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise

Harada, Yoshida, Kojima et al.

The performance of Large Language Models (LLMs) is highly sensitive to the prompts they are given. Drawing inspiration from the field of prompt optimization, this study investigates the potential for enhancing Automated Essay Scoring (AES) by refining the scoring rubrics used by LLMs. Specifically, our approach prompts models to iteratively refine rubrics by reflecting on models' own scoring rationales and observed discrepancies with human scores on sample essays. Experiments on the TOEFL11 and ASAP datasets using GPT-4.1, Gemini-2.5-Pro, and Qwen-3-Next-80B-A3B-Instruct show Quadratic Weighted Kappa (QWK) improvements of up to 0.19 and 0.47, respectively. Notably, even with a simple initial rubric, our approach achieves comparable or better QWK than using detailed human-authored rubrics. Our findings highlight the importance of iterative rubric refinement in LLM-based AES to enhance alignment with human evaluations.

academic

Автоматизированное совершенствование критериев оценки эссе для языковых моделей посредством рефлексии и пересмотра

Основная информация

ID статьи: 2510.09030
Название: Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise
Авторы: Кено Харада, Луи Йошида, Такеши Кодзима, Юсукэ Ивасава, Ютака Мацуо (Токийский университет)
Категория: cs.CL (Вычислительная лингвистика)
Дата публикации: 10 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.09030

Аннотация

Производительность больших языковых моделей (LLM) в высокой степени зависит от предоставленного запроса. Данное исследование, вдохновленное областью оптимизации запросов, исследует потенциал повышения эффективности автоматической оценки эссе (AES) путем совершенствования критериев оценки, используемых LLM. Конкретно, метод предполагает итеративное улучшение критериев оценки путем побуждения модели к рефлексии над собственными обоснованиями оценок и различиями с оценками человека. Эксперименты с использованием GPT-4.1, Gemini-2.5-Pro и Qwen-3-Next-80B-A3B-Instruct на наборах данных TOEFL11 и ASAP показывают повышение квадратично взвешенного каппа (QWK) на максимум 0,19 и 0,47 соответственно. Примечательно, что даже при использовании простых исходных критериев метод достигает QWK, сравнимого или превосходящего результаты при использовании детальных критериев, написанных человеком. Результаты исследования подчеркивают важность итеративного совершенствования критериев в системах AES на основе LLM для повышения согласованности с оценками человека.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема: Традиционные системы автоматической оценки эссе на основе LLM используют статические, предопределенные критерии оценки, которые, будучи разработанными для человеческих оценивающих, могут быть неоптимальными для LLM.
Значимость: С широким внедрением LLM в образование необходимы системы AES, способные предоставлять своевременную, масштабируемую обратную связь для облегчения нагрузки на преподавателей.
Существующие ограничения:
- Современные системы AES на основе LLM игнорируют процесс совместной калибровки человеческих оценивающих
- Человеческие оценивающие обычно оценивают образцы эссе, обсуждают различия в суждениях и улучшают общее понимание критериев
- Эта практика итеративной рефлексии упускается в современных системах AES на основе LLM, ограничивая их согласованность с моделью оценки человека

Исследовательская мотивация

Вдохновленные методами оптимизации запросов и процессом калибровки человеческих оценивающих, авторы предлагают итеративный метод совершенствования, позволяющий LLM автоматически улучшать критерии оценки на основе собственной производительности при оценке образцов эссе.

Основные вклады

Предложен метод итеративного совершенствования критериев: На основе механизма рефлексии-пересмотра, позволяющего LLM автоматически улучшать критерии оценки на основе различий с оценками человека
Подтверждена эффективность метода: На двух стандартных наборах данных с использованием трех различных LLM продемонстрировано значительное повышение производительности
Выявлены новые закономерности в разработке критериев: Даже начиная с самых простых критериев, улучшенные критерии могут превзойти тщательно разработанные критерии человека
Предоставлена практическая схема алгоритма: Представлен полный алгоритм итеративного совершенствования с хорошей воспроизводимостью

Подробное описание метода

Определение задачи

Входные данные: Текст эссе x и критерии оценки R
Выходные данные: Прогнозируемая оценка ŷ и обоснование оценки z
Цель: Максимизировать квадратично взвешенный каппа (QWK) между оценками LLM и оценками человека

Архитектура модели

Процесс алгоритма

Метод включает следующие основные компоненты:

Функция оценки: Модель M получает критерии и эссе, генерирует прогнозируемую оценку и текстовое обоснование
Функция совершенствования: M генерирует улучшенные критерии на основе предыдущих критериев, сгенерированных обоснований и различий в оценках

Алгоритм итеративного совершенствования (Алгоритм 1)

Входные данные: Набор данных D, языковая модель M, исходные критерии Rseed
Параметры: Количество итераций T, размер пакета b

1. Rbest ← Rinit
2. QWKbest ← EVALUATE(M, Rbest, Dval)
3. for t = 1 to T do
4.   B ← SAMPLEMINIBATCH(Dtrain, b)
5.   FbData ← ∅
6.   for each (x, y) ∈ B do
7.     (ŷ, z) ← SCORE(M, Rbest, x)
8.     Add (rationale=z, pred_score=ŷ, true_score=y) to FbData
9.   end for
10.  Rnew ← REFINE(M, Rbest, FbData)
11.  QWKnew ← EVALUATE(M, Rnew, Dval)
12.  if QWKnew > QWKbest then
13.    Rbest ← Rnew
14.    QWKbest ← QWKnew
15.  end if
16. end for
17. return Rbest

Технические инновации

Механизм саморефлексии: Модель способна анализировать собственные обоснования оценок и различия с оценками человека
Итеративная оптимизация: Пошаговое повышение качества критериев через несколько раундов совершенствования
Минимальные начальные требования: Возможность начать с минимальных критериев (например, "оценить ответ в диапазоне 1-6 баллов на основе содержания")
Обновление, управляемое производительностью: Новые критерии обновляются только при лучшей производительности на наборе валидации

Экспериментальная установка

Наборы данных

Набор данных TOEFL11

Масштаб: 12 100 эссе, 8 письменных заданий
Оценка: 3 уровня владения (высокий, средний, низкий), преобразованные из исходной 5-балльной шкалы
Разделение: 100 эссе для обучения, 100 для валидации, 1 100 для тестирования

Набор данных ASAP

Используемое подмножество: Задание 1 (P1), 6-балльная шкала
Разделение: 179 эссе для тестирования (10%), по 100 для обучения и валидации
Особенность: Содержит аннотации двух человеческих оценивающих

Метрики оценки

Основная метрика: Квадратично взвешенный каппа (QWK), широко используемый показатель для оценки AES
Статистический метод: Каждый эксперимент проводится 3 раза, сообщаются среднее значение и стандартное отклонение

Методы сравнения

Базовый метод: Использование вручную написанных детальных критериев оценки
Типы исходных критериев:
- simplest_rubric: Самые простые критерии
- human_rubric: Официальные детальные руководства по оценке
- simplified_human_rubric: Упрощенные критерии человека

Детали реализации

Количество итераций: T = 10
Размер пакета: B = 10
Модели: GPT-4.1, GPT-5-mini, Gemini-2.5-Flash, Gemini-2.5-Pro, Qwen3-Next-80B-A3B-Instruct
Параметр температуры: Настраивается в зависимости от модели (0,7-1,0)

Результаты экспериментов

Основные результаты

Величина повышения QWK

Набор данных ASAP: Максимальное повышение 0,47 QWK
Набор данных TOEFL11: Максимальное повышение 0,19 QWK
Производительность модели: 4 из 5 моделей показали улучшение на ASAP, 2 на TOEFL11

Производительность при различных исходных критериях (Таблица 1)

Исходные критерии	ASAP	TOEFL
Улучшенные - критерии человека	0,46	0,56
Улучшенные - упрощенные критерии	0,41	0,58
Улучшенные - самые простые критерии	0,48	0,64
Неулучшенные - критерии человека	0,26	0,58
Неулучшенные - упрощенные критерии	0,33	0,59
Неулучшенные - самые простые критерии	0,17	0,57

Ключевые находки

Потенциал самых простых критериев: Начиная с самых простых критериев "оценить ответ в диапазоне 1-6 баллов на основе содержания", улучшенные критерии могут превзойти тщательно разработанные критерии человека
Характеристики улучшенных критериев:
- Добавление визуального выделения (например, полужирный шрифт) для подчеркивания ключевых доказательств
- Добавление краткой сводной таблицы в конце критериев
- Явные условные правила: "Если наблюдается X, то присвоить оценку s"
Различия между наборами данных: TOEFL11 использует грубую трехуровневую оценку (низкий/средний/высокий), общие значения QWK выше, что может ограничивать пространство для улучшения

Анализ примеров

На Рисунке 3 показаны улучшенные критерии ASAP P1, начиная с самых простых критериев, включающие:

Детальные принципы руководства по оценке
Конкретные объяснения различий между оценками 4 и 5
Структурированная сводная таблица оценок
Явные правила условного суждения

Связанные работы

Основные направления исследований

Автоматическая оценка LLM: Использование контрольных списков и критериев для оценки невалидированных задач
Развитие технологии AES: Предложение различных методов автоматической оценки эссе
Исследование разработки критериев:
- Фурухаши и др. обнаружили явление "отрицательных элементов"
- Йошида обнаружила, что более детальные критерии не всегда приводят к повышению производительности

Преимущества данной работы

В отличие от существующих исследований, данная работа впервые предлагает метод, позволяющий LLM размышлять над собственными выходными данными для итеративного совершенствования критериев, имитируя процесс калибровки человеческих оценивающих.

Выводы и обсуждение

Основные выводы

Итеративное совершенствование критериев эффективно: Метод подтвержден на нескольких наборах данных и моделях
Исходные критерии не важны: Даже начиная с минимальных критериев можно достичь отличной производительности
Автоматизация осуществима: LLM способны самостоятельно выявлять релевантные критерии оценки

Ограничения

Ограниченный диапазон наборов данных: Эксперименты проведены только на TOEFL11 и ASAP Prompt 1
Требования к аннотированным данным: Процесс совершенствования требует 200 аннотированных образцов
Единственная метрика оценки: Оптимизация только по QWK может не охватить все аспекты качества оценки
Ограничение высокого базового уровня: На наборах данных с уже высокими базовыми показателями пространство для улучшения ограничено

Направления будущих исследований

Расширение на более разнообразные типы эссе и области
Исследование методов снижения требований к аннотированным данным
Изучение стратегий многокритериальной оптимизации
Глубокое понимание характеристик критериев, применимых к LLM

Глубокая оценка

Преимущества

Высокая инновационность метода:
- Первое применение идей оптимизации запросов к совершенствованию критериев AES
- Имитирует процесс калибровки человеческих оценивающих с сильной интуитивной обоснованностью
- Простой и эффективный дизайн алгоритма
Полный экспериментальный дизайн:
- Проверка на нескольких моделях и наборах данных
- Включение сравнений с различными исходными критериями
- Полный анализ статистической значимости
Убедительные результаты:
- Значительное повышение производительности (максимум 0,47 QWK)
- Важное открытие о том, что самые простые критерии превосходят критерии человека
- Предоставлены конкретные примеры улучшенных критериев
Высокая практическая ценность:
- Алгоритм легко реализуется и воспроизводится
- Может снизить затраты на ручное написание критериев
- Предоставляет новые идеи для оптимизации систем AES

Недостатки

Ограниченный диапазон экспериментов:
- Тестирование только на двух наборах данных, обобщаемость требует проверки
- Отсутствие проверки на разных языках и культурных контекстах
- Не рассмотрены различия между разными типами эссе
Недостаточный теоретический анализ:
- Отсутствует глубокий теоретический анализ причин эффективности метода
- Не исследованы внутренние характеристики и закономерности улучшенных критериев
- Отсутствуют теоретические гарантии сходимости и стабильности
Отсутствует анализ затрат:
- Недостаточно подробный анализ вычислительных затрат и временных расходов
- Отсутствует анализ соотношения затрат и выгод по сравнению с традиционными методами
- Недостаточный анализ осуществимости практического развертывания

Влияние

Академический вклад:
- Предоставляет новое направление исследований для области AES
- Доказывает потенциал способности LLM к самосовершенствованию в задачах оценки
- Может вдохновить исследования более адаптивных систем оценки
Практическая ценность:
- Может быть непосредственно применен к существующим системам AES на основе LLM
- Помогает компаниям образовательных технологий улучшить продукты
- Предоставляет новые инструменты для стандартизации критериев образовательной оценки
Воспроизводимость:
- Предоставлено полное описание алгоритма
- Включены детальные параметры экспериментов
- Хорошая доступность кода и данных

Применимые сценарии

Образовательная оценка: Оценка эссе в различных стандартизированных тестах
Онлайн-образование: Автоматическая оценка заданий на платформах MOOC
Изучение языков: Оценка навыков письма на втором языке
Корпоративное обучение: Оценка навыков письма сотрудников

Библиография

Статья ссылается на множество важных связанных работ, включая:

Оптимизация запросов: Khattab et al. (2023), Agrawal et al. (2025)
AES: Mizumoto and Eguchi (2023), Lee et al. (2024)
Калибровка человеческих оценивающих: Trace et al. (2016), Ouyang et al. (2022)
Самосовершенствование LLM: Madaan et al. (2023), Kamoi et al. (2024)

Общая оценка: Это высококачественная исследовательская работа, предлагающая инновационный метод и достигающая значительных экспериментальных результатов. Хотя в диапазоне экспериментов и теоретическом анализе есть место для улучшения, основная идея обладает сильной практической ценностью и академической значимостью, внося важный вклад в развитие области AES.