The performance of Large Language Models (LLMs) is highly sensitive to the prompts they are given. Drawing inspiration from the field of prompt optimization, this study investigates the potential for enhancing Automated Essay Scoring (AES) by refining the scoring rubrics used by LLMs. Specifically, our approach prompts models to iteratively refine rubrics by reflecting on models' own scoring rationales and observed discrepancies with human scores on sample essays. Experiments on the TOEFL11 and ASAP datasets using GPT-4.1, Gemini-2.5-Pro, and Qwen-3-Next-80B-A3B-Instruct show Quadratic Weighted Kappa (QWK) improvements of up to 0.19 and 0.47, respectively. Notably, even with a simple initial rubric, our approach achieves comparable or better QWK than using detailed human-authored rubrics. Our findings highlight the importance of iterative rubric refinement in LLM-based AES to enhance alignment with human evaluations.
論文ID : 2510.09030タイトル : Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise著者 : Keno Harada, Lui Yoshida, Takeshi Kojima, Yusuke Iwasawa, Yutaka Matsuo(東京大学)分類 : cs.CL(計算言語学)発表日 : 2025年10月10日(arXivプレプリント)論文リンク : https://arxiv.org/abs/2510.09030 大規模言語モデル(LLM)のパフォーマンスは与えられたプロンプトに高度に依存している。本研究はプロンプト最適化の分野に着想を得て、LLMが使用するスコアリングルーブリックを改善することで自動エッセイスコアリング(AES)の可能性を探索する。具体的には、本手法はモデルに自身のスコアリング根拠と人間のスコアとの差異を反思させることで、スコアリングルーブリックを反復的に改善するようプロンプトする。TOEFL11およびASAPデータセット上でGPT-4.1、Gemini-2.5-Pro、Qwen-3-Next-80B-A3B-Instructを用いた実験では、二次加重カッパ(QWK)がそれぞれ最大0.19および0.47向上した。注目すべきことに、単純な初期ルーブリックを使用した場合でも、本手法は詳細な人間作成ルーブリックを使用した場合と同等またはそれ以上のQWKを達成できる。研究結果は、LLMベースのAESにおいて反復的なルーブリック改善が人間の評価との一致性を高めるために重要であることを強調している。
核心的課題 :従来のLLM自動エッセイスコアリングシステムは静的で事前定義されたスコアリングルーブリックを使用しており、これらは人間の採点者のために設計されたものであり、LLMにとって最適な選択肢ではない可能性がある。重要性 :教育分野でのLLMの広範な応用に伴い、教師の採点負担を軽減するためにリアルタイムでスケーラブルなフィードバックを提供できるAESシステムが必要とされている。既存の制限 :
現在のLLMベースAESは人間の採点者の協調的キャリブレーションプロセスを無視している 人間の採点者は通常、サンプルエッセイをスコアリングし、判断の相違について議論し、ルーブリックに対する共通の理解を改善する この反復的な反思実践は現在のLLMベースAESでは無視されており、人間の採点パターンとの一致性を制限している プロンプト最適化技術と人間の採点者キャリブレーションプロセスに着想を得て、著者はLLMがサンプルエッセイ上での採点パフォーマンスに基づいてスコアリングルーブリックを反思し改善できるようにする反復的改善手法を提案した。
反復的ルーブリック改善手法の提案 :反思-修正メカニズムに基づき、LLMが人間のスコアとの差異に基づいてスコアリングルーブリックを自動的に改善できるようにする手法の有効性の検証 :2つの標準的なデータセット上で3つの異なるLLMを使用して、顕著なパフォーマンス向上を実証ルーブリック設計に関する新しい洞察の発見 :最も単純なルーブリックから開始しても、改善されたルーブリックは慎重に設計された人間作成ルーブリックを上回ることができる実用的なアルゴリズムフレームワークの提供 :完全な反復改善アルゴリズムを提供し、優れた再現性を備えている入力 :エッセイテキスト x およびスコアリングルーブリック R出力 :予測スコア ŷ およびスコアリング根拠 z目標 :LLMのスコアと人間のスコア間の二次加重カッパ(QWK)を最大化する本手法は以下の核心的コンポーネントを含む:
スコアリング機能 :モデルMはルーブリックとエッセイを受け取り、予測スコアとテキスト根拠を生成する改善機能 :Mは以前のルーブリック、生成された根拠、およびスコアの差異に基づいて改善されたルーブリックを生成する入力:データセットD、言語モデルM、初期ルーブリックRseed
パラメータ:反復回数T、バッチサイズb
1. Rbest ← Rinit
2. QWKbest ← EVALUATE(M, Rbest, Dval)
3. for t = 1 to T do
4. B ← SAMPLEMINIBATCH(Dtrain, b)
5. FbData ← ∅
6. for each (x, y) ∈ B do
7. (ŷ, z) ← SCORE(M, Rbest, x)
8. (rationale=z, pred_score=ŷ, true_score=y)をFbDataに追加
9. end for
10. Rnew ← REFINE(M, Rbest, FbData)
11. QWKnew ← EVALUATE(M, Rnew, Dval)
12. if QWKnew > QWKbest then
13. Rbest ← Rnew
14. QWKbest ← QWKnew
15. end if
16. end for
17. return Rbest
自己反思メカニズム :モデルは自身のスコアリング根拠と人間のスコアとの差異を分析できる反復的最適化 :複数ラウンドの改善を通じてルーブリック品質を段階的に向上させる最小限の初期要件 :極めてシンプルなルーブリック(例:「回答内容に基づいて1~6点の範囲でスコアリングする」)から開始できるパフォーマンス駆動型更新 :新しいルーブリックが検証セット上でより良いパフォーマンスを示した場合のみ更新される規模 :12,100編のエッセイ、8つのエッセイプロンプトスコアリング :3つの熟練度レベル(高、中、低)、元の5段階制から変換分割 :訓練セット100編、検証セット100編、テストセット1,100編使用サブセット :プロンプト1(P1)、6段階評価分割 :テストセット179編(10%)、訓練セットおよび検証セット各100編特徴 :2人の人間採点者による注釈を含む主要指標 :二次加重カッパ(QWK)、AES評価で広く使用されている指標統計手法 :各実験は3回実行され、平均値と標準偏差を報告ベースライン手法 :人間作成の詳細なスコアリングルーブリックを使用シードルーブリックタイプ :
simplest_rubric:最も単純なルーブリックhuman_rubric:公式の詳細スコアリングガイドsimplified_human_rubric:簡略化された人間作成ルーブリック反復回数 :T = 10バッチサイズ :B = 10モデル :GPT-4.1、GPT-5-mini、Gemini-2.5-Flash、Gemini-2.5-Pro、Qwen3-Next-80B-A3B-Instruct温度設定 :異なるモデルに応じて調整(0.7~1.0)ASAPデータセット :最大0.47 QWK向上TOEFL11データセット :最大0.19 QWK向上モデルパフォーマンス :5つのモデル中、4つがASAP上で向上、2つがTOEFL11上で向上初期ルーブリック ASAP TOEFL 改善後-人間ルーブリック 0.46 0.56 改善後-簡略ルーブリック 0.41 0.58 改善後-最小ルーブリック 0.48 0.64 未改善-人間ルーブリック 0.26 0.58 未改善-簡略ルーブリック 0.33 0.59 未改善-最小ルーブリック 0.17 0.57
最小ルーブリックの可能性 :「回答内容に基づいて1~6点の範囲でスコアリングする」という最も単純なルーブリックから開始しても、改善されたルーブリックは慎重に作成された人間作成ルーブリックを上回ることができる改善されたルーブリックの特徴 :主要な証拠を強調するための視覚的強調(太字など)の追加 ルーブリック末尾への簡潔なサマリーテーブルの追加 明確な条件付きルール:「Xが観察された場合、スコアsを付与する」 データセット間の差異 :TOEFL11は粗粒度の3段階評価(低/中/高)を使用しており、全体的なQWK値が高く、改善の余地が限定される可能性がある図3は最小ルーブリックから改善されたASAP P1ルーブリックを示しており、以下を含む:
詳細なスコアリング指導原則 4点と5点の区別に関する具体的な説明 構造化されたスコアリングサマリーテーブル 明確な条件付き判断ルール LLM自動評価 :チェックリストとルーブリックを使用した非検証的タスク評価AES技術の発展 :様々な自動エッセイスコアリング技術の提案ルーブリック設計研究 :
Furuhashiら「ネガティブ項目」現象の発見 Yoshida「より詳細なルーブリックが必ずしもパフォーマンス向上をもたらさない」ことの発見 既存研究と比較して、本論文はLLMに自身の出力を反思させてルーブリックを反復的に改善させる手法を初めて提案し、人間の採点者キャリブレーションプロセスをシミュレートしている。
反復的ルーブリック改善は有効 :複数のデータセットとモデル上で手法の有効性が検証された初期ルーブリックは重要でない :極めてシンプルなルーブリックから開始しても優れたパフォーマンスを達成できる自動化は実行可能 :LLMは関連する評価ルーブリックを自律的に識別できるデータセット範囲の限定 :TOEFL11およびASAP Prompt 1のみで実験を実施注釈付きデータの必要性 :改善プロセスは200個の注釈付きサンプルを必要とする評価指標の単一性 :QWKのみを最適化目標とし、スコアリング品質のすべての側面を捉えられない可能性がある高いベースラインの制限 :既に高いベースラインスコアを持つデータセット上では改善の余地が限定されるより多くのエッセイタイプと領域への拡張 注釈付きデータ要件を削減する方法の探索 マルチ指標最適化戦略の研究 LLM適用ルーブリックの特性に関する深い理解 手法の革新性が強い :プロンプト最適化の思想をAESルーブリック改善に初めて適用 人間の採点者キャリブレーションプロセスをシミュレートし、強い直感的妥当性を持つ アルゴリズム設計がシンプルで効果的 実験設計が充分 :複数のモデルとデータセットを使用して検証 異なる初期ルーブリックの比較を含む 統計的有意性分析が完全 結果の説得力が強い :顕著なパフォーマンス向上(最高0.47 QWK) 最小ルーブリックが人間作成ルーブリックを上回る発見は重要な意義を持つ 改善されたルーブリックの具体的な例を提供 実用価値が高い :アルゴリズムは実装と再現が容易 人間作成ルーブリックのコストを削減できる AESシステム最適化に新しい視点を提供 実験範囲の制限 :2つのデータセットのみでテストされ、汎化性の検証が必要 異なる言語と文化背景での検証が不足 異なるエッセイタイプの差異を考慮していない 理論分析の不足 :本手法が有効である理由に関する深い理論分析が不足 改善されたルーブリックの内在的特性と規則性を探索していない 収束性と安定性に関する理論的保証が不足 コスト分析の欠落 :計算コストと時間オーバーヘッドの詳細な分析が不足 従来の手法とのコスト効果比較が不足 実際の導入可能性の分析が不十分 学術的貢献 :AES分野に新しい研究方向を提供 評価タスクにおけるLLM自己改善能力の可能性を実証 より多くの適応的評価システムの研究を刺激する可能性 実用的価値 :既存のLLMベースAESシステムに直接適用可能 教育技術企業の製品改善に役立つ 教育評価の標準化に新しいツールを提供 再現性 :完全なアルゴリズム説明を提供 詳細な実験設定を含む コードとデータの入手可能性が良好 教育評価 :各種標準化試験のエッセイスコアリングオンライン教育 :MOOCプラットフォームの課題自動採点言語学習 :第二言語ライティング能力評価企業研修 :従業員のライティングスキル評価論文は複数の重要な関連研究を引用しており、以下を含む:
プロンプト最適化関連:Khattab et al. (2023)、Agrawal et al. (2025) AES関連:Mizumoto and Eguchi (2023)、Lee et al. (2024) 人間採点キャリブレーション:Trace et al. (2016)、Ouyang et al. (2022) LLM自己改善:Madaan et al. (2023)、Kamoi et al. (2024) 総合評価 :これは高品質の研究論文であり、革新的な手法を提案し、顕著な実験結果を達成している。実験範囲と理論分析の面でまだ改善の余地があるが、その核心的思想は強い実用価値と学術的意義を持ち、AES分野の発展に重要な貢献をしている。