Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise
Harada, Yoshida, Kojima et al.
The performance of Large Language Models (LLMs) is highly sensitive to the prompts they are given. Drawing inspiration from the field of prompt optimization, this study investigates the potential for enhancing Automated Essay Scoring (AES) by refining the scoring rubrics used by LLMs. Specifically, our approach prompts models to iteratively refine rubrics by reflecting on models' own scoring rationales and observed discrepancies with human scores on sample essays. Experiments on the TOEFL11 and ASAP datasets using GPT-4.1, Gemini-2.5-Pro, and Qwen-3-Next-80B-A3B-Instruct show Quadratic Weighted Kappa (QWK) improvements of up to 0.19 and 0.47, respectively. Notably, even with a simple initial rubric, our approach achieves comparable or better QWK than using detailed human-authored rubrics. Our findings highlight the importance of iterative rubric refinement in LLM-based AES to enhance alignment with human evaluations.
academic
Raffinamento Automatizzato dei Rubric di Valutazione degli Elaborati per Modelli Linguistici tramite Reflect-and-Revise
Le prestazioni dei modelli linguistici di grandi dimensioni (LLM) sono altamente sensibili ai prompt forniti. Questo studio, ispirato dal campo dell'ottimizzazione dei prompt, esplora il potenziale di migliorare la valutazione automatica degli elaborati (AES) attraverso il perfezionamento dei rubric di valutazione utilizzati dagli LLM. Nello specifico, il metodo incoraggia il modello a riflettere iterativamente sui propri ragionamenti di valutazione e sulle discrepanze rispetto alle valutazioni umane, al fine di migliorare i rubric. Gli esperimenti condotti su GPT-4.1, Gemini-2.5-Pro e Qwen-3-Next-80B-A3B-Instruct utilizzando i dataset TOEFL11 e ASAP mostrano miglioramenti nel Kappa Ponderato Quadratico (QWK) rispettivamente di 0,19 e 0,47. Notevolmente, anche utilizzando rubric iniziali semplici, il metodo raggiunge un QWK pari o superiore a quello ottenuto con rubric dettagliati redatti manualmente. I risultati evidenziano l'importanza del perfezionamento iterativo dei rubric negli AES basati su LLM per migliorare la concordanza con le valutazioni umane.
Problema Centrale: I sistemi tradizionali di valutazione automatica degli elaborati basati su LLM utilizzano rubric statici e predefiniti, che essendo progettati per valutatori umani potrebbero non essere ottimali per gli LLM.
Importanza: Con la diffusa applicazione degli LLM nel settore educativo, è necessario disporre di sistemi AES in grado di fornire feedback in tempo reale e scalabile per alleviare il carico di lavoro dei docenti.
Limitazioni Attuali:
Gli attuali AES basati su LLM trascurano il processo di calibrazione collaborativa dei valutatori umani
I valutatori umani tipicamente valutano campioni di elaborati, discutono le differenze di giudizio e migliorano la comprensione condivisa dei rubric
Questa pratica di riflessione iterativa viene trascurata negli attuali AES basati su LLM, limitando la concordanza con i modelli di valutazione umana
Ispirandosi alle tecniche di ottimizzazione dei prompt e al processo di calibrazione dei valutatori umani, gli autori propongono un metodo iterativo che consente agli LLM di riflettere e migliorare i rubric di valutazione in base alle loro prestazioni di valutazione su elaborati campione.
Propone un metodo di perfezionamento iterativo dei rubric: Basato su un meccanismo di riflessione-revisione, consente agli LLM di migliorare automaticamente i rubric di valutazione in base alle discrepanze rispetto alle valutazioni umane
Verifica l'efficacia del metodo: Dimostra miglioramenti significativi delle prestazioni su due dataset standard utilizzando tre diversi LLM
Scopre nuove intuizioni sulla progettazione dei rubric: Anche iniziando da rubric estremamente semplici, i rubric migliorati possono superare i rubric umani accuratamente progettati
Fornisce un framework algoritmico pratico: Presenta un algoritmo completo di perfezionamento iterativo con buona riproducibilità
Input: Dataset D, Modello linguistico M, Rubric iniziale Rseed
Parametri: Numero di iterazioni T, Dimensione batch b
1. Rbest ← Rinit
2. QWKbest ← EVALUATE(M, Rbest, Dval)
3. for t = 1 to T do
4. B ← SAMPLEMINIBATCH(Dtrain, b)
5. FbData ← ∅
6. for each (x, y) ∈ B do
7. (ŷ, z) ← SCORE(M, Rbest, x)
8. Add (rationale=z, pred_score=ŷ, true_score=y) to FbData
9. end for
10. Rnew ← REFINE(M, Rbest, FbData)
11. QWKnew ← EVALUATE(M, Rnew, Dval)
12. if QWKnew > QWKbest then
13. Rbest ← Rnew
14. QWKbest ← QWKnew
15. end if
16. end for
17. return Rbest
Meccanismo di Auto-Riflessione: Il modello è in grado di analizzare i propri ragionamenti di valutazione e le discrepanze rispetto alle valutazioni umane
Ottimizzazione Iterativa: Migliora progressivamente la qualità dei rubric attraverso più cicli di perfezionamento
Requisiti Iniziali Minimali: Può iniziare da rubric estremamente semplici (ad esempio, "Valutare in base al contenuto della risposta, in una scala da 1 a 6")
Aggiornamenti Guidati dalle Prestazioni: I rubric vengono aggiornati solo quando i nuovi rubric mostrano prestazioni migliori sul set di validazione
Potenziale del Rubric Minimo: Iniziando dal rubric più semplice "Valutare in base al contenuto della risposta, in una scala da 1 a 6", i rubric migliorati possono superare i rubric umani accuratamente redatti
Caratteristiche dei Rubric Migliorati:
Aggiunta di enfasi visiva (come grassetto) per evidenziare prove chiave
Aggiunta di una breve tabella di riepilogo alla fine del rubric
Regole condizionali esplicite: "Se si osserva X, assegnare il punteggio s"
Differenze tra Dataset: TOEFL11 utilizza una valutazione a grana grossa a tre livelli (basso/medio/alto), con valori QWK complessivamente più elevati, il che potrebbe limitare lo spazio di miglioramento
Rispetto alla ricerca esistente, questo articolo propone per la prima volta un metodo che consente agli LLM di riflettere sui propri output per migliorare iterativamente i rubric, simulando il processo di calibrazione dei valutatori umani.
L'articolo cita numerosi lavori correlati importanti, inclusi:
Ottimizzazione dei Prompt: Khattab et al. (2023), Agrawal et al. (2025)
AES Correlato: Mizumoto and Eguchi (2023), Lee et al. (2024)
Calibrazione dei Valutatori Umani: Trace et al. (2016), Ouyang et al. (2022)
Auto-Miglioramento degli LLM: Madaan et al. (2023), Kamoi et al. (2024)
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone un metodo innovativo e raggiunge risultati sperimentali significativi. Sebbene vi sia ancora spazio per miglioramenti nell'ambito sperimentale e nell'analisi teorica, l'idea centrale ha un forte valore pratico e significato accademico, fornendo importanti contributi allo sviluppo del campo AES.