2025-11-21T04:13:15.591642

Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise

Harada, Yoshida, Kojima et al.

The performance of Large Language Models (LLMs) is highly sensitive to the prompts they are given. Drawing inspiration from the field of prompt optimization, this study investigates the potential for enhancing Automated Essay Scoring (AES) by refining the scoring rubrics used by LLMs. Specifically, our approach prompts models to iteratively refine rubrics by reflecting on models' own scoring rationales and observed discrepancies with human scores on sample essays. Experiments on the TOEFL11 and ASAP datasets using GPT-4.1, Gemini-2.5-Pro, and Qwen-3-Next-80B-A3B-Instruct show Quadratic Weighted Kappa (QWK) improvements of up to 0.19 and 0.47, respectively. Notably, even with a simple initial rubric, our approach achieves comparable or better QWK than using detailed human-authored rubrics. Our findings highlight the importance of iterative rubric refinement in LLM-based AES to enhance alignment with human evaluations.

academic

Raffinamento Automatizzato dei Rubric di Valutazione degli Elaborati per Modelli Linguistici tramite Reflect-and-Revise

Informazioni Fondamentali

ID Articolo: 2510.09030
Titolo: Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise
Autori: Keno Harada, Lui Yoshida, Takeshi Kojima, Yusuke Iwasawa, Yutaka Matsuo (Università di Tokyo)
Classificazione: cs.CL (Linguistica Computazionale)
Data di Pubblicazione: 10 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.09030

Riassunto

Le prestazioni dei modelli linguistici di grandi dimensioni (LLM) sono altamente sensibili ai prompt forniti. Questo studio, ispirato dal campo dell'ottimizzazione dei prompt, esplora il potenziale di migliorare la valutazione automatica degli elaborati (AES) attraverso il perfezionamento dei rubric di valutazione utilizzati dagli LLM. Nello specifico, il metodo incoraggia il modello a riflettere iterativamente sui propri ragionamenti di valutazione e sulle discrepanze rispetto alle valutazioni umane, al fine di migliorare i rubric. Gli esperimenti condotti su GPT-4.1, Gemini-2.5-Pro e Qwen-3-Next-80B-A3B-Instruct utilizzando i dataset TOEFL11 e ASAP mostrano miglioramenti nel Kappa Ponderato Quadratico (QWK) rispettivamente di 0,19 e 0,47. Notevolmente, anche utilizzando rubric iniziali semplici, il metodo raggiunge un QWK pari o superiore a quello ottenuto con rubric dettagliati redatti manualmente. I risultati evidenziano l'importanza del perfezionamento iterativo dei rubric negli AES basati su LLM per migliorare la concordanza con le valutazioni umane.

Contesto di Ricerca e Motivazione

Definizione del Problema

Problema Centrale: I sistemi tradizionali di valutazione automatica degli elaborati basati su LLM utilizzano rubric statici e predefiniti, che essendo progettati per valutatori umani potrebbero non essere ottimali per gli LLM.
Importanza: Con la diffusa applicazione degli LLM nel settore educativo, è necessario disporre di sistemi AES in grado di fornire feedback in tempo reale e scalabile per alleviare il carico di lavoro dei docenti.
Limitazioni Attuali:
- Gli attuali AES basati su LLM trascurano il processo di calibrazione collaborativa dei valutatori umani
- I valutatori umani tipicamente valutano campioni di elaborati, discutono le differenze di giudizio e migliorano la comprensione condivisa dei rubric
- Questa pratica di riflessione iterativa viene trascurata negli attuali AES basati su LLM, limitando la concordanza con i modelli di valutazione umana

Motivazione della Ricerca

Ispirandosi alle tecniche di ottimizzazione dei prompt e al processo di calibrazione dei valutatori umani, gli autori propongono un metodo iterativo che consente agli LLM di riflettere e migliorare i rubric di valutazione in base alle loro prestazioni di valutazione su elaborati campione.

Contributi Fondamentali

Propone un metodo di perfezionamento iterativo dei rubric: Basato su un meccanismo di riflessione-revisione, consente agli LLM di migliorare automaticamente i rubric di valutazione in base alle discrepanze rispetto alle valutazioni umane
Verifica l'efficacia del metodo: Dimostra miglioramenti significativi delle prestazioni su due dataset standard utilizzando tre diversi LLM
Scopre nuove intuizioni sulla progettazione dei rubric: Anche iniziando da rubric estremamente semplici, i rubric migliorati possono superare i rubric umani accuratamente progettati
Fornisce un framework algoritmico pratico: Presenta un algoritmo completo di perfezionamento iterativo con buona riproducibilità

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Testo dell'elaborato x e rubric di valutazione R
Output: Punteggio predetto ŷ e ragionamento della valutazione z
Obiettivo: Massimizzare il Kappa Ponderato Quadratico (QWK) tra le valutazioni dell'LLM e quelle umane

Architettura del Modello

Flusso Algoritmico

Il metodo comprende i seguenti componenti fondamentali:

Funzione di Valutazione: Il modello M riceve il rubric e l'elaborato, generando la valutazione predetta e il ragionamento testuale
Funzione di Perfezionamento: M genera un rubric migliorato basato sul rubric precedente, i ragionamenti generati e le discrepanze di valutazione

Algoritmo di Perfezionamento Iterativo (Algoritmo 1)

Input: Dataset D, Modello linguistico M, Rubric iniziale Rseed
Parametri: Numero di iterazioni T, Dimensione batch b

1. Rbest ← Rinit
2. QWKbest ← EVALUATE(M, Rbest, Dval)
3. for t = 1 to T do
4.   B ← SAMPLEMINIBATCH(Dtrain, b)
5.   FbData ← ∅
6.   for each (x, y) ∈ B do
7.     (ŷ, z) ← SCORE(M, Rbest, x)
8.     Add (rationale=z, pred_score=ŷ, true_score=y) to FbData
9.   end for
10.  Rnew ← REFINE(M, Rbest, FbData)
11.  QWKnew ← EVALUATE(M, Rnew, Dval)
12.  if QWKnew > QWKbest then
13.    Rbest ← Rnew
14.    QWKbest ← QWKnew
15.  end if
16. end for
17. return Rbest

Punti di Innovazione Tecnica

Meccanismo di Auto-Riflessione: Il modello è in grado di analizzare i propri ragionamenti di valutazione e le discrepanze rispetto alle valutazioni umane
Ottimizzazione Iterativa: Migliora progressivamente la qualità dei rubric attraverso più cicli di perfezionamento
Requisiti Iniziali Minimali: Può iniziare da rubric estremamente semplici (ad esempio, "Valutare in base al contenuto della risposta, in una scala da 1 a 6")
Aggiornamenti Guidati dalle Prestazioni: I rubric vengono aggiornati solo quando i nuovi rubric mostrano prestazioni migliori sul set di validazione

Configurazione Sperimentale

Dataset

Dataset TOEFL11

Dimensione: 12.100 elaborati, 8 prompt di elaborazione
Valutazione: 3 livelli di competenza (alto, medio, basso), convertiti dalla scala originale di 5 punti
Suddivisione: Set di addestramento 100 elaborati, set di validazione 100 elaborati, set di test 1.100 elaborati

Dataset ASAP

Sottoinsieme Utilizzato: Prompt 1 (P1), scala di valutazione a 6 punti
Suddivisione: Set di test 179 elaborati (10%), set di addestramento e validazione 100 elaborati ciascuno
Caratteristiche: Include annotazioni di due valutatori umani

Metriche di Valutazione

Metrica Principale: Kappa Ponderato Quadratico (QWK), metrica ampiamente utilizzata nella valutazione AES
Metodo Statistico: Ogni esperimento viene eseguito 3 volte, con rapporto della media e della deviazione standard

Metodi di Confronto

Metodo di Base: Utilizzo di rubric di valutazione dettagliati redatti manualmente
Tipi di Rubric Iniziali:
- simplest_rubric: Rubric più semplice
- human_rubric: Guida ufficiale di valutazione dettagliata
- simplified_human_rubric: Rubric umano semplificato

Dettagli di Implementazione

Numero di Iterazioni: T = 10
Dimensione Batch: B = 10
Modelli: GPT-4.1, GPT-5-mini, Gemini-2.5-Flash, Gemini-2.5-Pro, Qwen3-Next-80B-A3B-Instruct
Impostazione Temperatura: Regolata secondo i diversi modelli (0,7-1,0)

Risultati Sperimentali

Risultati Principali

Entità dei Miglioramenti QWK

Dataset ASAP: Miglioramento massimo di 0,47 QWK
Dataset TOEFL11: Miglioramento massimo di 0,19 QWK
Prestazioni del Modello: Su 5 modelli, 4 mostrano miglioramenti su ASAP, 2 su TOEFL11

Prestazioni con Diversi Rubric Iniziali (Tabella 1)

Rubric Iniziale	ASAP	TOEFL
Migliorato - Rubric Umano	0,46	0,56
Migliorato - Rubric Semplificato	0,41	0,58
Migliorato - Rubric Minimo	0,48	0,64
Non Migliorato - Rubric Umano	0,26	0,58
Non Migliorato - Rubric Semplificato	0,33	0,59
Non Migliorato - Rubric Minimo	0,17	0,57

Scoperte Chiave

Potenziale del Rubric Minimo: Iniziando dal rubric più semplice "Valutare in base al contenuto della risposta, in una scala da 1 a 6", i rubric migliorati possono superare i rubric umani accuratamente redatti
Caratteristiche dei Rubric Migliorati:
- Aggiunta di enfasi visiva (come grassetto) per evidenziare prove chiave
- Aggiunta di una breve tabella di riepilogo alla fine del rubric
- Regole condizionali esplicite: "Se si osserva X, assegnare il punteggio s"
Differenze tra Dataset: TOEFL11 utilizza una valutazione a grana grossa a tre livelli (basso/medio/alto), con valori QWK complessivamente più elevati, il che potrebbe limitare lo spazio di miglioramento

Analisi dei Casi

La Figura 3 mostra il rubric ASAP P1 migliorato dal rubric minimo, contenente:

Principi guida di valutazione dettagliati
Spiegazioni specifiche della differenza tra punteggi 4 e 5
Tabella di riepilogo della valutazione strutturata
Regole di giudizio condizionale esplicite

Lavori Correlati

Principali Direzioni di Ricerca

Valutazione Automatica LLM: Utilizzo di liste di controllo e rubric per la valutazione di compiti non verificati
Sviluppo della Tecnologia AES: Proposte di varie tecniche di valutazione automatica degli elaborati
Ricerca sulla Progettazione dei Rubric:
- Furuhashi et al. hanno scoperto il fenomeno degli "elementi negativi"
- Yoshida ha scoperto che rubric più dettagliati non sempre portano a miglioramenti delle prestazioni

Vantaggi di Questo Articolo

Rispetto alla ricerca esistente, questo articolo propone per la prima volta un metodo che consente agli LLM di riflettere sui propri output per migliorare iterativamente i rubric, simulando il processo di calibrazione dei valutatori umani.

Conclusioni e Discussione

Conclusioni Principali

Il Perfezionamento Iterativo dei Rubric è Efficace: L'efficacia del metodo è verificata su più dataset e modelli
Il Rubric Iniziale Non è Importante: Anche iniziando da rubric estremamente semplici è possibile raggiungere prestazioni eccellenti
La Fattibilità dell'Automazione: Gli LLM sono in grado di identificare autonomamente i rubric di valutazione rilevanti

Limitazioni

Ambito dei Dataset Limitato: Gli esperimenti sono condotti solo su TOEFL11 e ASAP Prompt 1
Requisiti di Dati Annotati: Il processo di perfezionamento richiede 200 campioni annotati
Metrica di Valutazione Singola: L'ottimizzazione è basata solo su QWK, il che potrebbe non catturare tutti gli aspetti della qualità della valutazione
Limitazione della Baseline Elevata: Lo spazio di miglioramento è limitato su dataset con punteggi baseline già elevati

Direzioni Future

Estensione a più tipi di elaborati e domini
Esplorazione di metodi per ridurre i requisiti di dati annotati
Ricerca su strategie di ottimizzazione multi-metrica
Comprensione approfondita delle caratteristiche dei rubric applicabili agli LLM

Valutazione Approfondita

Punti di Forza

Forte Innovazione del Metodo:
- Prima applicazione delle idee di ottimizzazione dei prompt al perfezionamento dei rubric AES
- Simula il processo di calibrazione dei valutatori umani, con forte razionalità intuitiva
- Design algoritmico semplice ed efficace
Design Sperimentale Completo:
- Verifica utilizzando più modelli e dataset
- Include confronti con diversi rubric iniziali
- Analisi della significatività statistica completa
Risultati Convincenti:
- Miglioramenti significativi delle prestazioni (massimo 0,47 QWK)
- La scoperta che il rubric minimo supera il rubric umano è di grande importanza
- Fornisce esempi concreti di rubric migliorati
Alto Valore Pratico:
- L'algoritmo è facile da implementare e riprodurre
- Può ridurre i costi della redazione manuale dei rubric
- Fornisce nuove prospettive per l'ottimizzazione dei sistemi AES

Insufficienze

Ambito Sperimentale Limitato:
- Solo due dataset testati, la generalizzabilità richiede ulteriore verifica
- Mancanza di verifica in lingue e contesti culturali diversi
- Non considera le differenze tra diversi tipi di elaborati
Analisi Teorica Insufficiente:
- Manca un'analisi teorica approfondita del perché il metodo è efficace
- Non esplora le caratteristiche intrinseche e i modelli dei rubric migliorati
- Mancano garanzie teoriche sulla convergenza e stabilità
Analisi dei Costi Mancante:
- Non analizza in dettaglio i costi computazionali e i tempi di esecuzione
- Manca il confronto costi-benefici con i metodi tradizionali
- Analisi insufficiente della fattibilità per l'implementazione pratica

Impatto

Contributo Accademico:
- Fornisce una nuova direzione di ricerca per il campo AES
- Dimostra il potenziale dell'auto-miglioramento degli LLM nei compiti di valutazione
- Potrebbe ispirare ricerche su sistemi di valutazione più adattivi
Valore Pratico:
- Può essere direttamente applicato ai sistemi AES basati su LLM esistenti
- Aiuta le aziende di tecnologia educativa a migliorare i prodotti
- Fornisce nuovi strumenti per la standardizzazione della valutazione educativa
Riproducibilità:
- Fornisce una descrizione algoritmica completa
- Include impostazioni sperimentali dettagliate
- Buona disponibilità di codice e dati

Scenari Applicabili

Valutazione Educativa: Valutazione degli elaborati in vari esami standardizzati
Educazione Online: Valutazione automatica dei compiti su piattaforme MOOC
Apprendimento Linguistico: Valutazione della capacità di scrittura nella seconda lingua
Formazione Aziendale: Valutazione delle competenze di scrittura dei dipendenti

Bibliografia

L'articolo cita numerosi lavori correlati importanti, inclusi:

Ottimizzazione dei Prompt: Khattab et al. (2023), Agrawal et al. (2025)
AES Correlato: Mizumoto and Eguchi (2023), Lee et al. (2024)
Calibrazione dei Valutatori Umani: Trace et al. (2016), Ouyang et al. (2022)
Auto-Miglioramento degli LLM: Madaan et al. (2023), Kamoi et al. (2024)

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone un metodo innovativo e raggiunge risultati sperimentali significativi. Sebbene vi sia ancora spazio per miglioramenti nell'ambito sperimentale e nell'analisi teorica, l'idea centrale ha un forte valore pratico e significato accademico, fornendo importanti contributi allo sviluppo del campo AES.