2025-11-21T04:13:15.591642

Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise

Harada, Yoshida, Kojima et al.
The performance of Large Language Models (LLMs) is highly sensitive to the prompts they are given. Drawing inspiration from the field of prompt optimization, this study investigates the potential for enhancing Automated Essay Scoring (AES) by refining the scoring rubrics used by LLMs. Specifically, our approach prompts models to iteratively refine rubrics by reflecting on models' own scoring rationales and observed discrepancies with human scores on sample essays. Experiments on the TOEFL11 and ASAP datasets using GPT-4.1, Gemini-2.5-Pro, and Qwen-3-Next-80B-A3B-Instruct show Quadratic Weighted Kappa (QWK) improvements of up to 0.19 and 0.47, respectively. Notably, even with a simple initial rubric, our approach achieves comparable or better QWK than using detailed human-authored rubrics. Our findings highlight the importance of iterative rubric refinement in LLM-based AES to enhance alignment with human evaluations.
academic

Raffinamento Automatizzato dei Rubric di Valutazione degli Elaborati per Modelli Linguistici tramite Reflect-and-Revise

Informazioni Fondamentali

  • ID Articolo: 2510.09030
  • Titolo: Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise
  • Autori: Keno Harada, Lui Yoshida, Takeshi Kojima, Yusuke Iwasawa, Yutaka Matsuo (Università di Tokyo)
  • Classificazione: cs.CL (Linguistica Computazionale)
  • Data di Pubblicazione: 10 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.09030

Riassunto

Le prestazioni dei modelli linguistici di grandi dimensioni (LLM) sono altamente sensibili ai prompt forniti. Questo studio, ispirato dal campo dell'ottimizzazione dei prompt, esplora il potenziale di migliorare la valutazione automatica degli elaborati (AES) attraverso il perfezionamento dei rubric di valutazione utilizzati dagli LLM. Nello specifico, il metodo incoraggia il modello a riflettere iterativamente sui propri ragionamenti di valutazione e sulle discrepanze rispetto alle valutazioni umane, al fine di migliorare i rubric. Gli esperimenti condotti su GPT-4.1, Gemini-2.5-Pro e Qwen-3-Next-80B-A3B-Instruct utilizzando i dataset TOEFL11 e ASAP mostrano miglioramenti nel Kappa Ponderato Quadratico (QWK) rispettivamente di 0,19 e 0,47. Notevolmente, anche utilizzando rubric iniziali semplici, il metodo raggiunge un QWK pari o superiore a quello ottenuto con rubric dettagliati redatti manualmente. I risultati evidenziano l'importanza del perfezionamento iterativo dei rubric negli AES basati su LLM per migliorare la concordanza con le valutazioni umane.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Problema Centrale: I sistemi tradizionali di valutazione automatica degli elaborati basati su LLM utilizzano rubric statici e predefiniti, che essendo progettati per valutatori umani potrebbero non essere ottimali per gli LLM.
  2. Importanza: Con la diffusa applicazione degli LLM nel settore educativo, è necessario disporre di sistemi AES in grado di fornire feedback in tempo reale e scalabile per alleviare il carico di lavoro dei docenti.
  3. Limitazioni Attuali:
    • Gli attuali AES basati su LLM trascurano il processo di calibrazione collaborativa dei valutatori umani
    • I valutatori umani tipicamente valutano campioni di elaborati, discutono le differenze di giudizio e migliorano la comprensione condivisa dei rubric
    • Questa pratica di riflessione iterativa viene trascurata negli attuali AES basati su LLM, limitando la concordanza con i modelli di valutazione umana

Motivazione della Ricerca

Ispirandosi alle tecniche di ottimizzazione dei prompt e al processo di calibrazione dei valutatori umani, gli autori propongono un metodo iterativo che consente agli LLM di riflettere e migliorare i rubric di valutazione in base alle loro prestazioni di valutazione su elaborati campione.

Contributi Fondamentali

  1. Propone un metodo di perfezionamento iterativo dei rubric: Basato su un meccanismo di riflessione-revisione, consente agli LLM di migliorare automaticamente i rubric di valutazione in base alle discrepanze rispetto alle valutazioni umane
  2. Verifica l'efficacia del metodo: Dimostra miglioramenti significativi delle prestazioni su due dataset standard utilizzando tre diversi LLM
  3. Scopre nuove intuizioni sulla progettazione dei rubric: Anche iniziando da rubric estremamente semplici, i rubric migliorati possono superare i rubric umani accuratamente progettati
  4. Fornisce un framework algoritmico pratico: Presenta un algoritmo completo di perfezionamento iterativo con buona riproducibilità

Spiegazione Dettagliata del Metodo

Definizione del Compito

  • Input: Testo dell'elaborato x e rubric di valutazione R
  • Output: Punteggio predetto ŷ e ragionamento della valutazione z
  • Obiettivo: Massimizzare il Kappa Ponderato Quadratico (QWK) tra le valutazioni dell'LLM e quelle umane

Architettura del Modello

Flusso Algoritmico

Il metodo comprende i seguenti componenti fondamentali:

  1. Funzione di Valutazione: Il modello M riceve il rubric e l'elaborato, generando la valutazione predetta e il ragionamento testuale
  2. Funzione di Perfezionamento: M genera un rubric migliorato basato sul rubric precedente, i ragionamenti generati e le discrepanze di valutazione

Algoritmo di Perfezionamento Iterativo (Algoritmo 1)

Input: Dataset D, Modello linguistico M, Rubric iniziale Rseed
Parametri: Numero di iterazioni T, Dimensione batch b

1. Rbest ← Rinit
2. QWKbest ← EVALUATE(M, Rbest, Dval)
3. for t = 1 to T do
4.   B ← SAMPLEMINIBATCH(Dtrain, b)
5.   FbData ← ∅
6.   for each (x, y) ∈ B do
7.     (ŷ, z) ← SCORE(M, Rbest, x)
8.     Add (rationale=z, pred_score=ŷ, true_score=y) to FbData
9.   end for
10.  Rnew ← REFINE(M, Rbest, FbData)
11.  QWKnew ← EVALUATE(M, Rnew, Dval)
12.  if QWKnew > QWKbest then
13.    Rbest ← Rnew
14.    QWKbest ← QWKnew
15.  end if
16. end for
17. return Rbest

Punti di Innovazione Tecnica

  1. Meccanismo di Auto-Riflessione: Il modello è in grado di analizzare i propri ragionamenti di valutazione e le discrepanze rispetto alle valutazioni umane
  2. Ottimizzazione Iterativa: Migliora progressivamente la qualità dei rubric attraverso più cicli di perfezionamento
  3. Requisiti Iniziali Minimali: Può iniziare da rubric estremamente semplici (ad esempio, "Valutare in base al contenuto della risposta, in una scala da 1 a 6")
  4. Aggiornamenti Guidati dalle Prestazioni: I rubric vengono aggiornati solo quando i nuovi rubric mostrano prestazioni migliori sul set di validazione

Configurazione Sperimentale

Dataset

Dataset TOEFL11

  • Dimensione: 12.100 elaborati, 8 prompt di elaborazione
  • Valutazione: 3 livelli di competenza (alto, medio, basso), convertiti dalla scala originale di 5 punti
  • Suddivisione: Set di addestramento 100 elaborati, set di validazione 100 elaborati, set di test 1.100 elaborati

Dataset ASAP

  • Sottoinsieme Utilizzato: Prompt 1 (P1), scala di valutazione a 6 punti
  • Suddivisione: Set di test 179 elaborati (10%), set di addestramento e validazione 100 elaborati ciascuno
  • Caratteristiche: Include annotazioni di due valutatori umani

Metriche di Valutazione

  • Metrica Principale: Kappa Ponderato Quadratico (QWK), metrica ampiamente utilizzata nella valutazione AES
  • Metodo Statistico: Ogni esperimento viene eseguito 3 volte, con rapporto della media e della deviazione standard

Metodi di Confronto

  • Metodo di Base: Utilizzo di rubric di valutazione dettagliati redatti manualmente
  • Tipi di Rubric Iniziali:
    • simplest_rubric: Rubric più semplice
    • human_rubric: Guida ufficiale di valutazione dettagliata
    • simplified_human_rubric: Rubric umano semplificato

Dettagli di Implementazione

  • Numero di Iterazioni: T = 10
  • Dimensione Batch: B = 10
  • Modelli: GPT-4.1, GPT-5-mini, Gemini-2.5-Flash, Gemini-2.5-Pro, Qwen3-Next-80B-A3B-Instruct
  • Impostazione Temperatura: Regolata secondo i diversi modelli (0,7-1,0)

Risultati Sperimentali

Risultati Principali

Entità dei Miglioramenti QWK

  • Dataset ASAP: Miglioramento massimo di 0,47 QWK
  • Dataset TOEFL11: Miglioramento massimo di 0,19 QWK
  • Prestazioni del Modello: Su 5 modelli, 4 mostrano miglioramenti su ASAP, 2 su TOEFL11

Prestazioni con Diversi Rubric Iniziali (Tabella 1)

Rubric InizialeASAPTOEFL
Migliorato - Rubric Umano0,460,56
Migliorato - Rubric Semplificato0,410,58
Migliorato - Rubric Minimo0,480,64
Non Migliorato - Rubric Umano0,260,58
Non Migliorato - Rubric Semplificato0,330,59
Non Migliorato - Rubric Minimo0,170,57

Scoperte Chiave

  1. Potenziale del Rubric Minimo: Iniziando dal rubric più semplice "Valutare in base al contenuto della risposta, in una scala da 1 a 6", i rubric migliorati possono superare i rubric umani accuratamente redatti
  2. Caratteristiche dei Rubric Migliorati:
    • Aggiunta di enfasi visiva (come grassetto) per evidenziare prove chiave
    • Aggiunta di una breve tabella di riepilogo alla fine del rubric
    • Regole condizionali esplicite: "Se si osserva X, assegnare il punteggio s"
  3. Differenze tra Dataset: TOEFL11 utilizza una valutazione a grana grossa a tre livelli (basso/medio/alto), con valori QWK complessivamente più elevati, il che potrebbe limitare lo spazio di miglioramento

Analisi dei Casi

La Figura 3 mostra il rubric ASAP P1 migliorato dal rubric minimo, contenente:

  • Principi guida di valutazione dettagliati
  • Spiegazioni specifiche della differenza tra punteggi 4 e 5
  • Tabella di riepilogo della valutazione strutturata
  • Regole di giudizio condizionale esplicite

Lavori Correlati

Principali Direzioni di Ricerca

  1. Valutazione Automatica LLM: Utilizzo di liste di controllo e rubric per la valutazione di compiti non verificati
  2. Sviluppo della Tecnologia AES: Proposte di varie tecniche di valutazione automatica degli elaborati
  3. Ricerca sulla Progettazione dei Rubric:
    • Furuhashi et al. hanno scoperto il fenomeno degli "elementi negativi"
    • Yoshida ha scoperto che rubric più dettagliati non sempre portano a miglioramenti delle prestazioni

Vantaggi di Questo Articolo

Rispetto alla ricerca esistente, questo articolo propone per la prima volta un metodo che consente agli LLM di riflettere sui propri output per migliorare iterativamente i rubric, simulando il processo di calibrazione dei valutatori umani.

Conclusioni e Discussione

Conclusioni Principali

  1. Il Perfezionamento Iterativo dei Rubric è Efficace: L'efficacia del metodo è verificata su più dataset e modelli
  2. Il Rubric Iniziale Non è Importante: Anche iniziando da rubric estremamente semplici è possibile raggiungere prestazioni eccellenti
  3. La Fattibilità dell'Automazione: Gli LLM sono in grado di identificare autonomamente i rubric di valutazione rilevanti

Limitazioni

  1. Ambito dei Dataset Limitato: Gli esperimenti sono condotti solo su TOEFL11 e ASAP Prompt 1
  2. Requisiti di Dati Annotati: Il processo di perfezionamento richiede 200 campioni annotati
  3. Metrica di Valutazione Singola: L'ottimizzazione è basata solo su QWK, il che potrebbe non catturare tutti gli aspetti della qualità della valutazione
  4. Limitazione della Baseline Elevata: Lo spazio di miglioramento è limitato su dataset con punteggi baseline già elevati

Direzioni Future

  1. Estensione a più tipi di elaborati e domini
  2. Esplorazione di metodi per ridurre i requisiti di dati annotati
  3. Ricerca su strategie di ottimizzazione multi-metrica
  4. Comprensione approfondita delle caratteristiche dei rubric applicabili agli LLM

Valutazione Approfondita

Punti di Forza

  1. Forte Innovazione del Metodo:
    • Prima applicazione delle idee di ottimizzazione dei prompt al perfezionamento dei rubric AES
    • Simula il processo di calibrazione dei valutatori umani, con forte razionalità intuitiva
    • Design algoritmico semplice ed efficace
  2. Design Sperimentale Completo:
    • Verifica utilizzando più modelli e dataset
    • Include confronti con diversi rubric iniziali
    • Analisi della significatività statistica completa
  3. Risultati Convincenti:
    • Miglioramenti significativi delle prestazioni (massimo 0,47 QWK)
    • La scoperta che il rubric minimo supera il rubric umano è di grande importanza
    • Fornisce esempi concreti di rubric migliorati
  4. Alto Valore Pratico:
    • L'algoritmo è facile da implementare e riprodurre
    • Può ridurre i costi della redazione manuale dei rubric
    • Fornisce nuove prospettive per l'ottimizzazione dei sistemi AES

Insufficienze

  1. Ambito Sperimentale Limitato:
    • Solo due dataset testati, la generalizzabilità richiede ulteriore verifica
    • Mancanza di verifica in lingue e contesti culturali diversi
    • Non considera le differenze tra diversi tipi di elaborati
  2. Analisi Teorica Insufficiente:
    • Manca un'analisi teorica approfondita del perché il metodo è efficace
    • Non esplora le caratteristiche intrinseche e i modelli dei rubric migliorati
    • Mancano garanzie teoriche sulla convergenza e stabilità
  3. Analisi dei Costi Mancante:
    • Non analizza in dettaglio i costi computazionali e i tempi di esecuzione
    • Manca il confronto costi-benefici con i metodi tradizionali
    • Analisi insufficiente della fattibilità per l'implementazione pratica

Impatto

  1. Contributo Accademico:
    • Fornisce una nuova direzione di ricerca per il campo AES
    • Dimostra il potenziale dell'auto-miglioramento degli LLM nei compiti di valutazione
    • Potrebbe ispirare ricerche su sistemi di valutazione più adattivi
  2. Valore Pratico:
    • Può essere direttamente applicato ai sistemi AES basati su LLM esistenti
    • Aiuta le aziende di tecnologia educativa a migliorare i prodotti
    • Fornisce nuovi strumenti per la standardizzazione della valutazione educativa
  3. Riproducibilità:
    • Fornisce una descrizione algoritmica completa
    • Include impostazioni sperimentali dettagliate
    • Buona disponibilità di codice e dati

Scenari Applicabili

  1. Valutazione Educativa: Valutazione degli elaborati in vari esami standardizzati
  2. Educazione Online: Valutazione automatica dei compiti su piattaforme MOOC
  3. Apprendimento Linguistico: Valutazione della capacità di scrittura nella seconda lingua
  4. Formazione Aziendale: Valutazione delle competenze di scrittura dei dipendenti

Bibliografia

L'articolo cita numerosi lavori correlati importanti, inclusi:

  • Ottimizzazione dei Prompt: Khattab et al. (2023), Agrawal et al. (2025)
  • AES Correlato: Mizumoto and Eguchi (2023), Lee et al. (2024)
  • Calibrazione dei Valutatori Umani: Trace et al. (2016), Ouyang et al. (2022)
  • Auto-Miglioramento degli LLM: Madaan et al. (2023), Kamoi et al. (2024)

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone un metodo innovativo e raggiunge risultati sperimentali significativi. Sebbene vi sia ancora spazio per miglioramenti nell'ambito sperimentale e nell'analisi teorica, l'idea centrale ha un forte valore pratico e significato accademico, fornendo importanti contributi allo sviluppo del campo AES.