Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise
Harada, Yoshida, Kojima et al.
The performance of Large Language Models (LLMs) is highly sensitive to the prompts they are given. Drawing inspiration from the field of prompt optimization, this study investigates the potential for enhancing Automated Essay Scoring (AES) by refining the scoring rubrics used by LLMs. Specifically, our approach prompts models to iteratively refine rubrics by reflecting on models' own scoring rationales and observed discrepancies with human scores on sample essays. Experiments on the TOEFL11 and ASAP datasets using GPT-4.1, Gemini-2.5-Pro, and Qwen-3-Next-80B-A3B-Instruct show Quadratic Weighted Kappa (QWK) improvements of up to 0.19 and 0.47, respectively. Notably, even with a simple initial rubric, our approach achieves comparable or better QWK than using detailed human-authored rubrics. Our findings highlight the importance of iterative rubric refinement in LLM-based AES to enhance alignment with human evaluations.
academic
Automatisierte Verfeinerung von Bewertungsrubriken für Sprachmodelle durch Reflect-and-Revise
Die Leistung großer Sprachmodelle (LLMs) ist stark von den gegebenen Eingabeaufforderungen abhängig. Diese Forschung wird durch das Feld der Prompt-Optimierung inspiriert und untersucht das Potenzial zur Verbesserung der automatischen Aufsatzbewertung (AES) durch Verfeinerung der von LLMs verwendeten Bewertungsrubriken. Konkret verbessert die Methode die Bewertungsrubriken iterativ, indem das Modell aufgefordert wird, über seine eigenen Bewertungsgründe und Unterschiede zu menschlichen Bewertungen nachzudenken. Experimente mit GPT-4.1, Gemini-2.5-Pro und Qwen-3-Next-80B-A3B-Instruct auf den Datensätzen TOEFL11 und ASAP zeigen Verbesserungen des quadratisch gewichteten Kappa (QWK) um maximal 0,19 bzw. 0,47. Bemerkenswert ist, dass die Methode auch bei Verwendung einfacher anfänglicher Rubriken QWK-Werte erreicht, die mit oder besser sind als die Verwendung detaillierter manuell erstellter Rubriken. Die Ergebnisse unterstreichen die Bedeutung iterativer Rubrikenverbesserung in LLM-basierten AES-Systemen zur Verbesserung der Übereinstimmung mit menschlichen Bewertungen.
Kernproblem: Traditionelle LLM-basierte Systeme zur automatischen Aufsatzbewertung verwenden statische, vordefinierte Bewertungsrubriken, die für menschliche Bewerter konzipiert wurden und möglicherweise nicht optimal für LLMs sind.
Bedeutung: Mit der weit verbreiteten Anwendung von LLMs im Bildungsbereich besteht Bedarf an AES-Systemen, die Echtzeit- und skalierbare Rückmeldungen bieten können, um die Bewertungslast von Lehrkräften zu verringern.
Bestehende Einschränkungen:
Aktuelle LLM-basierte AES-Systeme ignorieren den Kalibrierungsprozess zwischen menschlichen Bewertern
Menschliche Bewerter führen typischerweise Bewertungen von Beispielaufsätzen durch, diskutieren Bewertungsunterschiede und verbessern ihr gemeinsames Verständnis der Rubriken
Diese iterative Reflexionspraxis wird in aktuellen LLM-basierten AES-Systemen vernachlässigt und begrenzt die Übereinstimmung mit menschlichen Bewertungsmustern
Inspiriert durch Prompt-Optimierungstechniken und den Kalibrierungsprozess menschlicher Bewerter schlagen die Autoren eine iterative Verbesserungsmethode vor, die es LLMs ermöglicht, Bewertungsrubriken basierend auf ihrer eigenen Bewertungsleistung bei Beispielaufsätzen zu überdenken und zu verbessern.
Vorschlag einer iterativen Rubrikenverbesserungsmethode: Basierend auf einem Reflect-and-Revise-Mechanismus, der es LLMs ermöglicht, Bewertungsrubriken automatisch basierend auf Unterschieden zu menschlichen Bewertungen zu verbessern
Validierung der Methodeneffektivität: Nachweis signifikanter Leistungsverbesserungen auf zwei Standard-Datensätzen mit drei verschiedenen LLMs
Neue Erkenntnisse zum Rubrikendesign: Verbesserte Rubriken können sorgfältig gestaltete manuell erstellte Rubriken übertreffen, selbst wenn sie von den einfachsten Rubriken ausgehen
Bereitstellung eines praktischen Algorithmus-Rahmens: Vollständiger iterativer Verbesserungsalgorithmus mit guter Reproduzierbarkeit
Eingabe: Datensatz D, Sprachmodell M, anfängliche Rubrik Rseed
Parameter: Iterationen T, Batch-Größe b
1. Rbest ← Rinit
2. QWKbest ← EVALUATE(M, Rbest, Dval)
3. for t = 1 to T do
4. B ← SAMPLEMINIBATCH(Dtrain, b)
5. FbData ← ∅
6. for each (x, y) ∈ B do
7. (ŷ, z) ← SCORE(M, Rbest, x)
8. Add (rationale=z, pred_score=ŷ, true_score=y) to FbData
9. end for
10. Rnew ← REFINE(M, Rbest, FbData)
11. QWKnew ← EVALUATE(M, Rnew, Dval)
12. if QWKnew > QWKbest then
13. Rbest ← Rnew
14. QWKbest ← QWKnew
15. end if
16. end for
17. return Rbest
Selbstreflexionsmechanismus: Das Modell kann seine eigenen Bewertungsbegründungen und Unterschiede zu menschlichen Bewertungen analysieren
Iterative Optimierung: Schrittweise Verbesserung der Rubrikenqualität durch mehrere Runden
Minimale anfängliche Anforderungen: Kann mit äußerst einfachen Rubriken beginnen (z.B. "Bewertung basierend auf Antwortinhalt auf einer Skala von 1-6")
Leistungsgesteuerte Aktualisierungen: Neue Rubriken werden nur aktualisiert, wenn sie auf dem Validierungssatz bessere Leistungen zeigen
Potenzial der einfachsten Rubrik: Ausgehend von der einfachsten Rubrik "Bewertung basierend auf Antwortinhalt auf einer Skala von 1-6" können verbesserte Rubriken sorgfältig gestaltete manuell erstellte Rubriken übertreffen
Merkmale verbesserter Rubriken:
Hinzufügen visueller Hervorhebungen (z.B. Fettdruck) zur Hervorhebung von Schlüsselelementen
Hinzufügen einer kurzen Zusammenfassungstabelle am Ende der Rubrik
Explizite Bedingungsregeln: "Wenn X beobachtet wird, dann Bewertung s vergeben"
Datensatz-Unterschiede: TOEFL11 verwendet grobe dreigliedrige Bewertungen (niedrig/mittel/hoch), mit insgesamt höheren QWK-Werten, was den Verbesserungsspielraum möglicherweise begrenzt
Im Vergleich zu bestehender Forschung schlägt dieses Paper erstmals eine Methode vor, die es LLMs ermöglicht, über ihre eigenen Ausgaben nachzudenken, um Rubriken iterativ zu verbessern und dabei den Kalibrierungsprozess menschlicher Bewerter zu simulieren.
Das Paper zitiert mehrere wichtige verwandte Arbeiten, einschließlich:
Prompt-Optimierung: Khattab et al. (2023), Agrawal et al. (2025)
AES-bezogen: Mizumoto and Eguchi (2023), Lee et al. (2024)
Menschliche Bewerter-Kalibrierung: Trace et al. (2016), Ouyang et al. (2022)
LLM-Selbstverbesserung: Madaan et al. (2023), Kamoi et al. (2024)
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Methode vorschlägt und signifikante experimentelle Ergebnisse erzielt. Obwohl es Raum für Verbesserungen in der experimentellen Reichweite und theoretischen Analyse gibt, hat die Kernidee starken praktischen Wert und akademische Bedeutung und trägt wichtig zur Entwicklung des AES-Feldes bei.