2025-11-21T04:13:15.591642

Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise

Harada, Yoshida, Kojima et al.

The performance of Large Language Models (LLMs) is highly sensitive to the prompts they are given. Drawing inspiration from the field of prompt optimization, this study investigates the potential for enhancing Automated Essay Scoring (AES) by refining the scoring rubrics used by LLMs. Specifically, our approach prompts models to iteratively refine rubrics by reflecting on models' own scoring rationales and observed discrepancies with human scores on sample essays. Experiments on the TOEFL11 and ASAP datasets using GPT-4.1, Gemini-2.5-Pro, and Qwen-3-Next-80B-A3B-Instruct show Quadratic Weighted Kappa (QWK) improvements of up to 0.19 and 0.47, respectively. Notably, even with a simple initial rubric, our approach achieves comparable or better QWK than using detailed human-authored rubrics. Our findings highlight the importance of iterative rubric refinement in LLM-based AES to enhance alignment with human evaluations.

academic

Automatisierte Verfeinerung von Bewertungsrubriken für Sprachmodelle durch Reflect-and-Revise

Grundinformationen

Paper-ID: 2510.09030
Titel: Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise
Autoren: Keno Harada, Lui Yoshida, Takeshi Kojima, Yusuke Iwasawa, Yutaka Matsuo (Universität Tokio)
Klassifizierung: cs.CL (Computerlinguistik)
Veröffentlichungsdatum: 10. Oktober 2025 (arXiv Preprint)
Paper-Link: https://arxiv.org/abs/2510.09030

Zusammenfassung

Die Leistung großer Sprachmodelle (LLMs) ist stark von den gegebenen Eingabeaufforderungen abhängig. Diese Forschung wird durch das Feld der Prompt-Optimierung inspiriert und untersucht das Potenzial zur Verbesserung der automatischen Aufsatzbewertung (AES) durch Verfeinerung der von LLMs verwendeten Bewertungsrubriken. Konkret verbessert die Methode die Bewertungsrubriken iterativ, indem das Modell aufgefordert wird, über seine eigenen Bewertungsgründe und Unterschiede zu menschlichen Bewertungen nachzudenken. Experimente mit GPT-4.1, Gemini-2.5-Pro und Qwen-3-Next-80B-A3B-Instruct auf den Datensätzen TOEFL11 und ASAP zeigen Verbesserungen des quadratisch gewichteten Kappa (QWK) um maximal 0,19 bzw. 0,47. Bemerkenswert ist, dass die Methode auch bei Verwendung einfacher anfänglicher Rubriken QWK-Werte erreicht, die mit oder besser sind als die Verwendung detaillierter manuell erstellter Rubriken. Die Ergebnisse unterstreichen die Bedeutung iterativer Rubrikenverbesserung in LLM-basierten AES-Systemen zur Verbesserung der Übereinstimmung mit menschlichen Bewertungen.

Forschungshintergrund und Motivation

Problemdefinition

Kernproblem: Traditionelle LLM-basierte Systeme zur automatischen Aufsatzbewertung verwenden statische, vordefinierte Bewertungsrubriken, die für menschliche Bewerter konzipiert wurden und möglicherweise nicht optimal für LLMs sind.
Bedeutung: Mit der weit verbreiteten Anwendung von LLMs im Bildungsbereich besteht Bedarf an AES-Systemen, die Echtzeit- und skalierbare Rückmeldungen bieten können, um die Bewertungslast von Lehrkräften zu verringern.
Bestehende Einschränkungen:
- Aktuelle LLM-basierte AES-Systeme ignorieren den Kalibrierungsprozess zwischen menschlichen Bewertern
- Menschliche Bewerter führen typischerweise Bewertungen von Beispielaufsätzen durch, diskutieren Bewertungsunterschiede und verbessern ihr gemeinsames Verständnis der Rubriken
- Diese iterative Reflexionspraxis wird in aktuellen LLM-basierten AES-Systemen vernachlässigt und begrenzt die Übereinstimmung mit menschlichen Bewertungsmustern

Forschungsmotivation

Inspiriert durch Prompt-Optimierungstechniken und den Kalibrierungsprozess menschlicher Bewerter schlagen die Autoren eine iterative Verbesserungsmethode vor, die es LLMs ermöglicht, Bewertungsrubriken basierend auf ihrer eigenen Bewertungsleistung bei Beispielaufsätzen zu überdenken und zu verbessern.

Kernbeiträge

Vorschlag einer iterativen Rubrikenverbesserungsmethode: Basierend auf einem Reflect-and-Revise-Mechanismus, der es LLMs ermöglicht, Bewertungsrubriken automatisch basierend auf Unterschieden zu menschlichen Bewertungen zu verbessern
Validierung der Methodeneffektivität: Nachweis signifikanter Leistungsverbesserungen auf zwei Standard-Datensätzen mit drei verschiedenen LLMs
Neue Erkenntnisse zum Rubrikendesign: Verbesserte Rubriken können sorgfältig gestaltete manuell erstellte Rubriken übertreffen, selbst wenn sie von den einfachsten Rubriken ausgehen
Bereitstellung eines praktischen Algorithmus-Rahmens: Vollständiger iterativer Verbesserungsalgorithmus mit guter Reproduzierbarkeit

Methodische Details

Aufgabendefinition

Eingabe: Aufsatztext x und Bewertungsrubrik R
Ausgabe: Vorhergesagte Bewertung ŷ und Bewertungsbegründung z
Ziel: Maximierung des quadratisch gewichteten Kappa (QWK) zwischen LLM-Bewertung und menschlicher Bewertung

Modellarchitektur

Algorithmus-Ablauf

Die Methode enthält die folgenden Kernkomponenten:

Bewertungsfunktion: Modell M empfängt die Rubrik und den Aufsatz und generiert vorhergesagte Bewertung und textliche Begründung
Verbesserungsfunktion: M generiert verbesserte Rubriken basierend auf vorherigen Rubriken, generierten Begründungen und Bewertungsunterschieden

Iterativer Verbesserungsalgorithmus (Algorithmus 1)

Eingabe: Datensatz D, Sprachmodell M, anfängliche Rubrik Rseed
Parameter: Iterationen T, Batch-Größe b

1. Rbest ← Rinit
2. QWKbest ← EVALUATE(M, Rbest, Dval)
3. for t = 1 to T do
4.   B ← SAMPLEMINIBATCH(Dtrain, b)
5.   FbData ← ∅
6.   for each (x, y) ∈ B do
7.     (ŷ, z) ← SCORE(M, Rbest, x)
8.     Add (rationale=z, pred_score=ŷ, true_score=y) to FbData
9.   end for
10.  Rnew ← REFINE(M, Rbest, FbData)
11.  QWKnew ← EVALUATE(M, Rnew, Dval)
12.  if QWKnew > QWKbest then
13.    Rbest ← Rnew
14.    QWKbest ← QWKnew
15.  end if
16. end for
17. return Rbest

Technische Innovationen

Selbstreflexionsmechanismus: Das Modell kann seine eigenen Bewertungsbegründungen und Unterschiede zu menschlichen Bewertungen analysieren
Iterative Optimierung: Schrittweise Verbesserung der Rubrikenqualität durch mehrere Runden
Minimale anfängliche Anforderungen: Kann mit äußerst einfachen Rubriken beginnen (z.B. "Bewertung basierend auf Antwortinhalt auf einer Skala von 1-6")
Leistungsgesteuerte Aktualisierungen: Neue Rubriken werden nur aktualisiert, wenn sie auf dem Validierungssatz bessere Leistungen zeigen

Experimentelle Einrichtung

Datensätze

TOEFL11-Datensatz

Umfang: 12.100 Aufsätze, 8 Aufsatzaufforderungen
Bewertung: 3 Kompetenzstufen (hoch, mittel, niedrig), konvertiert aus ursprünglicher 5er-Skala
Aufteilung: Trainingssatz 100, Validierungssatz 100, Testsatz 1.100

ASAP-Datensatz

Verwendete Teilmenge: Prompt 1 (P1), 6er-Skala-Bewertung
Aufteilung: Testsatz 179 (10%), Trainings- und Validierungssatz je 100
Besonderheit: Enthält Annotationen von zwei menschlichen Bewertern

Evaluierungsmetriken

Hauptmetrik: Quadratisch gewichtetes Kappa (QWK), weit verbreitete Metrik für AES-Evaluierung
Statistische Methode: Jedes Experiment wird 3-mal durchgeführt, Mittelwert und Standardabweichung werden berichtet

Vergleichsmethoden

Baseline-Methode: Verwendung manuell erstellter detaillierter Bewertungsrubriken
Seed-Rubrik-Typen:
- simplest_rubric: Einfachste Rubrik
- human_rubric: Offizielle detaillierte Bewertungsrichtlinien
- simplified_human_rubric: Vereinfachte manuell erstellte Rubrik

Implementierungsdetails

Iterationen: T = 10
Batch-Größe: B = 10
Modelle: GPT-4.1, GPT-5-mini, Gemini-2.5-Flash, Gemini-2.5-Pro, Qwen3-Next-80B-A3B-Instruct
Temperatur-Einstellungen: Je nach Modell angepasst (0,7-1,0)

Experimentelle Ergebnisse

Hauptergebnisse

QWK-Verbesserungsspanne

ASAP-Datensatz: Maximale Verbesserung 0,47 QWK
TOEFL11-Datensatz: Maximale Verbesserung 0,19 QWK
Modellleistung: Von 5 Modellen zeigen 4 Verbesserungen auf ASAP, 2 auf TOEFL11

Leistung bei verschiedenen anfänglichen Rubriken (Tabelle 1)

Anfängliche Rubrik	ASAP	TOEFL
Verbessert - manuell	0,46	0,56
Verbessert - vereinfacht	0,41	0,58
Verbessert - einfachste	0,48	0,64
Nicht verbessert - manuell	0,26	0,58
Nicht verbessert - vereinfacht	0,33	0,59
Nicht verbessert - einfachste	0,17	0,57

Wichtigste Erkenntnisse

Potenzial der einfachsten Rubrik: Ausgehend von der einfachsten Rubrik "Bewertung basierend auf Antwortinhalt auf einer Skala von 1-6" können verbesserte Rubriken sorgfältig gestaltete manuell erstellte Rubriken übertreffen
Merkmale verbesserter Rubriken:
- Hinzufügen visueller Hervorhebungen (z.B. Fettdruck) zur Hervorhebung von Schlüsselelementen
- Hinzufügen einer kurzen Zusammenfassungstabelle am Ende der Rubrik
- Explizite Bedingungsregeln: "Wenn X beobachtet wird, dann Bewertung s vergeben"
Datensatz-Unterschiede: TOEFL11 verwendet grobe dreigliedrige Bewertungen (niedrig/mittel/hoch), mit insgesamt höheren QWK-Werten, was den Verbesserungsspielraum möglicherweise begrenzt

Fallstudie

Abbildung 3 zeigt die verbesserte ASAP P1-Rubrik ausgehend von der einfachsten Rubrik, einschließlich:

Detaillierte Bewertungsprinzipien
Spezifische Unterscheidungen zwischen 4er- und 5er-Bewertungen
Strukturierte Bewertungszusammenfassungstabelle
Explizite Bedingungsbeurteilungsregeln

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Iterative Rubrikenverbesserung ist effektiv: Methodeneffektivität wurde auf mehreren Datensätzen und Modellen validiert
Anfängliche Rubrik ist unwichtig: Ausgezeichnete Leistung kann auch mit äußerst einfachen Rubriken erreicht werden
Automatisierung ist machbar: LLMs können eigenständig relevante Bewertungsstandards identifizieren

Einschränkungen

Begrenzte Datensatz-Reichweite: Experimente nur auf TOEFL11 und ASAP Prompt 1
Anforderung annotierter Daten: Der Verbesserungsprozess erfordert 200 annotierte Beispiele
Einzelne Evaluierungsmetrik: Nur QWK als Optimierungsziel, möglicherweise nicht alle Aspekte der Bewertungsqualität erfassend
Hohe Baseline-Beschränkung: Begrenzter Verbesserungsspielraum bei Datensätzen mit bereits hohen Baseline-Werten

Zukünftige Richtungen

Erweiterung auf mehr Aufsatztypen und Domänen
Erforschung von Methoden zur Reduzierung des Bedarfs an annotierten Daten
Untersuchung von Multi-Metrik-Optimierungsstrategien
Tieferes Verständnis der Merkmale von LLM-geeigneten Rubriken

Tiefgehende Bewertung

Stärken

Starke Methodische Innovation:
- Erstmalige Anwendung von Prompt-Optimierungsideen auf AES-Rubrikenverbesserung
- Simulation des menschlichen Bewerter-Kalibrierungsprozesses mit starker intuitiver Plausibilität
- Einfaches und effektives Algorithmus-Design
Umfassende Experimentelle Gestaltung:
- Validierung mit mehreren Modellen und Datensätzen
- Vergleiche mit verschiedenen anfänglichen Rubriken
- Vollständige statistische Signifikanzanalyse
Starke Ergebnis-Überzeugungskraft:
- Signifikante Leistungsverbesserungen (maximal 0,47 QWK)
- Bedeutsame Erkenntnis, dass einfachste Rubriken manuell erstellte Rubriken übertreffen
- Konkrete Beispiele verbesserter Rubriken
Hoher praktischer Wert:
- Algorithmus ist leicht zu implementieren und zu reproduzieren
- Kann Kosten für manuelle Rubrikenerstellung reduzieren
- Bietet neue Perspektiven für AES-Systemoptimierung

Schwächen

Begrenzte Experimentelle Reichweite:
- Nur zwei Datensätze getestet, Generalisierbarkeit zu überprüfen
- Fehlende Validierung mit verschiedenen Sprachen und kulturellem Hintergrund
- Unterschiede zwischen verschiedenen Aufsatztypen nicht berücksichtigt
Unzureichende theoretische Analyse:
- Mangel an tiefgehender theoretischer Analyse, warum die Methode funktioniert
- Keine Erforschung innerer Merkmale und Muster verbesserter Rubriken
- Fehlende theoretische Garantien für Konvergenz und Stabilität
Fehlende Kostenanalyse:
- Keine detaillierte Analyse von Rechenkosten und Zeitaufwand
- Fehlender Kosten-Nutzen-Vergleich mit traditionellen Methoden
- Unzureichende Analyse der praktischen Machbarkeit für Deployment

Auswirkungen

Akademischer Beitrag:
- Bietet neue Forschungsrichtung für AES-Feld
- Beweist Potenzial von LLM-Selbstverbesserung bei Bewertungsaufgaben
- Könnte mehr Forschung zu adaptiven Bewertungssystemen inspirieren
Praktischer Wert:
- Direkt anwendbar auf bestehende LLM-basierte AES-Systeme
- Hilft Bildungstechnologie-Unternehmen, Produkte zu verbessern
- Bietet neue Werkzeuge für Standardisierung von Bildungsbewertung
Reproduzierbarkeit:
- Vollständige Algorithmus-Beschreibung bereitgestellt
- Detaillierte experimentelle Einrichtung enthalten
- Gute Verfügbarkeit von Code und Daten

Anwendungsszenarien

Bildungsbewertung: Aufsatzbewertung bei verschiedenen standardisierten Tests
Online-Bildung: Automatische Bewertung von Hausaufgaben auf MOOC-Plattformen
Sprachenlernen: Bewertung von Schreibfähigkeiten in Fremdsprachen
Unternehmensschulung: Bewertung von Schreibfähigkeiten von Mitarbeitern

Literaturverzeichnis

Das Paper zitiert mehrere wichtige verwandte Arbeiten, einschließlich:

Prompt-Optimierung: Khattab et al. (2023), Agrawal et al. (2025)
AES-bezogen: Mizumoto and Eguchi (2023), Lee et al. (2024)
Menschliche Bewerter-Kalibrierung: Trace et al. (2016), Ouyang et al. (2022)
LLM-Selbstverbesserung: Madaan et al. (2023), Kamoi et al. (2024)

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Methode vorschlägt und signifikante experimentelle Ergebnisse erzielt. Obwohl es Raum für Verbesserungen in der experimentellen Reichweite und theoretischen Analyse gibt, hat die Kernidee starken praktischen Wert und akademische Bedeutung und trägt wichtig zur Entwicklung des AES-Feldes bei.