2025-11-21T04:13:15.591642

Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise

Harada, Yoshida, Kojima et al.
The performance of Large Language Models (LLMs) is highly sensitive to the prompts they are given. Drawing inspiration from the field of prompt optimization, this study investigates the potential for enhancing Automated Essay Scoring (AES) by refining the scoring rubrics used by LLMs. Specifically, our approach prompts models to iteratively refine rubrics by reflecting on models' own scoring rationales and observed discrepancies with human scores on sample essays. Experiments on the TOEFL11 and ASAP datasets using GPT-4.1, Gemini-2.5-Pro, and Qwen-3-Next-80B-A3B-Instruct show Quadratic Weighted Kappa (QWK) improvements of up to 0.19 and 0.47, respectively. Notably, even with a simple initial rubric, our approach achieves comparable or better QWK than using detailed human-authored rubrics. Our findings highlight the importance of iterative rubric refinement in LLM-based AES to enhance alignment with human evaluations.
academic

Automatisierte Verfeinerung von Bewertungsrubriken für Sprachmodelle durch Reflect-and-Revise

Grundinformationen

  • Paper-ID: 2510.09030
  • Titel: Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise
  • Autoren: Keno Harada, Lui Yoshida, Takeshi Kojima, Yusuke Iwasawa, Yutaka Matsuo (Universität Tokio)
  • Klassifizierung: cs.CL (Computerlinguistik)
  • Veröffentlichungsdatum: 10. Oktober 2025 (arXiv Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.09030

Zusammenfassung

Die Leistung großer Sprachmodelle (LLMs) ist stark von den gegebenen Eingabeaufforderungen abhängig. Diese Forschung wird durch das Feld der Prompt-Optimierung inspiriert und untersucht das Potenzial zur Verbesserung der automatischen Aufsatzbewertung (AES) durch Verfeinerung der von LLMs verwendeten Bewertungsrubriken. Konkret verbessert die Methode die Bewertungsrubriken iterativ, indem das Modell aufgefordert wird, über seine eigenen Bewertungsgründe und Unterschiede zu menschlichen Bewertungen nachzudenken. Experimente mit GPT-4.1, Gemini-2.5-Pro und Qwen-3-Next-80B-A3B-Instruct auf den Datensätzen TOEFL11 und ASAP zeigen Verbesserungen des quadratisch gewichteten Kappa (QWK) um maximal 0,19 bzw. 0,47. Bemerkenswert ist, dass die Methode auch bei Verwendung einfacher anfänglicher Rubriken QWK-Werte erreicht, die mit oder besser sind als die Verwendung detaillierter manuell erstellter Rubriken. Die Ergebnisse unterstreichen die Bedeutung iterativer Rubrikenverbesserung in LLM-basierten AES-Systemen zur Verbesserung der Übereinstimmung mit menschlichen Bewertungen.

Forschungshintergrund und Motivation

Problemdefinition

  1. Kernproblem: Traditionelle LLM-basierte Systeme zur automatischen Aufsatzbewertung verwenden statische, vordefinierte Bewertungsrubriken, die für menschliche Bewerter konzipiert wurden und möglicherweise nicht optimal für LLMs sind.
  2. Bedeutung: Mit der weit verbreiteten Anwendung von LLMs im Bildungsbereich besteht Bedarf an AES-Systemen, die Echtzeit- und skalierbare Rückmeldungen bieten können, um die Bewertungslast von Lehrkräften zu verringern.
  3. Bestehende Einschränkungen:
    • Aktuelle LLM-basierte AES-Systeme ignorieren den Kalibrierungsprozess zwischen menschlichen Bewertern
    • Menschliche Bewerter führen typischerweise Bewertungen von Beispielaufsätzen durch, diskutieren Bewertungsunterschiede und verbessern ihr gemeinsames Verständnis der Rubriken
    • Diese iterative Reflexionspraxis wird in aktuellen LLM-basierten AES-Systemen vernachlässigt und begrenzt die Übereinstimmung mit menschlichen Bewertungsmustern

Forschungsmotivation

Inspiriert durch Prompt-Optimierungstechniken und den Kalibrierungsprozess menschlicher Bewerter schlagen die Autoren eine iterative Verbesserungsmethode vor, die es LLMs ermöglicht, Bewertungsrubriken basierend auf ihrer eigenen Bewertungsleistung bei Beispielaufsätzen zu überdenken und zu verbessern.

Kernbeiträge

  1. Vorschlag einer iterativen Rubrikenverbesserungsmethode: Basierend auf einem Reflect-and-Revise-Mechanismus, der es LLMs ermöglicht, Bewertungsrubriken automatisch basierend auf Unterschieden zu menschlichen Bewertungen zu verbessern
  2. Validierung der Methodeneffektivität: Nachweis signifikanter Leistungsverbesserungen auf zwei Standard-Datensätzen mit drei verschiedenen LLMs
  3. Neue Erkenntnisse zum Rubrikendesign: Verbesserte Rubriken können sorgfältig gestaltete manuell erstellte Rubriken übertreffen, selbst wenn sie von den einfachsten Rubriken ausgehen
  4. Bereitstellung eines praktischen Algorithmus-Rahmens: Vollständiger iterativer Verbesserungsalgorithmus mit guter Reproduzierbarkeit

Methodische Details

Aufgabendefinition

  • Eingabe: Aufsatztext x und Bewertungsrubrik R
  • Ausgabe: Vorhergesagte Bewertung ŷ und Bewertungsbegründung z
  • Ziel: Maximierung des quadratisch gewichteten Kappa (QWK) zwischen LLM-Bewertung und menschlicher Bewertung

Modellarchitektur

Algorithmus-Ablauf

Die Methode enthält die folgenden Kernkomponenten:

  1. Bewertungsfunktion: Modell M empfängt die Rubrik und den Aufsatz und generiert vorhergesagte Bewertung und textliche Begründung
  2. Verbesserungsfunktion: M generiert verbesserte Rubriken basierend auf vorherigen Rubriken, generierten Begründungen und Bewertungsunterschieden

Iterativer Verbesserungsalgorithmus (Algorithmus 1)

Eingabe: Datensatz D, Sprachmodell M, anfängliche Rubrik Rseed
Parameter: Iterationen T, Batch-Größe b

1. Rbest ← Rinit
2. QWKbest ← EVALUATE(M, Rbest, Dval)
3. for t = 1 to T do
4.   B ← SAMPLEMINIBATCH(Dtrain, b)
5.   FbData ← ∅
6.   for each (x, y) ∈ B do
7.     (ŷ, z) ← SCORE(M, Rbest, x)
8.     Add (rationale=z, pred_score=ŷ, true_score=y) to FbData
9.   end for
10.  Rnew ← REFINE(M, Rbest, FbData)
11.  QWKnew ← EVALUATE(M, Rnew, Dval)
12.  if QWKnew > QWKbest then
13.    Rbest ← Rnew
14.    QWKbest ← QWKnew
15.  end if
16. end for
17. return Rbest

Technische Innovationen

  1. Selbstreflexionsmechanismus: Das Modell kann seine eigenen Bewertungsbegründungen und Unterschiede zu menschlichen Bewertungen analysieren
  2. Iterative Optimierung: Schrittweise Verbesserung der Rubrikenqualität durch mehrere Runden
  3. Minimale anfängliche Anforderungen: Kann mit äußerst einfachen Rubriken beginnen (z.B. "Bewertung basierend auf Antwortinhalt auf einer Skala von 1-6")
  4. Leistungsgesteuerte Aktualisierungen: Neue Rubriken werden nur aktualisiert, wenn sie auf dem Validierungssatz bessere Leistungen zeigen

Experimentelle Einrichtung

Datensätze

TOEFL11-Datensatz

  • Umfang: 12.100 Aufsätze, 8 Aufsatzaufforderungen
  • Bewertung: 3 Kompetenzstufen (hoch, mittel, niedrig), konvertiert aus ursprünglicher 5er-Skala
  • Aufteilung: Trainingssatz 100, Validierungssatz 100, Testsatz 1.100

ASAP-Datensatz

  • Verwendete Teilmenge: Prompt 1 (P1), 6er-Skala-Bewertung
  • Aufteilung: Testsatz 179 (10%), Trainings- und Validierungssatz je 100
  • Besonderheit: Enthält Annotationen von zwei menschlichen Bewertern

Evaluierungsmetriken

  • Hauptmetrik: Quadratisch gewichtetes Kappa (QWK), weit verbreitete Metrik für AES-Evaluierung
  • Statistische Methode: Jedes Experiment wird 3-mal durchgeführt, Mittelwert und Standardabweichung werden berichtet

Vergleichsmethoden

  • Baseline-Methode: Verwendung manuell erstellter detaillierter Bewertungsrubriken
  • Seed-Rubrik-Typen:
    • simplest_rubric: Einfachste Rubrik
    • human_rubric: Offizielle detaillierte Bewertungsrichtlinien
    • simplified_human_rubric: Vereinfachte manuell erstellte Rubrik

Implementierungsdetails

  • Iterationen: T = 10
  • Batch-Größe: B = 10
  • Modelle: GPT-4.1, GPT-5-mini, Gemini-2.5-Flash, Gemini-2.5-Pro, Qwen3-Next-80B-A3B-Instruct
  • Temperatur-Einstellungen: Je nach Modell angepasst (0,7-1,0)

Experimentelle Ergebnisse

Hauptergebnisse

QWK-Verbesserungsspanne

  • ASAP-Datensatz: Maximale Verbesserung 0,47 QWK
  • TOEFL11-Datensatz: Maximale Verbesserung 0,19 QWK
  • Modellleistung: Von 5 Modellen zeigen 4 Verbesserungen auf ASAP, 2 auf TOEFL11

Leistung bei verschiedenen anfänglichen Rubriken (Tabelle 1)

Anfängliche RubrikASAPTOEFL
Verbessert - manuell0,460,56
Verbessert - vereinfacht0,410,58
Verbessert - einfachste0,480,64
Nicht verbessert - manuell0,260,58
Nicht verbessert - vereinfacht0,330,59
Nicht verbessert - einfachste0,170,57

Wichtigste Erkenntnisse

  1. Potenzial der einfachsten Rubrik: Ausgehend von der einfachsten Rubrik "Bewertung basierend auf Antwortinhalt auf einer Skala von 1-6" können verbesserte Rubriken sorgfältig gestaltete manuell erstellte Rubriken übertreffen
  2. Merkmale verbesserter Rubriken:
    • Hinzufügen visueller Hervorhebungen (z.B. Fettdruck) zur Hervorhebung von Schlüsselelementen
    • Hinzufügen einer kurzen Zusammenfassungstabelle am Ende der Rubrik
    • Explizite Bedingungsregeln: "Wenn X beobachtet wird, dann Bewertung s vergeben"
  3. Datensatz-Unterschiede: TOEFL11 verwendet grobe dreigliedrige Bewertungen (niedrig/mittel/hoch), mit insgesamt höheren QWK-Werten, was den Verbesserungsspielraum möglicherweise begrenzt

Fallstudie

Abbildung 3 zeigt die verbesserte ASAP P1-Rubrik ausgehend von der einfachsten Rubrik, einschließlich:

  • Detaillierte Bewertungsprinzipien
  • Spezifische Unterscheidungen zwischen 4er- und 5er-Bewertungen
  • Strukturierte Bewertungszusammenfassungstabelle
  • Explizite Bedingungsbeurteilungsregeln

Verwandte Arbeiten

Hauptforschungsrichtungen

  1. LLM-basierte automatische Bewertung: Verwendung von Checklisten und Rubriken zur Bewertung nicht-verifizierbarer Aufgaben
  2. AES-Technologieentwicklung: Verschiedene Techniken zur automatischen Aufsatzbewertung
  3. Rubrikendesign-Forschung:
    • Furuhashi et al. entdeckten das "negative Elemente"-Phänomen
    • Yoshida entdeckte, dass detailliertere Rubriken nicht immer zu Leistungsverbesserungen führen

Vorteile dieses Papers

Im Vergleich zu bestehender Forschung schlägt dieses Paper erstmals eine Methode vor, die es LLMs ermöglicht, über ihre eigenen Ausgaben nachzudenken, um Rubriken iterativ zu verbessern und dabei den Kalibrierungsprozess menschlicher Bewerter zu simulieren.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Iterative Rubrikenverbesserung ist effektiv: Methodeneffektivität wurde auf mehreren Datensätzen und Modellen validiert
  2. Anfängliche Rubrik ist unwichtig: Ausgezeichnete Leistung kann auch mit äußerst einfachen Rubriken erreicht werden
  3. Automatisierung ist machbar: LLMs können eigenständig relevante Bewertungsstandards identifizieren

Einschränkungen

  1. Begrenzte Datensatz-Reichweite: Experimente nur auf TOEFL11 und ASAP Prompt 1
  2. Anforderung annotierter Daten: Der Verbesserungsprozess erfordert 200 annotierte Beispiele
  3. Einzelne Evaluierungsmetrik: Nur QWK als Optimierungsziel, möglicherweise nicht alle Aspekte der Bewertungsqualität erfassend
  4. Hohe Baseline-Beschränkung: Begrenzter Verbesserungsspielraum bei Datensätzen mit bereits hohen Baseline-Werten

Zukünftige Richtungen

  1. Erweiterung auf mehr Aufsatztypen und Domänen
  2. Erforschung von Methoden zur Reduzierung des Bedarfs an annotierten Daten
  3. Untersuchung von Multi-Metrik-Optimierungsstrategien
  4. Tieferes Verständnis der Merkmale von LLM-geeigneten Rubriken

Tiefgehende Bewertung

Stärken

  1. Starke Methodische Innovation:
    • Erstmalige Anwendung von Prompt-Optimierungsideen auf AES-Rubrikenverbesserung
    • Simulation des menschlichen Bewerter-Kalibrierungsprozesses mit starker intuitiver Plausibilität
    • Einfaches und effektives Algorithmus-Design
  2. Umfassende Experimentelle Gestaltung:
    • Validierung mit mehreren Modellen und Datensätzen
    • Vergleiche mit verschiedenen anfänglichen Rubriken
    • Vollständige statistische Signifikanzanalyse
  3. Starke Ergebnis-Überzeugungskraft:
    • Signifikante Leistungsverbesserungen (maximal 0,47 QWK)
    • Bedeutsame Erkenntnis, dass einfachste Rubriken manuell erstellte Rubriken übertreffen
    • Konkrete Beispiele verbesserter Rubriken
  4. Hoher praktischer Wert:
    • Algorithmus ist leicht zu implementieren und zu reproduzieren
    • Kann Kosten für manuelle Rubrikenerstellung reduzieren
    • Bietet neue Perspektiven für AES-Systemoptimierung

Schwächen

  1. Begrenzte Experimentelle Reichweite:
    • Nur zwei Datensätze getestet, Generalisierbarkeit zu überprüfen
    • Fehlende Validierung mit verschiedenen Sprachen und kulturellem Hintergrund
    • Unterschiede zwischen verschiedenen Aufsatztypen nicht berücksichtigt
  2. Unzureichende theoretische Analyse:
    • Mangel an tiefgehender theoretischer Analyse, warum die Methode funktioniert
    • Keine Erforschung innerer Merkmale und Muster verbesserter Rubriken
    • Fehlende theoretische Garantien für Konvergenz und Stabilität
  3. Fehlende Kostenanalyse:
    • Keine detaillierte Analyse von Rechenkosten und Zeitaufwand
    • Fehlender Kosten-Nutzen-Vergleich mit traditionellen Methoden
    • Unzureichende Analyse der praktischen Machbarkeit für Deployment

Auswirkungen

  1. Akademischer Beitrag:
    • Bietet neue Forschungsrichtung für AES-Feld
    • Beweist Potenzial von LLM-Selbstverbesserung bei Bewertungsaufgaben
    • Könnte mehr Forschung zu adaptiven Bewertungssystemen inspirieren
  2. Praktischer Wert:
    • Direkt anwendbar auf bestehende LLM-basierte AES-Systeme
    • Hilft Bildungstechnologie-Unternehmen, Produkte zu verbessern
    • Bietet neue Werkzeuge für Standardisierung von Bildungsbewertung
  3. Reproduzierbarkeit:
    • Vollständige Algorithmus-Beschreibung bereitgestellt
    • Detaillierte experimentelle Einrichtung enthalten
    • Gute Verfügbarkeit von Code und Daten

Anwendungsszenarien

  1. Bildungsbewertung: Aufsatzbewertung bei verschiedenen standardisierten Tests
  2. Online-Bildung: Automatische Bewertung von Hausaufgaben auf MOOC-Plattformen
  3. Sprachenlernen: Bewertung von Schreibfähigkeiten in Fremdsprachen
  4. Unternehmensschulung: Bewertung von Schreibfähigkeiten von Mitarbeitern

Literaturverzeichnis

Das Paper zitiert mehrere wichtige verwandte Arbeiten, einschließlich:

  • Prompt-Optimierung: Khattab et al. (2023), Agrawal et al. (2025)
  • AES-bezogen: Mizumoto and Eguchi (2023), Lee et al. (2024)
  • Menschliche Bewerter-Kalibrierung: Trace et al. (2016), Ouyang et al. (2022)
  • LLM-Selbstverbesserung: Madaan et al. (2023), Kamoi et al. (2024)

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Methode vorschlägt und signifikante experimentelle Ergebnisse erzielt. Obwohl es Raum für Verbesserungen in der experimentellen Reichweite und theoretischen Analyse gibt, hat die Kernidee starken praktischen Wert und akademische Bedeutung und trägt wichtig zur Entwicklung des AES-Feldes bei.