2025-11-23T19:01:17.127547

Personalized and Constructive Feedback for Computer Science Students Using the Large Language Model (LLM)

Khan, Yaqoob, Tasadduq et al.
The evolving pedagogy paradigms are leading toward educational transformations. One fundamental aspect of effective learning is relevant, immediate, and constructive feedback to students. Providing constructive feedback to large cohorts in academia is an ongoing challenge. Therefore, academics are moving towards automated assessment to provide immediate feedback. However, current approaches are often limited in scope, offering simplistic responses that do not provide students with personalized feedback to guide them toward improvements. This paper addresses this limitation by investigating the performance of Large Language Models (LLMs) in processing students assessments with predefined rubrics and marking criteria to generate personalized feedback for in-depth learning. We aim to leverage the power of existing LLMs for Marking Assessments, Tracking, and Evaluation (LLM-MATE) with personalized feedback to enhance students learning. To evaluate the performance of LLM-MATE, we consider the Software Architecture (SA) module as a case study. The LLM-MATE approach can help module leaders overcome assessment challenges with large cohorts. Also, it helps students improve their learning by obtaining personalized feedback in a timely manner. Additionally, the proposed approach will facilitate the establishment of ground truth for automating the generation of students assessment feedback using the ChatGPT API, thereby reducing the overhead associated with large cohort assessments.
academic

Personalisiertes und konstruktives Feedback für Informatikstudenten unter Verwendung von Large Language Models (LLM)

Grundinformationen

  • Papier-ID: 2510.11556
  • Titel: Personalisiertes und konstruktives Feedback für Informatikstudenten unter Verwendung von Large Language Models (LLM)
  • Autoren: Javed Ali Khan, Muhammad Yaqoob, Mamoona Tasadduq, Hafsa Shareef Dar, Aitezaz Ahsan
  • Klassifizierung: cs.CY (Informatik und Gesellschaft)
  • Veröffentlichungszeitpunkt/Konferenz: 2024 (Preprint)
  • Papierlink: https://arxiv.org/abs/2510.11556

Zusammenfassung

Die Entwicklung von Bildungsparadigmen treibt Bildungsveränderungen voran. Ein grundlegender Aspekt effektiven Lernens ist die Bereitstellung relevanter, zeitnaher und konstruktiver Rückmeldungen für Studenten. Die Bereitstellung konstruktiven Feedbacks für große Studentengruppen stellt die akademische Gemeinschaft vor eine anhaltende Herausforderung. Daher wenden sich Wissenschaftler der automatisierten Bewertung zu, um zeitnahe Rückmeldungen zu ermöglichen. Allerdings sind aktuelle Methoden häufig begrenzt und bieten einfache Antworten, die Studenten kein personalisiertes Feedback zur Verbesserung geben können. Dieses Papier adressiert diese Einschränkung durch die Untersuchung der Leistung von Large Language Models (LLMs) bei der Verarbeitung von Studentenbewertungen unter Verwendung vordefinierter Bewertungskriterien und der Generierung personalisierter Rückmeldungen. Die Autoren zielen darauf ab, die Kraft bestehender LLMs für Bewertung, Verfolgung und Evaluierung (LLM-MATE) zu nutzen, um das Studentenlernen durch personalisiertes Feedback zu verbessern.

Forschungshintergrund und Motivation

1. Kernprobleme

Diese Forschung adressiert hauptsächlich folgende Probleme:

  • Herausforderung bei der Skalierbarkeit von Feedback: Schwierigkeit, zeitnahe und personalisierte konstruktive Rückmeldungen für große Studentengruppen bereitzustellen
  • Einschränkungen der traditionellen automatisierten Bewertung: Bestehende automatisierte Bewertungsmethoden haben begrenzte Reichweite und können nur einfache Antworten liefern, denen personalisierte Anleitung fehlt
  • Arbeitsbelastung der Lehrkräfte: Die manuelle Bewertung großer Mengen von Studentenarbeiten ist zeitaufwändig und schwierig, um Feedback-Qualität und Konsistenz zu gewährleisten

2. Bedeutung des Problems

  • Verbesserung der Unterrichtsqualität: Zeitnahe und personalisierte Rückmeldungen sind die Grundlage für effektives Lernen
  • Entwicklung intelligenter Bildung: Nach der COVID-19-Pandemie ist die Nachfrage nach Online-Bildung und intelligenten Bildungsplattformen gestiegen
  • Bildungsgerechtigkeit: Automatisierte Bewertung kann allen Studenten konsistente Qualität von Rückmeldungen bieten

3. Einschränkungen bestehender Methoden

  • Die meisten Forschungen konzentrieren sich auf formative Bewertung mit unzureichender Aufmerksamkeit für summative Bewertung
  • Das von bestehenden KI-Bewertungswerkzeugen bereitgestellte Feedback ist zu einfach und enthält keine detaillierten Verbesserungsvorschläge
  • Bewertungskriterien sind inkonsistent, verschiedene Lehrkräfte können erheblich unterschiedliche Bewertungen geben

4. Forschungsmotivation

Nutzung der starken Fähigkeiten von Large Language Models zur Textverständnis und -generierung, kombiniert mit vordefinierten Bewertungskriterien, um personalisierte und konstruktive Rückmeldungen für multimodale Bewertungen (Text, Bilder, Programmierung) von Informatikstudenten bereitzustellen.

Kernbeiträge

  1. Vorschlag des LLM-MATE-Frameworks: Ein auf Large Language Models basierendes Bewertungs-, Verfolgung- und Evaluierungssystem, das multimodale Studentenbewertungen verarbeiten kann
  2. Zero-Shot-Prompt-Engineering-Methode: Entwicklung spezialisierter ChatGPT-Prompt-Strategien für Studentenbewertungen, die hochqualitatives Feedback ohne Trainingsdaten generieren können
  3. Multimodale Bewertungsfähigkeit: Validierung der Effektivität von LLMs bei der Verarbeitung von Softwarearchitektur-Bewertungen mit Text und Diagrammen
  4. Lehrkraft-Validierungsstudie: Durch Vergleichsvalidierung mit menschlichen Experten wird die Zuverlässigkeit von KI-generiertem Feedback nachgewiesen
  5. Praktischer Anwendungswert: Bereitstellung einer praktikablen Lösung für automatisierte Bewertung in großen Kursen

Methodische Erläuterung

Aufgabendefinition

Eingabe: Von Studenten eingereichte Bewertungsarbeiten (einschließlich Textbeschreibungen, Softwarearchitektur-Diagramme usw.) + Bewertungskriterien und Bewertungsrichtlinien Ausgabe: Strukturiertes personalisiertes Feedback, einschließlich:

  • Analyse der Stärken der Arbeit
  • Identifizierung von Schwächen
  • Konkrete Verbesserungsvorschläge
  • Quantifizierte Bewertung und deren Begründung

Einschränkungen:

  • Muss auf vordefinierten Bewertungskriterien basieren
  • Feedback muss konstruktiv und personalisiert sein
  • Anwendbar auf große Studentengruppen

Modellarchitektur

Gesamtrahmen: LJM-MATE-Vierschritt-Methode

  1. Datenerfassung (Data Collection)
    • Erfassung anonymisierter Studentenbewertungsdaten
    • Umfasst verschiedene Bewertungstypen des Softwarearchitektur-Moduls (Anwendungsfalldiagramme, Klassendiagramme, dreischichtige Architekturdiagramme)
    • Einholung der Zustimmung der Studenten und Gewährleistung der Datensicherheit
  2. Prompt-Engineering (Prompt Engineering)
    • Domänenbeschränkung: Verwendung strukturierter Prompts zur Einschränkung von ChatGPT auf die Analyse innerhalb spezifischer Parameterbereiche
    • Personalisierte Feedback-Generierung: Anpassung von Prompts zur Analyse der Stärken, Schwächen und Verbesserungsvorschläge für jede Einreichung
    • Iteratives Testen und Optimierung: Umfangreiches Testen zur Gewährleistung konsistenter Ausgabequalität
    • Fehleridentifikation: Gestaltung von Prompts zur Identifikation von Studentenfehlern und Bereitstellung konstruktiver Erklärungen
  3. ChatGPT-Bewertungsausführung (Assessment Evaluation with ChatGPT Prompt)
    • Eingabe: Studentenbewertung + Aufgabenanforderungen + Bewertungskriterien
    • Verarbeitung: Analyse basierend auf bereitgestellten Bewertungsrichtlinien
    • Ausgabe: Konstruktives Feedback + Gesamtbewertung
  4. Bewertungs- und Verhandlungsprozess (Evaluation and Negotiation Process)
    • Kreuzvalidierung von KI-generiertem Feedback durch menschliche Experten
    • Vergleich mit manuellen Bewertungsergebnissen
    • Identifikation und Behebung potenzieller "Halluzinations"-Probleme

Wichtige technische Details

Zero-Shot-Lernstrategie:

Systemprompt + Bewertungseinführung + Bewertungskriterien + Studentenlösung + Ausgabeformatanforderungen

Prompt-Strukturgestaltung:

  • Klare Rollendefinition (als Softwarearchitektur-Bewertungsexperte)
  • Detaillierte Erklärung der Bewertungskriterien
  • Strukturierte Ausgabeformatanforderungen
  • Spezifische Anforderungen für konstruktives Feedback

Technische Innovationspunkte

  1. Multimodale Verarbeitungsfähigkeit: Nutzung von GPT-4o zur gleichzeitigen Verarbeitung von Text- und Bildinhalten, geeignet für Softwaretechnik-Bewertungen
  2. Zero-Shot-Adaptivität: Ohne spezifische Trainingsdaten, nur durch Prompt-Engineering an verschiedene Bewertungsaufgaben anpassbar
  3. Strukturierte Feedback-Generierung: Generierung vollständiger Rückmeldungen mit Stärken, Schwächen, Verbesserungsvorschlägen und Bewertungsbegründungen
  4. Mensch-Maschine-Kooperationsvalidierung: Etablierung eines Verhandlungsmechanismus zwischen KI und menschlichen Experten zur Gewährleistung der Feedback-Qualität

Experimentelle Einrichtung

Datensatz

  • Quelle: Softwarearchitektur (SA)-Modul der Universität Hertfordshire, Großbritannien
  • Umfang: Zustimmung von 23 Studenten aus 290 Studenten zur Teilnahme an der Forschung
  • Inhalt: Bewertungsarbeiten mit Anwendungsfalldiagrammen, Klassendiagrammen und dreischichtigen Architekturdiagrammen
  • Gewichtungsverteilung: Anwendungsfalldiagramme 30%, Klassendiagramme 30%, dreischichtige Architekturdiagramme 40%
  • Stichprobenauswahl: Auswahl von Arbeiten mit hoher, mittlerer und niedriger Punktzahl basierend auf Diversitätsprinzipien

Bewertungsmetriken

  • Konfidenzwert: Vertrauen der Lehrkraft in das KI-Feedback (1-5-Punkte-Skala)
    • 1-2 Punkte: Niedriges Vertrauen
    • 3 Punkte: Mittleres Vertrauen
    • 4-5 Punkte: Hohes Vertrauen
  • Feedback-Qualitätsbewertung: Vergleich der Detailliertheit und Konstruktivität von KI- und menschlichem Feedback

Vergleichsmethoden

  • Manuelle Bewertung: Handschriftliche Bewertungsergebnisse von 4 Modulteilnehmern als Referenzwert
  • Traditionelles Feedback: Kurze zusammenfassende Bewertungen (wie in Abbildung 4 gezeigt)
  • KI-Feedback: Detailliertes strukturiertes Feedback (wie in Abbildung 3 gezeigt)

Implementierungsdetails

  • Modell: GPT-4o (unterstützt Text- und Bildanalyse)
  • Schnittstelle: ChatGPT-Weboberfläche
  • Prompt-Strategie: Zero-Shot-Lernen
  • Bewertungsbereich: Hauptsächlich Fokus auf Anwendungsfalldiagramm-Bewertung (30 Punkte maximal)

Experimentelle Ergebnisse

Hauptergebnisse

RQ1: Leistung von ChatGPT in der Bewertung

Befunde: ChatGPT zeigt gute Leistung bei der Generierung personalisierter konstruktiver Rückmeldungen

  • Fähigkeit zur detaillierten Erläuterung von Arbeitsstärken
  • Genaue Identifikation von Schwächen
  • Bereitstellung konkreter Verbesserungsvorschläge
  • Angemessene Bewertung und deren Begründung

Vergleichende Analyse:

  • KI-Feedback (Abbildung 3): Detailliert, strukturiert, personalisiert mit konkreten technischen Vorschlägen
  • Menschliches Feedback (Abbildung 4): Kurze Zusammenfassung, mangelnde detaillierte Verbesserungsanleitung

RQ2: Zuverlässigkeit des KI-Feedbacks

Lehrkraft-Validierungsergebnisse:

  • Konfidenzwerte von 4 Lehrkräften: 4, 5, 4, 3
  • Durchschnittliches Vertrauen: 4,0 Punkte (hoher Vertrauensbereich)
  • Konsistenz: Alle Lehrkräfte bewerten die KI-Feedback-Qualität als hoch

Fallstudienanalyse

Typische Merkmale des KI-Feedbacks:

  1. Stärkenerkennung: Genaue Identifikation korrekter Implementierungen in Studentenarbeiten
  2. Problemdiagnose: Spezifische Angabe technischer Fehler und konzeptioneller Missverständnisse
  3. Verbesserungsvorschläge: Bereitstellung umsetzbarer konkreter Verbesserungspläne
  4. Bewertungsbegründung: Detaillierte Erklärung der Bewertungsgrundlagen

Experimentelle Befunde

  1. Konsistenzvorteile: KI-Bewertung kann konsistentere Feedback-Standards als manuelle Bewertung bieten
  2. Detailliertheit: Von KI generiertes Feedback ist detaillierter und spezifischer als traditionelles menschliches Feedback
  3. Aktualität: Fähigkeit zur sofortigen Feedback-Generierung, erfüllt Anforderungen großer Lehrveranstaltungen
  4. Personalisierung: Bereitstellung maßgeschneiderter Vorschläge basierend auf spezifischen Situationen einzelner Studenten

Verwandte Arbeiten

Hauptforschungsrichtungen

  1. Intelligente Feedback-Systeme:
    • Echtzeit-Feedback-System mit maschinellem Lernen von Biswas et al.
    • Adaptive Feedback-Methode von Gutierrez und Atkinson
    • LMS-integrierter Feedback-Mechanismus von Van der Merwe et al.
  2. Automatisierte Bewertung:
    • KI-Automatisches Bewertungswerkzeug von Fu et al.
    • Deep-Learning-Papier-Bewertung von Lu und Cutumisu
    • KI-Bewertungs-Übersicht von González-Calatayud et al.
  3. Personalisiertes Lernen:
    • Klassifizierungsrahmen für personalisiertes Feedback von Maier et al.
    • Adaptive Feedback-Übersicht von Bimba et al.

Vergleich der Innovationspunkte dieses Papiers

AspektBestehende ArbeitenBeitrag dieses Papiers
BewertungstypHauptsächlich formative BewertungFokus auf summative Bewertung
Feedback-DetailliertheitEinfache Bewertung oder KlassifizierungDetailliertes strukturiertes Feedback
Multimodale VerarbeitungMeistens nur TextverarbeitungGleichzeitige Verarbeitung von Text und Bildern
ValidierungsmethodeStudentenzufriedenheitsumfrageExperten-Vertrauensbewertung

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. Technische Machbarkeit: ChatGPT kann multimodale Bewertungen von Informatikstudenten effektiv verarbeiten und hochqualitatives personalisiertes Feedback generieren
  2. Pädagogischer Wert: Von KI generiertes Feedback ist detaillierter und konstruktiver als traditionelles menschliches Feedback und hilft Studenten, ihre Leistung zu verbessern
  3. Praktikabilität: Die LJM-MATE-Methode kann helfen, Bewertungsherausforderungen in großen Kursen zu lösen und die Unterrichtseffizienz zu verbessern
  4. Konsistenz: KI-Bewertung kann konsistentere Bewertungsstandards als mehrere menschliche Bewerter bieten

Einschränkungen

  1. Datenskalierungsbeschränkung: Nur 23 Studenten stimmten zu, die Stichprobengröße ist relativ klein
  2. Bewertungsbereich: Hauptsächlich Validierung der Anwendungsfalldiagramm-Bewertung, unzureichende Validierung von Klassendiagrammen und Architekturdiagrammen
  3. Halluzinationsrisiko: LLM kann möglicherweise autoritär aussehende, aber tatsächlich fehlerhafte Inhalte generieren
  4. Domänenabhängigkeit: Erfordert sorgfältig gestaltete Bewertungskriterien für optimale Leistung
  5. Fehlende Studentenperspektive: Keine direkte Bewertung der Akzeptanz und Lerneffektivität des KI-Feedbacks durch Studenten

Zukünftige Richtungen

  1. Experimentelle Erweiterung:
    • Vergrößerung des Datensatzumfangs
    • Validierung anderer Arten von Softwaretechnik-Diagrammen
    • Test der Anwendbarkeit in verschiedenen Fachbereichen
  2. Technische Verbesserungen:
    • Erforschung von Few-Shot-Lernen und Chain-of-Thought-Prompt-Methoden
    • Entwicklung automatisierter ChatGPT-API-Lösungen
    • Etablierung verbesserter Mensch-Maschine-Kooperationsmechanismen
  3. Bewertung der Unterrichtseffektivität:
    • Untersuchung der tatsächlichen Auswirkung von KI-Feedback auf Studentenlerneffekte
    • Bewertung der Akzeptanz und des Vertrauens der Studenten in KI-Feedback

Tiefgreifende Bewertung

Stärken

  1. Problemorientierung in der Praxis: Adressierung echter Schmerzen in der Bildung mit klarem Anwendungswert
  2. Methodische Innovation: Der Einsatz von LLM für multimodale Bildungsbewertung ist ein neuartiger Versuch
  3. Ausreichende Validierung: Durch Expertenvalidierung wird die Glaubwürdigkeit der Forschungsergebnisse gewährleistet
  4. Starke Praktikabilität: Das vorgeschlagene Framework kann direkt in realen Unterrichtsumgebungen angewendet werden

Mängel

  1. Begrenzte Experimentskala: Kleine Stichprobenzahl kann die Allgemeingültigkeit der Ergebnisse beeinflussen
  2. Einzelne Bewertungsdimension: Hauptsächlich Fokus auf Feedback-Qualität, mangelnde direkte Messung von Lerneffekten
  3. Unzureichende technische Tiefe: Hauptsächlich Verwendung bestehender APIs, mangelnde tiefgreifende technische Innovation
  4. Fehlende Kosten-Nutzen-Analyse: Keine Diskussion der Kosten und Nachhaltigkeit bei großflächiger Bereitstellung

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Perspektiven für die Anwendung von LLM im Bildungstechnologie-Bereich
  2. Praktischer Wert: Kann direkt auf großflächige Kursbewertungen in der Hochschulbildung angewendet werden
  3. Reproduzierbarkeit: Klare Methodenbeschreibung, leicht für andere Forscher zu reproduzieren und zu verbessern
  4. Ausbreitungspotenzial: Framework hat gute Universalität und kann auf andere Disziplinen erweitert werden

Anwendungsszenarien

  1. Großflächige Kurse: Besonders geeignet für Informatik-Kurse mit großer Studentenzahl
  2. Standardisierte Bewertung: Geeignet für technische Kurse mit klaren Bewertungskriterien
  3. Multimodale Aufgaben: Geeignet für umfassende Bewertungen mit Diagrammen, Code und Text
  4. Online-Bildung: Bietet automatisierte Bewertungslösungen für Remote-Bildungsplattformen

Literaturverzeichnis

Dieses Papier zitiert 38 verwandte Literaturquellen, hauptsächlich einschließlich:

Kernliteratur:

  1. González-Calatayud et al. (2021) - Übersicht über KI-Studentenbewertungssysteme
  2. Maier & Klotz (2022) - Personalisiertes Feedback in digitalen Lernumgebungen
  3. Biswas & Bhattacharya (2024) - ML-basiertes intelligentes Echtzeit-Feedback-System
  4. Liu et al. (2023) - Systematische Übersicht über Prompt-Engineering-Methoden

Technische Unterstützungsliteratur:

  • White et al. (2024) - ChatGPT-Prompt-Muster
  • Wei et al. (2022) - Chain-of-Thought-Prompt-Methode
  • Chen et al. (2023) - Anwendung von LLM in der Softwaretechnik

Gesamtbewertung: Dies ist ein Forschungspapier mit praktischem Anwendungswert. Obwohl es gewisse Einschränkungen in technischer Innovation und experimenteller Skala gibt, bietet es wertvolle Erkundungen und praktische Erfahrungen für den Bildungstechnologie-Bereich. Die Forschungsmethode ist angemessen, die Ergebnisse sind glaubwürdig, und sie hat positive Bedeutung für die Förderung der Anwendung von KI in der Bildungsbewertung.