2025-11-23T19:01:17.127547

Personalized and Constructive Feedback for Computer Science Students Using the Large Language Model (LLM)

Khan, Yaqoob, Tasadduq et al.

The evolving pedagogy paradigms are leading toward educational transformations. One fundamental aspect of effective learning is relevant, immediate, and constructive feedback to students. Providing constructive feedback to large cohorts in academia is an ongoing challenge. Therefore, academics are moving towards automated assessment to provide immediate feedback. However, current approaches are often limited in scope, offering simplistic responses that do not provide students with personalized feedback to guide them toward improvements. This paper addresses this limitation by investigating the performance of Large Language Models (LLMs) in processing students assessments with predefined rubrics and marking criteria to generate personalized feedback for in-depth learning. We aim to leverage the power of existing LLMs for Marking Assessments, Tracking, and Evaluation (LLM-MATE) with personalized feedback to enhance students learning. To evaluate the performance of LLM-MATE, we consider the Software Architecture (SA) module as a case study. The LLM-MATE approach can help module leaders overcome assessment challenges with large cohorts. Also, it helps students improve their learning by obtaining personalized feedback in a timely manner. Additionally, the proposed approach will facilitate the establishment of ground truth for automating the generation of students assessment feedback using the ChatGPT API, thereby reducing the overhead associated with large cohort assessments.

academic

Personalisiertes und konstruktives Feedback für Informatikstudenten unter Verwendung von Large Language Models (LLM)

Grundinformationen

Papier-ID: 2510.11556
Titel: Personalisiertes und konstruktives Feedback für Informatikstudenten unter Verwendung von Large Language Models (LLM)
Autoren: Javed Ali Khan, Muhammad Yaqoob, Mamoona Tasadduq, Hafsa Shareef Dar, Aitezaz Ahsan
Klassifizierung: cs.CY (Informatik und Gesellschaft)
Veröffentlichungszeitpunkt/Konferenz: 2024 (Preprint)
Papierlink: https://arxiv.org/abs/2510.11556

Zusammenfassung

Die Entwicklung von Bildungsparadigmen treibt Bildungsveränderungen voran. Ein grundlegender Aspekt effektiven Lernens ist die Bereitstellung relevanter, zeitnaher und konstruktiver Rückmeldungen für Studenten. Die Bereitstellung konstruktiven Feedbacks für große Studentengruppen stellt die akademische Gemeinschaft vor eine anhaltende Herausforderung. Daher wenden sich Wissenschaftler der automatisierten Bewertung zu, um zeitnahe Rückmeldungen zu ermöglichen. Allerdings sind aktuelle Methoden häufig begrenzt und bieten einfache Antworten, die Studenten kein personalisiertes Feedback zur Verbesserung geben können. Dieses Papier adressiert diese Einschränkung durch die Untersuchung der Leistung von Large Language Models (LLMs) bei der Verarbeitung von Studentenbewertungen unter Verwendung vordefinierter Bewertungskriterien und der Generierung personalisierter Rückmeldungen. Die Autoren zielen darauf ab, die Kraft bestehender LLMs für Bewertung, Verfolgung und Evaluierung (LLM-MATE) zu nutzen, um das Studentenlernen durch personalisiertes Feedback zu verbessern.

Forschungshintergrund und Motivation

1. Kernprobleme

Diese Forschung adressiert hauptsächlich folgende Probleme:

Herausforderung bei der Skalierbarkeit von Feedback: Schwierigkeit, zeitnahe und personalisierte konstruktive Rückmeldungen für große Studentengruppen bereitzustellen
Einschränkungen der traditionellen automatisierten Bewertung: Bestehende automatisierte Bewertungsmethoden haben begrenzte Reichweite und können nur einfache Antworten liefern, denen personalisierte Anleitung fehlt
Arbeitsbelastung der Lehrkräfte: Die manuelle Bewertung großer Mengen von Studentenarbeiten ist zeitaufwändig und schwierig, um Feedback-Qualität und Konsistenz zu gewährleisten

2. Bedeutung des Problems

Verbesserung der Unterrichtsqualität: Zeitnahe und personalisierte Rückmeldungen sind die Grundlage für effektives Lernen
Entwicklung intelligenter Bildung: Nach der COVID-19-Pandemie ist die Nachfrage nach Online-Bildung und intelligenten Bildungsplattformen gestiegen
Bildungsgerechtigkeit: Automatisierte Bewertung kann allen Studenten konsistente Qualität von Rückmeldungen bieten

3. Einschränkungen bestehender Methoden

Die meisten Forschungen konzentrieren sich auf formative Bewertung mit unzureichender Aufmerksamkeit für summative Bewertung
Das von bestehenden KI-Bewertungswerkzeugen bereitgestellte Feedback ist zu einfach und enthält keine detaillierten Verbesserungsvorschläge
Bewertungskriterien sind inkonsistent, verschiedene Lehrkräfte können erheblich unterschiedliche Bewertungen geben

4. Forschungsmotivation

Nutzung der starken Fähigkeiten von Large Language Models zur Textverständnis und -generierung, kombiniert mit vordefinierten Bewertungskriterien, um personalisierte und konstruktive Rückmeldungen für multimodale Bewertungen (Text, Bilder, Programmierung) von Informatikstudenten bereitzustellen.

Kernbeiträge

Vorschlag des LLM-MATE-Frameworks: Ein auf Large Language Models basierendes Bewertungs-, Verfolgung- und Evaluierungssystem, das multimodale Studentenbewertungen verarbeiten kann
Zero-Shot-Prompt-Engineering-Methode: Entwicklung spezialisierter ChatGPT-Prompt-Strategien für Studentenbewertungen, die hochqualitatives Feedback ohne Trainingsdaten generieren können
Multimodale Bewertungsfähigkeit: Validierung der Effektivität von LLMs bei der Verarbeitung von Softwarearchitektur-Bewertungen mit Text und Diagrammen
Lehrkraft-Validierungsstudie: Durch Vergleichsvalidierung mit menschlichen Experten wird die Zuverlässigkeit von KI-generiertem Feedback nachgewiesen
Praktischer Anwendungswert: Bereitstellung einer praktikablen Lösung für automatisierte Bewertung in großen Kursen

Methodische Erläuterung

Aufgabendefinition

Eingabe: Von Studenten eingereichte Bewertungsarbeiten (einschließlich Textbeschreibungen, Softwarearchitektur-Diagramme usw.) + Bewertungskriterien und Bewertungsrichtlinien Ausgabe: Strukturiertes personalisiertes Feedback, einschließlich:

Analyse der Stärken der Arbeit
Identifizierung von Schwächen
Konkrete Verbesserungsvorschläge
Quantifizierte Bewertung und deren Begründung

Einschränkungen:

Muss auf vordefinierten Bewertungskriterien basieren
Feedback muss konstruktiv und personalisiert sein
Anwendbar auf große Studentengruppen

Modellarchitektur

Gesamtrahmen: LJM-MATE-Vierschritt-Methode

Datenerfassung (Data Collection)
- Erfassung anonymisierter Studentenbewertungsdaten
- Umfasst verschiedene Bewertungstypen des Softwarearchitektur-Moduls (Anwendungsfalldiagramme, Klassendiagramme, dreischichtige Architekturdiagramme)
- Einholung der Zustimmung der Studenten und Gewährleistung der Datensicherheit
Prompt-Engineering (Prompt Engineering)
- Domänenbeschränkung: Verwendung strukturierter Prompts zur Einschränkung von ChatGPT auf die Analyse innerhalb spezifischer Parameterbereiche
- Personalisierte Feedback-Generierung: Anpassung von Prompts zur Analyse der Stärken, Schwächen und Verbesserungsvorschläge für jede Einreichung
- Iteratives Testen und Optimierung: Umfangreiches Testen zur Gewährleistung konsistenter Ausgabequalität
- Fehleridentifikation: Gestaltung von Prompts zur Identifikation von Studentenfehlern und Bereitstellung konstruktiver Erklärungen
ChatGPT-Bewertungsausführung (Assessment Evaluation with ChatGPT Prompt)
- Eingabe: Studentenbewertung + Aufgabenanforderungen + Bewertungskriterien
- Verarbeitung: Analyse basierend auf bereitgestellten Bewertungsrichtlinien
- Ausgabe: Konstruktives Feedback + Gesamtbewertung
Bewertungs- und Verhandlungsprozess (Evaluation and Negotiation Process)
- Kreuzvalidierung von KI-generiertem Feedback durch menschliche Experten
- Vergleich mit manuellen Bewertungsergebnissen
- Identifikation und Behebung potenzieller "Halluzinations"-Probleme

Wichtige technische Details

Zero-Shot-Lernstrategie:

Systemprompt + Bewertungseinführung + Bewertungskriterien + Studentenlösung + Ausgabeformatanforderungen

Prompt-Strukturgestaltung:

Klare Rollendefinition (als Softwarearchitektur-Bewertungsexperte)
Detaillierte Erklärung der Bewertungskriterien
Strukturierte Ausgabeformatanforderungen
Spezifische Anforderungen für konstruktives Feedback

Technische Innovationspunkte

Multimodale Verarbeitungsfähigkeit: Nutzung von GPT-4o zur gleichzeitigen Verarbeitung von Text- und Bildinhalten, geeignet für Softwaretechnik-Bewertungen
Zero-Shot-Adaptivität: Ohne spezifische Trainingsdaten, nur durch Prompt-Engineering an verschiedene Bewertungsaufgaben anpassbar
Strukturierte Feedback-Generierung: Generierung vollständiger Rückmeldungen mit Stärken, Schwächen, Verbesserungsvorschlägen und Bewertungsbegründungen
Mensch-Maschine-Kooperationsvalidierung: Etablierung eines Verhandlungsmechanismus zwischen KI und menschlichen Experten zur Gewährleistung der Feedback-Qualität

Experimentelle Einrichtung

Datensatz

Quelle: Softwarearchitektur (SA)-Modul der Universität Hertfordshire, Großbritannien
Umfang: Zustimmung von 23 Studenten aus 290 Studenten zur Teilnahme an der Forschung
Inhalt: Bewertungsarbeiten mit Anwendungsfalldiagrammen, Klassendiagrammen und dreischichtigen Architekturdiagrammen
Gewichtungsverteilung: Anwendungsfalldiagramme 30%, Klassendiagramme 30%, dreischichtige Architekturdiagramme 40%
Stichprobenauswahl: Auswahl von Arbeiten mit hoher, mittlerer und niedriger Punktzahl basierend auf Diversitätsprinzipien

Bewertungsmetriken

Konfidenzwert: Vertrauen der Lehrkraft in das KI-Feedback (1-5-Punkte-Skala)
- 1-2 Punkte: Niedriges Vertrauen
- 3 Punkte: Mittleres Vertrauen
- 4-5 Punkte: Hohes Vertrauen
Feedback-Qualitätsbewertung: Vergleich der Detailliertheit und Konstruktivität von KI- und menschlichem Feedback

Vergleichsmethoden

Manuelle Bewertung: Handschriftliche Bewertungsergebnisse von 4 Modulteilnehmern als Referenzwert
Traditionelles Feedback: Kurze zusammenfassende Bewertungen (wie in Abbildung 4 gezeigt)
KI-Feedback: Detailliertes strukturiertes Feedback (wie in Abbildung 3 gezeigt)

Implementierungsdetails

Modell: GPT-4o (unterstützt Text- und Bildanalyse)
Schnittstelle: ChatGPT-Weboberfläche
Prompt-Strategie: Zero-Shot-Lernen
Bewertungsbereich: Hauptsächlich Fokus auf Anwendungsfalldiagramm-Bewertung (30 Punkte maximal)

Experimentelle Ergebnisse

Hauptergebnisse

RQ1: Leistung von ChatGPT in der Bewertung

Befunde: ChatGPT zeigt gute Leistung bei der Generierung personalisierter konstruktiver Rückmeldungen

Fähigkeit zur detaillierten Erläuterung von Arbeitsstärken
Genaue Identifikation von Schwächen
Bereitstellung konkreter Verbesserungsvorschläge
Angemessene Bewertung und deren Begründung

Vergleichende Analyse:

KI-Feedback (Abbildung 3): Detailliert, strukturiert, personalisiert mit konkreten technischen Vorschlägen
Menschliches Feedback (Abbildung 4): Kurze Zusammenfassung, mangelnde detaillierte Verbesserungsanleitung

RQ2: Zuverlässigkeit des KI-Feedbacks

Lehrkraft-Validierungsergebnisse:

Konfidenzwerte von 4 Lehrkräften: 4, 5, 4, 3
Durchschnittliches Vertrauen: 4,0 Punkte (hoher Vertrauensbereich)
Konsistenz: Alle Lehrkräfte bewerten die KI-Feedback-Qualität als hoch

Fallstudienanalyse

Typische Merkmale des KI-Feedbacks:

Stärkenerkennung: Genaue Identifikation korrekter Implementierungen in Studentenarbeiten
Problemdiagnose: Spezifische Angabe technischer Fehler und konzeptioneller Missverständnisse
Verbesserungsvorschläge: Bereitstellung umsetzbarer konkreter Verbesserungspläne
Bewertungsbegründung: Detaillierte Erklärung der Bewertungsgrundlagen

Experimentelle Befunde

Konsistenzvorteile: KI-Bewertung kann konsistentere Feedback-Standards als manuelle Bewertung bieten
Detailliertheit: Von KI generiertes Feedback ist detaillierter und spezifischer als traditionelles menschliches Feedback
Aktualität: Fähigkeit zur sofortigen Feedback-Generierung, erfüllt Anforderungen großer Lehrveranstaltungen
Personalisierung: Bereitstellung maßgeschneiderter Vorschläge basierend auf spezifischen Situationen einzelner Studenten

Aspekt	Bestehende Arbeiten	Beitrag dieses Papiers
Bewertungstyp	Hauptsächlich formative Bewertung	Fokus auf summative Bewertung
Feedback-Detailliertheit	Einfache Bewertung oder Klassifizierung	Detailliertes strukturiertes Feedback
Multimodale Verarbeitung	Meistens nur Textverarbeitung	Gleichzeitige Verarbeitung von Text und Bildern
Validierungsmethode	Studentenzufriedenheitsumfrage	Experten-Vertrauensbewertung

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

Technische Machbarkeit: ChatGPT kann multimodale Bewertungen von Informatikstudenten effektiv verarbeiten und hochqualitatives personalisiertes Feedback generieren
Pädagogischer Wert: Von KI generiertes Feedback ist detaillierter und konstruktiver als traditionelles menschliches Feedback und hilft Studenten, ihre Leistung zu verbessern
Praktikabilität: Die LJM-MATE-Methode kann helfen, Bewertungsherausforderungen in großen Kursen zu lösen und die Unterrichtseffizienz zu verbessern
Konsistenz: KI-Bewertung kann konsistentere Bewertungsstandards als mehrere menschliche Bewerter bieten

Einschränkungen

Datenskalierungsbeschränkung: Nur 23 Studenten stimmten zu, die Stichprobengröße ist relativ klein
Bewertungsbereich: Hauptsächlich Validierung der Anwendungsfalldiagramm-Bewertung, unzureichende Validierung von Klassendiagrammen und Architekturdiagrammen
Halluzinationsrisiko: LLM kann möglicherweise autoritär aussehende, aber tatsächlich fehlerhafte Inhalte generieren
Domänenabhängigkeit: Erfordert sorgfältig gestaltete Bewertungskriterien für optimale Leistung
Fehlende Studentenperspektive: Keine direkte Bewertung der Akzeptanz und Lerneffektivität des KI-Feedbacks durch Studenten

Zukünftige Richtungen

Experimentelle Erweiterung:
- Vergrößerung des Datensatzumfangs
- Validierung anderer Arten von Softwaretechnik-Diagrammen
- Test der Anwendbarkeit in verschiedenen Fachbereichen
Technische Verbesserungen:
- Erforschung von Few-Shot-Lernen und Chain-of-Thought-Prompt-Methoden
- Entwicklung automatisierter ChatGPT-API-Lösungen
- Etablierung verbesserter Mensch-Maschine-Kooperationsmechanismen
Bewertung der Unterrichtseffektivität:
- Untersuchung der tatsächlichen Auswirkung von KI-Feedback auf Studentenlerneffekte
- Bewertung der Akzeptanz und des Vertrauens der Studenten in KI-Feedback

Tiefgreifende Bewertung

Stärken

Problemorientierung in der Praxis: Adressierung echter Schmerzen in der Bildung mit klarem Anwendungswert
Methodische Innovation: Der Einsatz von LLM für multimodale Bildungsbewertung ist ein neuartiger Versuch
Ausreichende Validierung: Durch Expertenvalidierung wird die Glaubwürdigkeit der Forschungsergebnisse gewährleistet
Starke Praktikabilität: Das vorgeschlagene Framework kann direkt in realen Unterrichtsumgebungen angewendet werden

Mängel

Begrenzte Experimentskala: Kleine Stichprobenzahl kann die Allgemeingültigkeit der Ergebnisse beeinflussen
Einzelne Bewertungsdimension: Hauptsächlich Fokus auf Feedback-Qualität, mangelnde direkte Messung von Lerneffekten
Unzureichende technische Tiefe: Hauptsächlich Verwendung bestehender APIs, mangelnde tiefgreifende technische Innovation
Fehlende Kosten-Nutzen-Analyse: Keine Diskussion der Kosten und Nachhaltigkeit bei großflächiger Bereitstellung

Auswirkungen

Akademischer Beitrag: Bietet neue Perspektiven für die Anwendung von LLM im Bildungstechnologie-Bereich
Praktischer Wert: Kann direkt auf großflächige Kursbewertungen in der Hochschulbildung angewendet werden
Reproduzierbarkeit: Klare Methodenbeschreibung, leicht für andere Forscher zu reproduzieren und zu verbessern
Ausbreitungspotenzial: Framework hat gute Universalität und kann auf andere Disziplinen erweitert werden

Anwendungsszenarien

Großflächige Kurse: Besonders geeignet für Informatik-Kurse mit großer Studentenzahl
Standardisierte Bewertung: Geeignet für technische Kurse mit klaren Bewertungskriterien
Multimodale Aufgaben: Geeignet für umfassende Bewertungen mit Diagrammen, Code und Text
Online-Bildung: Bietet automatisierte Bewertungslösungen für Remote-Bildungsplattformen

Literaturverzeichnis

Dieses Papier zitiert 38 verwandte Literaturquellen, hauptsächlich einschließlich:

Kernliteratur:

González-Calatayud et al. (2021) - Übersicht über KI-Studentenbewertungssysteme
Maier & Klotz (2022) - Personalisiertes Feedback in digitalen Lernumgebungen
Biswas & Bhattacharya (2024) - ML-basiertes intelligentes Echtzeit-Feedback-System
Liu et al. (2023) - Systematische Übersicht über Prompt-Engineering-Methoden

Technische Unterstützungsliteratur:

White et al. (2024) - ChatGPT-Prompt-Muster
Wei et al. (2022) - Chain-of-Thought-Prompt-Methode
Chen et al. (2023) - Anwendung von LLM in der Softwaretechnik

Gesamtbewertung: Dies ist ein Forschungspapier mit praktischem Anwendungswert. Obwohl es gewisse Einschränkungen in technischer Innovation und experimenteller Skala gibt, bietet es wertvolle Erkundungen und praktische Erfahrungen für den Bildungstechnologie-Bereich. Die Forschungsmethode ist angemessen, die Ergebnisse sind glaubwürdig, und sie hat positive Bedeutung für die Förderung der Anwendung von KI in der Bildungsbewertung.