Personalized and Constructive Feedback for Computer Science Students Using the Large Language Model (LLM)
Khan, Yaqoob, Tasadduq et al.
The evolving pedagogy paradigms are leading toward educational transformations. One fundamental aspect of effective learning is relevant, immediate, and constructive feedback to students. Providing constructive feedback to large cohorts in academia is an ongoing challenge. Therefore, academics are moving towards automated assessment to provide immediate feedback. However, current approaches are often limited in scope, offering simplistic responses that do not provide students with personalized feedback to guide them toward improvements. This paper addresses this limitation by investigating the performance of Large Language Models (LLMs) in processing students assessments with predefined rubrics and marking criteria to generate personalized feedback for in-depth learning. We aim to leverage the power of existing LLMs for Marking Assessments, Tracking, and Evaluation (LLM-MATE) with personalized feedback to enhance students learning. To evaluate the performance of LLM-MATE, we consider the Software Architecture (SA) module as a case study. The LLM-MATE approach can help module leaders overcome assessment challenges with large cohorts. Also, it helps students improve their learning by obtaining personalized feedback in a timely manner. Additionally, the proposed approach will facilitate the establishment of ground truth for automating the generation of students assessment feedback using the ChatGPT API, thereby reducing the overhead associated with large cohort assessments.
academic
Personalisiertes und konstruktives Feedback für Informatikstudenten unter Verwendung von Large Language Models (LLM)
Die Entwicklung von Bildungsparadigmen treibt Bildungsveränderungen voran. Ein grundlegender Aspekt effektiven Lernens ist die Bereitstellung relevanter, zeitnaher und konstruktiver Rückmeldungen für Studenten. Die Bereitstellung konstruktiven Feedbacks für große Studentengruppen stellt die akademische Gemeinschaft vor eine anhaltende Herausforderung. Daher wenden sich Wissenschaftler der automatisierten Bewertung zu, um zeitnahe Rückmeldungen zu ermöglichen. Allerdings sind aktuelle Methoden häufig begrenzt und bieten einfache Antworten, die Studenten kein personalisiertes Feedback zur Verbesserung geben können. Dieses Papier adressiert diese Einschränkung durch die Untersuchung der Leistung von Large Language Models (LLMs) bei der Verarbeitung von Studentenbewertungen unter Verwendung vordefinierter Bewertungskriterien und der Generierung personalisierter Rückmeldungen. Die Autoren zielen darauf ab, die Kraft bestehender LLMs für Bewertung, Verfolgung und Evaluierung (LLM-MATE) zu nutzen, um das Studentenlernen durch personalisiertes Feedback zu verbessern.
Diese Forschung adressiert hauptsächlich folgende Probleme:
Herausforderung bei der Skalierbarkeit von Feedback: Schwierigkeit, zeitnahe und personalisierte konstruktive Rückmeldungen für große Studentengruppen bereitzustellen
Einschränkungen der traditionellen automatisierten Bewertung: Bestehende automatisierte Bewertungsmethoden haben begrenzte Reichweite und können nur einfache Antworten liefern, denen personalisierte Anleitung fehlt
Arbeitsbelastung der Lehrkräfte: Die manuelle Bewertung großer Mengen von Studentenarbeiten ist zeitaufwändig und schwierig, um Feedback-Qualität und Konsistenz zu gewährleisten
Nutzung der starken Fähigkeiten von Large Language Models zur Textverständnis und -generierung, kombiniert mit vordefinierten Bewertungskriterien, um personalisierte und konstruktive Rückmeldungen für multimodale Bewertungen (Text, Bilder, Programmierung) von Informatikstudenten bereitzustellen.
Vorschlag des LLM-MATE-Frameworks: Ein auf Large Language Models basierendes Bewertungs-, Verfolgung- und Evaluierungssystem, das multimodale Studentenbewertungen verarbeiten kann
Zero-Shot-Prompt-Engineering-Methode: Entwicklung spezialisierter ChatGPT-Prompt-Strategien für Studentenbewertungen, die hochqualitatives Feedback ohne Trainingsdaten generieren können
Multimodale Bewertungsfähigkeit: Validierung der Effektivität von LLMs bei der Verarbeitung von Softwarearchitektur-Bewertungen mit Text und Diagrammen
Lehrkraft-Validierungsstudie: Durch Vergleichsvalidierung mit menschlichen Experten wird die Zuverlässigkeit von KI-generiertem Feedback nachgewiesen
Praktischer Anwendungswert: Bereitstellung einer praktikablen Lösung für automatisierte Bewertung in großen Kursen
Multimodale Verarbeitungsfähigkeit: Nutzung von GPT-4o zur gleichzeitigen Verarbeitung von Text- und Bildinhalten, geeignet für Softwaretechnik-Bewertungen
Zero-Shot-Adaptivität: Ohne spezifische Trainingsdaten, nur durch Prompt-Engineering an verschiedene Bewertungsaufgaben anpassbar
Strukturierte Feedback-Generierung: Generierung vollständiger Rückmeldungen mit Stärken, Schwächen, Verbesserungsvorschlägen und Bewertungsbegründungen
Mensch-Maschine-Kooperationsvalidierung: Etablierung eines Verhandlungsmechanismus zwischen KI und menschlichen Experten zur Gewährleistung der Feedback-Qualität
Technische Machbarkeit: ChatGPT kann multimodale Bewertungen von Informatikstudenten effektiv verarbeiten und hochqualitatives personalisiertes Feedback generieren
Pädagogischer Wert: Von KI generiertes Feedback ist detaillierter und konstruktiver als traditionelles menschliches Feedback und hilft Studenten, ihre Leistung zu verbessern
Praktikabilität: Die LJM-MATE-Methode kann helfen, Bewertungsherausforderungen in großen Kursen zu lösen und die Unterrichtseffizienz zu verbessern
Konsistenz: KI-Bewertung kann konsistentere Bewertungsstandards als mehrere menschliche Bewerter bieten
Datenskalierungsbeschränkung: Nur 23 Studenten stimmten zu, die Stichprobengröße ist relativ klein
Bewertungsbereich: Hauptsächlich Validierung der Anwendungsfalldiagramm-Bewertung, unzureichende Validierung von Klassendiagrammen und Architekturdiagrammen
Halluzinationsrisiko: LLM kann möglicherweise autoritär aussehende, aber tatsächlich fehlerhafte Inhalte generieren
Domänenabhängigkeit: Erfordert sorgfältig gestaltete Bewertungskriterien für optimale Leistung
Fehlende Studentenperspektive: Keine direkte Bewertung der Akzeptanz und Lerneffektivität des KI-Feedbacks durch Studenten
Liu et al. (2023) - Systematische Übersicht über Prompt-Engineering-Methoden
Technische Unterstützungsliteratur:
White et al. (2024) - ChatGPT-Prompt-Muster
Wei et al. (2022) - Chain-of-Thought-Prompt-Methode
Chen et al. (2023) - Anwendung von LLM in der Softwaretechnik
Gesamtbewertung: Dies ist ein Forschungspapier mit praktischem Anwendungswert. Obwohl es gewisse Einschränkungen in technischer Innovation und experimenteller Skala gibt, bietet es wertvolle Erkundungen und praktische Erfahrungen für den Bildungstechnologie-Bereich. Die Forschungsmethode ist angemessen, die Ergebnisse sind glaubwürdig, und sie hat positive Bedeutung für die Förderung der Anwendung von KI in der Bildungsbewertung.