2025-11-23T19:01:17.127547

Personalized and Constructive Feedback for Computer Science Students Using the Large Language Model (LLM)

Khan, Yaqoob, Tasadduq et al.

The evolving pedagogy paradigms are leading toward educational transformations. One fundamental aspect of effective learning is relevant, immediate, and constructive feedback to students. Providing constructive feedback to large cohorts in academia is an ongoing challenge. Therefore, academics are moving towards automated assessment to provide immediate feedback. However, current approaches are often limited in scope, offering simplistic responses that do not provide students with personalized feedback to guide them toward improvements. This paper addresses this limitation by investigating the performance of Large Language Models (LLMs) in processing students assessments with predefined rubrics and marking criteria to generate personalized feedback for in-depth learning. We aim to leverage the power of existing LLMs for Marking Assessments, Tracking, and Evaluation (LLM-MATE) with personalized feedback to enhance students learning. To evaluate the performance of LLM-MATE, we consider the Software Architecture (SA) module as a case study. The LLM-MATE approach can help module leaders overcome assessment challenges with large cohorts. Also, it helps students improve their learning by obtaining personalized feedback in a timely manner. Additionally, the proposed approach will facilitate the establishment of ground truth for automating the generation of students assessment feedback using the ChatGPT API, thereby reducing the overhead associated with large cohort assessments.

academic

Personalized and Constructive Feedback for Computer Science Students Using the Large Language Model (LLM)

基本信息

论文ID: 2510.11556
标题: Personalized and Constructive Feedback for Computer Science Students Using the Large Language Model (LLM)
作者: Javed Ali Khan, Muhammad Yaqoob, Mamoona Tasadduq, Hafsa Shareef Dar, Aitezaz Ahsan
分类: cs.CY (Computers and Society)
发表时间/会议: 2024年 (预印本)
论文链接: https://arxiv.org/abs/2510.11556

摘要

教育范式的演进正推动着教育变革。有效学习的一个基本方面是为学生提供相关、即时和建设性的反馈。为大规模学生群体提供建设性反馈是学术界面临的持续挑战。因此，学者们正转向自动化评估以提供即时反馈。然而，当前的方法往往范围有限，提供的简单回应无法为学生提供个性化反馈来指导他们改进。本文通过研究大语言模型(LLMs)在使用预定义评分标准处理学生评估并生成个性化反馈方面的性能来解决这一限制。作者旨在利用现有LLMs的力量进行评分评估、跟踪和评价(LLM-MATE)，通过个性化反馈来增强学生学习。

研究背景与动机

1. 核心问题

本研究主要解决以下问题：

规模化反馈挑战：为大规模学生群体提供及时、个性化的建设性反馈困难
传统自动评估局限性：现有自动化评估方法范围有限，只能提供简单回应，缺乏个性化指导
教师工作负担：手工评估大量学生作业耗时耗力，难以保证反馈质量和一致性

2. 问题重要性

教育质量提升：及时、个性化的反馈是有效学习的基础
智慧教育发展：COVID-19疫情后，在线教育和智能教育平台需求激增
教育公平性：自动化评估可以为所有学生提供一致质量的反馈

3. 现有方法局限性

多数研究集中在形成性评估，对总结性评估关注不足
现有AI评估工具提供的反馈过于简单，缺乏详细的改进建议
评估标准不一致，不同教师可能给出差异较大的评价

4. 研究动机

利用大语言模型强大的文本理解和生成能力，结合预定义的评分标准，为计算机科学学生的多模态评估（文本、图像、编程）提供个性化、建设性的反馈。

核心贡献

提出LLM-MATE框架：一个基于大语言模型的评分、跟踪和评价系统，能够处理多模态学生评估
零样本提示工程方法：开发了针对学生评估的专用ChatGPT提示策略，无需训练数据即可生成高质量反馈
多模态评估能力：验证了LLMs在处理包含文本和图表的软件架构评估中的有效性
教师验证研究：通过与人类专家的对比验证，证明了AI生成反馈的可靠性
实际应用价值：为大规模课程的自动化评估提供了可行的解决方案

方法详解

任务定义

输入：学生提交的评估作业（包括文本描述、软件架构图等）+ 评估标准和评分细则输出：结构化的个性化反馈，包括：

作业优点分析
不足之处识别
具体改进建议
量化评分及其理由

约束条件：

必须基于预定义的评分标准
反馈需具有建设性和个性化特征
适用于大规模学生群体

模型架构

整体框架：LLM-MATE四步法

数据收集（Data Collection）
- 收集匿名化的学生评估数据
- 涵盖软件架构模块的多种评估类型（用例图、类图、三层架构图）
- 获得学生同意并确保数据安全
提示工程（Prompt Engineering）
- 领域限制：使用结构化提示约束ChatGPT在特定参数范围内分析
- 个性化反馈生成：定制提示以分析每份提交的优缺点和改进建议
- 迭代测试和优化：通过广泛测试确保输出质量一致性
- 错误识别：设计提示识别学生错误并提供建设性解释
ChatGPT评估执行（Assessment Evaluation with ChatGPT Prompt）
- 输入：学生评估 + 任务要求 + 评价标准
- 处理：基于提供的评分细则进行分析
- 输出：建设性反馈 + 总体评分
评估与协商过程（Evaluation and Negotiation Process）
- 人类专家交叉验证AI生成的反馈
- 与人工评估结果对比
- 识别和解决潜在的"幻觉"问题

关键技术细节

零样本学习策略：

系统提示 + 评估简介 + 评分标准 + 学生解答 + 输出格式要求

提示结构设计：

明确的角色定义（作为软件架构评估专家）
详细的评分标准说明
结构化的输出格式要求
建设性反馈的具体要求

技术创新点

多模态处理能力：利用GPT-4o同时处理文本和图像内容，适合软件工程评估
零样本适应性：无需特定训练数据，仅通过提示工程即可适应不同评估任务
结构化反馈生成：生成包含优点、缺点、改进建议和评分理由的完整反馈
人机协作验证：建立AI与人类专家的协商机制，确保反馈质量

实验设置

数据集

来源：英国赫特福德大学软件架构(SA)模块
规模：从290名学生中获得23名学生的同意参与研究
内容：包含用例图、类图和三层架构图的评估作业
权重分配：用例图30%、类图30%、三层架构图40%
样本选择：基于多样性原则选择高分、中等分和低分作业样本

评价指标

置信度评分：教师对AI反馈的信心程度（1-5分制）
- 1-2分：低置信度
- 3分：中等置信度
- 4-5分：高置信度
反馈质量评估：比较AI与人工反馈的详细程度和建设性

对比方法

人工评估：4名模块团队成员的手工评估结果作为基准
传统反馈：简短的总结性评价（如图4所示）
AI反馈：详细的结构化反馈（如图3所示）

实现细节

模型：GPT-4o（支持文本和图像分析）
接口：ChatGPT网页界面
提示策略：零样本学习
评估范围：主要关注用例图评估（30分满分）

实验结果

主要结果

RQ1: ChatGPT在评估中的表现

发现：ChatGPT在生成个性化建设性反馈方面表现良好

能够详细阐述作业优点
准确识别不足之处
提供具体的改进建议
给出合理的评分及其理由

对比分析：

AI反馈（图3）：详细、结构化、个性化，包含具体的技术建议
人工反馈（图4）：简短总结，缺乏详细的改进指导

RQ2: AI反馈的可靠性

教师验证结果：

4名教师的置信度评分：4, 5, 4, 3
平均置信度：4.0分（高置信度范围）
一致性：所有教师都认为AI反馈质量较高

案例分析

典型AI反馈特征：

优点识别：准确识别学生作业中的正确实现
问题诊断：具体指出技术错误和概念误解
改进建议：提供可操作的具体改进方案
评分理由：详细解释评分依据

实验发现

一致性优势：AI评估可以提供比人工评估更一致的反馈标准
详细程度：AI生成的反馈比传统人工反馈更加详细和具体
及时性：能够即时生成反馈，满足大规模教学需求
个性化：针对每个学生的具体情况提供定制化建议

方面	现有工作	本文贡献
评估类型	主要关注形成性评估	专注总结性评估
反馈详细程度	简单评分或分类	详细结构化反馈
多模态处理	多数仅处理文本	同时处理文本和图像
验证方法	学生满意度调查	专家置信度评估