2025-11-23T19:01:17.127547

Personalized and Constructive Feedback for Computer Science Students Using the Large Language Model (LLM)

Khan, Yaqoob, Tasadduq et al.
The evolving pedagogy paradigms are leading toward educational transformations. One fundamental aspect of effective learning is relevant, immediate, and constructive feedback to students. Providing constructive feedback to large cohorts in academia is an ongoing challenge. Therefore, academics are moving towards automated assessment to provide immediate feedback. However, current approaches are often limited in scope, offering simplistic responses that do not provide students with personalized feedback to guide them toward improvements. This paper addresses this limitation by investigating the performance of Large Language Models (LLMs) in processing students assessments with predefined rubrics and marking criteria to generate personalized feedback for in-depth learning. We aim to leverage the power of existing LLMs for Marking Assessments, Tracking, and Evaluation (LLM-MATE) with personalized feedback to enhance students learning. To evaluate the performance of LLM-MATE, we consider the Software Architecture (SA) module as a case study. The LLM-MATE approach can help module leaders overcome assessment challenges with large cohorts. Also, it helps students improve their learning by obtaining personalized feedback in a timely manner. Additionally, the proposed approach will facilitate the establishment of ground truth for automating the generation of students assessment feedback using the ChatGPT API, thereby reducing the overhead associated with large cohort assessments.
academic

Personalized and Constructive Feedback for Computer Science Students Using the Large Language Model (LLM)

基本信息

  • 论文ID: 2510.11556
  • 标题: Personalized and Constructive Feedback for Computer Science Students Using the Large Language Model (LLM)
  • 作者: Javed Ali Khan, Muhammad Yaqoob, Mamoona Tasadduq, Hafsa Shareef Dar, Aitezaz Ahsan
  • 分类: cs.CY (Computers and Society)
  • 发表时间/会议: 2024年 (预印本)
  • 论文链接: https://arxiv.org/abs/2510.11556

摘要

教育范式的演进正推动着教育变革。有效学习的一个基本方面是为学生提供相关、即时和建设性的反馈。为大规模学生群体提供建设性反馈是学术界面临的持续挑战。因此,学者们正转向自动化评估以提供即时反馈。然而,当前的方法往往范围有限,提供的简单回应无法为学生提供个性化反馈来指导他们改进。本文通过研究大语言模型(LLMs)在使用预定义评分标准处理学生评估并生成个性化反馈方面的性能来解决这一限制。作者旨在利用现有LLMs的力量进行评分评估、跟踪和评价(LLM-MATE),通过个性化反馈来增强学生学习。

研究背景与动机

1. 核心问题

本研究主要解决以下问题:

  • 规模化反馈挑战:为大规模学生群体提供及时、个性化的建设性反馈困难
  • 传统自动评估局限性:现有自动化评估方法范围有限,只能提供简单回应,缺乏个性化指导
  • 教师工作负担:手工评估大量学生作业耗时耗力,难以保证反馈质量和一致性

2. 问题重要性

  • 教育质量提升:及时、个性化的反馈是有效学习的基础
  • 智慧教育发展:COVID-19疫情后,在线教育和智能教育平台需求激增
  • 教育公平性:自动化评估可以为所有学生提供一致质量的反馈

3. 现有方法局限性

  • 多数研究集中在形成性评估,对总结性评估关注不足
  • 现有AI评估工具提供的反馈过于简单,缺乏详细的改进建议
  • 评估标准不一致,不同教师可能给出差异较大的评价

4. 研究动机

利用大语言模型强大的文本理解和生成能力,结合预定义的评分标准,为计算机科学学生的多模态评估(文本、图像、编程)提供个性化、建设性的反馈。

核心贡献

  1. 提出LLM-MATE框架:一个基于大语言模型的评分、跟踪和评价系统,能够处理多模态学生评估
  2. 零样本提示工程方法:开发了针对学生评估的专用ChatGPT提示策略,无需训练数据即可生成高质量反馈
  3. 多模态评估能力:验证了LLMs在处理包含文本和图表的软件架构评估中的有效性
  4. 教师验证研究:通过与人类专家的对比验证,证明了AI生成反馈的可靠性
  5. 实际应用价值:为大规模课程的自动化评估提供了可行的解决方案

方法详解

任务定义

输入:学生提交的评估作业(包括文本描述、软件架构图等)+ 评估标准和评分细则 输出:结构化的个性化反馈,包括:

  • 作业优点分析
  • 不足之处识别
  • 具体改进建议
  • 量化评分及其理由

约束条件

  • 必须基于预定义的评分标准
  • 反馈需具有建设性和个性化特征
  • 适用于大规模学生群体

模型架构

整体框架:LLM-MATE四步法

  1. 数据收集(Data Collection)
    • 收集匿名化的学生评估数据
    • 涵盖软件架构模块的多种评估类型(用例图、类图、三层架构图)
    • 获得学生同意并确保数据安全
  2. 提示工程(Prompt Engineering)
    • 领域限制:使用结构化提示约束ChatGPT在特定参数范围内分析
    • 个性化反馈生成:定制提示以分析每份提交的优缺点和改进建议
    • 迭代测试和优化:通过广泛测试确保输出质量一致性
    • 错误识别:设计提示识别学生错误并提供建设性解释
  3. ChatGPT评估执行(Assessment Evaluation with ChatGPT Prompt)
    • 输入:学生评估 + 任务要求 + 评价标准
    • 处理:基于提供的评分细则进行分析
    • 输出:建设性反馈 + 总体评分
  4. 评估与协商过程(Evaluation and Negotiation Process)
    • 人类专家交叉验证AI生成的反馈
    • 与人工评估结果对比
    • 识别和解决潜在的"幻觉"问题

关键技术细节

零样本学习策略

系统提示 + 评估简介 + 评分标准 + 学生解答 + 输出格式要求

提示结构设计

  • 明确的角色定义(作为软件架构评估专家)
  • 详细的评分标准说明
  • 结构化的输出格式要求
  • 建设性反馈的具体要求

技术创新点

  1. 多模态处理能力:利用GPT-4o同时处理文本和图像内容,适合软件工程评估
  2. 零样本适应性:无需特定训练数据,仅通过提示工程即可适应不同评估任务
  3. 结构化反馈生成:生成包含优点、缺点、改进建议和评分理由的完整反馈
  4. 人机协作验证:建立AI与人类专家的协商机制,确保反馈质量

实验设置

数据集

  • 来源:英国赫特福德大学软件架构(SA)模块
  • 规模:从290名学生中获得23名学生的同意参与研究
  • 内容:包含用例图、类图和三层架构图的评估作业
  • 权重分配:用例图30%、类图30%、三层架构图40%
  • 样本选择:基于多样性原则选择高分、中等分和低分作业样本

评价指标

  • 置信度评分:教师对AI反馈的信心程度(1-5分制)
    • 1-2分:低置信度
    • 3分:中等置信度
    • 4-5分:高置信度
  • 反馈质量评估:比较AI与人工反馈的详细程度和建设性

对比方法

  • 人工评估:4名模块团队成员的手工评估结果作为基准
  • 传统反馈:简短的总结性评价(如图4所示)
  • AI反馈:详细的结构化反馈(如图3所示)

实现细节

  • 模型:GPT-4o(支持文本和图像分析)
  • 接口:ChatGPT网页界面
  • 提示策略:零样本学习
  • 评估范围:主要关注用例图评估(30分满分)

实验结果

主要结果

RQ1: ChatGPT在评估中的表现

发现:ChatGPT在生成个性化建设性反馈方面表现良好

  • 能够详细阐述作业优点
  • 准确识别不足之处
  • 提供具体的改进建议
  • 给出合理的评分及其理由

对比分析

  • AI反馈(图3):详细、结构化、个性化,包含具体的技术建议
  • 人工反馈(图4):简短总结,缺乏详细的改进指导

RQ2: AI反馈的可靠性

教师验证结果

  • 4名教师的置信度评分:4, 5, 4, 3
  • 平均置信度:4.0分(高置信度范围)
  • 一致性:所有教师都认为AI反馈质量较高

案例分析

典型AI反馈特征

  1. 优点识别:准确识别学生作业中的正确实现
  2. 问题诊断:具体指出技术错误和概念误解
  3. 改进建议:提供可操作的具体改进方案
  4. 评分理由:详细解释评分依据

实验发现

  1. 一致性优势:AI评估可以提供比人工评估更一致的反馈标准
  2. 详细程度:AI生成的反馈比传统人工反馈更加详细和具体
  3. 及时性:能够即时生成反馈,满足大规模教学需求
  4. 个性化:针对每个学生的具体情况提供定制化建议

相关工作

主要研究方向

  1. 智能反馈系统
    • Biswas等人的机器学习实时反馈系统
    • Gutierrez和Atkinson的自适应反馈方法
    • Van der Merwe等人的LMS集成反馈机制
  2. 自动化评估
    • Fu等人的AI自动评分工具
    • Lu和Cutumisu的深度学习论文评分
    • González-Calatayud等人的AI评估综述
  3. 个性化学习
    • Maier等人的个性化反馈分类框架
    • Bimba等人的自适应反馈综述

本文创新点对比

方面现有工作本文贡献
评估类型主要关注形成性评估专注总结性评估
反馈详细程度简单评分或分类详细结构化反馈
多模态处理多数仅处理文本同时处理文本和图像
验证方法学生满意度调查专家置信度评估

结论与讨论

主要结论

  1. 技术可行性:ChatGPT能够有效处理计算机科学学生的多模态评估,生成高质量的个性化反馈
  2. 教育价值:AI生成的反馈比传统人工反馈更详细、更具建设性,有助于学生学习改进
  3. 实用性:LLM-MATE方法可以帮助解决大规模课程的评估挑战,提高教学效率
  4. 一致性:AI评估能够提供比多个人工评估者更一致的评价标准

局限性

  1. 数据规模限制:仅获得23名学生同意,样本规模相对较小
  2. 评估范围:主要验证了用例图评估,对类图和架构图的验证不充分
  3. 幻觉风险:LLM可能生成看似权威但实际错误的内容
  4. 领域依赖性:需要精心设计的评分标准才能发挥最佳效果
  5. 缺乏学生视角:未直接评估学生对AI反馈的接受度和学习效果

未来方向

  1. 扩展实验
    • 增加数据集规模
    • 验证其他类型的软件工程图表
    • 测试不同学科领域的适用性
  2. 技术改进
    • 探索少样本学习和思维链提示方法
    • 开发ChatGPT API自动化解决方案
    • 建立更完善的人机协作机制
  3. 教育效果评估
    • 研究AI反馈对学生学习效果的实际影响
    • 评估学生对AI反馈的接受度和信任度

深度评价

优点

  1. 实际问题导向:针对教育中的真实痛点,具有明确的应用价值
  2. 方法创新性:将LLM应用于多模态教育评估是一个新颖的尝试
  3. 验证充分性:通过专家验证确保了研究结果的可信度
  4. 实用性强:提出的框架可以直接应用于实际教学环境

不足

  1. 实验规模有限:样本数量较少,可能影响结果的普遍性
  2. 评估维度单一:主要关注反馈质量,缺乏对学习效果的直接测量
  3. 技术深度不足:主要使用现有API,缺乏深层次的技术创新
  4. 成本效益分析缺失:未讨论大规模部署的成本和可持续性

影响力

  1. 学术贡献:为教育技术领域提供了LLM应用的新思路
  2. 实用价值:可直接应用于高等教育的大规模课程评估
  3. 可复现性:方法描述清晰,易于其他研究者复现和改进
  4. 推广潜力:框架具有良好的通用性,可扩展到其他学科

适用场景

  1. 大规模课程:特别适合学生人数众多的计算机科学课程
  2. 标准化评估:适用于有明确评分标准的技术性课程
  3. 多模态作业:适合包含图表、代码和文本的综合性评估
  4. 在线教育:为远程教育平台提供自动化评估解决方案

参考文献

本文引用了38篇相关文献,主要包括:

核心参考文献

  1. González-Calatayud et al. (2021) - AI学生评估系统综述
  2. Maier & Klotz (2022) - 数字学习环境中的个性化反馈
  3. Biswas & Bhattacharya (2024) - 基于ML的智能实时反馈系统
  4. Liu et al. (2023) - 提示工程方法系统综述

技术支撑文献

  • White et al. (2024) - ChatGPT提示模式
  • Wei et al. (2022) - 思维链提示方法
  • Chen et al. (2023) - LLM在软件工程中的应用

总体评价:这是一篇具有实际应用价值的研究论文,虽然在技术创新和实验规模方面存在一定局限,但为教育技术领域提供了有价值的探索和实践经验。研究方法合理,结果可信,对推动AI在教育评估中的应用具有积极意义。