2025-11-23T19:01:17.127547

Personalized and Constructive Feedback for Computer Science Students Using the Large Language Model (LLM)

Khan, Yaqoob, Tasadduq et al.

The evolving pedagogy paradigms are leading toward educational transformations. One fundamental aspect of effective learning is relevant, immediate, and constructive feedback to students. Providing constructive feedback to large cohorts in academia is an ongoing challenge. Therefore, academics are moving towards automated assessment to provide immediate feedback. However, current approaches are often limited in scope, offering simplistic responses that do not provide students with personalized feedback to guide them toward improvements. This paper addresses this limitation by investigating the performance of Large Language Models (LLMs) in processing students assessments with predefined rubrics and marking criteria to generate personalized feedback for in-depth learning. We aim to leverage the power of existing LLMs for Marking Assessments, Tracking, and Evaluation (LLM-MATE) with personalized feedback to enhance students learning. To evaluate the performance of LLM-MATE, we consider the Software Architecture (SA) module as a case study. The LLM-MATE approach can help module leaders overcome assessment challenges with large cohorts. Also, it helps students improve their learning by obtaining personalized feedback in a timely manner. Additionally, the proposed approach will facilitate the establishment of ground truth for automating the generation of students assessment feedback using the ChatGPT API, thereby reducing the overhead associated with large cohort assessments.

academic

대규모 언어 모델(LLM)을 이용한 컴퓨터과학 학생을 위한 개인화되고 건설적인 피드백

기본 정보

논문 ID: 2510.11556
제목: Personalized and Constructive Feedback for Computer Science Students Using the Large Language Model (LLM)
저자: Javed Ali Khan, Muhammad Yaqoob, Mamoona Tasadduq, Hafsa Shareef Dar, Aitezaz Ahsan
분류: cs.CY (컴퓨터와 사회)
발표 시간/학회: 2024년 (사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.11556

초록

교육 패러다임의 진화는 교육 변혁을 추진하고 있습니다. 효과적인 학습의 기본 측면은 학생들에게 관련성 있고 즉각적이며 건설적인 피드백을 제공하는 것입니다. 대규모 학생 집단에게 건설적인 피드백을 제공하는 것은 학계가 직면한 지속적인 과제입니다. 따라서 학자들은 즉각적인 피드백을 제공하기 위해 자동화된 평가로 전환하고 있습니다. 그러나 현재의 방법들은 종종 범위가 제한적이며, 학생들이 개선하도록 안내할 수 있는 개인화된 피드백을 제공하지 못하는 단순한 응답만 제공합니다. 본 논문은 사전 정의된 평가 기준을 사용하여 학생 평가를 처리하고 개인화된 피드백을 생성하는 데 있어 대규모 언어 모델(LLM)의 성능을 조사함으로써 이러한 한계를 해결합니다. 저자들은 개인화된 피드백을 통해 학생 학습을 향상시키기 위해 기존 LLM의 강력한 기능을 활용하여 평가 채점, 추적 및 평가(LLM-MATE)를 수행하는 것을 목표로 합니다.

연구 배경 및 동기

1. 핵심 문제

본 연구는 다음의 문제들을 주로 해결합니다:

규모화된 피드백 과제: 대규모 학생 집단에게 시기적절하고 개인화된 건설적 피드백을 제공하기의 어려움
전통적 자동 평가의 한계: 기존 자동화된 평가 방법의 범위가 제한적이며, 단순한 응답만 제공하고 개인화된 지도가 부족함
교사의 업무 부담: 많은 학생 과제의 수작업 평가는 시간이 많이 소요되고, 피드백의 질과 일관성을 보장하기 어려움

2. 문제의 중요성

교육 품질 향상: 시기적절하고 개인화된 피드백은 효과적인 학습의 기초
지능형 교육 발전: COVID-19 팬데믹 이후 온라인 교육 및 지능형 교육 플랫폼의 수요 급증
교육 공평성: 자동화된 평가는 모든 학생에게 일관된 품질의 피드백을 제공할 수 있음

3. 기존 방법의 한계

대부분의 연구는 형성평가에 집중하고 총괄평가에 대한 관심이 부족함
기존 AI 평가 도구가 제공하는 피드백은 너무 단순하며 상세한 개선 제안이 부족함
평가 기준이 일관되지 않아 다른 교사들이 상당히 다른 평가를 제공할 수 있음

4. 연구 동기

대규모 언어 모델의 강력한 텍스트 이해 및 생성 능력을 활용하고, 사전 정의된 평가 기준과 결합하여 컴퓨터과학 학생의 다중 양식 평가(텍스트, 이미지, 프로그래밍)에 대해 개인화되고 건설적인 피드백을 제공합니다.

핵심 기여

LLM-MATE 프레임워크 제안: 대규모 언어 모델 기반의 채점, 추적 및 평가 시스템으로, 다중 양식 학생 평가를 처리할 수 있음
영점 샷 프롬프트 엔지니어링 방법: 학생 평가를 위한 전용 ChatGPT 프롬프트 전략을 개발하여 훈련 데이터 없이도 고품질 피드백 생성
다중 양식 평가 능력: LLM이 텍스트와 다이어그램을 포함하는 소프트웨어 아키텍처 평가 처리에서의 효과성 검증
교사 검증 연구: 인간 전문가와의 비교 검증을 통해 AI 생성 피드백의 신뢰성 입증
실제 응용 가치: 대규모 과정의 자동화된 평가를 위한 실행 가능한 솔루션 제공

방법론 상세 설명

작업 정의

입력: 학생이 제출한 평가 과제(텍스트 설명, 소프트웨어 아키텍처 다이어그램 등) + 평가 기준 및 채점 세부사항 출력: 구조화된 개인화 피드백으로 다음을 포함:

과제 장점 분석
부족한 점 식별
구체적인 개선 제안
정량화된 평가 및 그 이유

제약 조건:

사전 정의된 평가 기준을 기반으로 해야 함
피드백은 건설적이고 개인화된 특성을 가져야 함
대규모 학생 집단에 적용 가능해야 함

모델 아키텍처

전체 프레임워크: LLM-MATE 4단계 방법

데이터 수집(Data Collection)
- 익명화된 학생 평가 데이터 수집
- 소프트웨어 아키텍처 모듈의 다양한 평가 유형 포함(유스케이스 다이어그램, 클래스 다이어그램, 3계층 아키텍처 다이어그램)
- 학생 동의 획득 및 데이터 보안 보장
프롬프트 엔지니어링(Prompt Engineering)
- 도메인 제약: 구조화된 프롬프트를 사용하여 ChatGPT를 특정 매개변수 범위 내에서 분석하도록 제약
- 개인화 피드백 생성: 각 제출물의 장단점과 개선 제안을 분석하도록 프롬프트 커스터마이징
- 반복적 테스트 및 최적화: 광범위한 테스트를 통해 출력 품질 일관성 보장
- 오류 식별: 학생 오류를 식별하고 건설적인 설명을 제공하도록 프롬프트 설계
ChatGPT 평가 실행(Assessment Evaluation with ChatGPT Prompt)
- 입력: 학생 평가 + 작업 요구사항 + 평가 기준
- 처리: 제공된 채점 세부사항을 기반으로 분석
- 출력: 건설적 피드백 + 전체 평가
평가 및 협상 프로세스(Evaluation and Negotiation Process)
- 인간 전문가에 의한 AI 생성 피드백의 교차 검증
- 인간 평가 결과와 비교
- 잠재적인 "환각(hallucination)" 문제 식별 및 해결

주요 기술 세부사항

영점 샷 학습 전략:

시스템 프롬프트 + 평가 소개 + 평가 기준 + 학생 답변 + 출력 형식 요구사항

프롬프트 구조 설계:

명확한 역할 정의(소프트웨어 아키텍처 평가 전문가로서)
상세한 평가 기준 설명
구조화된 출력 형식 요구사항
건설적 피드백의 구체적 요구사항

기술 혁신 포인트

다중 양식 처리 능력: GPT-4o를 활용하여 텍스트와 이미지 콘텐츠를 동시에 처리하며, 소프트웨어 공학 평가에 적합
영점 샷 적응성: 특정 훈련 데이터 없이 프롬프트 엔지니어링만으로 다양한 평가 작업에 적응
구조화된 피드백 생성: 장점, 단점, 개선 제안 및 평가 이유를 포함하는 완전한 피드백 생성
인간-기계 협력 검증: AI와 인간 전문가 간의 협상 메커니즘을 구축하여 피드백 품질 보장

실험 설정

데이터셋

출처: 영국 허트포드셔 대학교 소프트웨어 아키텍처(SA) 모듈
규모: 290명의 학생 중 23명의 동의 획득
내용: 유스케이스 다이어그램, 클래스 다이어그램 및 3계층 아키텍처 다이어그램을 포함하는 평가 과제
가중치 배분: 유스케이스 다이어그램 30%, 클래스 다이어그램 30%, 3계층 아키텍처 다이어그램 40%
샘플 선택: 다양성 원칙에 따라 고득점, 중간 득점 및 저득점 과제 샘플 선택

평가 지표

신뢰도 점수: AI 피드백에 대한 교사의 신뢰 수준(1-5점 척도)
- 1-2점: 낮은 신뢰도
- 3점: 중간 신뢰도
- 4-5점: 높은 신뢰도
피드백 품질 평가: AI와 인간 피드백의 상세 정도 및 건설성 비교

비교 방법

인간 평가: 4명의 모듈 팀 멤버의 수작업 평가 결과를 기준으로 사용
전통적 피드백: 짧은 요약 평가(그림 4 참조)
AI 피드백: 상세한 구조화 피드백(그림 3 참조)

구현 세부사항

모델: GPT-4o(텍스트 및 이미지 분석 지원)
인터페이스: ChatGPT 웹 인터페이스
프롬프트 전략: 영점 샷 학습
평가 범위: 주로 유스케이스 다이어그램 평가에 초점(만점 30점)

실험 결과

주요 결과

RQ1: 평가에서 ChatGPT의 성능

발견: ChatGPT는 개인화되고 건설적인 피드백 생성에서 우수한 성능을 보임

과제의 장점을 상세히 설명할 수 있음
부족한 점을 정확히 식별
구체적인 개선 제안 제공
합리적인 평가 및 그 이유 제시

비교 분석:

AI 피드백(그림 3): 상세하고 구조화되며 개인화되어 있으며, 구체적인 기술 제안 포함
인간 피드백(그림 4): 짧은 요약으로 상세한 개선 지도 부족

RQ2: AI 피드백의 신뢰성

교사 검증 결과:

4명 교사의 신뢰도 점수: 4, 5, 4, 3
평균 신뢰도: 4.0점(높은 신뢰도 범위)
일관성: 모든 교사가 AI 피드백의 높은 품질을 인정

사례 분석

전형적인 AI 피드백 특징:

장점 식별: 학생 과제의 올바른 구현을 정확히 식별
문제 진단: 기술적 오류 및 개념 오해를 구체적으로 지적
개선 제안: 실행 가능한 구체적 개선 방안 제공
평가 이유: 평가 근거를 상세히 설명

실험 발견

일관성 장점: AI 평가는 인간 평가보다 더 일관된 피드백 기준을 제공할 수 있음
상세 정도: AI 생성 피드백이 전통적 인간 피드백보다 더 상세하고 구체적
시기성: 즉각적인 피드백 생성이 가능하여 대규모 교육 수요 충족
개인화: 각 학생의 구체적 상황에 맞춘 맞춤형 제안 제공

측면	기존 연구	본 논문의 기여
평가 유형	주로 형성평가에 초점	총괄평가에 집중
피드백 상세 정도	단순 채점 또는 분류	상세한 구조화 피드백
다중 양식 처리	대부분 텍스트만 처리	텍스트와 이미지 동시 처리
검증 방법	학생 만족도 조사	전문가 신뢰도 평가

결론 및 논의

주요 결론

기술 실행 가능성: ChatGPT는 컴퓨터과학 학생의 다중 양식 평가를 효과적으로 처리하고 고품질의 개인화 피드백을 생성할 수 있음
교육적 가치: AI 생성 피드백이 전통적 인간 피드백보다 더 상세하고 건설적이며, 학생의 학습 개선에 도움이 됨
실용성: LLM-MATE 방법은 대규모 과정의 평가 과제 해결을 돕고 교육 효율성을 향상시킬 수 있음
일관성: AI 평가는 여러 인간 평가자보다 더 일관된 평가 기준을 제공할 수 있음

한계

데이터 규모 제한: 23명의 학생만 동의하여 표본 규모가 상대적으로 작음
평가 범위: 주로 유스케이스 다이어그램 평가를 검증하였으며, 클래스 다이어그램과 아키텍처 다이어그램의 검증이 불충분
환각 위험: LLM이 권위 있어 보이지만 실제로는 오류인 콘텐츠를 생성할 수 있음
도메인 의존성: 최적의 성능을 발휘하려면 신중하게 설계된 평가 기준이 필요
학생 관점 부재: AI 피드백에 대한 학생의 수용도 및 학습 효과를 직접 평가하지 않음

향후 방향

실험 확대:
- 데이터셋 규모 증가
- 다른 유형의 소프트웨어 공학 다이어그램 검증
- 다양한 학과 분야의 적용 가능성 테스트
기술 개선:
- 소수 샷 학습 및 사고의 연쇄 프롬프트 방법 탐색
- ChatGPT API 자동화 솔루션 개발
- 더욱 완벽한 인간-기계 협력 메커니즘 구축
교육 효과 평가:
- AI 피드백이 학생 학습 효과에 미치는 실제 영향 연구
- 학생의 AI 피드백에 대한 수용도 및 신뢰도 평가

심층 평가

장점

실제 문제 지향: 교육의 실제 문제점을 해결하며 명확한 응용 가치를 가짐
방법론 혁신성: LLM을 다중 양식 교육 평가에 적용하는 것은 새로운 시도
검증 충분성: 전문가 검증을 통해 연구 결과의 신뢰성 보장
실용성 강함: 제안된 프레임워크를 실제 교육 환경에 직접 적용 가능

부족한 점

실험 규모 제한: 샘플 수가 적어 결과의 일반성에 영향을 미칠 수 있음
평가 차원 단일: 주로 피드백 품질에 초점하며 학습 효과에 대한 직접 측정 부족
기술 깊이 부족: 주로 기존 API를 사용하며 심층적 기술 혁신 부족
비용-효과 분석 부재: 대규모 배포의 비용 및 지속 가능성에 대한 논의 없음

영향력

학술 기여: 교육 기술 분야에 LLM 응용의 새로운 관점 제공
실용 가치: 고등 교육의 대규모 과정 평가에 직접 적용 가능
재현 가능성: 방법 설명이 명확하여 다른 연구자가 쉽게 재현 및 개선 가능
확산 잠재력: 프레임워크가 우수한 통용성을 가지며 다른 학과로 확장 가능

적용 시나리오

대규모 과정: 특히 학생 수가 많은 컴퓨터과학 과정에 적합
표준화 평가: 명확한 평가 기준이 있는 기술 과정에 적합
다중 양식 과제: 다이어그램, 코드 및 텍스트를 포함하는 종합 평가에 적합
온라인 교육: 원격 교육 플랫폼에 자동화 평가 솔루션 제공

참고 문헌

본 논문은 38편의 관련 문헌을 인용하며, 주요 내용은 다음과 같습니다:

핵심 참고 문헌:

González-Calatayud 등(2021) - AI 학생 평가 시스템 종합 검토
Maier & Klotz(2022) - 디지털 학습 환경의 개인화 피드백
Biswas & Bhattacharya(2024) - ML 기반 지능형 실시간 피드백 시스템
Liu 등(2023) - 프롬프트 엔지니어링 방법 체계적 검토

기술 지원 문헌:

White 등(2024) - ChatGPT 프롬프트 패턴
Wei 등(2022) - 사고의 연쇄 프롬프트 방법
Chen 등(2023) - 소프트웨어 공학에서의 LLM 응용

종합 평가: 이는 실제 응용 가치를 가진 연구 논문으로, 기술 혁신 및 실험 규모 측면에서 일정한 한계가 있지만, 교육 기술 분야에 가치 있는 탐색 및 실천 경험을 제공합니다. 연구 방법이 합리적이고 결과가 신뢰할 수 있으며, AI를 교육 평가에 응용하는 것을 추진하는 데 긍정적인 의미를 가집니다.