Personalized and Constructive Feedback for Computer Science Students Using the Large Language Model (LLM)
Khan, Yaqoob, Tasadduq et al.
The evolving pedagogy paradigms are leading toward educational transformations. One fundamental aspect of effective learning is relevant, immediate, and constructive feedback to students. Providing constructive feedback to large cohorts in academia is an ongoing challenge. Therefore, academics are moving towards automated assessment to provide immediate feedback. However, current approaches are often limited in scope, offering simplistic responses that do not provide students with personalized feedback to guide them toward improvements. This paper addresses this limitation by investigating the performance of Large Language Models (LLMs) in processing students assessments with predefined rubrics and marking criteria to generate personalized feedback for in-depth learning. We aim to leverage the power of existing LLMs for Marking Assessments, Tracking, and Evaluation (LLM-MATE) with personalized feedback to enhance students learning. To evaluate the performance of LLM-MATE, we consider the Software Architecture (SA) module as a case study. The LLM-MATE approach can help module leaders overcome assessment challenges with large cohorts. Also, it helps students improve their learning by obtaining personalized feedback in a timely manner. Additionally, the proposed approach will facilitate the establishment of ground truth for automating the generation of students assessment feedback using the ChatGPT API, thereby reducing the overhead associated with large cohort assessments.
academic
Персонализированная и конструктивная обратная связь для студентов компьютерных наук с использованием больших языковых моделей (LLM)
Эволюция образовательной парадигмы стимулирует трансформацию образования. Фундаментальным аспектом эффективного обучения является предоставление студентам релевантной, своевременной и конструктивной обратной связи. Предоставление конструктивной обратной связи для крупномасштабных групп студентов остаётся постоянной проблемой для академического сообщества. Поэтому учёные обращаются к автоматизированной оценке для предоставления немедленной обратной связи. Однако существующие подходы часто имеют ограниченный охват и предоставляют простые ответы, которые не могут обеспечить студентов персонализированной обратной связью для руководства их улучшением. В данной статье решается это ограничение путём исследования производительности больших языковых моделей (LLM) при обработке оценок студентов с использованием предопределённых критериев оценивания и генерации персонализированной обратной связи. Авторы стремятся использовать возможности существующих LLM для оценивания, отслеживания и оценки (LLM-MATE), улучшая обучение студентов посредством персонализированной обратной связи.
Вызовы масштабируемой обратной связи: Сложность предоставления своевременной, персонализированной конструктивной обратной связи крупным группам студентов
Ограничения традиционной автоматизированной оценки: Существующие методы автоматизированной оценки имеют ограниченный охват, способны предоставлять только простые ответы, лишены персонализированного руководства
Нагрузка на преподавателей: Ручная оценка большого количества студенческих работ требует значительных затрат времени и усилий, затрудняя обеспечение качества и согласованности обратной связи
Повышение качества образования: Своевременная, персонализированная обратная связь является основой эффективного обучения
Развитие интеллектуального образования: После пандемии COVID-19 возросла потребность в онлайн-образовании и интеллектуальных образовательных платформах
Справедливость в образовании: Автоматизированная оценка может обеспечить согласованное качество обратной связи для всех студентов
Использование мощных возможностей больших языковых моделей в понимании и генерации текста в сочетании с предопределёнными критериями оценивания для предоставления персонализированной, конструктивной обратной связи по многомодальному оцениванию (текст, изображения, программирование) студентов компьютерных наук.
Предложена структура LLM-MATE: Система оценивания, отслеживания и оценки на основе больших языковых моделей, способная обрабатывать многомодальное оценивание студентов
Методология инженерии подсказок с нулевым примером: Разработаны специализированные стратегии подсказок ChatGPT для оценивания студентов, генерирующие высококачественную обратную связь без данных обучения
Возможность многомодального оценивания: Подтверждена эффективность LLM при обработке оценок архитектуры программного обеспечения, содержащих текст и диаграммы
Исследование проверки преподавателями: Посредством сравнительной проверки с экспертами-людьми доказана надёжность AI-генерируемой обратной связи
Практическая ценность применения: Предоставлено жизнеспособное решение для автоматизированного оценивания крупномасштабных курсов
Входные данные: Студенческие работы (включая текстовые описания, диаграммы архитектуры программного обеспечения и т.д.) + критерии оценивания и детали оценочной шкалы
Выходные данные: Структурированная персонализированная обратная связь, включающая:
Анализ сильных сторон работы
Выявление недостатков
Конкретные рекомендации по улучшению
Количественная оценка и её обоснование
Ограничения:
Должна основываться на предопределённых критериях оценивания
Обратная связь должна быть конструктивной и персонализированной
Сбор анонимизированных данных оценивания студентов
Охватывает различные типы оценок модуля архитектуры программного обеспечения (диаграммы вариантов использования, диаграммы классов, трёхуровневые архитектурные диаграммы)
Получение согласия студентов и обеспечение безопасности данных
Инженерия подсказок (Prompt Engineering)
Ограничение области: Использование структурированных подсказок для ограничения анализа ChatGPT в пределах определённых параметров
Генерация персонализированной обратной связи: Настройка подсказок для анализа сильных и слабых сторон каждой работы и рекомендаций по улучшению
Итеративное тестирование и оптимизация: Обширное тестирование для обеспечения согласованности качества выходных данных
Выявление ошибок: Разработка подсказок для выявления студенческих ошибок и предоставления конструктивных объяснений
Выполнение оценивания ChatGPT (Assessment Evaluation with ChatGPT Prompt)
Входные данные: Студенческая работа + требования задания + критерии оценивания
Обработка: Анализ на основе предоставленных деталей оценочной шкалы
Выходные данные: Конструктивная обратная связь + общая оценка
Процесс оценивания и согласования (Evaluation and Negotiation Process)
Перекрёстная проверка AI-генерируемой обратной связи экспертами-людьми
Сравнение с результатами ручного оценивания
Выявление и разрешение потенциальных проблем «галлюцинаций»
Возможность многомодальной обработки: Использование GPT-4o для одновременной обработки текстового и графического контента, подходящего для оценивания программной инженерии
Адаптивность с нулевым примером: Адаптация к различным задачам оценивания без специальных данных обучения, только посредством инженерии подсказок
Генерация структурированной обратной связи: Генерация полной обратной связи, содержащей сильные стороны, слабые стороны, рекомендации по улучшению и обоснование оценки
Проверка человеко-машинного сотрудничества: Установление механизма согласования между AI и экспертами-людьми для обеспечения качества обратной связи
Техническая осуществимость: ChatGPT способен эффективно обрабатывать многомодальное оценивание студентов компьютерных наук, генерируя высококачественную персонализированную обратную связь
Образовательная ценность: AI-генерируемая обратная связь более подробна и конструктивна, чем традиционная ручная обратная связь, способствуя улучшению обучения студентов
Практичность: Метод LLM-MATE может помочь решить проблемы оценивания крупномасштабных курсов, повышая эффективность обучения
Согласованность: AI-оценивание может обеспечить более согласованные стандарты оценки, чем несколько ручных оценивающих
Ограничение размера данных: Согласие получено только от 23 студентов, размер выборки относительно невелик
Диапазон оценивания: Главным образом проверена оценка диаграмм вариантов использования, проверка диаграмм классов и архитектурных диаграмм недостаточна
Риск галлюцинаций: LLM может генерировать содержание, которое выглядит авторитетно, но фактически ошибочно
Зависимость от области: Требуется тщательно разработанные критерии оценивания для оптимальной производительности
Отсутствие студенческой перспективы: Не проведена прямая оценка приёмлемости и эффективности обучения студентов на основе AI обратной связи
В статье цитируется 38 связанных источников, главным образом включая:
Основные источники:
González-Calatayud и др. (2021) - Обзор систем AI-оценивания студентов
Maier & Klotz (2022) - Персонализированная обратная связь в цифровой образовательной среде
Biswas & Bhattacharya (2024) - Система интеллектуальной обратной связи в реальном времени на основе ML
Liu и др. (2023) - Систематический обзор методов инженерии подсказок
Источники технической поддержки:
White и др. (2024) - Шаблоны подсказок ChatGPT
Wei и др. (2022) - Метод подсказок с цепью мышления
Chen и др. (2023) - Применение LLM в программной инженерии
Общая оценка: Это исследовательская статья с практической ценностью применения. Хотя она имеет определённые ограничения в технической инновации и масштабе экспериментов, она предоставляет ценные исследования и практический опыт для области образовательных технологий. Методология исследования обоснована, результаты достоверны, и исследование имеет позитивное значение для продвижения применения AI в образовательном оценивании.