2025-11-23T19:01:17.127547

Personalized and Constructive Feedback for Computer Science Students Using the Large Language Model (LLM)

Khan, Yaqoob, Tasadduq et al.
The evolving pedagogy paradigms are leading toward educational transformations. One fundamental aspect of effective learning is relevant, immediate, and constructive feedback to students. Providing constructive feedback to large cohorts in academia is an ongoing challenge. Therefore, academics are moving towards automated assessment to provide immediate feedback. However, current approaches are often limited in scope, offering simplistic responses that do not provide students with personalized feedback to guide them toward improvements. This paper addresses this limitation by investigating the performance of Large Language Models (LLMs) in processing students assessments with predefined rubrics and marking criteria to generate personalized feedback for in-depth learning. We aim to leverage the power of existing LLMs for Marking Assessments, Tracking, and Evaluation (LLM-MATE) with personalized feedback to enhance students learning. To evaluate the performance of LLM-MATE, we consider the Software Architecture (SA) module as a case study. The LLM-MATE approach can help module leaders overcome assessment challenges with large cohorts. Also, it helps students improve their learning by obtaining personalized feedback in a timely manner. Additionally, the proposed approach will facilitate the establishment of ground truth for automating the generation of students assessment feedback using the ChatGPT API, thereby reducing the overhead associated with large cohort assessments.
academic

Персонализированная и конструктивная обратная связь для студентов компьютерных наук с использованием больших языковых моделей (LLM)

Основная информация

  • ID статьи: 2510.11556
  • Название: Personalized and Constructive Feedback for Computer Science Students Using the Large Language Model (LLM)
  • Авторы: Javed Ali Khan, Muhammad Yaqoob, Mamoona Tasadduq, Hafsa Shareef Dar, Aitezaz Ahsan
  • Классификация: cs.CY (Компьютеры и общество)
  • Дата публикации/конференция: 2024 (препринт)
  • Ссылка на статью: https://arxiv.org/abs/2510.11556

Аннотация

Эволюция образовательной парадигмы стимулирует трансформацию образования. Фундаментальным аспектом эффективного обучения является предоставление студентам релевантной, своевременной и конструктивной обратной связи. Предоставление конструктивной обратной связи для крупномасштабных групп студентов остаётся постоянной проблемой для академического сообщества. Поэтому учёные обращаются к автоматизированной оценке для предоставления немедленной обратной связи. Однако существующие подходы часто имеют ограниченный охват и предоставляют простые ответы, которые не могут обеспечить студентов персонализированной обратной связью для руководства их улучшением. В данной статье решается это ограничение путём исследования производительности больших языковых моделей (LLM) при обработке оценок студентов с использованием предопределённых критериев оценивания и генерации персонализированной обратной связи. Авторы стремятся использовать возможности существующих LLM для оценивания, отслеживания и оценки (LLM-MATE), улучшая обучение студентов посредством персонализированной обратной связи.

Исследовательский контекст и мотивация

1. Основные проблемы

Данное исследование решает следующие проблемы:

  • Вызовы масштабируемой обратной связи: Сложность предоставления своевременной, персонализированной конструктивной обратной связи крупным группам студентов
  • Ограничения традиционной автоматизированной оценки: Существующие методы автоматизированной оценки имеют ограниченный охват, способны предоставлять только простые ответы, лишены персонализированного руководства
  • Нагрузка на преподавателей: Ручная оценка большого количества студенческих работ требует значительных затрат времени и усилий, затрудняя обеспечение качества и согласованности обратной связи

2. Значимость проблемы

  • Повышение качества образования: Своевременная, персонализированная обратная связь является основой эффективного обучения
  • Развитие интеллектуального образования: После пандемии COVID-19 возросла потребность в онлайн-образовании и интеллектуальных образовательных платформах
  • Справедливость в образовании: Автоматизированная оценка может обеспечить согласованное качество обратной связи для всех студентов

3. Ограничения существующих подходов

  • Большинство исследований сосредоточены на формирующем оценивании, уделяя недостаточное внимание суммирующему оцениванию
  • Существующие инструменты AI-оценки предоставляют чрезмерно упрощённую обратную связь, лишённую детальных рекомендаций по улучшению
  • Критерии оценивания непоследовательны; разные преподаватели могут давать существенно отличающиеся оценки

4. Исследовательская мотивация

Использование мощных возможностей больших языковых моделей в понимании и генерации текста в сочетании с предопределёнными критериями оценивания для предоставления персонализированной, конструктивной обратной связи по многомодальному оцениванию (текст, изображения, программирование) студентов компьютерных наук.

Основные вклады

  1. Предложена структура LLM-MATE: Система оценивания, отслеживания и оценки на основе больших языковых моделей, способная обрабатывать многомодальное оценивание студентов
  2. Методология инженерии подсказок с нулевым примером: Разработаны специализированные стратегии подсказок ChatGPT для оценивания студентов, генерирующие высококачественную обратную связь без данных обучения
  3. Возможность многомодального оценивания: Подтверждена эффективность LLM при обработке оценок архитектуры программного обеспечения, содержащих текст и диаграммы
  4. Исследование проверки преподавателями: Посредством сравнительной проверки с экспертами-людьми доказана надёжность AI-генерируемой обратной связи
  5. Практическая ценность применения: Предоставлено жизнеспособное решение для автоматизированного оценивания крупномасштабных курсов

Подробное описание методологии

Определение задачи

Входные данные: Студенческие работы (включая текстовые описания, диаграммы архитектуры программного обеспечения и т.д.) + критерии оценивания и детали оценочной шкалы Выходные данные: Структурированная персонализированная обратная связь, включающая:

  • Анализ сильных сторон работы
  • Выявление недостатков
  • Конкретные рекомендации по улучшению
  • Количественная оценка и её обоснование

Ограничения:

  • Должна основываться на предопределённых критериях оценивания
  • Обратная связь должна быть конструктивной и персонализированной
  • Применима к крупномасштабным группам студентов

Архитектура модели

Общая структура: четырёхэтапный метод LLM-MATE

  1. Сбор данных (Data Collection)
    • Сбор анонимизированных данных оценивания студентов
    • Охватывает различные типы оценок модуля архитектуры программного обеспечения (диаграммы вариантов использования, диаграммы классов, трёхуровневые архитектурные диаграммы)
    • Получение согласия студентов и обеспечение безопасности данных
  2. Инженерия подсказок (Prompt Engineering)
    • Ограничение области: Использование структурированных подсказок для ограничения анализа ChatGPT в пределах определённых параметров
    • Генерация персонализированной обратной связи: Настройка подсказок для анализа сильных и слабых сторон каждой работы и рекомендаций по улучшению
    • Итеративное тестирование и оптимизация: Обширное тестирование для обеспечения согласованности качества выходных данных
    • Выявление ошибок: Разработка подсказок для выявления студенческих ошибок и предоставления конструктивных объяснений
  3. Выполнение оценивания ChatGPT (Assessment Evaluation with ChatGPT Prompt)
    • Входные данные: Студенческая работа + требования задания + критерии оценивания
    • Обработка: Анализ на основе предоставленных деталей оценочной шкалы
    • Выходные данные: Конструктивная обратная связь + общая оценка
  4. Процесс оценивания и согласования (Evaluation and Negotiation Process)
    • Перекрёстная проверка AI-генерируемой обратной связи экспертами-людьми
    • Сравнение с результатами ручного оценивания
    • Выявление и разрешение потенциальных проблем «галлюцинаций»

Ключевые технические детали

Стратегия обучения с нулевым примером:

Системная подсказка + введение в оценивание + критерии оценивания + 
ответ студента + требования к формату выходных данных

Проектирование структуры подсказок:

  • Чёткое определение роли (как эксперт по оценке архитектуры программного обеспечения)
  • Подробное описание критериев оценивания
  • Структурированные требования к формату выходных данных
  • Конкретные требования к конструктивной обратной связи

Технические инновационные моменты

  1. Возможность многомодальной обработки: Использование GPT-4o для одновременной обработки текстового и графического контента, подходящего для оценивания программной инженерии
  2. Адаптивность с нулевым примером: Адаптация к различным задачам оценивания без специальных данных обучения, только посредством инженерии подсказок
  3. Генерация структурированной обратной связи: Генерация полной обратной связи, содержащей сильные стороны, слабые стороны, рекомендации по улучшению и обоснование оценки
  4. Проверка человеко-машинного сотрудничества: Установление механизма согласования между AI и экспертами-людьми для обеспечения качества обратной связи

Экспериментальная установка

Набор данных

  • Источник: Модуль архитектуры программного обеспечения (SA) Университета Хартфордшира, Великобритания
  • Масштаб: Согласие 23 студентов из 290 на участие в исследовании
  • Содержание: Работы по оцениванию, содержащие диаграммы вариантов использования, диаграммы классов и трёхуровневые архитектурные диаграммы
  • Распределение весов: Диаграммы вариантов использования 30%, диаграммы классов 30%, трёхуровневые архитектурные диаграммы 40%
  • Выбор образцов: Выбор образцов работ высокого, среднего и низкого качества на основе принципа разнообразия

Показатели оценивания

  • Оценка уверенности: Уровень уверенности преподавателя в обратной связи AI (шкала 1-5)
    • 1-2 балла: Низкая уверенность
    • 3 балла: Средняя уверенность
    • 4-5 баллов: Высокая уверенность
  • Оценка качества обратной связи: Сравнение подробности и конструктивности AI и ручной обратной связи

Методы сравнения

  • Ручное оценивание: Результаты ручного оценивания 4 членов команды модуля в качестве эталона
  • Традиционная обратная связь: Краткие итоговые комментарии (как показано на рисунке 4)
  • AI обратная связь: Подробная структурированная обратная связь (как показано на рисунке 3)

Детали реализации

  • Модель: GPT-4o (поддерживает анализ текста и изображений)
  • Интерфейс: Веб-интерфейс ChatGPT
  • Стратегия подсказок: Обучение с нулевым примером
  • Область оценивания: Основное внимание уделяется оцениванию диаграмм вариантов использования (30 баллов максимум)

Результаты экспериментов

Основные результаты

RQ1: Производительность ChatGPT при оценивании

Выводы: ChatGPT показал хорошие результаты при генерации персонализированной конструктивной обратной связи

  • Способен подробно описать сильные стороны работы
  • Точно выявляет недостатки
  • Предоставляет конкретные рекомендации по улучшению
  • Даёт обоснованные оценки и их обоснование

Сравнительный анализ:

  • AI обратная связь (рисунок 3): Подробная, структурированная, персонализированная, содержит конкретные технические рекомендации
  • Ручная обратная связь (рисунок 4): Краткие итоги, лишённые подробного руководства по улучшению

RQ2: Надёжность AI обратной связи

Результаты проверки преподавателями:

  • Оценки уверенности 4 преподавателей: 4, 5, 4, 3
  • Средняя уверенность: 4.0 балла (диапазон высокой уверенности)
  • Согласованность: Все преподаватели признали высокое качество AI обратной связи

Анализ примеров

Типичные характеристики AI обратной связи:

  1. Выявление сильных сторон: Точное выявление правильных реализаций в студенческих работах
  2. Диагностика проблем: Конкретное указание технических ошибок и концептуальных неправильных представлений
  3. Рекомендации по улучшению: Предоставление действенных конкретных предложений по улучшению
  4. Обоснование оценки: Подробное объяснение основания оценки

Экспериментальные выводы

  1. Преимущество согласованности: AI-оценивание может обеспечить более согласованные стандарты обратной связи, чем ручное оценивание
  2. Уровень подробности: AI-генерируемая обратная связь более подробна и конкретна, чем традиционная ручная обратная связь
  3. Своевременность: Способна генерировать обратную связь немедленно, удовлетворяя потребности крупномасштабного обучения
  4. Персонализация: Предоставляет индивидуальные рекомендации на основе конкретной ситуации каждого студента

Связанные работы

Основные направления исследований

  1. Интеллектуальные системы обратной связи:
    • Система обратной связи в реальном времени на основе машинного обучения Biswas и др.
    • Адаптивный метод обратной связи Gutierrez и Atkinson
    • Механизм обратной связи, интегрированный в LMS, Van der Merwe и др.
  2. Автоматизированное оценивание:
    • Инструмент автоматического оценивания AI Fu и др.
    • Оценивание статей с глубоким обучением Lu и Cutumisu
    • Обзор AI-оценивания González-Calatayud и др.
  3. Персонализированное обучение:
    • Структура классификации персонализированной обратной связи Maier и др.
    • Обзор адаптивной обратной связи Bimba и др.

Инновационные моменты данной работы в сравнении

АспектСуществующие работыВклад данной статьи
Тип оцениванияГлавным образом формирующее оцениваниеСосредоточено на суммирующем оценивании
Подробность обратной связиПростая оценка или классификацияПодробная структурированная обратная связь
Многомодальная обработкаБольшинство обрабатывают только текстОдновременная обработка текста и изображений
Метод проверкиОпросы удовлетворённости студентовОценка уверенности экспертов

Заключение и обсуждение

Основные выводы

  1. Техническая осуществимость: ChatGPT способен эффективно обрабатывать многомодальное оценивание студентов компьютерных наук, генерируя высококачественную персонализированную обратную связь
  2. Образовательная ценность: AI-генерируемая обратная связь более подробна и конструктивна, чем традиционная ручная обратная связь, способствуя улучшению обучения студентов
  3. Практичность: Метод LLM-MATE может помочь решить проблемы оценивания крупномасштабных курсов, повышая эффективность обучения
  4. Согласованность: AI-оценивание может обеспечить более согласованные стандарты оценки, чем несколько ручных оценивающих

Ограничения

  1. Ограничение размера данных: Согласие получено только от 23 студентов, размер выборки относительно невелик
  2. Диапазон оценивания: Главным образом проверена оценка диаграмм вариантов использования, проверка диаграмм классов и архитектурных диаграмм недостаточна
  3. Риск галлюцинаций: LLM может генерировать содержание, которое выглядит авторитетно, но фактически ошибочно
  4. Зависимость от области: Требуется тщательно разработанные критерии оценивания для оптимальной производительности
  5. Отсутствие студенческой перспективы: Не проведена прямая оценка приёмлемости и эффективности обучения студентов на основе AI обратной связи

Будущие направления

  1. Расширение экспериментов:
    • Увеличение размера набора данных
    • Проверка других типов диаграмм программной инженерии
    • Тестирование применимости в различных дисциплинах
  2. Технические улучшения:
    • Исследование методов обучения с несколькими примерами и подсказок с цепью мышления
    • Разработка решений автоматизации ChatGPT API
    • Установление более совершенного механизма человеко-машинного сотрудничества
  3. Оценка образовательного эффекта:
    • Исследование фактического влияния AI обратной связи на результаты обучения студентов
    • Оценка приёмлемости и доверия студентов к AI обратной связи

Углубленная оценка

Сильные стороны

  1. Ориентация на практические проблемы: Решение реальных болевых точек в образовании с явной практической ценностью
  2. Методологическая инновативность: Применение LLM к многомодальному образовательному оцениванию является новой попыткой
  3. Достаточность проверки: Проверка экспертами обеспечивает достоверность результатов исследования
  4. Высокая практичность: Предложенная структура может быть непосредственно применена в реальной образовательной среде

Недостатки

  1. Ограниченный масштаб экспериментов: Небольшое количество образцов может повлиять на универсальность результатов
  2. Одномерность оценивания: Главным образом сосредоточено на качестве обратной связи, лишено прямого измерения эффективности обучения
  3. Недостаточная техническая глубина: Главным образом использует существующие API, лишено глубокой технической инновации
  4. Отсутствие анализа затрат и выгод: Не обсуждены затраты и устойчивость крупномасштабного развёртывания

Влияние

  1. Академический вклад: Предоставляет новые идеи для применения LLM в области образовательных технологий
  2. Практическая ценность: Может быть непосредственно применена к оцениванию крупномасштабных курсов в высшем образовании
  3. Воспроизводимость: Методология описана ясно, легко воспроизводится и улучшается другими исследователями
  4. Потенциал распространения: Структура обладает хорошей универсальностью, может быть расширена на другие дисциплины

Применимые сценарии

  1. Крупномасштабные курсы: Особенно подходит для курсов компьютерных наук с большим количеством студентов
  2. Стандартизированное оценивание: Применима к техническим курсам с явными критериями оценивания
  3. Многомодальные работы: Подходит для комплексного оценивания, содержащего диаграммы, код и текст
  4. Онлайн-образование: Предоставляет решение автоматизированного оценивания для платформ дистанционного образования

Библиография

В статье цитируется 38 связанных источников, главным образом включая:

Основные источники:

  1. González-Calatayud и др. (2021) - Обзор систем AI-оценивания студентов
  2. Maier & Klotz (2022) - Персонализированная обратная связь в цифровой образовательной среде
  3. Biswas & Bhattacharya (2024) - Система интеллектуальной обратной связи в реальном времени на основе ML
  4. Liu и др. (2023) - Систематический обзор методов инженерии подсказок

Источники технической поддержки:

  • White и др. (2024) - Шаблоны подсказок ChatGPT
  • Wei и др. (2022) - Метод подсказок с цепью мышления
  • Chen и др. (2023) - Применение LLM в программной инженерии

Общая оценка: Это исследовательская статья с практической ценностью применения. Хотя она имеет определённые ограничения в технической инновации и масштабе экспериментов, она предоставляет ценные исследования и практический опыт для области образовательных технологий. Методология исследования обоснована, результаты достоверны, и исследование имеет позитивное значение для продвижения применения AI в образовательном оценивании.