Personalized and Constructive Feedback for Computer Science Students Using the Large Language Model (LLM)
Khan, Yaqoob, Tasadduq et al.
The evolving pedagogy paradigms are leading toward educational transformations. One fundamental aspect of effective learning is relevant, immediate, and constructive feedback to students. Providing constructive feedback to large cohorts in academia is an ongoing challenge. Therefore, academics are moving towards automated assessment to provide immediate feedback. However, current approaches are often limited in scope, offering simplistic responses that do not provide students with personalized feedback to guide them toward improvements. This paper addresses this limitation by investigating the performance of Large Language Models (LLMs) in processing students assessments with predefined rubrics and marking criteria to generate personalized feedback for in-depth learning. We aim to leverage the power of existing LLMs for Marking Assessments, Tracking, and Evaluation (LLM-MATE) with personalized feedback to enhance students learning. To evaluate the performance of LLM-MATE, we consider the Software Architecture (SA) module as a case study. The LLM-MATE approach can help module leaders overcome assessment challenges with large cohorts. Also, it helps students improve their learning by obtaining personalized feedback in a timely manner. Additionally, the proposed approach will facilitate the establishment of ground truth for automating the generation of students assessment feedback using the ChatGPT API, thereby reducing the overhead associated with large cohort assessments.
academic
Rétroaction Personnalisée et Constructive pour les Étudiants en Informatique Utilisant le Modèle de Langage de Grande Taille (LLM)
L'évolution du paradigme éducatif pousse la transformation de l'éducation. Un aspect fondamental de l'apprentissage efficace est de fournir aux étudiants une rétroaction pertinente, immédiate et constructive. Fournir une rétroaction constructive à des populations étudiantes à grande échelle constitue un défi continu pour le monde académique. Par conséquent, les chercheurs se tournent vers l'évaluation automatisée pour fournir une rétroaction immédiate. Cependant, les approches actuelles présentent souvent une portée limitée, offrant des réponses simples qui ne peuvent pas fournir aux étudiants une rétroaction personnalisée pour guider leurs améliorations. Cet article aborde cette limitation en étudiant la performance des modèles de langage de grande taille (LLMs) dans le traitement des évaluations étudiantes et la génération de rétroaction personnalisée en utilisant des critères de notation prédéfinis. Les auteurs visent à exploiter la puissance des LLMs existants pour l'évaluation, le suivi et l'évaluation (LLM-MATE), en améliorant l'apprentissage des étudiants par le biais d'une rétroaction personnalisée.
Cette recherche aborde principalement les problèmes suivants :
Défi de la rétroaction à grande échelle : Difficulté à fournir une rétroaction opportune et personnalisée et constructive à des populations étudiantes importantes
Limitations de l'évaluation automatisée traditionnelle : Les méthodes d'évaluation automatisée existantes présentent une portée limitée, ne pouvant fournir que des réponses simples, manquant de conseils personnalisés
Charge de travail des enseignants : L'évaluation manuelle d'un grand nombre de travaux étudiants est chronophage et laborieuse, ce qui rend difficile la garantie de la qualité et de la cohérence de la rétroaction
Amélioration de la qualité éducative : Une rétroaction opportune et personnalisée est la base d'un apprentissage efficace
Développement de l'éducation intelligente : Après la pandémie de COVID-19, la demande d'éducation en ligne et de plateformes éducatives intelligentes a augmenté considérablement
Équité éducative : L'évaluation automatisée peut fournir une rétroaction de qualité cohérente à tous les étudiants
Exploiter les puissantes capacités de compréhension et de génération de texte des modèles de langage de grande taille, combinées avec des critères de notation prédéfinis, pour fournir une rétroaction personnalisée et constructive pour les évaluations multimodales (texte, images, programmation) des étudiants en informatique.
Proposition du cadre LLM-MATE : Un système de notation, suivi et évaluation basé sur les modèles de langage de grande taille, capable de traiter les évaluations étudiantes multimodales
Méthode d'ingénierie des invites sans exemples : Développement de stratégies d'invites ChatGPT spécialisées pour l'évaluation étudiante, générant une rétroaction de haute qualité sans données d'entraînement
Capacités d'évaluation multimodale : Vérification de l'efficacité des LLMs dans le traitement des évaluations d'architecture logicielle contenant du texte et des diagrammes
Étude de validation par les enseignants : Démonstration de la fiabilité de la rétroaction générée par l'IA par le biais d'une comparaison avec des experts humains
Valeur d'application pratique : Fourniture d'une solution réalisable pour l'évaluation automatisée dans les cours à grande échelle
Collecte de données d'évaluation étudiante anonymisées
Couvre plusieurs types d'évaluations du module d'architecture logicielle (diagrammes de cas d'utilisation, diagrammes de classes, diagrammes d'architecture à trois niveaux)
Obtention du consentement des étudiants et assurance de la sécurité des données
Ingénierie des Invites (Prompt Engineering)
Restriction de domaine : Utilisation d'invites structurées pour contraindre ChatGPT à analyser dans une plage de paramètres spécifique
Génération de rétroaction personnalisée : Personnalisation des invites pour analyser les forces et faiblesses de chaque soumission et les suggestions d'amélioration
Tests itératifs et optimisation : Assurance de la cohérence de la qualité des résultats par des tests approfondis
Identification des erreurs : Conception d'invites pour identifier les erreurs étudiantes et fournir des explications constructives
Exécution de l'Évaluation ChatGPT (Assessment Evaluation with ChatGPT Prompt)
Entrée : Évaluation étudiante + exigences de la tâche + critères d'évaluation
Traitement : Analyse basée sur les directives de notation fournies
Capacité de traitement multimodale : Utilisation de GPT-4o pour traiter simultanément le contenu textuel et les images, adapté à l'évaluation du génie logiciel
Adaptabilité sans exemples : Adaptation à différentes tâches d'évaluation sans données d'entraînement spécifiques, uniquement par ingénierie des invites
Génération de rétroaction structurée : Génération d'une rétroaction complète incluant les points forts, les faiblesses, les suggestions d'amélioration et la justification de la notation
Vérification de collaboration homme-machine : Établissement d'un mécanisme de négociation entre l'IA et les experts humains pour assurer la qualité de la rétroaction
Source : Module d'Architecture Logicielle (SA) de l'Université de Hertfordshire, Royaume-Uni
Échelle : Consentement obtenu de 23 étudiants sur 290
Contenu : Travaux d'évaluation contenant des diagrammes de cas d'utilisation, des diagrammes de classes et des diagrammes d'architecture à trois niveaux
Attribution des Poids : Diagrammes de cas d'utilisation 30%, diagrammes de classes 30%, diagrammes d'architecture à trois niveaux 40%
Sélection des Échantillons : Sélection basée sur le principe de diversité, incluant des travaux de haute, moyenne et basse qualité
Faisabilité Technique : ChatGPT peut traiter efficacement les évaluations multimodales des étudiants en informatique et générer une rétroaction personnalisée de haute qualité
Valeur Éducative : La rétroaction générée par l'IA est plus détaillée et plus constructive que la rétroaction manuelle traditionnelle, aidant à l'amélioration de l'apprentissage des étudiants
Praticité : La méthode LLM-MATE peut aider à résoudre les défis d'évaluation dans les cours à grande échelle et améliorer l'efficacité pédagogique
Cohérence : L'évaluation IA peut fournir des normes d'évaluation plus cohérentes que plusieurs évaluateurs humains
Limitation de la Taille des Données : Seuls 23 étudiants ont donné leur consentement, la taille de l'échantillon est relativement petite
Portée d'Évaluation : Validation principale des évaluations de diagrammes de cas d'utilisation, validation insuffisante des diagrammes de classes et d'architecture
Risque d'Hallucination : Les LLMs peuvent générer du contenu qui semble autoritaire mais qui est en réalité erroné
Dépendance au Domaine : Nécessite des critères de notation soigneusement conçus pour une performance optimale
Manque de Perspective Étudiante : N'a pas directement évalué l'acceptation et l'efficacité d'apprentissage de la rétroaction IA par les étudiants
Cet article cite 38 références connexes, incluant principalement :
Références Fondamentales :
González-Calatayud et al. (2021) - Synthèse des systèmes d'évaluation étudiante IA
Maier & Klotz (2022) - Rétroaction personnalisée dans les environnements d'apprentissage numérique
Biswas & Bhattacharya (2024) - Système de rétroaction en temps réel intelligent basé sur ML
Liu et al. (2023) - Synthèse systématique des méthodes d'ingénierie des invites
Références de Support Technique :
White et al. (2024) - Modèles d'invites ChatGPT
Wei et al. (2022) - Méthode de chaîne de pensée
Chen et al. (2023) - Application des LLMs en génie logiciel
Évaluation Globale : Cet article de recherche possède une valeur d'application pratique significative. Bien qu'il présente certaines limitations en termes d'innovation technique et d'échelle expérimentale, il fournit une exploration et une expérience précieuses pour le domaine de la technologie éducative. La méthode de recherche est raisonnable, les résultats sont crédibles, et l'étude a une signification positive pour promouvoir l'application de l'IA dans l'évaluation éducative.