2025-11-23T19:01:17.127547

Personalized and Constructive Feedback for Computer Science Students Using the Large Language Model (LLM)

Khan, Yaqoob, Tasadduq et al.
The evolving pedagogy paradigms are leading toward educational transformations. One fundamental aspect of effective learning is relevant, immediate, and constructive feedback to students. Providing constructive feedback to large cohorts in academia is an ongoing challenge. Therefore, academics are moving towards automated assessment to provide immediate feedback. However, current approaches are often limited in scope, offering simplistic responses that do not provide students with personalized feedback to guide them toward improvements. This paper addresses this limitation by investigating the performance of Large Language Models (LLMs) in processing students assessments with predefined rubrics and marking criteria to generate personalized feedback for in-depth learning. We aim to leverage the power of existing LLMs for Marking Assessments, Tracking, and Evaluation (LLM-MATE) with personalized feedback to enhance students learning. To evaluate the performance of LLM-MATE, we consider the Software Architecture (SA) module as a case study. The LLM-MATE approach can help module leaders overcome assessment challenges with large cohorts. Also, it helps students improve their learning by obtaining personalized feedback in a timely manner. Additionally, the proposed approach will facilitate the establishment of ground truth for automating the generation of students assessment feedback using the ChatGPT API, thereby reducing the overhead associated with large cohort assessments.
academic

Rétroaction Personnalisée et Constructive pour les Étudiants en Informatique Utilisant le Modèle de Langage de Grande Taille (LLM)

Informations Fondamentales

  • ID de l'article : 2510.11556
  • Titre : Rétroaction Personnalisée et Constructive pour les Étudiants en Informatique Utilisant le Modèle de Langage de Grande Taille (LLM)
  • Auteurs : Javed Ali Khan, Muhammad Yaqoob, Mamoona Tasadduq, Hafsa Shareef Dar, Aitezaz Ahsan
  • Classification : cs.CY (Informatique et Société)
  • Date de Publication/Conférence : 2024 (Prépublication)
  • Lien de l'article : https://arxiv.org/abs/2510.11556

Résumé

L'évolution du paradigme éducatif pousse la transformation de l'éducation. Un aspect fondamental de l'apprentissage efficace est de fournir aux étudiants une rétroaction pertinente, immédiate et constructive. Fournir une rétroaction constructive à des populations étudiantes à grande échelle constitue un défi continu pour le monde académique. Par conséquent, les chercheurs se tournent vers l'évaluation automatisée pour fournir une rétroaction immédiate. Cependant, les approches actuelles présentent souvent une portée limitée, offrant des réponses simples qui ne peuvent pas fournir aux étudiants une rétroaction personnalisée pour guider leurs améliorations. Cet article aborde cette limitation en étudiant la performance des modèles de langage de grande taille (LLMs) dans le traitement des évaluations étudiantes et la génération de rétroaction personnalisée en utilisant des critères de notation prédéfinis. Les auteurs visent à exploiter la puissance des LLMs existants pour l'évaluation, le suivi et l'évaluation (LLM-MATE), en améliorant l'apprentissage des étudiants par le biais d'une rétroaction personnalisée.

Contexte de Recherche et Motivation

1. Problèmes Fondamentaux

Cette recherche aborde principalement les problèmes suivants :

  • Défi de la rétroaction à grande échelle : Difficulté à fournir une rétroaction opportune et personnalisée et constructive à des populations étudiantes importantes
  • Limitations de l'évaluation automatisée traditionnelle : Les méthodes d'évaluation automatisée existantes présentent une portée limitée, ne pouvant fournir que des réponses simples, manquant de conseils personnalisés
  • Charge de travail des enseignants : L'évaluation manuelle d'un grand nombre de travaux étudiants est chronophage et laborieuse, ce qui rend difficile la garantie de la qualité et de la cohérence de la rétroaction

2. Importance du Problème

  • Amélioration de la qualité éducative : Une rétroaction opportune et personnalisée est la base d'un apprentissage efficace
  • Développement de l'éducation intelligente : Après la pandémie de COVID-19, la demande d'éducation en ligne et de plateformes éducatives intelligentes a augmenté considérablement
  • Équité éducative : L'évaluation automatisée peut fournir une rétroaction de qualité cohérente à tous les étudiants

3. Limitations des Approches Existantes

  • La plupart des recherches se concentrent sur l'évaluation formative, avec une attention insuffisante à l'évaluation sommative
  • Les outils d'évaluation IA existants fournissent une rétroaction trop simple, manquant de suggestions détaillées d'amélioration
  • Les critères d'évaluation sont incohérents, différents enseignants pouvant donner des évaluations considérablement différentes

4. Motivation de la Recherche

Exploiter les puissantes capacités de compréhension et de génération de texte des modèles de langage de grande taille, combinées avec des critères de notation prédéfinis, pour fournir une rétroaction personnalisée et constructive pour les évaluations multimodales (texte, images, programmation) des étudiants en informatique.

Contributions Principales

  1. Proposition du cadre LLM-MATE : Un système de notation, suivi et évaluation basé sur les modèles de langage de grande taille, capable de traiter les évaluations étudiantes multimodales
  2. Méthode d'ingénierie des invites sans exemples : Développement de stratégies d'invites ChatGPT spécialisées pour l'évaluation étudiante, générant une rétroaction de haute qualité sans données d'entraînement
  3. Capacités d'évaluation multimodale : Vérification de l'efficacité des LLMs dans le traitement des évaluations d'architecture logicielle contenant du texte et des diagrammes
  4. Étude de validation par les enseignants : Démonstration de la fiabilité de la rétroaction générée par l'IA par le biais d'une comparaison avec des experts humains
  5. Valeur d'application pratique : Fourniture d'une solution réalisable pour l'évaluation automatisée dans les cours à grande échelle

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : Travaux d'évaluation soumis par les étudiants (y compris descriptions textuelles, diagrammes d'architecture logicielle, etc.) + critères d'évaluation et directives de notation Sortie : Rétroaction personnalisée structurée, incluant :

  • Analyse des points forts du travail
  • Identification des lacunes
  • Suggestions d'amélioration spécifiques
  • Notation quantifiée et justification

Contraintes :

  • Doit être basé sur les critères de notation prédéfinis
  • La rétroaction doit être constructive et personnalisée
  • Applicable à des populations étudiantes importantes

Architecture du Modèle

Cadre Global : Méthode en Quatre Étapes LLM-MATE

  1. Collecte de Données (Data Collection)
    • Collecte de données d'évaluation étudiante anonymisées
    • Couvre plusieurs types d'évaluations du module d'architecture logicielle (diagrammes de cas d'utilisation, diagrammes de classes, diagrammes d'architecture à trois niveaux)
    • Obtention du consentement des étudiants et assurance de la sécurité des données
  2. Ingénierie des Invites (Prompt Engineering)
    • Restriction de domaine : Utilisation d'invites structurées pour contraindre ChatGPT à analyser dans une plage de paramètres spécifique
    • Génération de rétroaction personnalisée : Personnalisation des invites pour analyser les forces et faiblesses de chaque soumission et les suggestions d'amélioration
    • Tests itératifs et optimisation : Assurance de la cohérence de la qualité des résultats par des tests approfondis
    • Identification des erreurs : Conception d'invites pour identifier les erreurs étudiantes et fournir des explications constructives
  3. Exécution de l'Évaluation ChatGPT (Assessment Evaluation with ChatGPT Prompt)
    • Entrée : Évaluation étudiante + exigences de la tâche + critères d'évaluation
    • Traitement : Analyse basée sur les directives de notation fournies
    • Sortie : Rétroaction constructive + notation globale
  4. Processus d'Évaluation et de Négociation (Evaluation and Negotiation Process)
    • Validation croisée par des experts humains de la rétroaction générée par l'IA
    • Comparaison avec les résultats d'évaluation manuelle
    • Identification et résolution des problèmes potentiels d'« hallucination »

Détails Techniques Clés

Stratégie d'Apprentissage Sans Exemples :

Invite système + Introduction à l'évaluation + Critères de notation + Réponse étudiante + Exigences de format de sortie

Conception de la Structure des Invites :

  • Définition claire du rôle (en tant qu'expert en évaluation d'architecture logicielle)
  • Explication détaillée des critères de notation
  • Exigences de format de sortie structuré
  • Exigences spécifiques pour la rétroaction constructive

Points d'Innovation Technique

  1. Capacité de traitement multimodale : Utilisation de GPT-4o pour traiter simultanément le contenu textuel et les images, adapté à l'évaluation du génie logiciel
  2. Adaptabilité sans exemples : Adaptation à différentes tâches d'évaluation sans données d'entraînement spécifiques, uniquement par ingénierie des invites
  3. Génération de rétroaction structurée : Génération d'une rétroaction complète incluant les points forts, les faiblesses, les suggestions d'amélioration et la justification de la notation
  4. Vérification de collaboration homme-machine : Établissement d'un mécanisme de négociation entre l'IA et les experts humains pour assurer la qualité de la rétroaction

Configuration Expérimentale

Ensemble de Données

  • Source : Module d'Architecture Logicielle (SA) de l'Université de Hertfordshire, Royaume-Uni
  • Échelle : Consentement obtenu de 23 étudiants sur 290
  • Contenu : Travaux d'évaluation contenant des diagrammes de cas d'utilisation, des diagrammes de classes et des diagrammes d'architecture à trois niveaux
  • Attribution des Poids : Diagrammes de cas d'utilisation 30%, diagrammes de classes 30%, diagrammes d'architecture à trois niveaux 40%
  • Sélection des Échantillons : Sélection basée sur le principe de diversité, incluant des travaux de haute, moyenne et basse qualité

Indicateurs d'Évaluation

  • Score de Confiance : Niveau de confiance des enseignants dans la rétroaction de l'IA (échelle 1-5)
    • 1-2 points : Confiance faible
    • 3 points : Confiance modérée
    • 4-5 points : Confiance élevée
  • Évaluation de la Qualité de la Rétroaction : Comparaison du niveau de détail et du caractère constructif de la rétroaction IA et manuelle

Méthodes de Comparaison

  • Évaluation Manuelle : Résultats d'évaluation manuelle de 4 membres de l'équipe du module comme référence
  • Rétroaction Traditionnelle : Évaluation sommative brève (comme illustré à la figure 4)
  • Rétroaction IA : Rétroaction structurée détaillée (comme illustré à la figure 3)

Détails de Mise en Œuvre

  • Modèle : GPT-4o (supportant l'analyse de texte et d'images)
  • Interface : Interface Web ChatGPT
  • Stratégie d'Invites : Apprentissage sans exemples
  • Portée d'Évaluation : Concentration principale sur l'évaluation des diagrammes de cas d'utilisation (30 points au total)

Résultats Expérimentaux

Résultats Principaux

RQ1 : Performance de ChatGPT dans l'Évaluation

Découvertes : ChatGPT montre une bonne performance dans la génération de rétroaction personnalisée et constructive

  • Capable d'élaborer en détail les points forts du travail
  • Identification précise des lacunes
  • Fourniture de suggestions d'amélioration spécifiques
  • Fourniture d'une notation raisonnable et de sa justification

Analyse Comparative :

  • Rétroaction IA (Figure 3) : Détaillée, structurée, personnalisée, contenant des conseils techniques spécifiques
  • Rétroaction Manuelle (Figure 4) : Résumé bref, manquant de conseils d'amélioration détaillés

RQ2 : Fiabilité de la Rétroaction IA

Résultats de la Validation par les Enseignants :

  • Scores de confiance des 4 enseignants : 4, 5, 4, 3
  • Confiance Moyenne : 4,0 points (plage de confiance élevée)
  • Cohérence : Tous les enseignants ont reconnu la qualité élevée de la rétroaction IA

Analyse de Cas

Caractéristiques Typiques de la Rétroaction IA :

  1. Identification des Points Forts : Identification précise des implémentations correctes dans le travail étudiant
  2. Diagnostic des Problèmes : Indication spécifique des erreurs techniques et des malentendus conceptuels
  3. Suggestions d'Amélioration : Fourniture de plans d'amélioration spécifiques et exploitables
  4. Justification de la Notation : Explication détaillée de la base de la notation

Découvertes Expérimentales

  1. Avantage de Cohérence : L'évaluation IA peut fournir des normes de rétroaction plus cohérentes que l'évaluation manuelle
  2. Niveau de Détail : La rétroaction générée par l'IA est plus détaillée et spécifique que la rétroaction manuelle traditionnelle
  3. Opportunité : Capable de générer une rétroaction immédiate, répondant aux besoins de l'enseignement à grande échelle
  4. Personnalisation : Fourniture de conseils personnalisés adaptés à la situation spécifique de chaque étudiant

Travaux Connexes

Directions de Recherche Principales

  1. Systèmes de Rétroaction Intelligente :
    • Système de rétroaction en temps réel basé sur l'apprentissage automatique de Biswas et al.
    • Approche de rétroaction adaptative de Gutierrez et Atkinson
    • Mécanisme de rétroaction intégré LMS de Van der Merwe et al.
  2. Évaluation Automatisée :
    • Outil d'évaluation automatique IA de Fu et al.
    • Notation de documents par apprentissage profond de Lu et Cutumisu
    • Synthèse d'évaluation IA de González-Calatayud et al.
  3. Apprentissage Personnalisé :
    • Cadre de classification de rétroaction personnalisée de Maier et al.
    • Synthèse de rétroaction adaptative de Bimba et al.

Points d'Innovation Comparés aux Travaux Existants

AspectTravaux ExistantsContribution de cet Article
Type d'ÉvaluationConcentration principale sur l'évaluation formativeConcentration sur l'évaluation sommative
Niveau de Détail de la RétroactionNotation simple ou classificationRétroaction structurée détaillée
Traitement MultimodaleLa plupart traitent uniquement le texteTraitement simultané du texte et des images
Méthode de ValidationEnquête de satisfaction des étudiantsÉvaluation de confiance des experts

Conclusion et Discussion

Conclusions Principales

  1. Faisabilité Technique : ChatGPT peut traiter efficacement les évaluations multimodales des étudiants en informatique et générer une rétroaction personnalisée de haute qualité
  2. Valeur Éducative : La rétroaction générée par l'IA est plus détaillée et plus constructive que la rétroaction manuelle traditionnelle, aidant à l'amélioration de l'apprentissage des étudiants
  3. Praticité : La méthode LLM-MATE peut aider à résoudre les défis d'évaluation dans les cours à grande échelle et améliorer l'efficacité pédagogique
  4. Cohérence : L'évaluation IA peut fournir des normes d'évaluation plus cohérentes que plusieurs évaluateurs humains

Limitations

  1. Limitation de la Taille des Données : Seuls 23 étudiants ont donné leur consentement, la taille de l'échantillon est relativement petite
  2. Portée d'Évaluation : Validation principale des évaluations de diagrammes de cas d'utilisation, validation insuffisante des diagrammes de classes et d'architecture
  3. Risque d'Hallucination : Les LLMs peuvent générer du contenu qui semble autoritaire mais qui est en réalité erroné
  4. Dépendance au Domaine : Nécessite des critères de notation soigneusement conçus pour une performance optimale
  5. Manque de Perspective Étudiante : N'a pas directement évalué l'acceptation et l'efficacité d'apprentissage de la rétroaction IA par les étudiants

Directions Futures

  1. Extension Expérimentale :
    • Augmentation de la taille de l'ensemble de données
    • Validation d'autres types de diagrammes du génie logiciel
    • Test de l'applicabilité dans différents domaines disciplinaires
  2. Amélioration Technique :
    • Exploration des méthodes d'apprentissage avec peu d'exemples et des techniques de chaîne de pensée
    • Développement de solutions d'automatisation utilisant l'API ChatGPT
    • Établissement d'un mécanisme de collaboration homme-machine plus robuste
  3. Évaluation de l'Effet Éducatif :
    • Étude de l'impact réel de la rétroaction IA sur l'efficacité d'apprentissage des étudiants
    • Évaluation de l'acceptation et du niveau de confiance des étudiants envers la rétroaction IA

Évaluation Approfondie

Points Forts

  1. Orientation vers les Problèmes Pratiques : Aborde les points sensibles réels de l'éducation, avec une valeur d'application claire
  2. Innovation Méthodologique : L'application des LLMs à l'évaluation éducative multimodale est une tentative nouvelle
  3. Suffisance de la Validation : La validation par des experts assure la crédibilité des résultats de recherche
  4. Force Pratique : Le cadre proposé peut être directement appliqué dans les environnements d'enseignement réels

Insuffisances

  1. Échelle Expérimentale Limitée : Nombre d'échantillons réduit, pouvant affecter la généralité des résultats
  2. Dimension d'Évaluation Unique : Concentration principale sur la qualité de la rétroaction, manquant de mesure directe de l'effet d'apprentissage
  3. Profondeur Technique Insuffisante : Utilisation principalement d'API existantes, manquant d'innovation technique profonde
  4. Absence d'Analyse Coûts-Bénéfices : N'a pas discuté des coûts et de la durabilité du déploiement à grande échelle

Impact

  1. Contribution Académique : Fournit de nouvelles perspectives pour l'application des LLMs dans le domaine de la technologie éducative
  2. Valeur Pratique : Peut être directement appliqué à l'évaluation de cours à grande échelle dans l'enseignement supérieur
  3. Reproductibilité : Description claire de la méthode, facile à reproduire et améliorer pour d'autres chercheurs
  4. Potentiel de Promotion : Le cadre possède une bonne universalité et peut être étendu à d'autres disciplines

Scénarios d'Application

  1. Cours à Grande Échelle : Particulièrement adapté aux cours d'informatique avec un grand nombre d'étudiants
  2. Évaluation Standardisée : Applicable aux cours techniques avec des critères d'évaluation clairs
  3. Travaux Multimodaux : Adapté aux évaluations complètes contenant des diagrammes, du code et du texte
  4. Éducation en Ligne : Fournit une solution d'évaluation automatisée pour les plateformes d'éducation à distance

Références Bibliographiques

Cet article cite 38 références connexes, incluant principalement :

Références Fondamentales :

  1. González-Calatayud et al. (2021) - Synthèse des systèmes d'évaluation étudiante IA
  2. Maier & Klotz (2022) - Rétroaction personnalisée dans les environnements d'apprentissage numérique
  3. Biswas & Bhattacharya (2024) - Système de rétroaction en temps réel intelligent basé sur ML
  4. Liu et al. (2023) - Synthèse systématique des méthodes d'ingénierie des invites

Références de Support Technique :

  • White et al. (2024) - Modèles d'invites ChatGPT
  • Wei et al. (2022) - Méthode de chaîne de pensée
  • Chen et al. (2023) - Application des LLMs en génie logiciel

Évaluation Globale : Cet article de recherche possède une valeur d'application pratique significative. Bien qu'il présente certaines limitations en termes d'innovation technique et d'échelle expérimentale, il fournit une exploration et une expérience précieuses pour le domaine de la technologie éducative. La méthode de recherche est raisonnable, les résultats sont crédibles, et l'étude a une signification positive pour promouvoir l'application de l'IA dans l'évaluation éducative.