2025-11-23T19:01:17.127547

Personalized and Constructive Feedback for Computer Science Students Using the Large Language Model (LLM)

Khan, Yaqoob, Tasadduq et al.

The evolving pedagogy paradigms are leading toward educational transformations. One fundamental aspect of effective learning is relevant, immediate, and constructive feedback to students. Providing constructive feedback to large cohorts in academia is an ongoing challenge. Therefore, academics are moving towards automated assessment to provide immediate feedback. However, current approaches are often limited in scope, offering simplistic responses that do not provide students with personalized feedback to guide them toward improvements. This paper addresses this limitation by investigating the performance of Large Language Models (LLMs) in processing students assessments with predefined rubrics and marking criteria to generate personalized feedback for in-depth learning. We aim to leverage the power of existing LLMs for Marking Assessments, Tracking, and Evaluation (LLM-MATE) with personalized feedback to enhance students learning. To evaluate the performance of LLM-MATE, we consider the Software Architecture (SA) module as a case study. The LLM-MATE approach can help module leaders overcome assessment challenges with large cohorts. Also, it helps students improve their learning by obtaining personalized feedback in a timely manner. Additionally, the proposed approach will facilitate the establishment of ground truth for automating the generation of students assessment feedback using the ChatGPT API, thereby reducing the overhead associated with large cohort assessments.

academic

Rétroaction Personnalisée et Constructive pour les Étudiants en Informatique Utilisant le Modèle de Langage de Grande Taille (LLM)

Informations Fondamentales

ID de l'article : 2510.11556
Titre : Rétroaction Personnalisée et Constructive pour les Étudiants en Informatique Utilisant le Modèle de Langage de Grande Taille (LLM)
Auteurs : Javed Ali Khan, Muhammad Yaqoob, Mamoona Tasadduq, Hafsa Shareef Dar, Aitezaz Ahsan
Classification : cs.CY (Informatique et Société)
Date de Publication/Conférence : 2024 (Prépublication)
Lien de l'article : https://arxiv.org/abs/2510.11556

Résumé

L'évolution du paradigme éducatif pousse la transformation de l'éducation. Un aspect fondamental de l'apprentissage efficace est de fournir aux étudiants une rétroaction pertinente, immédiate et constructive. Fournir une rétroaction constructive à des populations étudiantes à grande échelle constitue un défi continu pour le monde académique. Par conséquent, les chercheurs se tournent vers l'évaluation automatisée pour fournir une rétroaction immédiate. Cependant, les approches actuelles présentent souvent une portée limitée, offrant des réponses simples qui ne peuvent pas fournir aux étudiants une rétroaction personnalisée pour guider leurs améliorations. Cet article aborde cette limitation en étudiant la performance des modèles de langage de grande taille (LLMs) dans le traitement des évaluations étudiantes et la génération de rétroaction personnalisée en utilisant des critères de notation prédéfinis. Les auteurs visent à exploiter la puissance des LLMs existants pour l'évaluation, le suivi et l'évaluation (LLM-MATE), en améliorant l'apprentissage des étudiants par le biais d'une rétroaction personnalisée.

Contexte de Recherche et Motivation

1. Problèmes Fondamentaux

Cette recherche aborde principalement les problèmes suivants :

Défi de la rétroaction à grande échelle : Difficulté à fournir une rétroaction opportune et personnalisée et constructive à des populations étudiantes importantes
Limitations de l'évaluation automatisée traditionnelle : Les méthodes d'évaluation automatisée existantes présentent une portée limitée, ne pouvant fournir que des réponses simples, manquant de conseils personnalisés
Charge de travail des enseignants : L'évaluation manuelle d'un grand nombre de travaux étudiants est chronophage et laborieuse, ce qui rend difficile la garantie de la qualité et de la cohérence de la rétroaction

2. Importance du Problème

Amélioration de la qualité éducative : Une rétroaction opportune et personnalisée est la base d'un apprentissage efficace
Développement de l'éducation intelligente : Après la pandémie de COVID-19, la demande d'éducation en ligne et de plateformes éducatives intelligentes a augmenté considérablement
Équité éducative : L'évaluation automatisée peut fournir une rétroaction de qualité cohérente à tous les étudiants

3. Limitations des Approches Existantes

La plupart des recherches se concentrent sur l'évaluation formative, avec une attention insuffisante à l'évaluation sommative
Les outils d'évaluation IA existants fournissent une rétroaction trop simple, manquant de suggestions détaillées d'amélioration
Les critères d'évaluation sont incohérents, différents enseignants pouvant donner des évaluations considérablement différentes

4. Motivation de la Recherche

Exploiter les puissantes capacités de compréhension et de génération de texte des modèles de langage de grande taille, combinées avec des critères de notation prédéfinis, pour fournir une rétroaction personnalisée et constructive pour les évaluations multimodales (texte, images, programmation) des étudiants en informatique.

Contributions Principales

Proposition du cadre LLM-MATE : Un système de notation, suivi et évaluation basé sur les modèles de langage de grande taille, capable de traiter les évaluations étudiantes multimodales
Méthode d'ingénierie des invites sans exemples : Développement de stratégies d'invites ChatGPT spécialisées pour l'évaluation étudiante, générant une rétroaction de haute qualité sans données d'entraînement
Capacités d'évaluation multimodale : Vérification de l'efficacité des LLMs dans le traitement des évaluations d'architecture logicielle contenant du texte et des diagrammes
Étude de validation par les enseignants : Démonstration de la fiabilité de la rétroaction générée par l'IA par le biais d'une comparaison avec des experts humains
Valeur d'application pratique : Fourniture d'une solution réalisable pour l'évaluation automatisée dans les cours à grande échelle

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : Travaux d'évaluation soumis par les étudiants (y compris descriptions textuelles, diagrammes d'architecture logicielle, etc.) + critères d'évaluation et directives de notation Sortie : Rétroaction personnalisée structurée, incluant :

Analyse des points forts du travail
Identification des lacunes
Suggestions d'amélioration spécifiques
Notation quantifiée et justification

Contraintes :

Doit être basé sur les critères de notation prédéfinis
La rétroaction doit être constructive et personnalisée
Applicable à des populations étudiantes importantes

Architecture du Modèle

Cadre Global : Méthode en Quatre Étapes LLM-MATE

Collecte de Données (Data Collection)
- Collecte de données d'évaluation étudiante anonymisées
- Couvre plusieurs types d'évaluations du module d'architecture logicielle (diagrammes de cas d'utilisation, diagrammes de classes, diagrammes d'architecture à trois niveaux)
- Obtention du consentement des étudiants et assurance de la sécurité des données
Ingénierie des Invites (Prompt Engineering)
- Restriction de domaine : Utilisation d'invites structurées pour contraindre ChatGPT à analyser dans une plage de paramètres spécifique
- Génération de rétroaction personnalisée : Personnalisation des invites pour analyser les forces et faiblesses de chaque soumission et les suggestions d'amélioration
- Tests itératifs et optimisation : Assurance de la cohérence de la qualité des résultats par des tests approfondis
- Identification des erreurs : Conception d'invites pour identifier les erreurs étudiantes et fournir des explications constructives
Exécution de l'Évaluation ChatGPT (Assessment Evaluation with ChatGPT Prompt)
- Entrée : Évaluation étudiante + exigences de la tâche + critères d'évaluation
- Traitement : Analyse basée sur les directives de notation fournies
- Sortie : Rétroaction constructive + notation globale
Processus d'Évaluation et de Négociation (Evaluation and Negotiation Process)
- Validation croisée par des experts humains de la rétroaction générée par l'IA
- Comparaison avec les résultats d'évaluation manuelle
- Identification et résolution des problèmes potentiels d'« hallucination »

Détails Techniques Clés

Stratégie d'Apprentissage Sans Exemples :

Invite système + Introduction à l'évaluation + Critères de notation + Réponse étudiante + Exigences de format de sortie

Conception de la Structure des Invites :

Définition claire du rôle (en tant qu'expert en évaluation d'architecture logicielle)
Explication détaillée des critères de notation
Exigences de format de sortie structuré
Exigences spécifiques pour la rétroaction constructive

Points d'Innovation Technique

Capacité de traitement multimodale : Utilisation de GPT-4o pour traiter simultanément le contenu textuel et les images, adapté à l'évaluation du génie logiciel
Adaptabilité sans exemples : Adaptation à différentes tâches d'évaluation sans données d'entraînement spécifiques, uniquement par ingénierie des invites
Génération de rétroaction structurée : Génération d'une rétroaction complète incluant les points forts, les faiblesses, les suggestions d'amélioration et la justification de la notation
Vérification de collaboration homme-machine : Établissement d'un mécanisme de négociation entre l'IA et les experts humains pour assurer la qualité de la rétroaction

Configuration Expérimentale

Ensemble de Données

Source : Module d'Architecture Logicielle (SA) de l'Université de Hertfordshire, Royaume-Uni
Échelle : Consentement obtenu de 23 étudiants sur 290
Contenu : Travaux d'évaluation contenant des diagrammes de cas d'utilisation, des diagrammes de classes et des diagrammes d'architecture à trois niveaux
Attribution des Poids : Diagrammes de cas d'utilisation 30%, diagrammes de classes 30%, diagrammes d'architecture à trois niveaux 40%
Sélection des Échantillons : Sélection basée sur le principe de diversité, incluant des travaux de haute, moyenne et basse qualité

Indicateurs d'Évaluation

Score de Confiance : Niveau de confiance des enseignants dans la rétroaction de l'IA (échelle 1-5)
- 1-2 points : Confiance faible
- 3 points : Confiance modérée
- 4-5 points : Confiance élevée
Évaluation de la Qualité de la Rétroaction : Comparaison du niveau de détail et du caractère constructif de la rétroaction IA et manuelle

Méthodes de Comparaison

Évaluation Manuelle : Résultats d'évaluation manuelle de 4 membres de l'équipe du module comme référence
Rétroaction Traditionnelle : Évaluation sommative brève (comme illustré à la figure 4)
Rétroaction IA : Rétroaction structurée détaillée (comme illustré à la figure 3)

Détails de Mise en Œuvre

Modèle : GPT-4o (supportant l'analyse de texte et d'images)
Interface : Interface Web ChatGPT
Stratégie d'Invites : Apprentissage sans exemples
Portée d'Évaluation : Concentration principale sur l'évaluation des diagrammes de cas d'utilisation (30 points au total)

Résultats Expérimentaux

Résultats Principaux

RQ1 : Performance de ChatGPT dans l'Évaluation

Découvertes : ChatGPT montre une bonne performance dans la génération de rétroaction personnalisée et constructive

Capable d'élaborer en détail les points forts du travail
Identification précise des lacunes
Fourniture de suggestions d'amélioration spécifiques
Fourniture d'une notation raisonnable et de sa justification

Analyse Comparative :

Rétroaction IA (Figure 3) : Détaillée, structurée, personnalisée, contenant des conseils techniques spécifiques
Rétroaction Manuelle (Figure 4) : Résumé bref, manquant de conseils d'amélioration détaillés

RQ2 : Fiabilité de la Rétroaction IA

Résultats de la Validation par les Enseignants :

Scores de confiance des 4 enseignants : 4, 5, 4, 3
Confiance Moyenne : 4,0 points (plage de confiance élevée)
Cohérence : Tous les enseignants ont reconnu la qualité élevée de la rétroaction IA

Analyse de Cas

Caractéristiques Typiques de la Rétroaction IA :

Identification des Points Forts : Identification précise des implémentations correctes dans le travail étudiant
Diagnostic des Problèmes : Indication spécifique des erreurs techniques et des malentendus conceptuels
Suggestions d'Amélioration : Fourniture de plans d'amélioration spécifiques et exploitables
Justification de la Notation : Explication détaillée de la base de la notation

Découvertes Expérimentales

Avantage de Cohérence : L'évaluation IA peut fournir des normes de rétroaction plus cohérentes que l'évaluation manuelle
Niveau de Détail : La rétroaction générée par l'IA est plus détaillée et spécifique que la rétroaction manuelle traditionnelle
Opportunité : Capable de générer une rétroaction immédiate, répondant aux besoins de l'enseignement à grande échelle
Personnalisation : Fourniture de conseils personnalisés adaptés à la situation spécifique de chaque étudiant

Travaux Connexes

Directions de Recherche Principales

Systèmes de Rétroaction Intelligente :
- Système de rétroaction en temps réel basé sur l'apprentissage automatique de Biswas et al.
- Approche de rétroaction adaptative de Gutierrez et Atkinson
- Mécanisme de rétroaction intégré LMS de Van der Merwe et al.
Évaluation Automatisée :
- Outil d'évaluation automatique IA de Fu et al.
- Notation de documents par apprentissage profond de Lu et Cutumisu
- Synthèse d'évaluation IA de González-Calatayud et al.
Apprentissage Personnalisé :
- Cadre de classification de rétroaction personnalisée de Maier et al.
- Synthèse de rétroaction adaptative de Bimba et al.

Points d'Innovation Comparés aux Travaux Existants

Aspect	Travaux Existants	Contribution de cet Article
Type d'Évaluation	Concentration principale sur l'évaluation formative	Concentration sur l'évaluation sommative
Niveau de Détail de la Rétroaction	Notation simple ou classification	Rétroaction structurée détaillée
Traitement Multimodale	La plupart traitent uniquement le texte	Traitement simultané du texte et des images
Méthode de Validation	Enquête de satisfaction des étudiants	Évaluation de confiance des experts

Conclusion et Discussion

Conclusions Principales

Faisabilité Technique : ChatGPT peut traiter efficacement les évaluations multimodales des étudiants en informatique et générer une rétroaction personnalisée de haute qualité
Valeur Éducative : La rétroaction générée par l'IA est plus détaillée et plus constructive que la rétroaction manuelle traditionnelle, aidant à l'amélioration de l'apprentissage des étudiants
Praticité : La méthode LLM-MATE peut aider à résoudre les défis d'évaluation dans les cours à grande échelle et améliorer l'efficacité pédagogique
Cohérence : L'évaluation IA peut fournir des normes d'évaluation plus cohérentes que plusieurs évaluateurs humains

Limitations

Limitation de la Taille des Données : Seuls 23 étudiants ont donné leur consentement, la taille de l'échantillon est relativement petite
Portée d'Évaluation : Validation principale des évaluations de diagrammes de cas d'utilisation, validation insuffisante des diagrammes de classes et d'architecture
Risque d'Hallucination : Les LLMs peuvent générer du contenu qui semble autoritaire mais qui est en réalité erroné
Dépendance au Domaine : Nécessite des critères de notation soigneusement conçus pour une performance optimale
Manque de Perspective Étudiante : N'a pas directement évalué l'acceptation et l'efficacité d'apprentissage de la rétroaction IA par les étudiants

Directions Futures

Extension Expérimentale :
- Augmentation de la taille de l'ensemble de données
- Validation d'autres types de diagrammes du génie logiciel
- Test de l'applicabilité dans différents domaines disciplinaires
Amélioration Technique :
- Exploration des méthodes d'apprentissage avec peu d'exemples et des techniques de chaîne de pensée
- Développement de solutions d'automatisation utilisant l'API ChatGPT
- Établissement d'un mécanisme de collaboration homme-machine plus robuste
Évaluation de l'Effet Éducatif :
- Étude de l'impact réel de la rétroaction IA sur l'efficacité d'apprentissage des étudiants
- Évaluation de l'acceptation et du niveau de confiance des étudiants envers la rétroaction IA

Évaluation Approfondie

Points Forts

Orientation vers les Problèmes Pratiques : Aborde les points sensibles réels de l'éducation, avec une valeur d'application claire
Innovation Méthodologique : L'application des LLMs à l'évaluation éducative multimodale est une tentative nouvelle
Suffisance de la Validation : La validation par des experts assure la crédibilité des résultats de recherche
Force Pratique : Le cadre proposé peut être directement appliqué dans les environnements d'enseignement réels

Insuffisances

Échelle Expérimentale Limitée : Nombre d'échantillons réduit, pouvant affecter la généralité des résultats
Dimension d'Évaluation Unique : Concentration principale sur la qualité de la rétroaction, manquant de mesure directe de l'effet d'apprentissage
Profondeur Technique Insuffisante : Utilisation principalement d'API existantes, manquant d'innovation technique profonde
Absence d'Analyse Coûts-Bénéfices : N'a pas discuté des coûts et de la durabilité du déploiement à grande échelle

Impact

Contribution Académique : Fournit de nouvelles perspectives pour l'application des LLMs dans le domaine de la technologie éducative
Valeur Pratique : Peut être directement appliqué à l'évaluation de cours à grande échelle dans l'enseignement supérieur
Reproductibilité : Description claire de la méthode, facile à reproduire et améliorer pour d'autres chercheurs
Potentiel de Promotion : Le cadre possède une bonne universalité et peut être étendu à d'autres disciplines

Scénarios d'Application

Cours à Grande Échelle : Particulièrement adapté aux cours d'informatique avec un grand nombre d'étudiants
Évaluation Standardisée : Applicable aux cours techniques avec des critères d'évaluation clairs
Travaux Multimodaux : Adapté aux évaluations complètes contenant des diagrammes, du code et du texte
Éducation en Ligne : Fournit une solution d'évaluation automatisée pour les plateformes d'éducation à distance

Références Bibliographiques

Cet article cite 38 références connexes, incluant principalement :

Références Fondamentales :

González-Calatayud et al. (2021) - Synthèse des systèmes d'évaluation étudiante IA
Maier & Klotz (2022) - Rétroaction personnalisée dans les environnements d'apprentissage numérique
Biswas & Bhattacharya (2024) - Système de rétroaction en temps réel intelligent basé sur ML
Liu et al. (2023) - Synthèse systématique des méthodes d'ingénierie des invites

Références de Support Technique :

White et al. (2024) - Modèles d'invites ChatGPT
Wei et al. (2022) - Méthode de chaîne de pensée
Chen et al. (2023) - Application des LLMs en génie logiciel

Évaluation Globale : Cet article de recherche possède une valeur d'application pratique significative. Bien qu'il présente certaines limitations en termes d'innovation technique et d'échelle expérimentale, il fournit une exploration et une expérience précieuses pour le domaine de la technologie éducative. La méthode de recherche est raisonnable, les résultats sont crédibles, et l'étude a une signification positive pour promouvoir l'application de l'IA dans l'évaluation éducative.