2025-11-23T19:01:17.127547

Personalized and Constructive Feedback for Computer Science Students Using the Large Language Model (LLM)

Khan, Yaqoob, Tasadduq et al.
The evolving pedagogy paradigms are leading toward educational transformations. One fundamental aspect of effective learning is relevant, immediate, and constructive feedback to students. Providing constructive feedback to large cohorts in academia is an ongoing challenge. Therefore, academics are moving towards automated assessment to provide immediate feedback. However, current approaches are often limited in scope, offering simplistic responses that do not provide students with personalized feedback to guide them toward improvements. This paper addresses this limitation by investigating the performance of Large Language Models (LLMs) in processing students assessments with predefined rubrics and marking criteria to generate personalized feedback for in-depth learning. We aim to leverage the power of existing LLMs for Marking Assessments, Tracking, and Evaluation (LLM-MATE) with personalized feedback to enhance students learning. To evaluate the performance of LLM-MATE, we consider the Software Architecture (SA) module as a case study. The LLM-MATE approach can help module leaders overcome assessment challenges with large cohorts. Also, it helps students improve their learning by obtaining personalized feedback in a timely manner. Additionally, the proposed approach will facilitate the establishment of ground truth for automating the generation of students assessment feedback using the ChatGPT API, thereby reducing the overhead associated with large cohort assessments.
academic

Feedback Personalizzato e Costruttivo per Studenti di Informatica Utilizzando il Modello di Linguaggio di Grandi Dimensioni (LLM)

Informazioni Fondamentali

  • ID Articolo: 2510.11556
  • Titolo: Personalized and Constructive Feedback for Computer Science Students Using the Large Language Model (LLM)
  • Autori: Javed Ali Khan, Muhammad Yaqoob, Mamoona Tasadduq, Hafsa Shareef Dar, Aitezaz Ahsan
  • Classificazione: cs.CY (Informatica e Società)
  • Data di Pubblicazione/Conferenza: 2024 (Preprint)
  • Link Articolo: https://arxiv.org/abs/2510.11556

Riassunto

L'evoluzione del paradigma educativo sta promuovendo il cambiamento nell'istruzione. Un aspetto fondamentale dell'apprendimento efficace è fornire ai studenti feedback pertinente, immediato e costruttivo. Fornire feedback costruttivo a gruppi di studenti su larga scala rappresenta una sfida continua per il mondo accademico. Di conseguenza, gli studiosi si stanno rivolgendo alla valutazione automatizzata per fornire feedback immediato. Tuttavia, gli approcci attuali spesso hanno un ambito limitato e forniscono risposte semplici che non possono offrire ai studenti feedback personalizzato per guidare i loro miglioramenti. Questo articolo affronta questa limitazione investigando le prestazioni dei modelli di linguaggio di grandi dimensioni (LLM) nell'elaborazione della valutazione degli studenti utilizzando criteri di valutazione predefiniti e nella generazione di feedback personalizzato. Gli autori mirano a sfruttare la potenza degli LLM esistenti per la valutazione, il tracciamento e la valutazione (LLM-MATE), migliorando l'apprendimento degli studenti attraverso feedback personalizzato.

Contesto di Ricerca e Motivazione

1. Problemi Fondamentali

Questa ricerca affronta principalmente i seguenti problemi:

  • Sfida del Feedback su Larga Scala: Difficoltà nel fornire feedback tempestivo e personalizzato e costruttivo a gruppi di studenti numerosi
  • Limitazioni della Valutazione Automatizzata Tradizionale: I metodi di valutazione automatizzata esistenti hanno un ambito limitato e possono fornire solo risposte semplici, mancando di orientamento personalizzato
  • Carico di Lavoro dei Docenti: La valutazione manuale di numerosi compiti studenteschi richiede molto tempo e fatica, rendendo difficile garantire la qualità e la coerenza del feedback

2. Importanza del Problema

  • Miglioramento della Qualità Educativa: Il feedback tempestivo e personalizzato è la base dell'apprendimento efficace
  • Sviluppo dell'Istruzione Intelligente: Dopo la pandemia di COVID-19, la domanda di piattaforme educative online e intelligenti è aumentata notevolmente
  • Equità Educativa: La valutazione automatizzata può fornire a tutti gli studenti feedback di qualità coerente

3. Limitazioni dei Metodi Esistenti

  • La maggior parte della ricerca si concentra sulla valutazione formativa, con scarsa attenzione alla valutazione sommativa
  • Gli strumenti di valutazione AI esistenti forniscono feedback troppo semplice, mancando di suggerimenti dettagliati per il miglioramento
  • I criteri di valutazione sono incoerenti, con diversi insegnanti che potrebbero fornire valutazioni significativamente diverse

4. Motivazione della Ricerca

Sfruttare le potenti capacità di comprensione e generazione del testo dei modelli di linguaggio di grandi dimensioni, combinati con criteri di valutazione predefiniti, per fornire feedback personalizzato e costruttivo per la valutazione multimodale (testo, immagini, programmazione) degli studenti di informatica.

Contributi Fondamentali

  1. Proposta del Framework LLM-MATE: Un sistema di valutazione, tracciamento e valutazione basato su modelli di linguaggio di grandi dimensioni, capace di elaborare valutazioni multimodali degli studenti
  2. Metodo di Ingegneria dei Prompt Zero-Shot: Sviluppo di strategie di prompt ChatGPT specializzate per la valutazione degli studenti, capaci di generare feedback di alta qualità senza dati di addestramento
  3. Capacità di Valutazione Multimodale: Verifica dell'efficacia degli LLM nell'elaborazione di valutazioni di architettura software contenenti testo e diagrammi
  4. Studio di Verifica da Parte dei Docenti: Attraverso il confronto con esperti umani, dimostrazione dell'affidabilità del feedback generato dall'AI
  5. Valore di Applicazione Pratica: Fornisce una soluzione fattibile per la valutazione automatizzata in corsi su larga scala

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Compiti di valutazione presentati dagli studenti (inclusi descrizioni testuali, diagrammi di architettura software, ecc.) + criteri di valutazione e rubrica di valutazione Output: Feedback personalizzato strutturato, incluso:

  • Analisi dei punti di forza del compito
  • Identificazione delle carenze
  • Suggerimenti specifici per il miglioramento
  • Valutazione quantitativa e relative giustificazioni

Vincoli:

  • Deve essere basato su criteri di valutazione predefiniti
  • Il feedback deve avere caratteristiche costruttive e personalizzate
  • Applicabile a gruppi di studenti su larga scala

Architettura del Modello

Framework Generale: Metodo LLM-MATE in Quattro Fasi

  1. Raccolta Dati (Data Collection)
    • Raccolta di dati di valutazione degli studenti anonimizzati
    • Copertura di vari tipi di valutazione del modulo di architettura software (diagrammi dei casi d'uso, diagrammi delle classi, diagrammi di architettura a tre livelli)
    • Ottenimento del consenso degli studenti e garanzia della sicurezza dei dati
  2. Ingegneria dei Prompt (Prompt Engineering)
    • Limitazione del Dominio: Utilizzo di prompt strutturati per vincolare ChatGPT all'analisi entro intervalli di parametri specifici
    • Generazione di Feedback Personalizzato: Personalizzazione dei prompt per analizzare i punti di forza e di debolezza di ogni presentazione e suggerimenti di miglioramento
    • Test Iterativo e Ottimizzazione: Garantire la coerenza della qualità dell'output attraverso test estensivi
    • Identificazione degli Errori: Progettazione di prompt per identificare gli errori degli studenti e fornire spiegazioni costruttive
  3. Esecuzione della Valutazione con ChatGPT (Assessment Evaluation with ChatGPT Prompt)
    • Input: Valutazione dello studente + requisiti del compito + criteri di valutazione
    • Elaborazione: Analisi basata sulla rubrica di valutazione fornita
    • Output: Feedback costruttivo + valutazione complessiva
  4. Processo di Valutazione e Negoziazione (Evaluation and Negotiation Process)
    • Verifica incrociata da parte di esperti umani del feedback generato dall'AI
    • Confronto con i risultati della valutazione manuale
    • Identificazione e risoluzione di potenziali problemi di "allucinazione"

Dettagli Tecnici Chiave

Strategia di Apprendimento Zero-Shot:

Prompt di sistema + Introduzione alla valutazione + Criteri di valutazione + Risposta dello studente + Requisiti di formato di output

Progettazione della Struttura del Prompt:

  • Definizione chiara del ruolo (come esperto di valutazione dell'architettura software)
  • Spiegazione dettagliata dei criteri di valutazione
  • Requisiti di formato di output strutturato
  • Requisiti specifici per il feedback costruttivo

Punti di Innovazione Tecnica

  1. Capacità di Elaborazione Multimodale: Utilizzo di GPT-4o per elaborare simultaneamente contenuti testuali e di immagini, adatto alla valutazione dell'ingegneria del software
  2. Adattabilità Zero-Shot: Senza dati di addestramento specifici, è possibile adattarsi a diversi compiti di valutazione solo attraverso l'ingegneria dei prompt
  3. Generazione di Feedback Strutturato: Generazione di feedback completo contenente punti di forza, debolezze, suggerimenti di miglioramento e giustificazioni della valutazione
  4. Verifica della Collaborazione Uomo-Macchina: Stabilimento di un meccanismo di negoziazione tra AI ed esperti umani per garantire la qualità del feedback

Configurazione Sperimentale

Dataset

  • Fonte: Modulo di Architettura Software (SA) dell'Università di Hertfordshire, Regno Unito
  • Scala: Consenso ottenuto da 23 studenti su 290 per partecipare allo studio
  • Contenuto: Compiti di valutazione contenenti diagrammi dei casi d'uso, diagrammi delle classi e diagrammi di architettura a tre livelli
  • Assegnazione dei Pesi: Diagrammi dei casi d'uso 30%, diagrammi delle classi 30%, diagrammi di architettura a tre livelli 40%
  • Selezione dei Campioni: Selezione di campioni di compiti ad alto, medio e basso punteggio basata su principi di diversità

Metriche di Valutazione

  • Punteggio di Confidenza: Grado di fiducia dell'insegnante nel feedback dell'AI (scala 1-5)
    • 1-2 punti: Bassa confidenza
    • 3 punti: Confidenza media
    • 4-5 punti: Alta confidenza
  • Valutazione della Qualità del Feedback: Confronto tra il livello di dettaglio e la natura costruttiva del feedback AI e umano

Metodi di Confronto

  • Valutazione Manuale: Risultati della valutazione manuale di 4 membri del team del modulo come benchmark
  • Feedback Tradizionale: Valutazione sommativa breve (come mostrato in Figura 4)
  • Feedback AI: Feedback strutturato dettagliato (come mostrato in Figura 3)

Dettagli di Implementazione

  • Modello: GPT-4o (supporta analisi di testo e immagini)
  • Interfaccia: Interfaccia web di ChatGPT
  • Strategia di Prompt: Apprendimento zero-shot
  • Ambito di Valutazione: Focus principale sulla valutazione dei diagrammi dei casi d'uso (30 punti totali)

Risultati Sperimentali

Risultati Principali

RQ1: Prestazioni di ChatGPT nella Valutazione

Scoperte: ChatGPT ha mostrato buone prestazioni nella generazione di feedback personalizzato e costruttivo

  • Capacità di articolare dettagliatamente i punti di forza del compito
  • Identificazione accurata delle carenze
  • Fornitura di suggerimenti specifici per il miglioramento
  • Fornire valutazioni ragionevoli e relative giustificazioni

Analisi Comparativa:

  • Feedback AI (Figura 3): Dettagliato, strutturato, personalizzato, contenente suggerimenti tecnici specifici
  • Feedback Umano (Figura 4): Sommario breve, mancanza di orientamento dettagliato per il miglioramento

RQ2: Affidabilità del Feedback AI

Risultati della Verifica da Parte dei Docenti:

  • Punteggi di confidenza di 4 insegnanti: 4, 5, 4, 3
  • Confidenza Media: 4.0 punti (intervallo di alta confidenza)
  • Coerenza: Tutti gli insegnanti hanno ritenuto che la qualità del feedback AI fosse elevata

Analisi dei Casi

Caratteristiche Tipiche del Feedback AI:

  1. Identificazione dei Punti di Forza: Identificazione accurata delle implementazioni corrette nei compiti degli studenti
  2. Diagnosi dei Problemi: Indicazione specifica degli errori tecnici e dei fraintendimenti concettuali
  3. Suggerimenti di Miglioramento: Fornitura di piani di miglioramento specifici e attuabili
  4. Giustificazione della Valutazione: Spiegazione dettagliata della base della valutazione

Scoperte Sperimentali

  1. Vantaggio della Coerenza: La valutazione AI può fornire standard di feedback più coerenti rispetto alla valutazione manuale
  2. Livello di Dettaglio: Il feedback generato dall'AI è più dettagliato e specifico rispetto al feedback manuale tradizionale
  3. Tempestività: Capacità di generare feedback immediato, soddisfacendo le esigenze dell'insegnamento su larga scala
  4. Personalizzazione: Fornitura di suggerimenti personalizzati basati sulla situazione specifica di ogni studente

Lavori Correlati

Principali Direzioni di Ricerca

  1. Sistemi di Feedback Intelligenti:
    • Sistema di feedback in tempo reale basato su machine learning di Biswas et al.
    • Metodo di feedback adattivo di Gutierrez e Atkinson
    • Meccanismo di feedback integrato LMS di Van der Merwe et al.
  2. Valutazione Automatizzata:
    • Strumento di valutazione automatica AI di Fu et al.
    • Valutazione di articoli con deep learning di Lu e Cutumisu
    • Rassegna della valutazione AI di González-Calatayud et al.
  3. Apprendimento Personalizzato:
    • Framework di classificazione del feedback personalizzato di Maier et al.
    • Rassegna del feedback adattivo di Bimba et al.

Punti di Innovazione Rispetto ai Lavori Esistenti

AspettoLavori EsistentiContributi di Questo Articolo
Tipo di ValutazioneFocalizzato principalmente sulla valutazione formativaFocalizzato sulla valutazione sommativa
Livello di Dettaglio del FeedbackValutazione semplice o classificazioneFeedback strutturato dettagliato
Elaborazione MultimodaleLa maggior parte elabora solo testoElaborazione simultanea di testo e immagini
Metodo di VerificaIndagine sulla soddisfazione degli studentiValutazione della confidenza degli esperti

Conclusioni e Discussione

Conclusioni Principali

  1. Fattibilità Tecnica: ChatGPT può elaborare efficacemente valutazioni multimodali degli studenti di informatica, generando feedback personalizzato di alta qualità
  2. Valore Educativo: Il feedback generato dall'AI è più dettagliato e costruttivo rispetto al feedback manuale tradizionale, aiutando il miglioramento dell'apprendimento degli studenti
  3. Praticità: Il metodo LLM-MATE può aiutare a risolvere le sfide di valutazione nei corsi su larga scala, migliorando l'efficienza didattica
  4. Coerenza: La valutazione AI può fornire standard di valutazione più coerenti rispetto a più valutatori umani

Limitazioni

  1. Limitazione della Scala dei Dati: Solo 23 studenti hanno dato il consenso, con una dimensione del campione relativamente piccola
  2. Ambito di Valutazione: La verifica principale è stata sulla valutazione dei diagrammi dei casi d'uso, con verifica insufficiente per diagrammi delle classi e architetture
  3. Rischio di Allucinazione: Gli LLM potrebbero generare contenuti che sembrano autorevoli ma sono effettivamente errati
  4. Dipendenza dal Dominio: Sono necessari criteri di valutazione accuratamente progettati per ottenere le migliori prestazioni
  5. Mancanza della Prospettiva degli Studenti: Mancanza di valutazione diretta dell'accettazione e dell'efficacia di apprendimento del feedback AI da parte degli studenti

Direzioni Future

  1. Espansione degli Esperimenti:
    • Aumento della dimensione del dataset
    • Verifica di altri tipi di diagrammi di ingegneria del software
    • Test dell'applicabilità in diversi campi disciplinari
  2. Miglioramenti Tecnici:
    • Esplorazione di metodi di apprendimento con pochi esempi e prompt chain-of-thought
    • Sviluppo di soluzioni automatizzate tramite ChatGPT API
    • Stabilimento di meccanismi di collaborazione uomo-macchina più robusti
  3. Valutazione dell'Effetto Educativo:
    • Ricerca sull'impatto effettivo del feedback AI sull'efficacia di apprendimento degli studenti
    • Valutazione dell'accettazione e della fiducia degli studenti nel feedback AI

Valutazione Approfondita

Punti di Forza

  1. Orientamento ai Problemi Pratici: Affronta veri punti critici nell'istruzione, con chiaro valore di applicazione
  2. Innovazione del Metodo: Il tentativo di applicare gli LLM alla valutazione educativa multimodale è nuovo
  3. Sufficienza della Verifica: Attraverso la verifica degli esperti, è garantita l'affidabilità dei risultati della ricerca
  4. Forte Praticità: Il framework proposto può essere direttamente applicato agli ambienti didattici reali

Insufficienze

  1. Scala Sperimentale Limitata: Il numero di campioni è piccolo, il che potrebbe influire sulla generalizzabilità dei risultati
  2. Dimensione di Valutazione Singola: Focalizzazione principale sulla qualità del feedback, mancanza di misurazione diretta dell'effetto di apprendimento
  3. Profondità Tecnica Insufficiente: Utilizzo principalmente di API esistenti, mancanza di innovazione tecnica profonda
  4. Mancanza di Analisi Costi-Benefici: Mancanza di discussione sui costi e sulla sostenibilità della distribuzione su larga scala

Impatto

  1. Contributo Accademico: Fornisce nuove prospettive per l'applicazione degli LLM nel campo della tecnologia educativa
  2. Valore Pratico: Può essere direttamente applicato alla valutazione di corsi su larga scala nell'istruzione superiore
  3. Riproducibilità: La descrizione del metodo è chiara, facilitando la riproduzione e il miglioramento da parte di altri ricercatori
  4. Potenziale di Diffusione: Il framework ha buona generalità e può essere esteso ad altre discipline

Scenari di Applicazione

  1. Corsi su Larga Scala: Particolarmente adatto ai corsi di informatica con numerosi studenti
  2. Valutazione Standardizzata: Adatto a corsi tecnici con criteri di valutazione chiari
  3. Compiti Multimodali: Adatto a valutazioni integrate contenenti diagrammi, codice e testo
  4. Istruzione Online: Fornisce soluzioni di valutazione automatizzata per piattaforme di istruzione a distanza

Bibliografia

Questo articolo cita 38 articoli correlati, principalmente includenti:

Articoli di Riferimento Fondamentali:

  1. González-Calatayud et al. (2021) - Rassegna dei sistemi di valutazione degli studenti AI
  2. Maier & Klotz (2022) - Feedback personalizzato negli ambienti di apprendimento digitale
  3. Biswas & Bhattacharya (2024) - Sistema di feedback intelligente in tempo reale basato su ML
  4. Liu et al. (2023) - Rassegna sistematica dei metodi di ingegneria dei prompt

Articoli di Supporto Tecnico:

  • White et al. (2024) - Modelli di prompt ChatGPT
  • Wei et al. (2022) - Metodo di prompt chain-of-thought
  • Chen et al. (2023) - Applicazione degli LLM nell'ingegneria del software

Valutazione Complessiva: Questo è un articolo di ricerca con valore di applicazione pratica. Sebbene presenti alcune limitazioni in termini di innovazione tecnica e scala sperimentale, fornisce un'esplorazione e un'esperienza pratica preziosa per il campo della tecnologia educativa. Il metodo di ricerca è ragionevole, i risultati sono affidabili e ha un significato positivo nel promuovere l'applicazione dell'AI nella valutazione educativa.