2025-11-23T19:01:17.127547

Personalized and Constructive Feedback for Computer Science Students Using the Large Language Model (LLM)

Khan, Yaqoob, Tasadduq et al.

The evolving pedagogy paradigms are leading toward educational transformations. One fundamental aspect of effective learning is relevant, immediate, and constructive feedback to students. Providing constructive feedback to large cohorts in academia is an ongoing challenge. Therefore, academics are moving towards automated assessment to provide immediate feedback. However, current approaches are often limited in scope, offering simplistic responses that do not provide students with personalized feedback to guide them toward improvements. This paper addresses this limitation by investigating the performance of Large Language Models (LLMs) in processing students assessments with predefined rubrics and marking criteria to generate personalized feedback for in-depth learning. We aim to leverage the power of existing LLMs for Marking Assessments, Tracking, and Evaluation (LLM-MATE) with personalized feedback to enhance students learning. To evaluate the performance of LLM-MATE, we consider the Software Architecture (SA) module as a case study. The LLM-MATE approach can help module leaders overcome assessment challenges with large cohorts. Also, it helps students improve their learning by obtaining personalized feedback in a timely manner. Additionally, the proposed approach will facilitate the establishment of ground truth for automating the generation of students assessment feedback using the ChatGPT API, thereby reducing the overhead associated with large cohort assessments.

academic

Feedback Personalizzato e Costruttivo per Studenti di Informatica Utilizzando il Modello di Linguaggio di Grandi Dimensioni (LLM)

Informazioni Fondamentali

ID Articolo: 2510.11556
Titolo: Personalized and Constructive Feedback for Computer Science Students Using the Large Language Model (LLM)
Autori: Javed Ali Khan, Muhammad Yaqoob, Mamoona Tasadduq, Hafsa Shareef Dar, Aitezaz Ahsan
Classificazione: cs.CY (Informatica e Società)
Data di Pubblicazione/Conferenza: 2024 (Preprint)
Link Articolo: https://arxiv.org/abs/2510.11556

Riassunto

L'evoluzione del paradigma educativo sta promuovendo il cambiamento nell'istruzione. Un aspetto fondamentale dell'apprendimento efficace è fornire ai studenti feedback pertinente, immediato e costruttivo. Fornire feedback costruttivo a gruppi di studenti su larga scala rappresenta una sfida continua per il mondo accademico. Di conseguenza, gli studiosi si stanno rivolgendo alla valutazione automatizzata per fornire feedback immediato. Tuttavia, gli approcci attuali spesso hanno un ambito limitato e forniscono risposte semplici che non possono offrire ai studenti feedback personalizzato per guidare i loro miglioramenti. Questo articolo affronta questa limitazione investigando le prestazioni dei modelli di linguaggio di grandi dimensioni (LLM) nell'elaborazione della valutazione degli studenti utilizzando criteri di valutazione predefiniti e nella generazione di feedback personalizzato. Gli autori mirano a sfruttare la potenza degli LLM esistenti per la valutazione, il tracciamento e la valutazione (LLM-MATE), migliorando l'apprendimento degli studenti attraverso feedback personalizzato.

Contesto di Ricerca e Motivazione

1. Problemi Fondamentali

Questa ricerca affronta principalmente i seguenti problemi:

Sfida del Feedback su Larga Scala: Difficoltà nel fornire feedback tempestivo e personalizzato e costruttivo a gruppi di studenti numerosi
Limitazioni della Valutazione Automatizzata Tradizionale: I metodi di valutazione automatizzata esistenti hanno un ambito limitato e possono fornire solo risposte semplici, mancando di orientamento personalizzato
Carico di Lavoro dei Docenti: La valutazione manuale di numerosi compiti studenteschi richiede molto tempo e fatica, rendendo difficile garantire la qualità e la coerenza del feedback

2. Importanza del Problema

Miglioramento della Qualità Educativa: Il feedback tempestivo e personalizzato è la base dell'apprendimento efficace
Sviluppo dell'Istruzione Intelligente: Dopo la pandemia di COVID-19, la domanda di piattaforme educative online e intelligenti è aumentata notevolmente
Equità Educativa: La valutazione automatizzata può fornire a tutti gli studenti feedback di qualità coerente

3. Limitazioni dei Metodi Esistenti

La maggior parte della ricerca si concentra sulla valutazione formativa, con scarsa attenzione alla valutazione sommativa
Gli strumenti di valutazione AI esistenti forniscono feedback troppo semplice, mancando di suggerimenti dettagliati per il miglioramento
I criteri di valutazione sono incoerenti, con diversi insegnanti che potrebbero fornire valutazioni significativamente diverse

4. Motivazione della Ricerca

Sfruttare le potenti capacità di comprensione e generazione del testo dei modelli di linguaggio di grandi dimensioni, combinati con criteri di valutazione predefiniti, per fornire feedback personalizzato e costruttivo per la valutazione multimodale (testo, immagini, programmazione) degli studenti di informatica.

Contributi Fondamentali

Proposta del Framework LLM-MATE: Un sistema di valutazione, tracciamento e valutazione basato su modelli di linguaggio di grandi dimensioni, capace di elaborare valutazioni multimodali degli studenti
Metodo di Ingegneria dei Prompt Zero-Shot: Sviluppo di strategie di prompt ChatGPT specializzate per la valutazione degli studenti, capaci di generare feedback di alta qualità senza dati di addestramento
Capacità di Valutazione Multimodale: Verifica dell'efficacia degli LLM nell'elaborazione di valutazioni di architettura software contenenti testo e diagrammi
Studio di Verifica da Parte dei Docenti: Attraverso il confronto con esperti umani, dimostrazione dell'affidabilità del feedback generato dall'AI
Valore di Applicazione Pratica: Fornisce una soluzione fattibile per la valutazione automatizzata in corsi su larga scala

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Compiti di valutazione presentati dagli studenti (inclusi descrizioni testuali, diagrammi di architettura software, ecc.) + criteri di valutazione e rubrica di valutazione Output: Feedback personalizzato strutturato, incluso:

Analisi dei punti di forza del compito
Identificazione delle carenze
Suggerimenti specifici per il miglioramento
Valutazione quantitativa e relative giustificazioni

Vincoli:

Deve essere basato su criteri di valutazione predefiniti
Il feedback deve avere caratteristiche costruttive e personalizzate
Applicabile a gruppi di studenti su larga scala

Architettura del Modello

Framework Generale: Metodo LLM-MATE in Quattro Fasi

Raccolta Dati (Data Collection)
- Raccolta di dati di valutazione degli studenti anonimizzati
- Copertura di vari tipi di valutazione del modulo di architettura software (diagrammi dei casi d'uso, diagrammi delle classi, diagrammi di architettura a tre livelli)
- Ottenimento del consenso degli studenti e garanzia della sicurezza dei dati
Ingegneria dei Prompt (Prompt Engineering)
- Limitazione del Dominio: Utilizzo di prompt strutturati per vincolare ChatGPT all'analisi entro intervalli di parametri specifici
- Generazione di Feedback Personalizzato: Personalizzazione dei prompt per analizzare i punti di forza e di debolezza di ogni presentazione e suggerimenti di miglioramento
- Test Iterativo e Ottimizzazione: Garantire la coerenza della qualità dell'output attraverso test estensivi
- Identificazione degli Errori: Progettazione di prompt per identificare gli errori degli studenti e fornire spiegazioni costruttive
Esecuzione della Valutazione con ChatGPT (Assessment Evaluation with ChatGPT Prompt)
- Input: Valutazione dello studente + requisiti del compito + criteri di valutazione
- Elaborazione: Analisi basata sulla rubrica di valutazione fornita
- Output: Feedback costruttivo + valutazione complessiva
Processo di Valutazione e Negoziazione (Evaluation and Negotiation Process)
- Verifica incrociata da parte di esperti umani del feedback generato dall'AI
- Confronto con i risultati della valutazione manuale
- Identificazione e risoluzione di potenziali problemi di "allucinazione"

Dettagli Tecnici Chiave

Strategia di Apprendimento Zero-Shot:

Prompt di sistema + Introduzione alla valutazione + Criteri di valutazione + Risposta dello studente + Requisiti di formato di output

Progettazione della Struttura del Prompt:

Definizione chiara del ruolo (come esperto di valutazione dell'architettura software)
Spiegazione dettagliata dei criteri di valutazione
Requisiti di formato di output strutturato
Requisiti specifici per il feedback costruttivo

Punti di Innovazione Tecnica

Capacità di Elaborazione Multimodale: Utilizzo di GPT-4o per elaborare simultaneamente contenuti testuali e di immagini, adatto alla valutazione dell'ingegneria del software
Adattabilità Zero-Shot: Senza dati di addestramento specifici, è possibile adattarsi a diversi compiti di valutazione solo attraverso l'ingegneria dei prompt
Generazione di Feedback Strutturato: Generazione di feedback completo contenente punti di forza, debolezze, suggerimenti di miglioramento e giustificazioni della valutazione
Verifica della Collaborazione Uomo-Macchina: Stabilimento di un meccanismo di negoziazione tra AI ed esperti umani per garantire la qualità del feedback

Configurazione Sperimentale

Dataset

Fonte: Modulo di Architettura Software (SA) dell'Università di Hertfordshire, Regno Unito
Scala: Consenso ottenuto da 23 studenti su 290 per partecipare allo studio
Contenuto: Compiti di valutazione contenenti diagrammi dei casi d'uso, diagrammi delle classi e diagrammi di architettura a tre livelli
Assegnazione dei Pesi: Diagrammi dei casi d'uso 30%, diagrammi delle classi 30%, diagrammi di architettura a tre livelli 40%
Selezione dei Campioni: Selezione di campioni di compiti ad alto, medio e basso punteggio basata su principi di diversità

Metriche di Valutazione

Punteggio di Confidenza: Grado di fiducia dell'insegnante nel feedback dell'AI (scala 1-5)
- 1-2 punti: Bassa confidenza
- 3 punti: Confidenza media
- 4-5 punti: Alta confidenza
Valutazione della Qualità del Feedback: Confronto tra il livello di dettaglio e la natura costruttiva del feedback AI e umano

Metodi di Confronto

Valutazione Manuale: Risultati della valutazione manuale di 4 membri del team del modulo come benchmark
Feedback Tradizionale: Valutazione sommativa breve (come mostrato in Figura 4)
Feedback AI: Feedback strutturato dettagliato (come mostrato in Figura 3)

Dettagli di Implementazione

Modello: GPT-4o (supporta analisi di testo e immagini)
Interfaccia: Interfaccia web di ChatGPT
Strategia di Prompt: Apprendimento zero-shot
Ambito di Valutazione: Focus principale sulla valutazione dei diagrammi dei casi d'uso (30 punti totali)

Risultati Sperimentali

Risultati Principali

RQ1: Prestazioni di ChatGPT nella Valutazione

Scoperte: ChatGPT ha mostrato buone prestazioni nella generazione di feedback personalizzato e costruttivo

Capacità di articolare dettagliatamente i punti di forza del compito
Identificazione accurata delle carenze
Fornitura di suggerimenti specifici per il miglioramento
Fornire valutazioni ragionevoli e relative giustificazioni

Analisi Comparativa:

Feedback AI (Figura 3): Dettagliato, strutturato, personalizzato, contenente suggerimenti tecnici specifici
Feedback Umano (Figura 4): Sommario breve, mancanza di orientamento dettagliato per il miglioramento

RQ2: Affidabilità del Feedback AI

Risultati della Verifica da Parte dei Docenti:

Punteggi di confidenza di 4 insegnanti: 4, 5, 4, 3
Confidenza Media: 4.0 punti (intervallo di alta confidenza)
Coerenza: Tutti gli insegnanti hanno ritenuto che la qualità del feedback AI fosse elevata

Analisi dei Casi

Caratteristiche Tipiche del Feedback AI:

Identificazione dei Punti di Forza: Identificazione accurata delle implementazioni corrette nei compiti degli studenti
Diagnosi dei Problemi: Indicazione specifica degli errori tecnici e dei fraintendimenti concettuali
Suggerimenti di Miglioramento: Fornitura di piani di miglioramento specifici e attuabili
Giustificazione della Valutazione: Spiegazione dettagliata della base della valutazione

Scoperte Sperimentali

Vantaggio della Coerenza: La valutazione AI può fornire standard di feedback più coerenti rispetto alla valutazione manuale
Livello di Dettaglio: Il feedback generato dall'AI è più dettagliato e specifico rispetto al feedback manuale tradizionale
Tempestività: Capacità di generare feedback immediato, soddisfacendo le esigenze dell'insegnamento su larga scala
Personalizzazione: Fornitura di suggerimenti personalizzati basati sulla situazione specifica di ogni studente

Lavori Correlati

Principali Direzioni di Ricerca

Sistemi di Feedback Intelligenti:
- Sistema di feedback in tempo reale basato su machine learning di Biswas et al.
- Metodo di feedback adattivo di Gutierrez e Atkinson
- Meccanismo di feedback integrato LMS di Van der Merwe et al.
Valutazione Automatizzata:
- Strumento di valutazione automatica AI di Fu et al.
- Valutazione di articoli con deep learning di Lu e Cutumisu
- Rassegna della valutazione AI di González-Calatayud et al.
Apprendimento Personalizzato:
- Framework di classificazione del feedback personalizzato di Maier et al.
- Rassegna del feedback adattivo di Bimba et al.

Punti di Innovazione Rispetto ai Lavori Esistenti

Aspetto	Lavori Esistenti	Contributi di Questo Articolo
Tipo di Valutazione	Focalizzato principalmente sulla valutazione formativa	Focalizzato sulla valutazione sommativa
Livello di Dettaglio del Feedback	Valutazione semplice o classificazione	Feedback strutturato dettagliato
Elaborazione Multimodale	La maggior parte elabora solo testo	Elaborazione simultanea di testo e immagini
Metodo di Verifica	Indagine sulla soddisfazione degli studenti	Valutazione della confidenza degli esperti

Conclusioni e Discussione

Conclusioni Principali

Fattibilità Tecnica: ChatGPT può elaborare efficacemente valutazioni multimodali degli studenti di informatica, generando feedback personalizzato di alta qualità
Valore Educativo: Il feedback generato dall'AI è più dettagliato e costruttivo rispetto al feedback manuale tradizionale, aiutando il miglioramento dell'apprendimento degli studenti
Praticità: Il metodo LLM-MATE può aiutare a risolvere le sfide di valutazione nei corsi su larga scala, migliorando l'efficienza didattica
Coerenza: La valutazione AI può fornire standard di valutazione più coerenti rispetto a più valutatori umani

Limitazioni

Limitazione della Scala dei Dati: Solo 23 studenti hanno dato il consenso, con una dimensione del campione relativamente piccola
Ambito di Valutazione: La verifica principale è stata sulla valutazione dei diagrammi dei casi d'uso, con verifica insufficiente per diagrammi delle classi e architetture
Rischio di Allucinazione: Gli LLM potrebbero generare contenuti che sembrano autorevoli ma sono effettivamente errati
Dipendenza dal Dominio: Sono necessari criteri di valutazione accuratamente progettati per ottenere le migliori prestazioni
Mancanza della Prospettiva degli Studenti: Mancanza di valutazione diretta dell'accettazione e dell'efficacia di apprendimento del feedback AI da parte degli studenti

Direzioni Future

Espansione degli Esperimenti:
- Aumento della dimensione del dataset
- Verifica di altri tipi di diagrammi di ingegneria del software
- Test dell'applicabilità in diversi campi disciplinari
Miglioramenti Tecnici:
- Esplorazione di metodi di apprendimento con pochi esempi e prompt chain-of-thought
- Sviluppo di soluzioni automatizzate tramite ChatGPT API
- Stabilimento di meccanismi di collaborazione uomo-macchina più robusti
Valutazione dell'Effetto Educativo:
- Ricerca sull'impatto effettivo del feedback AI sull'efficacia di apprendimento degli studenti
- Valutazione dell'accettazione e della fiducia degli studenti nel feedback AI

Valutazione Approfondita

Punti di Forza

Orientamento ai Problemi Pratici: Affronta veri punti critici nell'istruzione, con chiaro valore di applicazione
Innovazione del Metodo: Il tentativo di applicare gli LLM alla valutazione educativa multimodale è nuovo
Sufficienza della Verifica: Attraverso la verifica degli esperti, è garantita l'affidabilità dei risultati della ricerca
Forte Praticità: Il framework proposto può essere direttamente applicato agli ambienti didattici reali

Insufficienze

Scala Sperimentale Limitata: Il numero di campioni è piccolo, il che potrebbe influire sulla generalizzabilità dei risultati
Dimensione di Valutazione Singola: Focalizzazione principale sulla qualità del feedback, mancanza di misurazione diretta dell'effetto di apprendimento
Profondità Tecnica Insufficiente: Utilizzo principalmente di API esistenti, mancanza di innovazione tecnica profonda
Mancanza di Analisi Costi-Benefici: Mancanza di discussione sui costi e sulla sostenibilità della distribuzione su larga scala

Impatto

Contributo Accademico: Fornisce nuove prospettive per l'applicazione degli LLM nel campo della tecnologia educativa
Valore Pratico: Può essere direttamente applicato alla valutazione di corsi su larga scala nell'istruzione superiore
Riproducibilità: La descrizione del metodo è chiara, facilitando la riproduzione e il miglioramento da parte di altri ricercatori
Potenziale di Diffusione: Il framework ha buona generalità e può essere esteso ad altre discipline

Scenari di Applicazione

Corsi su Larga Scala: Particolarmente adatto ai corsi di informatica con numerosi studenti
Valutazione Standardizzata: Adatto a corsi tecnici con criteri di valutazione chiari
Compiti Multimodali: Adatto a valutazioni integrate contenenti diagrammi, codice e testo
Istruzione Online: Fornisce soluzioni di valutazione automatizzata per piattaforme di istruzione a distanza

Bibliografia

Questo articolo cita 38 articoli correlati, principalmente includenti:

Articoli di Riferimento Fondamentali:

González-Calatayud et al. (2021) - Rassegna dei sistemi di valutazione degli studenti AI
Maier & Klotz (2022) - Feedback personalizzato negli ambienti di apprendimento digitale
Biswas & Bhattacharya (2024) - Sistema di feedback intelligente in tempo reale basato su ML
Liu et al. (2023) - Rassegna sistematica dei metodi di ingegneria dei prompt

Articoli di Supporto Tecnico:

White et al. (2024) - Modelli di prompt ChatGPT
Wei et al. (2022) - Metodo di prompt chain-of-thought
Chen et al. (2023) - Applicazione degli LLM nell'ingegneria del software

Valutazione Complessiva: Questo è un articolo di ricerca con valore di applicazione pratica. Sebbene presenti alcune limitazioni in termini di innovazione tecnica e scala sperimentale, fornisce un'esplorazione e un'esperienza pratica preziosa per il campo della tecnologia educativa. Il metodo di ricerca è ragionevole, i risultati sono affidabili e ha un significato positivo nel promuovere l'applicazione dell'AI nella valutazione educativa.