Personalized and Constructive Feedback for Computer Science Students Using the Large Language Model (LLM)
Khan, Yaqoob, Tasadduq et al.
The evolving pedagogy paradigms are leading toward educational transformations. One fundamental aspect of effective learning is relevant, immediate, and constructive feedback to students. Providing constructive feedback to large cohorts in academia is an ongoing challenge. Therefore, academics are moving towards automated assessment to provide immediate feedback. However, current approaches are often limited in scope, offering simplistic responses that do not provide students with personalized feedback to guide them toward improvements. This paper addresses this limitation by investigating the performance of Large Language Models (LLMs) in processing students assessments with predefined rubrics and marking criteria to generate personalized feedback for in-depth learning. We aim to leverage the power of existing LLMs for Marking Assessments, Tracking, and Evaluation (LLM-MATE) with personalized feedback to enhance students learning. To evaluate the performance of LLM-MATE, we consider the Software Architecture (SA) module as a case study. The LLM-MATE approach can help module leaders overcome assessment challenges with large cohorts. Also, it helps students improve their learning by obtaining personalized feedback in a timely manner. Additionally, the proposed approach will facilitate the establishment of ground truth for automating the generation of students assessment feedback using the ChatGPT API, thereby reducing the overhead associated with large cohort assessments.
academic
Feedback Personalizzato e Costruttivo per Studenti di Informatica Utilizzando il Modello di Linguaggio di Grandi Dimensioni (LLM)
L'evoluzione del paradigma educativo sta promuovendo il cambiamento nell'istruzione. Un aspetto fondamentale dell'apprendimento efficace è fornire ai studenti feedback pertinente, immediato e costruttivo. Fornire feedback costruttivo a gruppi di studenti su larga scala rappresenta una sfida continua per il mondo accademico. Di conseguenza, gli studiosi si stanno rivolgendo alla valutazione automatizzata per fornire feedback immediato. Tuttavia, gli approcci attuali spesso hanno un ambito limitato e forniscono risposte semplici che non possono offrire ai studenti feedback personalizzato per guidare i loro miglioramenti. Questo articolo affronta questa limitazione investigando le prestazioni dei modelli di linguaggio di grandi dimensioni (LLM) nell'elaborazione della valutazione degli studenti utilizzando criteri di valutazione predefiniti e nella generazione di feedback personalizzato. Gli autori mirano a sfruttare la potenza degli LLM esistenti per la valutazione, il tracciamento e la valutazione (LLM-MATE), migliorando l'apprendimento degli studenti attraverso feedback personalizzato.
Questa ricerca affronta principalmente i seguenti problemi:
Sfida del Feedback su Larga Scala: Difficoltà nel fornire feedback tempestivo e personalizzato e costruttivo a gruppi di studenti numerosi
Limitazioni della Valutazione Automatizzata Tradizionale: I metodi di valutazione automatizzata esistenti hanno un ambito limitato e possono fornire solo risposte semplici, mancando di orientamento personalizzato
Carico di Lavoro dei Docenti: La valutazione manuale di numerosi compiti studenteschi richiede molto tempo e fatica, rendendo difficile garantire la qualità e la coerenza del feedback
Miglioramento della Qualità Educativa: Il feedback tempestivo e personalizzato è la base dell'apprendimento efficace
Sviluppo dell'Istruzione Intelligente: Dopo la pandemia di COVID-19, la domanda di piattaforme educative online e intelligenti è aumentata notevolmente
Equità Educativa: La valutazione automatizzata può fornire a tutti gli studenti feedback di qualità coerente
Sfruttare le potenti capacità di comprensione e generazione del testo dei modelli di linguaggio di grandi dimensioni, combinati con criteri di valutazione predefiniti, per fornire feedback personalizzato e costruttivo per la valutazione multimodale (testo, immagini, programmazione) degli studenti di informatica.
Proposta del Framework LLM-MATE: Un sistema di valutazione, tracciamento e valutazione basato su modelli di linguaggio di grandi dimensioni, capace di elaborare valutazioni multimodali degli studenti
Metodo di Ingegneria dei Prompt Zero-Shot: Sviluppo di strategie di prompt ChatGPT specializzate per la valutazione degli studenti, capaci di generare feedback di alta qualità senza dati di addestramento
Capacità di Valutazione Multimodale: Verifica dell'efficacia degli LLM nell'elaborazione di valutazioni di architettura software contenenti testo e diagrammi
Studio di Verifica da Parte dei Docenti: Attraverso il confronto con esperti umani, dimostrazione dell'affidabilità del feedback generato dall'AI
Valore di Applicazione Pratica: Fornisce una soluzione fattibile per la valutazione automatizzata in corsi su larga scala
Input: Compiti di valutazione presentati dagli studenti (inclusi descrizioni testuali, diagrammi di architettura software, ecc.) + criteri di valutazione e rubrica di valutazione
Output: Feedback personalizzato strutturato, incluso:
Analisi dei punti di forza del compito
Identificazione delle carenze
Suggerimenti specifici per il miglioramento
Valutazione quantitativa e relative giustificazioni
Vincoli:
Deve essere basato su criteri di valutazione predefiniti
Il feedback deve avere caratteristiche costruttive e personalizzate
Raccolta di dati di valutazione degli studenti anonimizzati
Copertura di vari tipi di valutazione del modulo di architettura software (diagrammi dei casi d'uso, diagrammi delle classi, diagrammi di architettura a tre livelli)
Ottenimento del consenso degli studenti e garanzia della sicurezza dei dati
Ingegneria dei Prompt (Prompt Engineering)
Limitazione del Dominio: Utilizzo di prompt strutturati per vincolare ChatGPT all'analisi entro intervalli di parametri specifici
Generazione di Feedback Personalizzato: Personalizzazione dei prompt per analizzare i punti di forza e di debolezza di ogni presentazione e suggerimenti di miglioramento
Test Iterativo e Ottimizzazione: Garantire la coerenza della qualità dell'output attraverso test estensivi
Identificazione degli Errori: Progettazione di prompt per identificare gli errori degli studenti e fornire spiegazioni costruttive
Esecuzione della Valutazione con ChatGPT (Assessment Evaluation with ChatGPT Prompt)
Input: Valutazione dello studente + requisiti del compito + criteri di valutazione
Elaborazione: Analisi basata sulla rubrica di valutazione fornita
Capacità di Elaborazione Multimodale: Utilizzo di GPT-4o per elaborare simultaneamente contenuti testuali e di immagini, adatto alla valutazione dell'ingegneria del software
Adattabilità Zero-Shot: Senza dati di addestramento specifici, è possibile adattarsi a diversi compiti di valutazione solo attraverso l'ingegneria dei prompt
Generazione di Feedback Strutturato: Generazione di feedback completo contenente punti di forza, debolezze, suggerimenti di miglioramento e giustificazioni della valutazione
Verifica della Collaborazione Uomo-Macchina: Stabilimento di un meccanismo di negoziazione tra AI ed esperti umani per garantire la qualità del feedback
Fattibilità Tecnica: ChatGPT può elaborare efficacemente valutazioni multimodali degli studenti di informatica, generando feedback personalizzato di alta qualità
Valore Educativo: Il feedback generato dall'AI è più dettagliato e costruttivo rispetto al feedback manuale tradizionale, aiutando il miglioramento dell'apprendimento degli studenti
Praticità: Il metodo LLM-MATE può aiutare a risolvere le sfide di valutazione nei corsi su larga scala, migliorando l'efficienza didattica
Coerenza: La valutazione AI può fornire standard di valutazione più coerenti rispetto a più valutatori umani
Limitazione della Scala dei Dati: Solo 23 studenti hanno dato il consenso, con una dimensione del campione relativamente piccola
Ambito di Valutazione: La verifica principale è stata sulla valutazione dei diagrammi dei casi d'uso, con verifica insufficiente per diagrammi delle classi e architetture
Rischio di Allucinazione: Gli LLM potrebbero generare contenuti che sembrano autorevoli ma sono effettivamente errati
Dipendenza dal Dominio: Sono necessari criteri di valutazione accuratamente progettati per ottenere le migliori prestazioni
Mancanza della Prospettiva degli Studenti: Mancanza di valutazione diretta dell'accettazione e dell'efficacia di apprendimento del feedback AI da parte degli studenti
Questo articolo cita 38 articoli correlati, principalmente includenti:
Articoli di Riferimento Fondamentali:
González-Calatayud et al. (2021) - Rassegna dei sistemi di valutazione degli studenti AI
Maier & Klotz (2022) - Feedback personalizzato negli ambienti di apprendimento digitale
Biswas & Bhattacharya (2024) - Sistema di feedback intelligente in tempo reale basato su ML
Liu et al. (2023) - Rassegna sistematica dei metodi di ingegneria dei prompt
Articoli di Supporto Tecnico:
White et al. (2024) - Modelli di prompt ChatGPT
Wei et al. (2022) - Metodo di prompt chain-of-thought
Chen et al. (2023) - Applicazione degli LLM nell'ingegneria del software
Valutazione Complessiva: Questo è un articolo di ricerca con valore di applicazione pratica. Sebbene presenti alcune limitazioni in termini di innovazione tecnica e scala sperimentale, fornisce un'esplorazione e un'esperienza pratica preziosa per il campo della tecnologia educativa. Il metodo di ricerca è ragionevole, i risultati sono affidabili e ha un significato positivo nel promuovere l'applicazione dell'AI nella valutazione educativa.