Personalized and Constructive Feedback for Computer Science Students Using the Large Language Model (LLM)
Khan, Yaqoob, Tasadduq et al.
The evolving pedagogy paradigms are leading toward educational transformations. One fundamental aspect of effective learning is relevant, immediate, and constructive feedback to students. Providing constructive feedback to large cohorts in academia is an ongoing challenge. Therefore, academics are moving towards automated assessment to provide immediate feedback. However, current approaches are often limited in scope, offering simplistic responses that do not provide students with personalized feedback to guide them toward improvements. This paper addresses this limitation by investigating the performance of Large Language Models (LLMs) in processing students assessments with predefined rubrics and marking criteria to generate personalized feedback for in-depth learning. We aim to leverage the power of existing LLMs for Marking Assessments, Tracking, and Evaluation (LLM-MATE) with personalized feedback to enhance students learning. To evaluate the performance of LLM-MATE, we consider the Software Architecture (SA) module as a case study. The LLM-MATE approach can help module leaders overcome assessment challenges with large cohorts. Also, it helps students improve their learning by obtaining personalized feedback in a timely manner. Additionally, the proposed approach will facilitate the establishment of ground truth for automating the generation of students assessment feedback using the ChatGPT API, thereby reducing the overhead associated with large cohort assessments.
academic
Retroalimentación Personalizada y Constructiva para Estudiantes de Ciencias de la Computación Utilizando Modelos de Lenguaje Grande (LLM)
La evolución del paradigma educativo está impulsando cambios en la educación. Un aspecto fundamental del aprendizaje efectivo es proporcionar a los estudiantes retroalimentación relevante, inmediata y constructiva. Proporcionar retroalimentación constructiva a grandes grupos de estudiantes es un desafío continuo que enfrenta la comunidad académica. Por lo tanto, los académicos se están orientando hacia la evaluación automatizada para proporcionar retroalimentación inmediata. Sin embargo, los enfoques actuales tienden a tener un alcance limitado, proporcionando respuestas simples que no pueden ofrecer retroalimentación personalizada a los estudiantes para guiar sus mejoras. Este artículo aborda esta limitación investigando el desempeño de los modelos de lenguaje grande (LLM) en el procesamiento de evaluaciones estudiantiles utilizando criterios de calificación predefinidos y la generación de retroalimentación personalizada. Los autores tienen como objetivo aprovechar el poder de los LLM existentes para calificación, seguimiento y evaluación (LLM-MATE), mejorando el aprendizaje estudiantil a través de retroalimentación personalizada.
Esta investigación aborda principalmente los siguientes problemas:
Desafío de Retroalimentación a Escala: Dificultad para proporcionar retroalimentación oportuna y personalizada a grandes grupos de estudiantes
Limitaciones de la Evaluación Automatizada Tradicional: Los métodos de evaluación automatizada existentes tienen un alcance limitado, solo pueden proporcionar respuestas simples y carecen de orientación personalizada
Carga de Trabajo Docente: La evaluación manual de una gran cantidad de tareas estudiantiles consume tiempo y recursos, lo que dificulta garantizar la calidad y consistencia de la retroalimentación
Mejora de la Calidad Educativa: La retroalimentación oportuna y personalizada es fundamental para el aprendizaje efectivo
Desarrollo de Educación Inteligente: Después de la pandemia de COVID-19, ha aumentado la demanda de educación en línea y plataformas educativas inteligentes
Equidad Educativa: La evaluación automatizada puede proporcionar retroalimentación de calidad consistente a todos los estudiantes
Aprovechar las poderosas capacidades de comprensión y generación de texto de los modelos de lenguaje grande, combinadas con criterios de calificación predefinidos, para proporcionar retroalimentación personalizada y constructiva para evaluaciones multimodales (texto, imágenes, programación) de estudiantes de ciencias de la computación.
Propuesta del Marco LLM-MATE: Un sistema de calificación, seguimiento y evaluación basado en modelos de lenguaje grande, capaz de procesar evaluaciones estudiantiles multimodales
Método de Ingeniería de Prompts de Aprendizaje Cero: Desarrollo de estrategias de prompts especializadas de ChatGPT para evaluaciones estudiantiles, capaces de generar retroalimentación de alta calidad sin datos de entrenamiento
Capacidad de Evaluación Multimodal: Verificación de la efectividad de los LLM en el procesamiento de evaluaciones de arquitectura de software que contienen texto y diagramas
Estudio de Verificación Docente: Demostración de la confiabilidad de la retroalimentación generada por IA a través de comparación con expertos humanos
Valor de Aplicación Práctica: Proporciona una solución viable para evaluación automatizada en cursos a gran escala
Entrada: Evaluaciones estudiantiles presentadas (incluyendo descripciones de texto, diagramas de arquitectura de software, etc.) + criterios de evaluación y especificaciones de calificación
Salida: Retroalimentación personalizada estructurada, incluyendo:
Análisis de fortalezas del trabajo
Identificación de deficiencias
Sugerencias específicas de mejora
Calificación cuantificada y su justificación
Restricciones:
Debe basarse en criterios de evaluación predefinidos
La retroalimentación debe ser constructiva y personalizada
Recopilación de datos de evaluación estudiantil anonimizados
Abarca múltiples tipos de evaluación del módulo de arquitectura de software (diagramas de casos de uso, diagramas de clases, diagramas de arquitectura de tres capas)
Obtención del consentimiento estudiantil y garantía de seguridad de datos
Ingeniería de Prompts (Prompt Engineering)
Restricción de Dominio: Uso de prompts estructurados para restringir ChatGPT al análisis dentro de parámetros específicos
Generación de Retroalimentación Personalizada: Personalización de prompts para analizar fortalezas, debilidades y sugerencias de mejora de cada presentación
Prueba Iterativa y Optimización: Garantía de consistencia de calidad de salida mediante pruebas exhaustivas
Identificación de Errores: Diseño de prompts para identificar errores estudiantiles y proporcionar explicaciones constructivas
Ejecución de Evaluación con ChatGPT (Assessment Evaluation with ChatGPT Prompt)
Entrada: Evaluación estudiantil + requisitos de tareas + criterios de evaluación
Procesamiento: Análisis basado en especificaciones de calificación proporcionadas
Salida: Retroalimentación constructiva + calificación general
Proceso de Evaluación y Negociación (Evaluation and Negotiation Process)
Verificación cruzada por expertos humanos de la retroalimentación generada por IA
Comparación con resultados de evaluación manual
Identificación y resolución de posibles problemas de "alucinación"
Capacidad de Procesamiento Multimodal: Utilización de GPT-4o para procesar simultáneamente contenido de texto e imágenes, adecuado para evaluaciones de ingeniería de software
Adaptabilidad de Aprendizaje Cero: Adaptación a diferentes tareas de evaluación únicamente mediante ingeniería de prompts, sin necesidad de datos de entrenamiento específicos
Generación de Retroalimentación Estructurada: Generación de retroalimentación completa que incluye fortalezas, debilidades, sugerencias de mejora y justificación de calificación
Verificación de Colaboración Humano-Máquina: Establecimiento de un mecanismo de negociación entre IA y expertos humanos para garantizar la calidad de la retroalimentación
Viabilidad Técnica: ChatGPT puede procesar efectivamente evaluaciones multimodales de estudiantes de ciencias de la computación, generando retroalimentación personalizada de alta calidad
Valor Educativo: La retroalimentación generada por IA es más detallada y constructiva que la retroalimentación manual tradicional, ayudando a mejorar el aprendizaje estudiantil
Practicidad: El método LLM-MATE puede ayudar a resolver desafíos de evaluación en cursos a gran escala, mejorando la eficiencia docente
Consistencia: La evaluación de IA puede proporcionar estándares de evaluación más consistentes que múltiples evaluadores humanos
Limitación de Escala de Datos: Solo se obtuvo consentimiento de 23 estudiantes, el tamaño de muestra es relativamente pequeño
Alcance de Evaluación: Principalmente se verificó la evaluación de diagramas de casos de uso, la verificación de diagramas de clases y arquitectura es insuficiente
Riesgo de Alucinación: Los LLM pueden generar contenido que parece autorizado pero es realmente erróneo
Dependencia de Dominio: Requiere criterios de calificación cuidadosamente diseñados para lograr el mejor desempeño
Falta de Perspectiva Estudiantil: No se evaluó directamente la aceptación y el efecto de aprendizaje de los estudiantes sobre la retroalimentación de IA
Este artículo cita 38 referencias relacionadas, incluyendo principalmente:
Referencias Centrales:
González-Calatayud et al. (2021) - Revisión de sistemas de evaluación estudiantil de IA
Maier & Klotz (2022) - Retroalimentación personalizada en entornos de aprendizaje digital
Biswas & Bhattacharya (2024) - Sistema de retroalimentación inteligente en tiempo real basado en ML
Liu et al. (2023) - Revisión sistemática de métodos de ingeniería de prompts
Referencias de Soporte Técnico:
White et al. (2024) - Patrones de prompts de ChatGPT
Wei et al. (2022) - Método de prompts de cadena de pensamiento
Chen et al. (2023) - Aplicación de LLM en ingeniería de software
Evaluación General: Este es un artículo de investigación con valor de aplicación práctica. Aunque tiene ciertas limitaciones en innovación técnica y escala experimental, proporciona experiencias de exploración y práctica valiosas para el campo de la tecnología educativa. El método de investigación es razonable, los resultados son confiables y tiene un significado positivo para promover la aplicación de IA en evaluación educativa.