2025-11-23T19:01:17.127547

Personalized and Constructive Feedback for Computer Science Students Using the Large Language Model (LLM)

Khan, Yaqoob, Tasadduq et al.

The evolving pedagogy paradigms are leading toward educational transformations. One fundamental aspect of effective learning is relevant, immediate, and constructive feedback to students. Providing constructive feedback to large cohorts in academia is an ongoing challenge. Therefore, academics are moving towards automated assessment to provide immediate feedback. However, current approaches are often limited in scope, offering simplistic responses that do not provide students with personalized feedback to guide them toward improvements. This paper addresses this limitation by investigating the performance of Large Language Models (LLMs) in processing students assessments with predefined rubrics and marking criteria to generate personalized feedback for in-depth learning. We aim to leverage the power of existing LLMs for Marking Assessments, Tracking, and Evaluation (LLM-MATE) with personalized feedback to enhance students learning. To evaluate the performance of LLM-MATE, we consider the Software Architecture (SA) module as a case study. The LLM-MATE approach can help module leaders overcome assessment challenges with large cohorts. Also, it helps students improve their learning by obtaining personalized feedback in a timely manner. Additionally, the proposed approach will facilitate the establishment of ground truth for automating the generation of students assessment feedback using the ChatGPT API, thereby reducing the overhead associated with large cohort assessments.

academic

Retroalimentación Personalizada y Constructiva para Estudiantes de Ciencias de la Computación Utilizando Modelos de Lenguaje Grande (LLM)

Información Básica

ID del Artículo: 2510.11556
Título: Personalized and Constructive Feedback for Computer Science Students Using the Large Language Model (LLM)
Autores: Javed Ali Khan, Muhammad Yaqoob, Mamoona Tasadduq, Hafsa Shareef Dar, Aitezaz Ahsan
Clasificación: cs.CY (Computadoras y Sociedad)
Fecha de Publicación/Conferencia: 2024 (preimpresión)
Enlace del Artículo: https://arxiv.org/abs/2510.11556

Resumen

La evolución del paradigma educativo está impulsando cambios en la educación. Un aspecto fundamental del aprendizaje efectivo es proporcionar a los estudiantes retroalimentación relevante, inmediata y constructiva. Proporcionar retroalimentación constructiva a grandes grupos de estudiantes es un desafío continuo que enfrenta la comunidad académica. Por lo tanto, los académicos se están orientando hacia la evaluación automatizada para proporcionar retroalimentación inmediata. Sin embargo, los enfoques actuales tienden a tener un alcance limitado, proporcionando respuestas simples que no pueden ofrecer retroalimentación personalizada a los estudiantes para guiar sus mejoras. Este artículo aborda esta limitación investigando el desempeño de los modelos de lenguaje grande (LLM) en el procesamiento de evaluaciones estudiantiles utilizando criterios de calificación predefinidos y la generación de retroalimentación personalizada. Los autores tienen como objetivo aprovechar el poder de los LLM existentes para calificación, seguimiento y evaluación (LLM-MATE), mejorando el aprendizaje estudiantil a través de retroalimentación personalizada.

Antecedentes de Investigación y Motivación

1. Problemas Centrales

Esta investigación aborda principalmente los siguientes problemas:

Desafío de Retroalimentación a Escala: Dificultad para proporcionar retroalimentación oportuna y personalizada a grandes grupos de estudiantes
Limitaciones de la Evaluación Automatizada Tradicional: Los métodos de evaluación automatizada existentes tienen un alcance limitado, solo pueden proporcionar respuestas simples y carecen de orientación personalizada
Carga de Trabajo Docente: La evaluación manual de una gran cantidad de tareas estudiantiles consume tiempo y recursos, lo que dificulta garantizar la calidad y consistencia de la retroalimentación

2. Importancia del Problema

Mejora de la Calidad Educativa: La retroalimentación oportuna y personalizada es fundamental para el aprendizaje efectivo
Desarrollo de Educación Inteligente: Después de la pandemia de COVID-19, ha aumentado la demanda de educación en línea y plataformas educativas inteligentes
Equidad Educativa: La evaluación automatizada puede proporcionar retroalimentación de calidad consistente a todos los estudiantes

3. Limitaciones de los Métodos Existentes

La mayoría de las investigaciones se concentran en evaluación formativa, con insuficiente atención a la evaluación sumativa
Las herramientas de evaluación de IA existentes proporcionan retroalimentación demasiado simple, careciendo de sugerencias detalladas de mejora
Los criterios de evaluación son inconsistentes, diferentes docentes pueden proporcionar evaluaciones significativamente diferentes

4. Motivación de la Investigación

Aprovechar las poderosas capacidades de comprensión y generación de texto de los modelos de lenguaje grande, combinadas con criterios de calificación predefinidos, para proporcionar retroalimentación personalizada y constructiva para evaluaciones multimodales (texto, imágenes, programación) de estudiantes de ciencias de la computación.

Contribuciones Principales

Propuesta del Marco LLM-MATE: Un sistema de calificación, seguimiento y evaluación basado en modelos de lenguaje grande, capaz de procesar evaluaciones estudiantiles multimodales
Método de Ingeniería de Prompts de Aprendizaje Cero: Desarrollo de estrategias de prompts especializadas de ChatGPT para evaluaciones estudiantiles, capaces de generar retroalimentación de alta calidad sin datos de entrenamiento
Capacidad de Evaluación Multimodal: Verificación de la efectividad de los LLM en el procesamiento de evaluaciones de arquitectura de software que contienen texto y diagramas
Estudio de Verificación Docente: Demostración de la confiabilidad de la retroalimentación generada por IA a través de comparación con expertos humanos
Valor de Aplicación Práctica: Proporciona una solución viable para evaluación automatizada en cursos a gran escala

Explicación Detallada del Método

Definición de Tareas

Entrada: Evaluaciones estudiantiles presentadas (incluyendo descripciones de texto, diagramas de arquitectura de software, etc.) + criterios de evaluación y especificaciones de calificación Salida: Retroalimentación personalizada estructurada, incluyendo:

Análisis de fortalezas del trabajo
Identificación de deficiencias
Sugerencias específicas de mejora
Calificación cuantificada y su justificación

Restricciones:

Debe basarse en criterios de evaluación predefinidos
La retroalimentación debe ser constructiva y personalizada
Aplicable a grandes grupos de estudiantes

Arquitectura del Modelo

Marco General: Método de Cuatro Pasos LLM-MATE

Recopilación de Datos (Data Collection)
- Recopilación de datos de evaluación estudiantil anonimizados
- Abarca múltiples tipos de evaluación del módulo de arquitectura de software (diagramas de casos de uso, diagramas de clases, diagramas de arquitectura de tres capas)
- Obtención del consentimiento estudiantil y garantía de seguridad de datos
Ingeniería de Prompts (Prompt Engineering)
- Restricción de Dominio: Uso de prompts estructurados para restringir ChatGPT al análisis dentro de parámetros específicos
- Generación de Retroalimentación Personalizada: Personalización de prompts para analizar fortalezas, debilidades y sugerencias de mejora de cada presentación
- Prueba Iterativa y Optimización: Garantía de consistencia de calidad de salida mediante pruebas exhaustivas
- Identificación de Errores: Diseño de prompts para identificar errores estudiantiles y proporcionar explicaciones constructivas
Ejecución de Evaluación con ChatGPT (Assessment Evaluation with ChatGPT Prompt)
- Entrada: Evaluación estudiantil + requisitos de tareas + criterios de evaluación
- Procesamiento: Análisis basado en especificaciones de calificación proporcionadas
- Salida: Retroalimentación constructiva + calificación general
Proceso de Evaluación y Negociación (Evaluation and Negotiation Process)
- Verificación cruzada por expertos humanos de la retroalimentación generada por IA
- Comparación con resultados de evaluación manual
- Identificación y resolución de posibles problemas de "alucinación"

Detalles Técnicos Clave

Estrategia de Aprendizaje Cero:

Prompt del Sistema + Introducción de Evaluación + Criterios de Calificación + Respuesta Estudiantil + Requisitos de Formato de Salida

Diseño de Estructura de Prompts:

Definición clara de rol (como experto en evaluación de arquitectura de software)
Explicación detallada de criterios de calificación
Requisitos de formato de salida estructurado
Requisitos específicos para retroalimentación constructiva

Puntos de Innovación Técnica

Capacidad de Procesamiento Multimodal: Utilización de GPT-4o para procesar simultáneamente contenido de texto e imágenes, adecuado para evaluaciones de ingeniería de software
Adaptabilidad de Aprendizaje Cero: Adaptación a diferentes tareas de evaluación únicamente mediante ingeniería de prompts, sin necesidad de datos de entrenamiento específicos
Generación de Retroalimentación Estructurada: Generación de retroalimentación completa que incluye fortalezas, debilidades, sugerencias de mejora y justificación de calificación
Verificación de Colaboración Humano-Máquina: Establecimiento de un mecanismo de negociación entre IA y expertos humanos para garantizar la calidad de la retroalimentación

Configuración Experimental

Conjunto de Datos

Fuente: Módulo de Arquitectura de Software (SA) de la Universidad de Hertfordshire, Reino Unido
Escala: Consentimiento obtenido de 23 estudiantes de un total de 290
Contenido: Evaluaciones que contienen diagramas de casos de uso, diagramas de clases y diagramas de arquitectura de tres capas
Asignación de Pesos: Diagrama de casos de uso 30%, diagrama de clases 30%, diagrama de arquitectura de tres capas 40%
Selección de Muestras: Selección de muestras de trabajos de alta, media y baja calificación basada en principios de diversidad

Métricas de Evaluación

Puntuación de Confianza: Nivel de confianza del docente en la retroalimentación de IA (escala de 1-5)
- 1-2 puntos: Baja confianza
- 3 puntos: Confianza media
- 4-5 puntos: Alta confianza
Evaluación de Calidad de Retroalimentación: Comparación del nivel de detalle y constructividad entre retroalimentación de IA y manual

Métodos de Comparación

Evaluación Manual: Resultados de evaluación manual de 4 miembros del equipo del módulo como referencia
Retroalimentación Tradicional: Evaluación resumida breve (como se muestra en la Figura 4)
Retroalimentación de IA: Retroalimentación estructurada detallada (como se muestra en la Figura 3)

Detalles de Implementación

Modelo: GPT-4o (compatible con análisis de texto e imágenes)
Interfaz: Interfaz web de ChatGPT
Estrategia de Prompts: Aprendizaje cero
Alcance de Evaluación: Enfoque principal en evaluación de diagramas de casos de uso (30 puntos de puntuación máxima)

Resultados Experimentales

Resultados Principales

RQ1: Desempeño de ChatGPT en Evaluación

Hallazgos: ChatGPT muestra buen desempeño en la generación de retroalimentación personalizada y constructiva

Capacidad para elaborar detalladamente las fortalezas del trabajo
Identificación precisa de deficiencias
Provisión de sugerencias específicas de mejora
Proporciona calificaciones razonables y su justificación

Análisis Comparativo:

Retroalimentación de IA (Figura 3): Detallada, estructurada, personalizada, con sugerencias técnicas específicas
Retroalimentación Manual (Figura 4): Resumen breve, carece de orientación detallada de mejora

RQ2: Confiabilidad de la Retroalimentación de IA

Resultados de Verificación Docente:

Puntuaciones de confianza de 4 docentes: 4, 5, 4, 3
Confianza Promedio: 4.0 puntos (rango de alta confianza)
Consistencia: Todos los docentes reconocen la alta calidad de la retroalimentación de IA

Análisis de Casos

Características Típicas de Retroalimentación de IA:

Identificación de Fortalezas: Identificación precisa de implementaciones correctas en trabajos estudiantiles
Diagnóstico de Problemas: Señalamiento específico de errores técnicos y conceptos mal entendidos
Sugerencias de Mejora: Provisión de planes de mejora específicos y accionables
Justificación de Calificación: Explicación detallada de la base de la calificación

Hallazgos Experimentales

Ventaja de Consistencia: La evaluación de IA puede proporcionar estándares de retroalimentación más consistentes que la evaluación manual
Nivel de Detalle: La retroalimentación generada por IA es más detallada y específica que la retroalimentación manual tradicional
Oportunidad: Capacidad de generar retroalimentación inmediata, satisfaciendo las necesidades de enseñanza a gran escala
Personalización: Proporciona sugerencias personalizadas basadas en circunstancias específicas de cada estudiante

Trabajo Relacionado

Direcciones de Investigación Principales

Sistemas de Retroalimentación Inteligente:
- Sistema de retroalimentación en tiempo real basado en aprendizaje automático de Biswas et al.
- Método de retroalimentación adaptativa de Gutierrez y Atkinson
- Mecanismo de retroalimentación integrado en LMS de Van der Merwe et al.
Evaluación Automatizada:
- Herramienta de calificación automática de IA de Fu et al.
- Calificación de artículos de aprendizaje profundo de Lu y Cutumisu
- Revisión de evaluación de IA de González-Calatayud et al.
Aprendizaje Personalizado:
- Marco de clasificación de retroalimentación personalizada de Maier et al.
- Revisión de retroalimentación adaptativa de Bimba et al.

Comparación de Puntos de Innovación del Artículo

Aspecto	Trabajos Existentes	Contribución del Artículo
Tipo de Evaluación	Enfoque principal en evaluación formativa	Enfoque en evaluación sumativa
Nivel de Detalle de Retroalimentación	Calificación simple o clasificación	Retroalimentación estructurada detallada
Procesamiento Multimodal	La mayoría solo procesa texto	Procesamiento simultáneo de texto e imágenes
Método de Verificación	Encuestas de satisfacción estudiantil	Evaluación de confianza de expertos

Conclusiones y Discusión

Conclusiones Principales

Viabilidad Técnica: ChatGPT puede procesar efectivamente evaluaciones multimodales de estudiantes de ciencias de la computación, generando retroalimentación personalizada de alta calidad
Valor Educativo: La retroalimentación generada por IA es más detallada y constructiva que la retroalimentación manual tradicional, ayudando a mejorar el aprendizaje estudiantil
Practicidad: El método LLM-MATE puede ayudar a resolver desafíos de evaluación en cursos a gran escala, mejorando la eficiencia docente
Consistencia: La evaluación de IA puede proporcionar estándares de evaluación más consistentes que múltiples evaluadores humanos

Limitaciones

Limitación de Escala de Datos: Solo se obtuvo consentimiento de 23 estudiantes, el tamaño de muestra es relativamente pequeño
Alcance de Evaluación: Principalmente se verificó la evaluación de diagramas de casos de uso, la verificación de diagramas de clases y arquitectura es insuficiente
Riesgo de Alucinación: Los LLM pueden generar contenido que parece autorizado pero es realmente erróneo
Dependencia de Dominio: Requiere criterios de calificación cuidadosamente diseñados para lograr el mejor desempeño
Falta de Perspectiva Estudiantil: No se evaluó directamente la aceptación y el efecto de aprendizaje de los estudiantes sobre la retroalimentación de IA

Direcciones Futuras

Expansión Experimental:
- Aumento del tamaño del conjunto de datos
- Verificación de otros tipos de diagramas de ingeniería de software
- Prueba de aplicabilidad en diferentes campos disciplinarios
Mejora Técnica:
- Exploración de métodos de aprendizaje con pocas muestras y prompts de cadena de pensamiento
- Desarrollo de soluciones automatizadas con API de ChatGPT
- Establecimiento de mecanismos más completos de colaboración humano-máquina
Evaluación de Efectos Educativos:
- Investigación del impacto real de la retroalimentación de IA en el efecto de aprendizaje estudiantil
- Evaluación de la aceptación y confianza estudiantil en la retroalimentación de IA

Evaluación Profunda

Fortalezas

Orientación Hacia Problemas Prácticos: Aborda puntos débiles reales en la educación, con valor de aplicación claro
Innovación Metodológica: La aplicación de LLM a evaluación educativa multimodal es un intento novedoso
Suficiencia de Verificación: Garantiza la credibilidad de los resultados de investigación a través de verificación de expertos
Fuerte Practicidad: El marco propuesto puede aplicarse directamente en entornos educativos reales

Deficiencias

Escala Experimental Limitada: Número pequeño de muestras, puede afectar la generalidad de los resultados
Dimensión de Evaluación Única: Enfoque principal en calidad de retroalimentación, carece de medición directa de efectos de aprendizaje
Profundidad Técnica Insuficiente: Uso principalmente de API existentes, carece de innovación técnica profunda
Falta de Análisis de Costo-Beneficio: No se discute el costo y sostenibilidad del despliegue a gran escala

Impacto

Contribución Académica: Proporciona nuevas perspectivas para la aplicación de LLM en el campo de la tecnología educativa
Valor Práctico: Puede aplicarse directamente a evaluación de cursos a gran escala en educación superior
Reproducibilidad: La descripción del método es clara, fácil de reproducir y mejorar por otros investigadores
Potencial de Promoción: El marco tiene buena generalidad y puede extenderse a otras disciplinas

Escenarios Aplicables

Cursos a Gran Escala: Particularmente adecuado para cursos de ciencias de la computación con gran número de estudiantes
Evaluación Estandarizada: Adecuado para cursos técnicos con criterios de evaluación claros
Tareas Multimodales: Adecuado para evaluaciones integrales que contienen diagramas, código y texto
Educación en Línea: Proporciona soluciones de evaluación automatizada para plataformas de educación remota

Referencias

Este artículo cita 38 referencias relacionadas, incluyendo principalmente:

Referencias Centrales:

González-Calatayud et al. (2021) - Revisión de sistemas de evaluación estudiantil de IA
Maier & Klotz (2022) - Retroalimentación personalizada en entornos de aprendizaje digital
Biswas & Bhattacharya (2024) - Sistema de retroalimentación inteligente en tiempo real basado en ML
Liu et al. (2023) - Revisión sistemática de métodos de ingeniería de prompts

Referencias de Soporte Técnico:

White et al. (2024) - Patrones de prompts de ChatGPT
Wei et al. (2022) - Método de prompts de cadena de pensamiento
Chen et al. (2023) - Aplicación de LLM en ingeniería de software

Evaluación General: Este es un artículo de investigación con valor de aplicación práctica. Aunque tiene ciertas limitaciones en innovación técnica y escala experimental, proporciona experiencias de exploración y práctica valiosas para el campo de la tecnología educativa. El método de investigación es razonable, los resultados son confiables y tiene un significado positivo para promover la aplicación de IA en evaluación educativa.