2025-11-23T19:01:17.127547

Personalized and Constructive Feedback for Computer Science Students Using the Large Language Model (LLM)

Khan, Yaqoob, Tasadduq et al.
The evolving pedagogy paradigms are leading toward educational transformations. One fundamental aspect of effective learning is relevant, immediate, and constructive feedback to students. Providing constructive feedback to large cohorts in academia is an ongoing challenge. Therefore, academics are moving towards automated assessment to provide immediate feedback. However, current approaches are often limited in scope, offering simplistic responses that do not provide students with personalized feedback to guide them toward improvements. This paper addresses this limitation by investigating the performance of Large Language Models (LLMs) in processing students assessments with predefined rubrics and marking criteria to generate personalized feedback for in-depth learning. We aim to leverage the power of existing LLMs for Marking Assessments, Tracking, and Evaluation (LLM-MATE) with personalized feedback to enhance students learning. To evaluate the performance of LLM-MATE, we consider the Software Architecture (SA) module as a case study. The LLM-MATE approach can help module leaders overcome assessment challenges with large cohorts. Also, it helps students improve their learning by obtaining personalized feedback in a timely manner. Additionally, the proposed approach will facilitate the establishment of ground truth for automating the generation of students assessment feedback using the ChatGPT API, thereby reducing the overhead associated with large cohort assessments.
academic

Retroalimentación Personalizada y Constructiva para Estudiantes de Ciencias de la Computación Utilizando Modelos de Lenguaje Grande (LLM)

Información Básica

  • ID del Artículo: 2510.11556
  • Título: Personalized and Constructive Feedback for Computer Science Students Using the Large Language Model (LLM)
  • Autores: Javed Ali Khan, Muhammad Yaqoob, Mamoona Tasadduq, Hafsa Shareef Dar, Aitezaz Ahsan
  • Clasificación: cs.CY (Computadoras y Sociedad)
  • Fecha de Publicación/Conferencia: 2024 (preimpresión)
  • Enlace del Artículo: https://arxiv.org/abs/2510.11556

Resumen

La evolución del paradigma educativo está impulsando cambios en la educación. Un aspecto fundamental del aprendizaje efectivo es proporcionar a los estudiantes retroalimentación relevante, inmediata y constructiva. Proporcionar retroalimentación constructiva a grandes grupos de estudiantes es un desafío continuo que enfrenta la comunidad académica. Por lo tanto, los académicos se están orientando hacia la evaluación automatizada para proporcionar retroalimentación inmediata. Sin embargo, los enfoques actuales tienden a tener un alcance limitado, proporcionando respuestas simples que no pueden ofrecer retroalimentación personalizada a los estudiantes para guiar sus mejoras. Este artículo aborda esta limitación investigando el desempeño de los modelos de lenguaje grande (LLM) en el procesamiento de evaluaciones estudiantiles utilizando criterios de calificación predefinidos y la generación de retroalimentación personalizada. Los autores tienen como objetivo aprovechar el poder de los LLM existentes para calificación, seguimiento y evaluación (LLM-MATE), mejorando el aprendizaje estudiantil a través de retroalimentación personalizada.

Antecedentes de Investigación y Motivación

1. Problemas Centrales

Esta investigación aborda principalmente los siguientes problemas:

  • Desafío de Retroalimentación a Escala: Dificultad para proporcionar retroalimentación oportuna y personalizada a grandes grupos de estudiantes
  • Limitaciones de la Evaluación Automatizada Tradicional: Los métodos de evaluación automatizada existentes tienen un alcance limitado, solo pueden proporcionar respuestas simples y carecen de orientación personalizada
  • Carga de Trabajo Docente: La evaluación manual de una gran cantidad de tareas estudiantiles consume tiempo y recursos, lo que dificulta garantizar la calidad y consistencia de la retroalimentación

2. Importancia del Problema

  • Mejora de la Calidad Educativa: La retroalimentación oportuna y personalizada es fundamental para el aprendizaje efectivo
  • Desarrollo de Educación Inteligente: Después de la pandemia de COVID-19, ha aumentado la demanda de educación en línea y plataformas educativas inteligentes
  • Equidad Educativa: La evaluación automatizada puede proporcionar retroalimentación de calidad consistente a todos los estudiantes

3. Limitaciones de los Métodos Existentes

  • La mayoría de las investigaciones se concentran en evaluación formativa, con insuficiente atención a la evaluación sumativa
  • Las herramientas de evaluación de IA existentes proporcionan retroalimentación demasiado simple, careciendo de sugerencias detalladas de mejora
  • Los criterios de evaluación son inconsistentes, diferentes docentes pueden proporcionar evaluaciones significativamente diferentes

4. Motivación de la Investigación

Aprovechar las poderosas capacidades de comprensión y generación de texto de los modelos de lenguaje grande, combinadas con criterios de calificación predefinidos, para proporcionar retroalimentación personalizada y constructiva para evaluaciones multimodales (texto, imágenes, programación) de estudiantes de ciencias de la computación.

Contribuciones Principales

  1. Propuesta del Marco LLM-MATE: Un sistema de calificación, seguimiento y evaluación basado en modelos de lenguaje grande, capaz de procesar evaluaciones estudiantiles multimodales
  2. Método de Ingeniería de Prompts de Aprendizaje Cero: Desarrollo de estrategias de prompts especializadas de ChatGPT para evaluaciones estudiantiles, capaces de generar retroalimentación de alta calidad sin datos de entrenamiento
  3. Capacidad de Evaluación Multimodal: Verificación de la efectividad de los LLM en el procesamiento de evaluaciones de arquitectura de software que contienen texto y diagramas
  4. Estudio de Verificación Docente: Demostración de la confiabilidad de la retroalimentación generada por IA a través de comparación con expertos humanos
  5. Valor de Aplicación Práctica: Proporciona una solución viable para evaluación automatizada en cursos a gran escala

Explicación Detallada del Método

Definición de Tareas

Entrada: Evaluaciones estudiantiles presentadas (incluyendo descripciones de texto, diagramas de arquitectura de software, etc.) + criterios de evaluación y especificaciones de calificación Salida: Retroalimentación personalizada estructurada, incluyendo:

  • Análisis de fortalezas del trabajo
  • Identificación de deficiencias
  • Sugerencias específicas de mejora
  • Calificación cuantificada y su justificación

Restricciones:

  • Debe basarse en criterios de evaluación predefinidos
  • La retroalimentación debe ser constructiva y personalizada
  • Aplicable a grandes grupos de estudiantes

Arquitectura del Modelo

Marco General: Método de Cuatro Pasos LLM-MATE

  1. Recopilación de Datos (Data Collection)
    • Recopilación de datos de evaluación estudiantil anonimizados
    • Abarca múltiples tipos de evaluación del módulo de arquitectura de software (diagramas de casos de uso, diagramas de clases, diagramas de arquitectura de tres capas)
    • Obtención del consentimiento estudiantil y garantía de seguridad de datos
  2. Ingeniería de Prompts (Prompt Engineering)
    • Restricción de Dominio: Uso de prompts estructurados para restringir ChatGPT al análisis dentro de parámetros específicos
    • Generación de Retroalimentación Personalizada: Personalización de prompts para analizar fortalezas, debilidades y sugerencias de mejora de cada presentación
    • Prueba Iterativa y Optimización: Garantía de consistencia de calidad de salida mediante pruebas exhaustivas
    • Identificación de Errores: Diseño de prompts para identificar errores estudiantiles y proporcionar explicaciones constructivas
  3. Ejecución de Evaluación con ChatGPT (Assessment Evaluation with ChatGPT Prompt)
    • Entrada: Evaluación estudiantil + requisitos de tareas + criterios de evaluación
    • Procesamiento: Análisis basado en especificaciones de calificación proporcionadas
    • Salida: Retroalimentación constructiva + calificación general
  4. Proceso de Evaluación y Negociación (Evaluation and Negotiation Process)
    • Verificación cruzada por expertos humanos de la retroalimentación generada por IA
    • Comparación con resultados de evaluación manual
    • Identificación y resolución de posibles problemas de "alucinación"

Detalles Técnicos Clave

Estrategia de Aprendizaje Cero:

Prompt del Sistema + Introducción de Evaluación + Criterios de Calificación + Respuesta Estudiantil + Requisitos de Formato de Salida

Diseño de Estructura de Prompts:

  • Definición clara de rol (como experto en evaluación de arquitectura de software)
  • Explicación detallada de criterios de calificación
  • Requisitos de formato de salida estructurado
  • Requisitos específicos para retroalimentación constructiva

Puntos de Innovación Técnica

  1. Capacidad de Procesamiento Multimodal: Utilización de GPT-4o para procesar simultáneamente contenido de texto e imágenes, adecuado para evaluaciones de ingeniería de software
  2. Adaptabilidad de Aprendizaje Cero: Adaptación a diferentes tareas de evaluación únicamente mediante ingeniería de prompts, sin necesidad de datos de entrenamiento específicos
  3. Generación de Retroalimentación Estructurada: Generación de retroalimentación completa que incluye fortalezas, debilidades, sugerencias de mejora y justificación de calificación
  4. Verificación de Colaboración Humano-Máquina: Establecimiento de un mecanismo de negociación entre IA y expertos humanos para garantizar la calidad de la retroalimentación

Configuración Experimental

Conjunto de Datos

  • Fuente: Módulo de Arquitectura de Software (SA) de la Universidad de Hertfordshire, Reino Unido
  • Escala: Consentimiento obtenido de 23 estudiantes de un total de 290
  • Contenido: Evaluaciones que contienen diagramas de casos de uso, diagramas de clases y diagramas de arquitectura de tres capas
  • Asignación de Pesos: Diagrama de casos de uso 30%, diagrama de clases 30%, diagrama de arquitectura de tres capas 40%
  • Selección de Muestras: Selección de muestras de trabajos de alta, media y baja calificación basada en principios de diversidad

Métricas de Evaluación

  • Puntuación de Confianza: Nivel de confianza del docente en la retroalimentación de IA (escala de 1-5)
    • 1-2 puntos: Baja confianza
    • 3 puntos: Confianza media
    • 4-5 puntos: Alta confianza
  • Evaluación de Calidad de Retroalimentación: Comparación del nivel de detalle y constructividad entre retroalimentación de IA y manual

Métodos de Comparación

  • Evaluación Manual: Resultados de evaluación manual de 4 miembros del equipo del módulo como referencia
  • Retroalimentación Tradicional: Evaluación resumida breve (como se muestra en la Figura 4)
  • Retroalimentación de IA: Retroalimentación estructurada detallada (como se muestra en la Figura 3)

Detalles de Implementación

  • Modelo: GPT-4o (compatible con análisis de texto e imágenes)
  • Interfaz: Interfaz web de ChatGPT
  • Estrategia de Prompts: Aprendizaje cero
  • Alcance de Evaluación: Enfoque principal en evaluación de diagramas de casos de uso (30 puntos de puntuación máxima)

Resultados Experimentales

Resultados Principales

RQ1: Desempeño de ChatGPT en Evaluación

Hallazgos: ChatGPT muestra buen desempeño en la generación de retroalimentación personalizada y constructiva

  • Capacidad para elaborar detalladamente las fortalezas del trabajo
  • Identificación precisa de deficiencias
  • Provisión de sugerencias específicas de mejora
  • Proporciona calificaciones razonables y su justificación

Análisis Comparativo:

  • Retroalimentación de IA (Figura 3): Detallada, estructurada, personalizada, con sugerencias técnicas específicas
  • Retroalimentación Manual (Figura 4): Resumen breve, carece de orientación detallada de mejora

RQ2: Confiabilidad de la Retroalimentación de IA

Resultados de Verificación Docente:

  • Puntuaciones de confianza de 4 docentes: 4, 5, 4, 3
  • Confianza Promedio: 4.0 puntos (rango de alta confianza)
  • Consistencia: Todos los docentes reconocen la alta calidad de la retroalimentación de IA

Análisis de Casos

Características Típicas de Retroalimentación de IA:

  1. Identificación de Fortalezas: Identificación precisa de implementaciones correctas en trabajos estudiantiles
  2. Diagnóstico de Problemas: Señalamiento específico de errores técnicos y conceptos mal entendidos
  3. Sugerencias de Mejora: Provisión de planes de mejora específicos y accionables
  4. Justificación de Calificación: Explicación detallada de la base de la calificación

Hallazgos Experimentales

  1. Ventaja de Consistencia: La evaluación de IA puede proporcionar estándares de retroalimentación más consistentes que la evaluación manual
  2. Nivel de Detalle: La retroalimentación generada por IA es más detallada y específica que la retroalimentación manual tradicional
  3. Oportunidad: Capacidad de generar retroalimentación inmediata, satisfaciendo las necesidades de enseñanza a gran escala
  4. Personalización: Proporciona sugerencias personalizadas basadas en circunstancias específicas de cada estudiante

Trabajo Relacionado

Direcciones de Investigación Principales

  1. Sistemas de Retroalimentación Inteligente:
    • Sistema de retroalimentación en tiempo real basado en aprendizaje automático de Biswas et al.
    • Método de retroalimentación adaptativa de Gutierrez y Atkinson
    • Mecanismo de retroalimentación integrado en LMS de Van der Merwe et al.
  2. Evaluación Automatizada:
    • Herramienta de calificación automática de IA de Fu et al.
    • Calificación de artículos de aprendizaje profundo de Lu y Cutumisu
    • Revisión de evaluación de IA de González-Calatayud et al.
  3. Aprendizaje Personalizado:
    • Marco de clasificación de retroalimentación personalizada de Maier et al.
    • Revisión de retroalimentación adaptativa de Bimba et al.

Comparación de Puntos de Innovación del Artículo

AspectoTrabajos ExistentesContribución del Artículo
Tipo de EvaluaciónEnfoque principal en evaluación formativaEnfoque en evaluación sumativa
Nivel de Detalle de RetroalimentaciónCalificación simple o clasificaciónRetroalimentación estructurada detallada
Procesamiento MultimodalLa mayoría solo procesa textoProcesamiento simultáneo de texto e imágenes
Método de VerificaciónEncuestas de satisfacción estudiantilEvaluación de confianza de expertos

Conclusiones y Discusión

Conclusiones Principales

  1. Viabilidad Técnica: ChatGPT puede procesar efectivamente evaluaciones multimodales de estudiantes de ciencias de la computación, generando retroalimentación personalizada de alta calidad
  2. Valor Educativo: La retroalimentación generada por IA es más detallada y constructiva que la retroalimentación manual tradicional, ayudando a mejorar el aprendizaje estudiantil
  3. Practicidad: El método LLM-MATE puede ayudar a resolver desafíos de evaluación en cursos a gran escala, mejorando la eficiencia docente
  4. Consistencia: La evaluación de IA puede proporcionar estándares de evaluación más consistentes que múltiples evaluadores humanos

Limitaciones

  1. Limitación de Escala de Datos: Solo se obtuvo consentimiento de 23 estudiantes, el tamaño de muestra es relativamente pequeño
  2. Alcance de Evaluación: Principalmente se verificó la evaluación de diagramas de casos de uso, la verificación de diagramas de clases y arquitectura es insuficiente
  3. Riesgo de Alucinación: Los LLM pueden generar contenido que parece autorizado pero es realmente erróneo
  4. Dependencia de Dominio: Requiere criterios de calificación cuidadosamente diseñados para lograr el mejor desempeño
  5. Falta de Perspectiva Estudiantil: No se evaluó directamente la aceptación y el efecto de aprendizaje de los estudiantes sobre la retroalimentación de IA

Direcciones Futuras

  1. Expansión Experimental:
    • Aumento del tamaño del conjunto de datos
    • Verificación de otros tipos de diagramas de ingeniería de software
    • Prueba de aplicabilidad en diferentes campos disciplinarios
  2. Mejora Técnica:
    • Exploración de métodos de aprendizaje con pocas muestras y prompts de cadena de pensamiento
    • Desarrollo de soluciones automatizadas con API de ChatGPT
    • Establecimiento de mecanismos más completos de colaboración humano-máquina
  3. Evaluación de Efectos Educativos:
    • Investigación del impacto real de la retroalimentación de IA en el efecto de aprendizaje estudiantil
    • Evaluación de la aceptación y confianza estudiantil en la retroalimentación de IA

Evaluación Profunda

Fortalezas

  1. Orientación Hacia Problemas Prácticos: Aborda puntos débiles reales en la educación, con valor de aplicación claro
  2. Innovación Metodológica: La aplicación de LLM a evaluación educativa multimodal es un intento novedoso
  3. Suficiencia de Verificación: Garantiza la credibilidad de los resultados de investigación a través de verificación de expertos
  4. Fuerte Practicidad: El marco propuesto puede aplicarse directamente en entornos educativos reales

Deficiencias

  1. Escala Experimental Limitada: Número pequeño de muestras, puede afectar la generalidad de los resultados
  2. Dimensión de Evaluación Única: Enfoque principal en calidad de retroalimentación, carece de medición directa de efectos de aprendizaje
  3. Profundidad Técnica Insuficiente: Uso principalmente de API existentes, carece de innovación técnica profunda
  4. Falta de Análisis de Costo-Beneficio: No se discute el costo y sostenibilidad del despliegue a gran escala

Impacto

  1. Contribución Académica: Proporciona nuevas perspectivas para la aplicación de LLM en el campo de la tecnología educativa
  2. Valor Práctico: Puede aplicarse directamente a evaluación de cursos a gran escala en educación superior
  3. Reproducibilidad: La descripción del método es clara, fácil de reproducir y mejorar por otros investigadores
  4. Potencial de Promoción: El marco tiene buena generalidad y puede extenderse a otras disciplinas

Escenarios Aplicables

  1. Cursos a Gran Escala: Particularmente adecuado para cursos de ciencias de la computación con gran número de estudiantes
  2. Evaluación Estandarizada: Adecuado para cursos técnicos con criterios de evaluación claros
  3. Tareas Multimodales: Adecuado para evaluaciones integrales que contienen diagramas, código y texto
  4. Educación en Línea: Proporciona soluciones de evaluación automatizada para plataformas de educación remota

Referencias

Este artículo cita 38 referencias relacionadas, incluyendo principalmente:

Referencias Centrales:

  1. González-Calatayud et al. (2021) - Revisión de sistemas de evaluación estudiantil de IA
  2. Maier & Klotz (2022) - Retroalimentación personalizada en entornos de aprendizaje digital
  3. Biswas & Bhattacharya (2024) - Sistema de retroalimentación inteligente en tiempo real basado en ML
  4. Liu et al. (2023) - Revisión sistemática de métodos de ingeniería de prompts

Referencias de Soporte Técnico:

  • White et al. (2024) - Patrones de prompts de ChatGPT
  • Wei et al. (2022) - Método de prompts de cadena de pensamiento
  • Chen et al. (2023) - Aplicación de LLM en ingeniería de software

Evaluación General: Este es un artículo de investigación con valor de aplicación práctica. Aunque tiene ciertas limitaciones en innovación técnica y escala experimental, proporciona experiencias de exploración y práctica valiosas para el campo de la tecnología educativa. El método de investigación es razonable, los resultados son confiables y tiene un significado positivo para promover la aplicación de IA en evaluación educativa.