2025-11-16T00:07:11.969314

Automatic Piecewise Linear Regression for Predicting Student Learning Satisfaction

Choi, Nadarajan

Although student learning satisfaction has been widely studied, modern techniques such as interpretable machine learning and neural networks have not been sufficiently explored. This study demonstrates that a recent model that combines boosting with interpretability, automatic piecewise linear regression(APLR), offers the best fit for predicting learning satisfaction among several state-of-the-art approaches. Through the analysis of APLR's numerical and visual interpretations, students' time management and concentration abilities, perceived helpfulness to classmates, and participation in offline courses have the most significant positive impact on learning satisfaction. Surprisingly, involvement in creative activities did not positively affect learning satisfaction. Moreover, the contributing factors can be interpreted on an individual level, allowing educators to customize instructions according to student profiles.

academic

Regresión Lineal por Tramos Automática para Predecir la Satisfacción del Aprendizaje Estudiantil

Información Básica

ID del Artículo: 2510.10639
Título: Automatic Piecewise Linear Regression for Predicting Student Learning Satisfaction
Autores: Haemin Choi, Gayathri Nadarajan (Departamento de Ciencia de Datos, Universidad Sungkyunkwan)
Clasificación: cs.AI cs.LG
Fecha de Publicación: 12 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.10639

Resumen

Este estudio explora la aplicación de la Regresión Lineal por Tramos Automática (APLR) en la predicción de la satisfacción del aprendizaje estudiantil. Aunque la satisfacción del aprendizaje estudiantil ha sido ampliamente investigada, las técnicas modernas de aprendizaje automático interpretable y redes neuronales aún no han sido suficientemente exploradas. El estudio demuestra que el modelo APLR, que combina algoritmos de impulso y capacidad interpretable, presenta el mejor desempeño entre diversos métodos de última generación. A través del análisis de interpretación numérica y visual de APLR, se descubrió que la capacidad de gestión del tiempo del estudiante, la capacidad de concentración, la percepción de ayuda a compañeros y la participación en cursos presenciales tienen los efectos positivos más significativos en la satisfacción del aprendizaje. Sorprendentemente, la participación en actividades creativas no produjo un impacto positivo en la satisfacción del aprendizaje.

Contexto y Motivación de la Investigación

Definición del Problema

Este estudio tiene como objetivo abordar el problema de la predicción de la satisfacción del aprendizaje estudiantil y la identificación de factores influyentes durante la pandemia de COVID-19. Después de experimentar dos años de aprendizaje en línea, las preferencias de los estudiantes por diferentes modalidades de aprendizaje han cambiado, lo que requiere una comprensión profunda de los factores clave que afectan la satisfacción del aprendizaje.

Importancia de la Investigación

Orientación de la Práctica Educativa: Ayudar a educadores e instituciones a personalizar mejores métodos de enseñanza para mejorar la experiencia general de aprendizaje
Aprendizaje Personalizado: Proporcionar bases científicas para la enseñanza personalizada
Análisis del Impacto de la Pandemia: Comprender profundamente el impacto de los entornos de enseñanza especiales durante la pandemia en la satisfacción del aprendizaje

Limitaciones de Métodos Existentes

Métodos Estadísticos Tradicionales: Principalmente basados en modelado de ecuaciones estructurales (SEM) y pruebas de hipótesis estadísticas, carecen de capacidad predictiva
Consideración Incompleta de Características: Los estudios existentes rara vez consideran factores de estado emocional y entorno de aprendizaje
Interpretabilidad Insuficiente: Falta de aplicación de técnicas modernas de aprendizaje automático interpretable

Contribuciones Principales

Desempeño Superior del Método: APLR supera a modelos de árboles de embolsado y impulso representativos, modelos aditivos interpretables y modelos de aprendizaje profundo basados en Transformer en 4 de 5 métricas de evaluación
Análisis de Interpretabilidad Integral: Proporciona explicaciones globales y locales, ofreciendo información valiosa sobre los factores que influyen en la satisfacción del aprendizaje para la población general y estudiantes individuales
Apoyo al Aprendizaje Personalizado: Allana el camino para el aprendizaje personalizado, permitiendo que los educadores adapten la enseñanza según el perfil del estudiante
Código y Conjunto de Datos de Código Abierto: Proporciona código de implementación completo y conjunto de datos para uso de la comunidad investigadora

Explicación Detallada del Método

Definición de la Tarea

Entrada: 47 características, incluyendo información demográfica, métodos de aprendizaje, desempeño percibido, autoeficacia, motivación, participación, estado emocional, mecanismos de afrontamiento del estrés y entorno de aprendizaje Salida: Tarea de clasificación binaria, predicción de satisfacción del aprendizaje estudiantil (satisfecho/insatisfecho) Restricciones: Variable objetivo construida basada en 7 características principales, puntuación total ≥4 indica satisfacción, de lo contrario insatisfacción

Arquitectura del Modelo

Mecanismo Principal de APLR

APLR combina las ventajas del impulso de gradiente y las splines de regresión adaptativa multivariante (MARS):

Impulso de Gradiente Componente: Cada aprendiz base simple se adapta a una variable predictora, seleccionando el aprendiz que mejor ayude a minimizar la función de pérdida

Pasos de Impulso (m = 1 a M):

Cálculo del Gradiente Negativo: u_m = y - f̂_{m-1}(C_{m-1})
Actualización de Intersección: Usar la media ponderada de u_m multiplicada por la tasa de aprendizaje v
Selección de Función Base: Encontrar la mejor función base APLR h_m(u_m, e_j) para cada candidato e_j
Selección de Términos: Seleccionar el término con menor pérdida como candidato
Actualización de Coeficientes: Actualizar coeficientes de regresión β

Estimación de Coeficientes de Regresión: $β = v \cdot \frac{\sum_{i=1}^{n_{eff}} f(x_i) \cdot w_i \cdot u_{m,i}}{\sum_{i=1}^{n_{eff}} f(x_i)^2 \cdot w_i}$

Puntos de Innovación Técnica

Procesamiento Lineal por Tramos: En comparación con las funciones suavizadas aditivas de EBM, APLR divide los datos en segmentos y ajusta un modelo lineal a cada segmento
Consideración de Términos de Interacción: Identificación y modelado automático de relaciones de interacción entre características
Eficiencia Computacional: Más eficiente que EBM, más fácil de usar que bosques aleatorios y árboles de impulso
Interpretabilidad Dual: Proporciona simultáneamente importancia de características global y explicaciones de contribución local

Configuración Experimental

Conjunto de Datos

Escala: 302 estudiantes de la Universidad Sungkyunkwan
Período: Finales de 2021 a finales de 2022 (después de 4 semestres de aprendizaje en línea)
Composición: 88% estudiantes de tiempo completo, 12% estudiantes de intercambio
Distribución de Disciplinas: STEM (41.4%), Humanidades y Ciencias Sociales (40.6%), Categoría Mixta (18%)
Modalidad de Cursos: 76.82% cursos en línea, 23.18% cursos presenciales

Preprocesamiento de Datos

Método de Codificación: Escala Likert de 5 puntos convertida a valores numéricos (-2 a 2)
Construcción de Variable Objetivo: Basada en suma ponderada de 7 características principales
División de Datos: 241 muestras en conjunto de entrenamiento, 61 muestras en conjunto de prueba (proporción 8:2)
Tratamiento de Desbalance: Uso de técnica SMOTE para manejar desbalance de clases

Métricas de Evaluación

Precisión (Accuracy)
Puntuación F1
Precisión (Precision)
Exhaustividad (Recall)
AUC (Área bajo la curva ROC)

Métodos de Comparación

Bosque Aleatorio (Random Forest): Representante del algoritmo de embolsado
LightGBM: Algoritmo de impulso de gradiente eficiente
Máquina de Impulso Interpretable (EBM): Referencia de aprendizaje automático interpretable
TabNet: Modelo de aprendizaje profundo basado en Transformer

Ajuste de Hiperparámetros

Bosque Aleatorio: Búsqueda en cuadrícula + validación cruzada de 5 pliegues
LightGBM: Optimización bayesiana (paquete Optuna)
APLR: Búsqueda en cuadrícula de validación cruzada de 5 pliegues con APLRTuner integrado
EBM y TabNet: Uso de parámetros recomendados por defecto

Resultados Experimentales

Resultados Principales

Modelo	Precisión	Puntuación F1	Precisión	Exhaustividad	AUC
APLR	0.885	0.909	0.921	0.897	0.926
Random Forest	0.820	0.853	0.889	0.820	0.947
LightGBM	0.803	0.846	0.846	0.846	0.889
EBM	0.820	0.853	0.889	0.821	0.918
TabNet	0.836	0.872	0.872	0.872	0.818

Hallazgos Clave:

APLR logra el mejor desempeño en 4 de 5 métricas
Solo ligeramente inferior a Bosque Aleatorio en métrica AUC (0.926 vs 0.947)
Significativamente superior a otros modelos interpretables (EBM)

Análisis de Interpretación del Modelo

Importancia de Características Global (Top 5)

Capacidad de Gestión del Tiempo (m_timeManage): 0.534
Capacidad de Concentración (m_concentrate): 0.516
Sentido de Ayuda a Compañeros (m_helpful): 0.365
Interacción entre Aburrimiento del Curso y Gestión del Tiempo: 0.297
Participación en Cursos Presenciales (mode_Offline): 0.297

Hallazgos Clave

Factores Positivos: Gestión del tiempo, capacidad de concentración, sentido de ayuda, participación en aprendizaje presencial
Factores Negativos: Participación en actividades creativas (coeficiente -0.15)
Efectos de Interacción: Existen relaciones de interacción significativas entre múltiples características

Análisis de Casos

Caso de Estudiante Satisfecho

Factor de Mayor Contribución: Sentido de ayuda (0.681), no sentir aburrimiento (0.553)
Factores de Apoyo: Gestión del tiempo (0.447), capacidad de concentración (0.444)
Factores Negativos: Participación en actividades creativas (-0.390)

Caso de Estudiante Insatisfecho

Problemas Principales: Gestión del tiempo deficiente (1.255), incapacidad para ayudar a otros (0.681)
Factores Mitigadores: Capacidad de concentración aceptable (-0.444, contribución negativa indica mitigación de insatisfacción)

Trabajo Relacionado

Investigación sobre Satisfacción del Aprendizaje

Investigación de Autoeficacia: Múltiples estudios encuentran correlación positiva entre autoeficacia y satisfacción del aprendizaje en línea
Participación Estudiantil: La participación tiene impacto positivo en la satisfacción del aprendizaje en línea
Relaciones de Interacción: La interacción entre aprendices e interacción profesor-estudiante tienen efectos positivos en la satisfacción

Evolución de Métodos Técnicos

Métodos Tradicionales: Principalmente modelado de ecuaciones estructurales (SEM)
Pruebas Estadísticas: Pruebas de hipótesis como componente principal de análisis
IA Moderna: Aplicación insuficiente de técnicas de aprendizaje automático interpretable y aprendizaje profundo

Conclusiones y Discusión

Conclusiones Principales

Efectividad del Método: APLR demuestra desempeño excelente en la tarea de predicción de satisfacción del aprendizaje estudiantil
Factores de Influencia Clave: Gestión del tiempo, capacidad de concentración, sentido de ayuda y participación presencial son factores positivos principales
Hallazgo Sorprendente: La participación en actividades creativas no tiene impacto positivo en la satisfacción del aprendizaje
Potencial de Personalización: Las explicaciones locales apoyan la formulación de estrategias de enseñanza personalizada

Limitaciones

Escala de Datos: Solo 302 muestras, puede afectar la generalización de resultados
Restricción Geográfica: Limitado a estudiantes de una universidad en Corea
Especificidad Temporal: Específicamente dirigido al período de pandemia, aplicabilidad en era post-pandémica pendiente de verificación
Validación de Tarea de Clasificación: Pruebas relativamente limitadas de APLR en tareas de clasificación

Direcciones Futuras

Investigación Comparativa Post-Pandémica: Comparar cambios en factores clave antes y después de la pandemia
Expansión Multidimensional: Investigar otras dimensiones como motivación de aprendizaje y desempeño académico
Validación Transversal: Verificar efectividad del modelo en diferentes contextos culturales
Aplicación en Tiempo Real: Desarrollar sistema de monitoreo de satisfacción del aprendizaje en tiempo real

Evaluación Profunda

Fortalezas

Innovación Metodológica: Primera aplicación de APLR en minería de datos educativos, demostrando el valor de la IA interpretable
Diseño Experimental Riguroso: Ajuste completo de hiperparámetros y comparación exhaustiva de modelos
Interpretabilidad Rica: Proporciona explicaciones duales global y local, con valor práctico significativo
Hallazgos Sorprendentes Valiosos: La relación negativa entre actividades creativas y satisfacción del aprendizaje merece investigación profunda

Deficiencias

Representatividad de Muestras: Muestras de una sola universidad pueden presentar sesgo de selección
Relaciones Causales: Estudio transversal no puede establecer relaciones causales
Ingeniería de Características: La racionalidad del método de construcción de variable objetivo requiere más validación
Análisis Profundo Insuficiente: Falta de exploración profunda de hallazgos sorprendentes (como efectos negativos de actividades creativas)

Impacto

Contribución Académica: Introduce nuevo método de IA interpretable al campo de minería de datos educativos
Valor Práctico: Proporciona bases científicas para enseñanza personalizada a educadores
Reproducibilidad: Código abierto y conjunto de datos promueven reproducción y extensión de investigación
Potencial Interdisciplinario: El método APLR puede ser aplicable a otros escenarios de datos estructurados a pequeña escala

Escenarios de Aplicación

Datos Educativos a Pequeña Escala: Particularmente adecuado para investigación educativa con muestras limitadas
Tareas Predictivas que Requieren Interpretabilidad: Decisiones educativas requieren apoyo de IA interpretable
Educación Personalizada: Apoyo para estrategias de enseñanza personalizada basadas en características estudiantiles
Formulación de Políticas: Proporciona apoyo de decisión basado en datos para políticas educativas

Referencias Bibliográficas

El artículo cita 35 referencias relacionadas, abarcando múltiples campos incluyendo investigación de satisfacción del aprendizaje, aprendizaje automático interpretable, tecnología educativa y otros trabajos importantes, proporcionando una base teórica sólida para la investigación.

Evaluación General: Este es un artículo de investigación de alta calidad en el campo de minería de datos educativos aplicando IA interpretable, con metodología innovadora, experimentos rigurosos y resultados valiosos, aunque presenta ciertas limitaciones en escala de muestras y generalización. La investigación proporciona herramientas tecnológicas valiosas e información empírica para educación personalizada.