2025-11-16T00:07:11.969314

Automatic Piecewise Linear Regression for Predicting Student Learning Satisfaction

Choi, Nadarajan

Although student learning satisfaction has been widely studied, modern techniques such as interpretable machine learning and neural networks have not been sufficiently explored. This study demonstrates that a recent model that combines boosting with interpretability, automatic piecewise linear regression(APLR), offers the best fit for predicting learning satisfaction among several state-of-the-art approaches. Through the analysis of APLR's numerical and visual interpretations, students' time management and concentration abilities, perceived helpfulness to classmates, and participation in offline courses have the most significant positive impact on learning satisfaction. Surprisingly, involvement in creative activities did not positively affect learning satisfaction. Moreover, the contributing factors can be interpreted on an individual level, allowing educators to customize instructions according to student profiles.

academic

Automatic Piecewise Linear Regression for Predicting Student Learning Satisfaction

基本信息

论文ID: 2510.10639
标题: Automatic Piecewise Linear Regression for Predicting Student Learning Satisfaction
作者: Haemin Choi, Gayathri Nadarajan (成均馆大学数据科学系)
分类: cs.AI cs.LG
发表时间: 2025年10月12日
论文链接: https://arxiv.org/abs/2510.10639

摘要

本研究探索了自动分段线性回归（APLR）在预测学生学习满意度方面的应用。虽然学生学习满意度已被广泛研究，但现代可解释机器学习和神经网络技术尚未得到充分探索。研究表明，结合提升算法和可解释性的APLR模型在多种最先进方法中表现最佳。通过APLR的数值和视觉解释分析，发现学生的时间管理能力、专注力、对同学的帮助感知以及线下课程参与对学习满意度有最显著的正向影响。令人意外的是，创意活动参与并未对学习满意度产生正面影响。

研究背景与动机

问题定义

本研究旨在解决COVID-19疫情期间学生学习满意度预测和影响因素识别问题。在经历两年在线学习后，学生对不同学习方式的偏好发生了变化，需要深入理解影响学习满意度的关键因素。

研究重要性

教育实践指导：帮助教育者和机构定制更好的教学方法以提升整体学习体验
个性化学习：为个性化教学提供科学依据
疫情影响分析：深入理解疫情期间特殊教学环境对学习满意度的影响

现有方法局限性

传统统计方法：主要采用结构方程建模（SEM）和统计假设检验，缺乏预测能力
特征考虑不全：现有研究很少考虑情感状态和学习环境因素
可解释性不足：缺乏现代可解释机器学习技术的应用

核心贡献

方法性能优越：APLR在5个评价指标中的4个上优于代表性的装袋和提升树模型、可解释加性模型以及基于Transformer的深度学习模型
全面的可解释性分析：提供全局和局部解释，为整体群体和个体学生的学习满意度影响因素提供有价值的洞察
个性化学习支持：为个性化学习铺平道路，使教育者能够根据学生档案定制教学
数据集和代码开源：提供完整的实现代码和数据集供研究社区使用

组件式梯度提升：每个简单基学习器适配一个预测变量，选择最有助于最小化损失函数的学习器

提升步骤（m = 1 to M）：

负梯度计算: u_m = y - f̂_{m-1}(C_{m-1})
截距更新: 使用u_m的加权均值乘以学习率v
基函数选择: 为每个候选项e_j找到最佳APLR基函数h_m(u_m, e_j)
项选择: 选择损失最小的项作为候选
系数更新: 更新回归系数β

回归系数估计： $β = v \cdot \frac{\sum_{i=1}^{n_{eff}} f(x_i) \cdot w_i \cdot u_{m,i}}{\sum_{i=1}^{n_{eff}} f(x_i)^2 \cdot w_i}$

技术创新点

分段线性处理：相比EBM的加性平滑函数，APLR将数据分段并对每段拟合线性模型
交互项考虑：自动识别和建模特征间的交互关系
计算效率：相比EBM更高效，相比随机森林和提升树更易用
双重可解释性：同时提供全局特征重要性和局部贡献解释

实验设置

数据集

规模：302名成均馆大学学生
时间：2021年末-2022年末（经历4个学期在线学习后）
构成：88%全日制学生，12%交换生
专业分布：STEM（41.4%）、人文社科（40.6%）、混合类别（18%）
课程模式：76.82%在线课程，23.18%线下课程

数据预处理

编码方式：5点李克特量表转换为数值（-2到2）
目标变量构建：基于7个核心特征的加权和
数据划分：训练集241样本，测试集61样本（8:2比例）
平衡处理：使用SMOTE技术处理类别不平衡

评价指标

准确率（Accuracy）
F1分数
精确率（Precision）
召回率（Recall）
AUC（ROC曲线下面积）

对比方法

随机森林（Random Forest）：装袋算法代表
LightGBM：高效梯度提升算法
可解释提升机（EBM）：可解释机器学习基准
TabNet：基于Transformer的深度学习模型

超参数调优

随机森林：网格搜索+5折交叉验证
LightGBM：贝叶斯优化（Optuna包）
APLR：内置APLRTuner进行5折交叉验证网格搜索
EBM和TabNet：使用默认推荐参数

实验结果

主要结果

模型	准确率	F1分数	精确率	召回率	AUC
APLR	0.885	0.909	0.921	0.897	0.926
Random Forest	0.820	0.853	0.889	0.820	0.947
LightGBM	0.803	0.846	0.846	0.846	0.889
EBM	0.820	0.853	0.889	0.821	0.918
TabNet	0.836	0.872	0.872	0.872	0.818