2025-11-16T00:07:11.969314

Automatic Piecewise Linear Regression for Predicting Student Learning Satisfaction

Choi, Nadarajan
Although student learning satisfaction has been widely studied, modern techniques such as interpretable machine learning and neural networks have not been sufficiently explored. This study demonstrates that a recent model that combines boosting with interpretability, automatic piecewise linear regression(APLR), offers the best fit for predicting learning satisfaction among several state-of-the-art approaches. Through the analysis of APLR's numerical and visual interpretations, students' time management and concentration abilities, perceived helpfulness to classmates, and participation in offline courses have the most significant positive impact on learning satisfaction. Surprisingly, involvement in creative activities did not positively affect learning satisfaction. Moreover, the contributing factors can be interpreted on an individual level, allowing educators to customize instructions according to student profiles.
academic

Automatic Piecewise Linear Regression for Predicting Student Learning Satisfaction

基本信息

  • 论文ID: 2510.10639
  • 标题: Automatic Piecewise Linear Regression for Predicting Student Learning Satisfaction
  • 作者: Haemin Choi, Gayathri Nadarajan (成均馆大学数据科学系)
  • 分类: cs.AI cs.LG
  • 发表时间: 2025年10月12日
  • 论文链接: https://arxiv.org/abs/2510.10639

摘要

本研究探索了自动分段线性回归(APLR)在预测学生学习满意度方面的应用。虽然学生学习满意度已被广泛研究,但现代可解释机器学习和神经网络技术尚未得到充分探索。研究表明,结合提升算法和可解释性的APLR模型在多种最先进方法中表现最佳。通过APLR的数值和视觉解释分析,发现学生的时间管理能力、专注力、对同学的帮助感知以及线下课程参与对学习满意度有最显著的正向影响。令人意外的是,创意活动参与并未对学习满意度产生正面影响。

研究背景与动机

问题定义

本研究旨在解决COVID-19疫情期间学生学习满意度预测和影响因素识别问题。在经历两年在线学习后,学生对不同学习方式的偏好发生了变化,需要深入理解影响学习满意度的关键因素。

研究重要性

  1. 教育实践指导:帮助教育者和机构定制更好的教学方法以提升整体学习体验
  2. 个性化学习:为个性化教学提供科学依据
  3. 疫情影响分析:深入理解疫情期间特殊教学环境对学习满意度的影响

现有方法局限性

  1. 传统统计方法:主要采用结构方程建模(SEM)和统计假设检验,缺乏预测能力
  2. 特征考虑不全:现有研究很少考虑情感状态和学习环境因素
  3. 可解释性不足:缺乏现代可解释机器学习技术的应用

核心贡献

  1. 方法性能优越:APLR在5个评价指标中的4个上优于代表性的装袋和提升树模型、可解释加性模型以及基于Transformer的深度学习模型
  2. 全面的可解释性分析:提供全局和局部解释,为整体群体和个体学生的学习满意度影响因素提供有价值的洞察
  3. 个性化学习支持:为个性化学习铺平道路,使教育者能够根据学生档案定制教学
  4. 数据集和代码开源:提供完整的实现代码和数据集供研究社区使用

方法详解

任务定义

输入:47个特征,包括人口统计学信息、学习方法、感知表现、自我效能、动机、参与度、情感状态、压力应对机制和学习环境等 输出:二分类任务,预测学生学习满意度(满意/不满意) 约束条件:基于7个核心特征构建目标变量,总分≥4为满意,否则为不满意

模型架构

APLR核心机制

APLR结合了梯度提升和多元自适应回归样条(MARS)的优势:

  1. 组件式梯度提升:每个简单基学习器适配一个预测变量,选择最有助于最小化损失函数的学习器
  2. 提升步骤(m = 1 to M):
    负梯度计算: u_m = y - f̂_{m-1}(C_{m-1})
    截距更新: 使用u_m的加权均值乘以学习率v
    基函数选择: 为每个候选项e_j找到最佳APLR基函数h_m(u_m, e_j)
    项选择: 选择损失最小的项作为候选
    系数更新: 更新回归系数β
    
  3. 回归系数估计β=vi=1nefff(xi)wium,ii=1nefff(xi)2wiβ = v \cdot \frac{\sum_{i=1}^{n_{eff}} f(x_i) \cdot w_i \cdot u_{m,i}}{\sum_{i=1}^{n_{eff}} f(x_i)^2 \cdot w_i}

技术创新点

  1. 分段线性处理:相比EBM的加性平滑函数,APLR将数据分段并对每段拟合线性模型
  2. 交互项考虑:自动识别和建模特征间的交互关系
  3. 计算效率:相比EBM更高效,相比随机森林和提升树更易用
  4. 双重可解释性:同时提供全局特征重要性和局部贡献解释

实验设置

数据集

  • 规模:302名成均馆大学学生
  • 时间:2021年末-2022年末(经历4个学期在线学习后)
  • 构成:88%全日制学生,12%交换生
  • 专业分布:STEM(41.4%)、人文社科(40.6%)、混合类别(18%)
  • 课程模式:76.82%在线课程,23.18%线下课程

数据预处理

  • 编码方式:5点李克特量表转换为数值(-2到2)
  • 目标变量构建:基于7个核心特征的加权和
  • 数据划分:训练集241样本,测试集61样本(8:2比例)
  • 平衡处理:使用SMOTE技术处理类别不平衡

评价指标

  • 准确率(Accuracy)
  • F1分数
  • 精确率(Precision)
  • 召回率(Recall)
  • AUC(ROC曲线下面积)

对比方法

  1. 随机森林(Random Forest):装袋算法代表
  2. LightGBM:高效梯度提升算法
  3. 可解释提升机(EBM):可解释机器学习基准
  4. TabNet:基于Transformer的深度学习模型

超参数调优

  • 随机森林:网格搜索+5折交叉验证
  • LightGBM:贝叶斯优化(Optuna包)
  • APLR:内置APLRTuner进行5折交叉验证网格搜索
  • EBM和TabNet:使用默认推荐参数

实验结果

主要结果

模型准确率F1分数精确率召回率AUC
APLR0.8850.9090.9210.8970.926
Random Forest0.8200.8530.8890.8200.947
LightGBM0.8030.8460.8460.8460.889
EBM0.8200.8530.8890.8210.918
TabNet0.8360.8720.8720.8720.818

关键发现

  • APLR在5个指标中的4个上取得最佳性能
  • 仅在AUC指标上略低于随机森林(0.926 vs 0.947)
  • 显著优于其他可解释模型(EBM)

模型解释分析

全局特征重要性(Top 5)

  1. 时间管理能力(m_timeManage):0.534
  2. 专注能力(m_concentrate):0.516
  3. 对同学的帮助感(m_helpful):0.365
  4. 课程无聊感与时间管理交互:0.297
  5. 线下课程参与(mode_Offline):0.297

关键发现

  • 正向因素:时间管理、专注力、助人感、线下学习参与
  • 负向因素:创意活动参与(系数-0.15)
  • 交互效应:多个特征间存在显著交互关系

案例分析

满意学生案例

  • 最大贡献因素:助人感(0.681)、不感到无聊(0.553)
  • 支持因素:时间管理(0.447)、专注力(0.444)
  • 负面因素:创意活动参与(-0.390)

不满意学生案例

  • 主要问题:时间管理差(1.255)、无法帮助他人(0.681)
  • 缓解因素:专注力尚可(-0.444,负贡献表示缓解不满)

相关工作

学习满意度研究

  1. 自我效能研究:多项研究发现自我效能与在线学习满意度正相关
  2. 学生参与度:参与度对在线学习满意度有积极影响
  3. 交互关系:学习者间交互和师生交互对满意度有正面影响

技术方法演进

  1. 传统方法:主要采用结构方程建模(SEM)
  2. 统计检验:假设检验作为分析主要组件
  3. 现代AI:可解释机器学习和深度学习技术应用不足

结论与讨论

主要结论

  1. 方法有效性:APLR在学生学习满意度预测任务上表现优异
  2. 关键影响因素:时间管理、专注力、助人感和线下参与是核心正向因素
  3. 意外发现:创意活动参与对学习满意度无积极影响
  4. 个性化潜力:局部解释支持个性化教学策略制定

局限性

  1. 数据规模:仅302个样本,可能影响结果泛化性
  2. 地域限制:仅限韩国一所大学的学生
  3. 时间特异性:专门针对疫情期间,后疫情时代适用性待验证
  4. 分类任务验证:APLR在分类任务上的严格测试相对有限

未来方向

  1. 后疫情对比研究:比较疫情前后关键因素变化
  2. 多维度扩展:研究学习动机、学术表现等其他维度
  3. 跨地域验证:在不同文化背景下验证模型有效性
  4. 实时应用:开发实时学习满意度监测系统

深度评价

优点

  1. 方法创新性:首次将APLR应用于教育数据挖掘,展现了可解释AI的价值
  2. 实验设计严谨:全面的超参数调优和多模型对比
  3. 解释性丰富:提供全局和局部双重解释,具有实际应用价值
  4. 意外发现有价值:创意活动与学习满意度的负相关关系值得深入研究

不足

  1. 样本代表性:单一大学样本可能存在选择偏差
  2. 因果关系:横断面研究无法建立因果关系
  3. 特征工程:目标变量构建方法的合理性需要更多验证
  4. 深度分析不足:对意外发现(如创意活动负面影响)缺乏深入探讨

影响力

  1. 学术贡献:为教育数据挖掘领域引入新的可解释AI方法
  2. 实用价值:为教育者提供个性化教学的科学依据
  3. 可复现性:开源代码和数据集促进研究复现和扩展
  4. 跨领域潜力:APLR方法可能适用于其他小规模结构化数据场景

适用场景

  1. 小规模教育数据:特别适合样本量有限的教育研究
  2. 需要解释性的预测任务:教育决策需要可解释的AI支持
  3. 个性化教育:支持基于学生特征的定制化教学策略
  4. 政策制定:为教育政策提供数据驱动的决策支持

参考文献

论文引用了35篇相关文献,涵盖学习满意度研究、可解释机器学习、教育技术等多个领域的重要工作,为研究提供了坚实的理论基础。


总体评价:这是一篇在教育数据挖掘领域应用可解释AI的高质量研究论文,方法创新、实验严谨、结果有价值,但在样本规模和泛化性方面存在一定局限性。研究为个性化教育提供了有价值的技术工具和实证洞察。