2025-11-16T00:07:11.969314

Automatic Piecewise Linear Regression for Predicting Student Learning Satisfaction

Choi, Nadarajan

Although student learning satisfaction has been widely studied, modern techniques such as interpretable machine learning and neural networks have not been sufficiently explored. This study demonstrates that a recent model that combines boosting with interpretability, automatic piecewise linear regression(APLR), offers the best fit for predicting learning satisfaction among several state-of-the-art approaches. Through the analysis of APLR's numerical and visual interpretations, students' time management and concentration abilities, perceived helpfulness to classmates, and participation in offline courses have the most significant positive impact on learning satisfaction. Surprisingly, involvement in creative activities did not positively affect learning satisfaction. Moreover, the contributing factors can be interpreted on an individual level, allowing educators to customize instructions according to student profiles.

academic

Автоматическая кусочно-линейная регрессия для прогнозирования удовлетворённости студентов обучением

Основная информация

ID статьи: 2510.10639
Название: Automatic Piecewise Linear Regression for Predicting Student Learning Satisfaction
Авторы: Haemin Choi, Gayathri Nadarajan (Факультет науки о данных, Университет Сунгюнкван)
Классификация: cs.AI cs.LG
Дата публикации: 12 октября 2025 г.
Ссылка на статью: https://arxiv.org/abs/2510.10639

Аннотация

В данном исследовании изучается применение автоматической кусочно-линейной регрессии (APLR) для прогнозирования удовлетворённости студентов обучением. Хотя удовлетворённость студентов обучением широко изучалась, современные методы интерпретируемого машинного обучения и нейронные сети ещё недостаточно исследованы в этой области. Исследование показывает, что модель APLR, сочетающая алгоритмы бустинга и интерпретируемость, демонстрирует лучшие результаты среди различных современных методов. Посредством численного и визуального анализа интерпретаций APLR выявлено, что навыки управления временем студентов, способность к концентрации, восприятие помощи однокурсникам и участие в очных занятиях оказывают наиболее значительное положительное влияние на удовлетворённость обучением. Неожиданно, участие в творческих мероприятиях не оказало положительного влияния на удовлетворённость обучением.

Исследовательский контекст и мотивация

Определение проблемы

Данное исследование направлено на решение проблемы прогнозирования удовлетворённости студентов обучением и выявления влияющих факторов в период пандемии COVID-19. После двух лет онлайн-обучения предпочтения студентов в отношении различных методов обучения изменились, что требует глубокого понимания ключевых факторов, влияющих на удовлетворённость обучением.

Значимость исследования

Руководство образовательной практикой: помощь педагогам и учреждениям в разработке более эффективных методов преподавания для повышения общего качества обучения
Персонализированное обучение: предоставление научной основы для персонализированного обучения
Анализ влияния пандемии: глубокое понимание влияния специальной учебной среды в период пандемии на удовлетворённость обучением

Ограничения существующих методов

Традиционные статистические методы: в основном используют моделирование структурными уравнениями (SEM) и статистическую проверку гипотез, что недостаточно для прогнозирования
Неполнота рассматриваемых признаков: существующие исследования редко учитывают эмоциональное состояние и факторы учебной среды
Недостаточная интерпретируемость: отсутствует применение современных методов интерпретируемого машинного обучения

Основные вклады

Превосходная производительность метода: APLR превосходит репрезентативные модели бэггинга и бустинга, интерпретируемые аддитивные модели и глубокое обучение на основе Transformer по 4 из 5 оценочных метрик
Комплексный анализ интерпретируемости: предоставляет глобальные и локальные объяснения, предлагая ценные инсайты о факторах, влияющих на удовлетворённость обучением как для общей совокупности, так и для отдельных студентов
Поддержка персонализированного обучения: прокладывает путь к персонализированному обучению, позволяя педагогам адаптировать преподавание в соответствии с профилем студента
Открытый доступ к данным и коду: предоставляет полный код реализации и набор данных для использования научным сообществом

Подробное описание метода

Определение задачи

Входные данные: 47 признаков, включая демографическую информацию, методы обучения, восприятие успеваемости, самоэффективность, мотивацию, вовлечённость, эмоциональное состояние, механизмы преодоления стресса и факторы учебной среды Выходные данные: бинарная классификация для прогнозирования удовлетворённости студентов обучением (удовлетворён/не удовлетворён) Ограничения: целевая переменная строится на основе 7 ключевых признаков; общий балл ≥ 4 означает удовлетворённость, иначе — неудовлетворённость

Архитектура модели

Основной механизм APLR

APLR объединяет преимущества градиентного бустинга и многомерных адаптивных регрессионных сплайнов (MARS):

Компонентный градиентный бустинг: каждый простой базовый ученик адаптируется к одной переменной-предиктору, выбирается ученик, который наиболее способствует минимизации функции потерь

Шаги бустинга (m = 1 до M):

Вычисление отрицательного градиента: u_m = y - f̂_{m-1}(C_{m-1})
Обновление свободного члена: использование взвешенного среднего u_m, умноженного на скорость обучения v
Выбор базовой функции: поиск оптимальной базовой функции APLR h_m(u_m, e_j) для каждого кандидата e_j
Выбор члена: выбор члена с минимальными потерями в качестве кандидата
Обновление коэффициентов: обновление коэффициентов регрессии β

Оценка коэффициентов регрессии: $β = v \cdot \frac{\sum_{i=1}^{n_{eff}} f(x_i) \cdot w_i \cdot u_{m,i}}{\sum_{i=1}^{n_{eff}} f(x_i)^2 \cdot w_i}$

Технические инновации

Кусочно-линейная обработка: в отличие от гладких функций EBM, APLR разделяет данные на сегменты и подгоняет линейную модель к каждому сегменту
Учёт взаимодействий: автоматическое выявление и моделирование взаимодействий между признаками
Вычислительная эффективность: более эффективна, чем EBM, и более удобна в использовании, чем случайные леса и бустинг-деревья
Двойная интерпретируемость: одновременное предоставление глобальной важности признаков и локальных объяснений вклада

Экспериментальная установка

Набор данных

Размер: 302 студента Университета Сунгюнкван
Период: конец 2021 г. — конец 2022 г. (после 4 семестров онлайн-обучения)
Состав: 88% студентов очной формы обучения, 12% студентов по программе обмена
Распределение по специальностям: STEM (41,4%), гуманитарные и социальные науки (40,6%), смешанные категории (18%)
Режимы обучения: 76,82% онлайн-курсов, 23,18% очных курсов

Предварительная обработка данных

Кодирование: 5-балльная шкала Лайкерта преобразуется в числовые значения (от -2 до 2)
Построение целевой переменной: на основе взвешенной суммы 7 ключевых признаков
Разделение данных: обучающий набор 241 образец, тестовый набор 61 образец (соотношение 8:2)
Балансировка: использование техники SMOTE для обработки дисбаланса классов

Оценочные метрики

Точность (Accuracy)
F1-мера
Полнота (Precision)
Чувствительность (Recall)
AUC (площадь под кривой ROC)

Методы сравнения

Случайный лес (Random Forest): представитель алгоритмов бэггинга
LightGBM: эффективный алгоритм градиентного бустинга
Интерпретируемый бустинг (EBM): эталон интерпретируемого машинного обучения
TabNet: модель глубокого обучения на основе Transformer

Настройка гиперпараметров

Случайный лес: поиск по сетке + 5-кратная перекрёстная проверка
LightGBM: байесовская оптимизация (пакет Optuna)
APLR: встроенный APLRTuner с поиском по сетке при 5-кратной перекрёстной проверке
EBM и TabNet: использование рекомендуемых параметров по умолчанию

Результаты экспериментов

Основные результаты

Модель	Точность	F1-мера	Полнота	Чувствительность	AUC
APLR	0,885	0,909	0,921	0,897	0,926
Random Forest	0,820	0,853	0,889	0,820	0,947
LightGBM	0,803	0,846	0,846	0,846	0,889
EBM	0,820	0,853	0,889	0,821	0,918
TabNet	0,836	0,872	0,872	0,872	0,818

Ключевые выводы:

APLR достигает лучшей производительности по 4 из 5 метрик
Только по метрике AUC немного уступает случайному лесу (0,926 против 0,947)
Значительно превосходит другие интерпретируемые модели (EBM)

Анализ интерпретации модели

Глобальная важность признаков (Топ-5)

Навыки управления временем (m_timeManage): 0,534
Способность к концентрации (m_concentrate): 0,516
Восприятие помощи однокурсникам (m_helpful): 0,365
Взаимодействие между скукой от курса и управлением временем: 0,297
Участие в очных занятиях (mode_Offline): 0,297

Ключевые выводы

Положительные факторы: управление временем, способность к концентрации, чувство помощи, участие в очном обучении
Отрицательные факторы: участие в творческих мероприятиях (коэффициент -0,15)
Эффекты взаимодействия: наблюдаются значительные взаимодействия между несколькими признаками

Анализ конкретных случаев

Случай удовлетворённого студента

Основной фактор вклада: чувство помощи (0,681), отсутствие скуки (0,553)
Поддерживающие факторы: управление временем (0,447), способность к концентрации (0,444)
Негативные факторы: участие в творческих мероприятиях (-0,390)

Случай неудовлетворённого студента

Основные проблемы: плохое управление временем (1,255), неспособность помочь другим (0,681)
Смягчающие факторы: приемлемая способность к концентрации (-0,444, отрицательный вклад указывает на смягчение неудовлетворённости)

Связанные работы

Исследования удовлетворённости обучением

Исследования самоэффективности: множество исследований выявили положительную корреляцию между самоэффективностью и удовлетворённостью онлайн-обучением
Вовлечённость студентов: вовлечённость оказывает положительное влияние на удовлетворённость онлайн-обучением
Взаимодействия: взаимодействие между учащимися и взаимодействие между преподавателем и студентом оказывают положительное влияние на удовлетворённость

Эволюция технических методов

Традиционные методы: в основном используется моделирование структурными уравнениями (SEM)
Статистическая проверка: проверка гипотез как основной компонент анализа
Современный ИИ: применение интерпретируемого машинного обучения и методов глубокого обучения остаётся недостаточным

Заключение и обсуждение

Основные выводы

Эффективность метода: APLR демонстрирует превосходные результаты в задаче прогнозирования удовлетворённости студентов обучением
Ключевые влияющие факторы: управление временем, способность к концентрации, чувство помощи и участие в очном обучении являются основными положительными факторами
Неожиданные выводы: участие в творческих мероприятиях не оказывает положительного влияния на удовлетворённость обучением
Потенциал персонализации: локальные объяснения поддерживают разработку персонализированных стратегий преподавания

Ограничения

Размер данных: только 302 образца, что может повлиять на обобщаемость результатов
Географические ограничения: ограничено студентами одного университета в Корее
Временная специфичность: специально разработано для периода пандемии, применимость в постпандемический период требует проверки
Ограниченное тестирование классификации: относительно ограниченное строгое тестирование APLR в задачах классификации

Направления будущих исследований

Сравнительные исследования в постпандемический период: сравнение изменений ключевых факторов до и после пандемии
Многомерное расширение: исследование других аспектов, таких как мотивация к обучению и академическая успеваемость
Кросс-географическая валидация: проверка эффективности модели в различных культурных контекстах
Приложения в реальном времени: разработка системы мониторинга удовлетворённости обучением в реальном времени

Глубокая оценка

Преимущества

Инновационность метода: первое применение APLR в интеллектуальном анализе образовательных данных, демонстрирующее ценность интерпретируемого ИИ
Строгий дизайн экспериментов: комплексная настройка гиперпараметров и сравнение нескольких моделей
Богатая интерпретируемость: предоставление двойных глобальных и локальных объяснений с практической ценностью применения
Ценность неожиданных выводов: отрицательная корреляция между участием в творческих мероприятиях и удовлетворённостью обучением заслуживает дальнейшего исследования

Недостатки

Репрезентативность выборки: образец из одного университета может содержать смещение отбора
Причинно-следственные отношения: поперечное исследование не может установить причинно-следственные связи
Недостаточная инженерия признаков: метод построения целевой переменной требует дополнительной валидации
Недостаточный глубокий анализ: отсутствует глубокое исследование неожиданных выводов (например, отрицательное влияние творческих мероприятий)

Влияние

Академический вклад: введение нового метода интерпретируемого ИИ в область интеллектуального анализа образовательных данных
Практическая ценность: предоставление педагогам научной основы для персонализированного преподавания
Воспроизводимость: открытый код и набор данных способствуют воспроизведению и расширению исследований
Потенциал межотраслевого применения: метод APLR может быть применим к другим сценариям с малым объёмом структурированных данных

Применимые сценарии

Образовательные данные малого объёма: особенно подходит для образовательных исследований с ограниченным количеством образцов
Задачи прогнозирования, требующие интерпретируемости: образовательные решения требуют поддержки интерпретируемого ИИ
Персонализированное образование: поддержка разработки индивидуализированных стратегий преподавания на основе характеристик студентов
Принятие политических решений: предоставление научно обоснованной поддержки для принятия решений в области образовательной политики

Библиография

Статья цитирует 35 соответствующих источников, охватывающих исследования удовлетворённости обучением, интерпретируемое машинное обучение, образовательные технологии и другие области, обеспечивая прочную теоретическую основу для исследования.

Общая оценка: Это высококачественная исследовательская работа по применению интерпретируемого ИИ в области интеллектуального анализа образовательных данных. Исследование отличается инновационностью метода, строгостью экспериментов и ценностью результатов, однако имеет определённые ограничения в отношении размера выборки и обобщаемости. Исследование предоставляет ценный технологический инструмент и эмпирические инсайты для персонализированного образования.