2025-11-16T00:07:11.969314

Automatic Piecewise Linear Regression for Predicting Student Learning Satisfaction

Choi, Nadarajan

Although student learning satisfaction has been widely studied, modern techniques such as interpretable machine learning and neural networks have not been sufficiently explored. This study demonstrates that a recent model that combines boosting with interpretability, automatic piecewise linear regression(APLR), offers the best fit for predicting learning satisfaction among several state-of-the-art approaches. Through the analysis of APLR's numerical and visual interpretations, students' time management and concentration abilities, perceived helpfulness to classmates, and participation in offline courses have the most significant positive impact on learning satisfaction. Surprisingly, involvement in creative activities did not positively affect learning satisfaction. Moreover, the contributing factors can be interpreted on an individual level, allowing educators to customize instructions according to student profiles.

academic

학생 학습 만족도 예측을 위한 자동 구간별 선형 회귀

기본 정보

논문 ID: 2510.10639
제목: Automatic Piecewise Linear Regression for Predicting Student Learning Satisfaction
저자: Haemin Choi, Gayathri Nadarajan (성균관대학교 데이터과학과)
분류: cs.AI cs.LG
발표 시간: 2025년 10월 12일
논문 링크: https://arxiv.org/abs/2510.10639

초록

본 연구는 자동 구간별 선형 회귀(APLR)를 학생 학습 만족도 예측에 적용하는 방안을 탐색했습니다. 학생 학습 만족도는 광범위하게 연구되었지만, 현대의 해석 가능한 기계학습 및 신경망 기술은 충분히 탐색되지 않았습니다. 연구 결과, 부스팅 알고리즘과 해석 가능성을 결합한 APLR 모델이 다양한 최첨단 방법 중에서 최고의 성능을 보였습니다. APLR의 수치 및 시각적 해석 분석을 통해 학생의 시간 관리 능력, 집중력, 동료 학생에 대한 도움 인식, 그리고 오프라인 강의 참여가 학습 만족도에 가장 유의미한 긍정적 영향을 미치는 것으로 나타났습니다. 놀랍게도 창의 활동 참여는 학습 만족도에 긍정적 영향을 미치지 않았습니다.

연구 배경 및 동기

문제 정의

본 연구는 COVID-19 팬데믹 기간 중 학생 학습 만족도 예측 및 영향 요인 식별 문제를 해결하는 것을 목표로 합니다. 2년간의 온라인 학습을 경험한 후 학생들의 다양한 학습 방식에 대한 선호도가 변화했으며, 학습 만족도에 영향을 미치는 핵심 요인을 깊이 있게 이해할 필요가 있습니다.

연구의 중요성

교육 실무 지도: 교육자 및 기관이 전체 학습 경험을 향상시키기 위해 더 나은 교수 방법을 맞춤화하도록 지원
개인화된 학습: 개인화된 교수에 대한 과학적 근거 제공
팬데믹 영향 분석: 팬데믹 기간 특수 교수 환경이 학습 만족도에 미치는 영향을 깊이 있게 이해

기존 방법의 한계

전통적 통계 방법: 주로 구조방정식 모델링(SEM)과 통계적 가설 검정을 채택하여 예측 능력 부족
특징 고려의 불완전성: 기존 연구에서 정서 상태 및 학습 환경 요인을 거의 고려하지 않음
해석 가능성 부족: 현대의 해석 가능한 기계학습 기술 적용 부족

핵심 기여

방법의 우수한 성능: APLR이 5개 평가 지표 중 4개에서 대표적인 배깅 및 부스팅 트리 모델, 해석 가능한 가산 모델, 그리고 Transformer 기반 심층학습 모델을 능가
포괄적인 해석 가능성 분석: 전체 집단과 개별 학생의 학습 만족도 영향 요인에 대해 가치 있는 통찰력을 제공하는 전역 및 국소 해석 제공
개인화된 학습 지원: 개인화된 학습의 길을 열어 교육자가 학생 프로필에 따라 교수를 맞춤화할 수 있도록 함
데이터셋 및 코드 공개: 연구 커뮤니티가 사용할 수 있도록 완전한 구현 코드 및 데이터셋 제공

방법 상세 설명

작업 정의

입력: 인구통계학 정보, 학습 방법, 인식된 성과, 자기 효능감, 동기, 참여도, 정서 상태, 스트레스 대처 메커니즘 및 학습 환경 등을 포함한 47개 특징 출력: 학생 학습 만족도(만족/불만족) 예측 이진 분류 작업 제약 조건: 7개 핵심 특징을 기반으로 목표 변수 구성, 총점 ≥4는 만족, 그 외는 불만족

모델 아키텍처

APLR 핵심 메커니즘

APLR은 그래디언트 부스팅과 다변량 적응형 회귀 스플라인(MARS)의 장점을 결합합니다:

컴포넌트식 그래디언트 부스팅: 각 단순 기본 학습기는 하나의 예측 변수에 적합하며, 손실 함수 최소화에 가장 도움이 되는 학습기를 선택합니다

부스팅 단계(m = 1 to M):

음의 그래디언트 계산: u_m = y - f̂_{m-1}(C_{m-1})
절편 업데이트: u_m의 가중 평균에 학습률 v를 곱함
기본 함수 선택: 각 후보 e_j에 대해 최적의 APLR 기본 함수 h_m(u_m, e_j) 찾기
항 선택: 손실이 최소인 항을 후보로 선택
계수 업데이트: 회귀 계수 β 업데이트

회귀 계수 추정: $β = v \cdot \frac{\sum_{i=1}^{n_{eff}} f(x_i) \cdot w_i \cdot u_{m,i}}{\sum_{i=1}^{n_{eff}} f(x_i)^2 \cdot w_i}$

기술 혁신 포인트

구간별 선형 처리: EBM의 가산 평활 함수와 비교하여 APLR은 데이터를 구간별로 나누고 각 구간에 선형 모델을 적합
상호작용 항 고려: 특징 간 상호작용 자동 식별 및 모델링
계산 효율성: EBM보다 효율적이고 랜덤 포레스트 및 부스팅 트리보다 사용하기 쉬움
이중 해석 가능성: 전역 특징 중요도와 국소 기여도 해석을 동시에 제공

실험 설정

데이터셋

규모: 성균관대학교 학생 302명
시간: 2021년 말~2022년 말(4개 학기의 온라인 학습 경험 후)
구성: 전일제 학생 88%, 교환 학생 12%
전공 분포: STEM(41.4%), 인문사회(40.6%), 혼합 범주(18%)
강의 모드: 온라인 강의 76.82%, 오프라인 강의 23.18%

데이터 전처리

인코딩 방식: 5점 리커트 척도를 수치로 변환(-2~2)
목표 변수 구성: 7개 핵심 특징의 가중합 기반
데이터 분할: 훈련 세트 241개 샘플, 테스트 세트 61개 샘플(8:2 비율)
균형 처리: SMOTE 기술을 사용하여 클래스 불균형 처리

평가 지표

정확도(Accuracy)
F1 점수
정밀도(Precision)
재현율(Recall)
AUC(ROC 곡선 아래 면적)

비교 방법

랜덤 포레스트(Random Forest): 배깅 알고리즘 대표
LightGBM: 효율적인 그래디언트 부스팅 알고리즘
해석 가능한 부스팅 머신(EBM): 해석 가능한 기계학습 벤치마크
TabNet: Transformer 기반 심층학습 모델

하이퍼파라미터 튜닝

랜덤 포레스트: 그리드 탐색 + 5폴드 교차 검증
LightGBM: 베이지안 최적화(Optuna 패키지)
APLR: 내장 APLRTuner를 통한 5폴드 교차 검증 그리드 탐색
EBM 및 TabNet: 기본 권장 파라미터 사용

실험 결과

주요 결과

모델	정확도	F1 점수	정밀도	재현율	AUC
APLR	0.885	0.909	0.921	0.897	0.926
Random Forest	0.820	0.853	0.889	0.820	0.947
LightGBM	0.803	0.846	0.846	0.846	0.889
EBM	0.820	0.853	0.889	0.821	0.918
TabNet	0.836	0.872	0.872	0.872	0.818

핵심 발견:

APLR이 5개 지표 중 4개에서 최고 성능 달성
AUC 지표에서만 랜덤 포레스트보다 약간 낮음(0.926 vs 0.947)
다른 해석 가능한 모델(EBM)을 현저히 능가

모델 해석 분석

전역 특징 중요도(상위 5개)

시간 관리 능력(m_timeManage): 0.534
집중력(m_concentrate): 0.516
동료 학생에 대한 도움 인식(m_helpful): 0.365
강의 지루함과 시간 관리 상호작용: 0.297
오프라인 강의 참여(mode_Offline): 0.297

핵심 발견

긍정적 요인: 시간 관리, 집중력, 도움 인식, 오프라인 학습 참여
부정적 요인: 창의 활동 참여(계수 -0.15)
상호작용 효과: 여러 특징 간 유의미한 상호작용 존재

사례 분석

만족하는 학생 사례

최대 기여 요인: 도움 인식(0.681), 지루함 없음(0.553)
지원 요인: 시간 관리(0.447), 집중력(0.444)
부정적 요인: 창의 활동 참여(-0.390)

불만족하는 학생 사례

주요 문제: 시간 관리 부족(1.255), 타인 도움 불가(0.681)
완화 요인: 집중력 양호(-0.444, 음수는 불만족 완화를 의미)

결론 및 논의

주요 결론

방법의 효과성: APLR이 학생 학습 만족도 예측 작업에서 우수한 성능 발휘
핵심 영향 요인: 시간 관리, 집중력, 도움 인식, 오프라인 참여가 핵심 긍정 요인
예상 외 발견: 창의 활동 참여가 학습 만족도에 긍정적 영향 미치지 않음
개인화 잠재력: 국소 해석이 개인화된 교수 전략 수립 지원

한계

데이터 규모: 302개 샘플만으로 결과의 일반화 가능성에 영향 가능
지역적 제한: 한국 한 대학의 학생만 대상
시간적 특수성: 팬데믹 기간에 특화되어 팬데믹 이후 적용 가능성 미검증
분류 작업 검증: APLR의 분류 작업에 대한 엄격한 테스트 상대적으로 제한적

향후 방향

팬데믹 이후 비교 연구: 팬데믹 전후 핵심 요인 변화 비교
다차원 확장: 학습 동기, 학업 성과 등 다른 차원 연구
지역 간 검증: 다양한 문화 배경에서 모델 효과성 검증
실시간 응용: 실시간 학습 만족도 모니터링 시스템 개발

심층 평가

장점

방법의 혁신성: 교육 데이터 마이닝에 APLR을 처음 적용하여 해석 가능한 AI의 가치 입증
엄격한 실험 설계: 포괄적인 하이퍼파라미터 튜닝 및 다중 모델 비교
풍부한 해석 가능성: 전역 및 국소 이중 해석 제공으로 실제 응용 가치 보유
가치 있는 예상 외 발견: 창의 활동과 학습 만족도의 부정적 상관관계는 심층 연구 가치 있음

부족한 점

샘플 대표성: 단일 대학 샘플로 선택 편향 가능성 존재
인과관계: 횡단면 연구로 인과관계 수립 불가
특징 공학: 목표 변수 구성 방법의 합리성 추가 검증 필요
심층 분석 부족: 예상 외 발견(예: 창의 활동의 부정적 영향)에 대한 심층 탐구 부족

영향력

학술적 기여: 교육 데이터 마이닝 분야에 새로운 해석 가능한 AI 방법 도입
실용적 가치: 교육자에게 개인화된 교수를 위한 과학적 근거 제공
재현 가능성: 공개 코드 및 데이터셋으로 연구 재현 및 확장 촉진
학제 간 잠재력: APLR 방법이 다른 소규모 구조화 데이터 시나리오에 적용 가능

적용 시나리오

소규모 교육 데이터: 특히 샘플 수가 제한된 교육 연구에 적합
해석 가능성이 필요한 예측 작업: 교육 의사결정에 해석 가능한 AI 지원 필요
개인화된 교육: 학생 특징에 기반한 맞춤형 교수 전략 지원
정책 수립: 교육 정책에 데이터 기반 의사결정 지원

참고문헌

논문은 학습 만족도 연구, 해석 가능한 기계학습, 교육 기술 등 다양한 분야의 중요 저작 35편을 인용하여 연구에 견고한 이론적 기초를 제공합니다.

종합 평가: 이는 교육 데이터 마이닝 분야에서 해석 가능한 AI를 적용한 고품질 연구 논문으로, 방법의 혁신성, 실험의 엄격성, 결과의 가치를 갖추고 있으나 샘플 규모 및 일반화 가능성 측면에서 일정한 한계를 보유하고 있습니다. 본 연구는 개인화된 교육을 위해 가치 있는 기술 도구 및 실증적 통찰력을 제공합니다.