2025-11-22T01:16:16.023348

Stroke Prediction using Clinical and Social Features in Machine Learning

Chadha

Every year in the United States, 800,000 individuals suffer a stroke - one person every 40 seconds, with a death occurring every four minutes. While individual factors vary, certain predictors are more prevalent in determining stroke risk. As strokes are the second leading cause of death and disability worldwide, predicting stroke likelihood based on lifestyle factors is crucial. Showing individuals their stroke risk could motivate lifestyle changes, and machine learning offers solutions to this prediction challenge. Neural networks excel at predicting outcomes based on training features like lifestyle factors, however, they're not the only option. Logistic regression models can also effectively compute the likelihood of binary outcomes based on independent variables, making them well-suited for stroke prediction. This analysis will compare both neural networks (dense and convolutional) and logistic regression models for stroke prediction, examining their pros, cons, and differences to develop the most effective predictor that minimizes false negatives.

academic

머신러닝을 이용한 임상 및 사회적 특징 기반 뇌졸중 예측

기본 정보

논문 ID: 2501.00048
제목: Stroke Prediction using Clinical and Social Features in Machine Learning
저자: Aidan Chadha (Virginia Tech)
분류: cs.LG cs.AI
발표 시간/학회: 2025년 프리프린트
논문 링크: https://arxiv.org/abs/2501.00048
코드 링크: https://github.com/Aidan7757/stroke_prediction_using_clinical_social_features

초록

미국에서는 매년 80만 명이 뇌졸중을 겪으며, 40초마다 1명이 뇌졸중을 경험하고, 4분마다 1명이 뇌졸중으로 사망한다. 전 세계 사망 및 장애의 두 번째 주요 원인으로서, 생활 방식 요인을 기반으로 뇌졸중 가능성을 예측하는 것이 매우 중요하다. 본 연구는 신경망(밀집형 및 합성곱 신경망)과 로지스틱 회귀 모델의 뇌졸중 예측 성능을 비교하여, 거짓 음성을 최소화하면서 가장 효과적인 예측기를 개발하는 것을 목표로 한다.

연구 배경 및 동기

문제 정의

뇌졸중 예측은 다양한 내외부 요인을 포함하는 중요한 의료 건강 문제이다:

외부 요인: 결혼 상태, 직업 유형, 거주 환경 등
내부 요인: 심장병 병력, BMI, 나이, 혈당 수준 등

중요성

공중 보건 영향: 뇌졸중은 전 세계 사망 및 장애의 두 번째 주요 원인
예방 가치: 조기 위험 평가는 생활 방식 변화를 유도할 수 있음
임상 적용: 실시간 위험 평가를 정기 건강검진에 통합 가능

기존 한계

임상 및 사회적 특징을 효과적으로 결합하는 종합 예측 모델 부족
의료 환경에서 거짓 음성의 해로움이 충분히 강조되지 않음
뇌졸중 예측에서 다양한 머신러닝 방법의 비교 연구 제한적

핵심 기여

다중 모델 비교 프레임워크: 로지스틱 회귀, 밀집 신경망 및 합성곱 신경망의 뇌졸중 예측 성능을 체계적으로 비교
의료 중심 평가 전략: 거짓 음성 최소화에 중점을 두어 의료 환경의 실제 요구사항 반영
종합 특징 분석: 임상 지표와 사회적 요인을 통합하여 포괄적인 위험 평가 제공
실용적 다중 모델 시스템 제안: 여러 모델의 장점을 결합한 계층적 예측 파이프라인 제시

방법론 상세 설명

작업 정의

입력: 10개 특징을 포함한 환자 데이터(나이, 성별, 고혈압, 심장병, 결혼 상태, 직업 유형, 거주 유형, 평균 혈당 수준, BMI, 흡연 상태)
출력: 이진 분류 결과(0: 뇌졸중 없음, 1: 뇌졸중 있음)
제약: 거짓 음성 최소화, 정밀도와 재현율 균형

모델 아키텍처

1. 로지스틱 회귀 모델

전처리: StandardScaler를 사용한 특징 정규화, Label Encoder를 사용한 범주형 변수 인코딩
정규화: 과적합 방지를 위한 L2 정규화
최적화: 수렴 보장을 위한 최대 반복 횟수 10,000
결정 경계: 0.5 확률 임계값(조정 가능)

2. 신경망 모델

밀집 신경망(DNN):

입력층: 10개 특징
은닉층: 배치 정규화 및 드롭아웃 포함
활성화 함수: ReLU
출력층: Sigmoid 활성화의 단일 뉴런

합성곱 신경망(CNN):

유사한 아키텍처이나 특징 처리에 합성곱층 사용
풀링층 및 완전 연결층 포함

훈련 매개변수:

손실 함수: 교차 엔트로피 손실(클래스 불균형에 적합)
최적화기: Adam(적응형 학습률)
훈련 에포크: 400
정규화: 드롭아웃 + 배치 정규화

기술 혁신점

다중 아키텍처 비교: CNN과 DNN의 표 형식 데이터 뇌졸중 예측 성능을 처음으로 체계적으로 비교
의료 중심 설계: 가중 손실 함수를 사용하여 클래스 불균형 문제 처리
특징 중요도 분석: 로지스틱 회귀 계수를 통한 생물학적 요인의 예측 기여도 분석
통계적 견고성 검증: 부트스트랩 재샘플링을 사용한 95% 신뢰 구간 계산

실험 설정

데이터셋

출처: Kaggle 뇌졸중 예측 데이터셋
규모: 약 5,000개 샘플
클래스 분포: 심각한 불균형(뇌졸중 사례는 5-6%만 해당)
분할: 80% 훈련 세트, 20% 테스트 세트
특징: 10개 임상 및 사회적 특징

평가 지표

정확도(Accuracy): 전체 정확률
재현율(Recall): 실제 뇌졸중 사례 식별 능력(주요 초점)
정밀도(Precision): 예측된 뇌졸중 사례의 정확성
F1-점수: 정밀도와 재현율의 조화 평균
AUC-ROC: 다양한 임계값에서의 판별 능력
혼동 행렬: 상세한 분류 오류 분석

비교 방법

로지스틱 회귀(Sklearn 구현)
밀집 신경망(PyTorch 구현)
합성곱 신경망(PyTorch 구현)

구현 세부사항

프레임워크: PyTorch(신경망), Sklearn(로지스틱 회귀)
하드웨어: 표준 컴퓨팅 환경
재현성: 고정 난수 시드, 오픈소스 코드

실험 결과

주요 결과

모델	정확도	재현율	정밀도	F1-점수
로지스틱 회귀	74.95%	75.81%	16.31%	-
밀집 신경망	86.50%	43.55%	20.77%	-
합성곱 신경망	78.67%	53.23%	-	-

주요 발견

정확도 대 재현율 트레이드오프:
- 밀집 신경망이 최고 정확도(86.50%)를 달성하나 재현율은 낮음(43.55%)
- 로지스틱 회귀가 최고 재현율(75.81%)을 보이나 정밀도는 낮음(16.31%)
- CNN이 두 지표 간 균형 달성
특징 중요도 분석:
- 나이가 가장 중요한 예측 인자(의학 지식과 일치)
- BMI의 중요도가 예상보다 낮음(기존 연구와 불일치)
훈련 동역학:
- CNN은 50 에포크 후 수렴 속도 저하
- DNN은 전체 400 에포크 훈련 중 지속적 개선
- 명백한 과적합 현상 없음

통계적 유의성

부트스트랩 재샘플링(1,000회 반복)을 사용한 95% 신뢰 구간 계산:

DNN 정확도: 86.50% 84.32%, 88.68%
DNN 재현율: 43.55% 39.87%, 47.23%
로지스틱 회귀 정확도: 74.95% 72.63%, 77.27%
로지스틱 회귀 재현율: 75.81% 72.14%, 79.48%

결론 및 논의

주요 결론

모델 선택은 응용 시나리오에 따라 결정:
- 로지스틱 회귀: 초기 선별에 적합(높은 재현율, 강한 해석 가능성)
- 밀집 신경망: 정확한 평가에 적합(높은 정확도, 낮은 거짓 양성)
- CNN: 균형 잡힌 성능, 검증 도구로 적합
다중 모델 시스템 제안:
- 1단계: 로지스틱 회귀 초기 선별
- 2단계: 고위험 환자의 DNN 정확 평가
- 3단계: CNN 검증 및 균형

한계

데이터 불균형: 양성 사례가 5-6%만으로 모델 학습 능력 제한
특징 중요도 이상: BMI 중요도가 예상보다 낮아 예측 정확성에 영향 가능
일반화 능력: 단일 데이터셋이 모델의 보편성 제한 가능
샘플 규모: 5,000개 샘플은 상대적으로 작으며, 특히 양성 사례 부족

향후 방향

데이터 확충: 클래스 불균형 완화를 위한 더 많은 실제 뇌졸중 환자 데이터 수집
특징 공학: 특징 선택 전략 재평가 및 최적화
모델 앙상블: 더 정교한 다중 모델 융합 방법 개발
임상 검증: 실제 의료 환경에서 모델 효과 검증

심층 평가

장점

실용 지향성: 의료 환경에서 거짓 음성 최소화의 실제 요구사항을 명확히 인식
방법론 포괄성: 전통 머신러닝과 심층학습 방법을 체계적으로 비교
통계적 엄밀성: 부트스트랩 방법을 사용한 결과 견고성 검증
재현성: 완전한 코드 및 데이터 제공, MIT 오픈소스 라이선스 채택
임상 관련성: 의학 분야에서 인정된 위험 요인 통합

부족점

데이터 품질: 심각한 클래스 불균형 문제가 충분히 해결되지 않음
모델 깊이: 신경망 아키텍처가 상대적으로 단순하여 심층학습 잠재력 미충분 탐색
특징 공학 부족: BMI 중요도 이상이 특징 처리에 문제가 있을 수 있음을 시사
평가 한계: 기존 임상 위험 평가 도구와의 비교 부재
실험 규모: 단일 데이터셋, 교차 데이터셋 검증 부재

영향력

학술 기여: 의료 AI 분야에 실용적 다중 모델 비교 프레임워크 제공
임상 가치: 제안된 계층적 예측 시스템이 실제 응용 잠재력 보유
방법론적 의의: 의료 AI에서 거짓 음성 제어의 중요성 강조
확장성: 방법이 다른 의료 예측 작업으로 일반화 가능

적용 시나리오

1차 의료: 로지스틱 회귀 모델이 지역사회 의료 선별에 적합
전문 병원: 밀집 신경망이 정확한 위험 평가에 적합
건강 관리: 개인 건강 모니터링 애플리케이션에 통합 가능
임상 연구: 뇌졸중 위험 요인 연구를 위한 도구 제공

참고문헌

CDC. Preventing stroke deaths. https://www.cdc.gov/vitalsigns/pdf/2017-09-vitalsigns.pdf
Shao, Y., et al. (2024). Link between triglyceride-glucose-body mass index and future stroke risk in middle-aged and elderly Chinese. Cardiovascular Diabetology.
Gupta, A., et al. (2025). Predicting stroke risk: An effective stroke prediction model based on neural networks. Journal of Neurorestoratology.

종합 평가: 본 연구는 뇌졸중 예측이라는 중요한 의료 문제에 대해 가치 있는 다중 모델 비교 분석을 제공하며, 특히 거짓 음성 제어에 대한 중시는 의료 AI의 실제 요구사항을 반영한다. 데이터 불균형 등의 한계가 있지만, 제안된 다중 모델 시스템 아키텍처는 실제 응용 가치를 가지며 의료 AI 분야의 유사 연구에 좋은 참고 프레임워크를 제공한다.