2025-11-22T01:16:16.023348

Stroke Prediction using Clinical and Social Features in Machine Learning

Chadha

Every year in the United States, 800,000 individuals suffer a stroke - one person every 40 seconds, with a death occurring every four minutes. While individual factors vary, certain predictors are more prevalent in determining stroke risk. As strokes are the second leading cause of death and disability worldwide, predicting stroke likelihood based on lifestyle factors is crucial. Showing individuals their stroke risk could motivate lifestyle changes, and machine learning offers solutions to this prediction challenge. Neural networks excel at predicting outcomes based on training features like lifestyle factors, however, they're not the only option. Logistic regression models can also effectively compute the likelihood of binary outcomes based on independent variables, making them well-suited for stroke prediction. This analysis will compare both neural networks (dense and convolutional) and logistic regression models for stroke prediction, examining their pros, cons, and differences to develop the most effective predictor that minimizes false negatives.

academic

基本信息

论文ID: 2501.00048
标题: Stroke Prediction using Clinical and Social Features in Machine Learning
作者: Aidan Chadha (Virginia Tech)
分类: cs.LG cs.AI
发表时间/会议: 2025年预印本
论文链接: https://arxiv.org/abs/2501.00048
代码链接: https://github.com/Aidan7757/stroke_prediction_using_clinical_social_features

摘要

每年美国有80万人遭受中风，每40秒就有一人中风，每4分钟就有一人因中风死亡。作为全球第二大死亡和致残原因，基于生活方式因素预测中风可能性至关重要。本研究比较了神经网络（密集型和卷积型）与逻辑回归模型在中风预测中的表现，旨在开发最有效的预测器以最小化假阴性。

研究背景与动机

问题定义

中风预测是一个关键的医疗健康问题，涉及多个内外部因素：

外部因素：婚姻状况、工作类型、居住环境等
内部因素：心脏病史、BMI、年龄、血糖水平等

重要性

公共健康影响：中风是全球第二大死亡和致残原因
预防价值：早期风险评估可激励生活方式改变
临床应用：实时风险评估可集成到常规体检中

现有局限性

缺乏能有效结合临床和社会特征的综合预测模型
在医疗场景中，假阴性的危害性尚未得到充分重视
不同机器学习方法在中风预测中的比较研究有限

核心贡献

多模型比较框架：系统比较了逻辑回归、密集神经网络和卷积神经网络在中风预测中的性能
医疗导向的评估策略：重点关注假阴性最小化，符合医疗场景的实际需求
综合特征分析：整合临床指标和社会因素，提供全面的风险评估
实用的多模型系统建议：提出结合多个模型优势的分层预测pipeline

方法详解

任务定义

输入：包含10个特征的患者数据（年龄、性别、高血压、心脏病、婚姻状况、工作类型、居住类型、平均血糖水平、BMI、吸烟状况）
输出：二元分类结果（0：无中风，1：有中风）
约束：最小化假阴性，平衡精确率和召回率

模型架构

1. 逻辑回归模型

预处理：使用StandardScaler标准化特征，Label Encoder编码分类变量
正则化：L2正则化防止过拟合
优化：最大迭代次数10,000确保收敛
决策边界：0.5概率阈值（可调整）

2. 神经网络模型

密集神经网络(DNN)：

输入层：10个特征
隐藏层：包含Batch Normalization和Dropout
激活函数：ReLU
输出层：Sigmoid激活的单神经元

卷积神经网络(CNN)：

类似架构但使用卷积层处理特征
包含池化层和全连接层

训练参数：

损失函数：Cross Entropy Loss（适合类别不平衡）
优化器：Adam（学习率自适应）
训练轮数：400 epochs
正则化：Dropout + Batch Normalization

技术创新点

多架构对比：首次系统比较CNN和DNN在表格数据中风预测中的表现
医疗导向设计：使用加权损失函数处理类别不平衡问题
特征重要性分析：通过逻辑回归系数分析生物学因素的预测贡献
统计稳健性验证：使用Bootstrap重采样计算95%置信区间

实验设置

数据集

来源：Kaggle中风预测数据集
规模：约5000个样本
类别分布：高度不平衡（仅5-6%为中风案例）
划分：80%训练集，20%测试集
特征：10个临床和社会特征

评价指标

准确率(Accuracy)：整体正确率
召回率(Recall)：识别真实中风案例的能力（重点关注）
精确率(Precision)：预测中风案例的准确性
F1-Score：精确率和召回率的调和平均
AUC-ROC：不同阈值下的判别能力
混淆矩阵：详细的分类错误分析

对比方法

逻辑回归（Sklearn实现）
密集神经网络（PyTorch实现）
卷积神经网络（PyTorch实现）

实现细节

框架：PyTorch（神经网络），Sklearn（逻辑回归）
硬件：标准计算环境
可复现性：固定随机种子，开源代码

实验结果

主要结果

模型	准确率	召回率	精确率	F1-Score
逻辑回归	74.95%	75.81%	16.31%	-
密集神经网络	86.50%	43.55%	20.77%	-
卷积神经网络	78.67%	53.23%	-	-

关键发现

准确率vs召回率权衡：
- 密集神经网络获得最高准确率(86.50%)，但召回率较低(43.55%)
- 逻辑回归召回率最高(75.81%)，但精确率较低(16.31%)
- CNN在两者间取得平衡
特征重要性分析：
- 年龄是最重要的预测因子（符合医学知识）
- BMI的重要性低于预期（与现有研究不符）
训练动态：
- CNN在50轮后收敛缓慢
- DNN在整个400轮训练中持续改进
- 无明显过拟合现象

统计显著性

使用Bootstrap重采样(1000次迭代)计算95%置信区间：

DNN准确率：86.50% 84.32%, 88.68%
DNN召回率：43.55% 39.87%, 47.23%
逻辑回归准确率：74.95% 72.63%, 77.27%
逻辑回归召回率：75.81% 72.14%, 79.48%

结论与讨论

主要结论

模型选择依赖于应用场景：
- 逻辑回归：适合初筛（高召回率，可解释性强）
- 密集神经网络：适合精确评估（高准确率，低假阳性）
- CNN：平衡性能，适合验证工具
多模型系统建议：
- 第一阶段：逻辑回归初筛
- 第二阶段：DNN精确评估高风险患者
- 第三阶段：CNN验证和平衡

局限性

数据不平衡：仅5-6%的阳性案例限制了模型学习能力
特征重要性异常：BMI重要性低于预期，可能影响预测准确性
泛化能力：单一数据集可能限制模型的普适性
样本规模：5000样本相对较小，特别是阳性案例稀少

未来方向

数据扩充：收集更多真实中风患者数据以缓解类别不平衡
特征工程：重新评估和优化特征选择策略
模型集成：开发更sophisticated的多模型融合方法
临床验证：在实际医疗环境中验证模型效果

深度评价

优点

实用导向：明确关注医疗场景中假阴性最小化的实际需求
方法全面：系统比较了传统机器学习和深度学习方法
统计严谨：使用Bootstrap方法验证结果稳健性
可复现性：提供完整代码和数据，采用MIT开源许可
临床相关性：整合了医学领域公认的风险因子

不足

数据质量：严重的类别不平衡问题未得到充分解决
模型深度：神经网络架构相对简单，未充分探索深度学习潜力
特征工程不足：BMI重要性异常提示特征处理可能存在问题
评估局限：缺乏与现有临床风险评估工具的比较
实验规模：单一数据集，缺乏跨数据集验证

影响力

学术贡献：为医疗AI领域提供了实用的多模型比较框架
临床价值：提出的分层预测系统具有实际应用潜力
方法学意义：强调了医疗AI中假阴性控制的重要性
可扩展性：方法可推广到其他医疗预测任务

适用场景

初级医疗保健：逻辑回归模型适合社区医疗筛查
专科医院：密集神经网络适合精确风险评估
健康管理：可集成到个人健康监测应用中
临床研究：为中风风险因子研究提供工具

参考文献

CDC. Preventing stroke deaths. https://www.cdc.gov/vitalsigns/pdf/2017-09-vitalsigns.pdf
Shao, Y., et al. (2024). Link between triglyceride-glucose-body mass index and future stroke risk in middle-aged and elderly Chinese. Cardiovascular Diabetology.
Gupta, A., et al. (2025). Predicting stroke risk: An effective stroke prediction model based on neural networks. Journal of Neurorestoratology.

总评：本研究在中风预测这一重要医疗问题上提供了有价值的多模型比较分析，特别是对假阴性控制的重视体现了医疗AI的实际需求。尽管存在数据不平衡等局限性，但其提出的多模型系统架构具有实际应用价值，为医疗AI领域的类似研究提供了良好的参考框架。