2025-11-22T01:16:16.023348

Stroke Prediction using Clinical and Social Features in Machine Learning

Chadha

Every year in the United States, 800,000 individuals suffer a stroke - one person every 40 seconds, with a death occurring every four minutes. While individual factors vary, certain predictors are more prevalent in determining stroke risk. As strokes are the second leading cause of death and disability worldwide, predicting stroke likelihood based on lifestyle factors is crucial. Showing individuals their stroke risk could motivate lifestyle changes, and machine learning offers solutions to this prediction challenge. Neural networks excel at predicting outcomes based on training features like lifestyle factors, however, they're not the only option. Logistic regression models can also effectively compute the likelihood of binary outcomes based on independent variables, making them well-suited for stroke prediction. This analysis will compare both neural networks (dense and convolutional) and logistic regression models for stroke prediction, examining their pros, cons, and differences to develop the most effective predictor that minimizes false negatives.

academic

التنبؤ بالسكتة الدماغية باستخدام الميزات السريرية والاجتماعية في التعلم الآلي

المعلومات الأساسية

معرّف الورقة: 2501.00048
العنوان: التنبؤ بالسكتة الدماغية باستخدام الميزات السريرية والاجتماعية في التعلم الآلي
المؤلف: Aidan Chadha (جامعة فرجينيا التقنية)
التصنيف: cs.LG cs.AI
وقت النشر/المؤتمر: نسخة أولية لعام 2025
رابط الورقة: https://arxiv.org/abs/2501.00048
رابط الكود: https://github.com/Aidan7757/stroke_prediction_using_clinical_social_features

الملخص

يعاني 800,000 شخص من السكتة الدماغية سنويًا في الولايات المتحدة، حيث يحدث سكتة واحدة كل 40 ثانية، ويموت شخص واحد كل 4 دقائق بسبب السكتة الدماغية. كثاني سبب للوفيات والإعاقة عالميًا، يعتبر التنبؤ بخطر السكتة الدماغية بناءً على عوامل نمط الحياة أمرًا بالغ الأهمية. تقارن هذه الدراسة أداء الشبكات العصبية (الكثيفة والالتفافية) مع نماذج الانحدار اللوجستي في التنبؤ بالسكتة الدماغية، بهدف تطوير أفضل منبئ لتقليل النتائج السلبية الخاطئة.

خلفية البحث والدافع

تعريف المشكلة

التنبؤ بالسكتة الدماغية مشكلة صحية حرجة تتضمن عوامل داخلية وخارجية متعددة:

العوامل الخارجية: الحالة الزوجية، نوع العمل، بيئة السكن، وغيرها
العوامل الداخلية: تاريخ أمراض القلب، مؤشر كتلة الجسم، العمر، مستويات السكر في الدم، وغيرها

الأهمية

التأثير على الصحة العامة: السكتة الدماغية هي ثاني سبب للوفيات والإعاقة عالميًا
قيمة الوقاية: يمكن لتقييم المخاطر المبكر أن يحفز تغييرات نمط الحياة
التطبيق السريري: يمكن دمج تقييم المخاطر في الوقت الفعلي في الفحوصات الطبية الروتينية

القيود الحالية

نقص النماذج الشاملة التي تجمع بفعالية بين الميزات السريرية والاجتماعية
لم يتم إيلاء اهتمام كافٍ لأضرار النتائج السلبية الخاطئة في السياقات الطبية
الدراسات المقارنة بين طرق التعلم الآلي المختلفة في التنبؤ بالسكتة الدماغية محدودة

المساهمات الأساسية

إطار عمل المقارنة متعددة النماذج: مقارنة منهجية لأداء الانحدار اللوجستي والشبكات العصبية الكثيفة والالتفافية في التنبؤ بالسكتة الدماغية
استراتيجية التقييم الموجهة للطب: التركيز على تقليل النتائج السلبية الخاطئة، وهو ما يتوافق مع الاحتياجات العملية في السياقات الطبية
تحليل الميزات الشامل: دمج المؤشرات السريرية والعوامل الاجتماعية لتقديم تقييم شامل للمخاطر
توصيات النظام متعدد النماذج العملية: اقتراح خط أنابيب تنبؤ متدرج يجمع بين مزايا نماذج متعددة

شرح الطريقة

تعريف المهمة

الإدخال: بيانات المريض التي تحتوي على 10 ميزات (العمر، الجنس، ارتفاع ضغط الدم، أمراض القلب، الحالة الزوجية، نوع العمل، نوع السكن، متوسط مستوى السكر في الدم، مؤشر كتلة الجسم، حالة التدخين)
الإخراج: نتيجة التصنيف الثنائي (0: بدون سكتة دماغية، 1: مع سكتة دماغية)
القيود: تقليل النتائج السلبية الخاطئة، موازنة الدقة والاستدعاء

معمارية النموذج

1. نموذج الانحدار اللوجستي

المعالجة المسبقة: استخدام StandardScaler لتوحيد الميزات، Label Encoder لترميز المتغيرات الفئوية
التنظيم: تنظيم L2 لمنع الإفراط في التدريب
التحسين: الحد الأقصى لعدد التكرارات 10,000 لضمان التقارب
حدود القرار: عتبة احتمالية 0.5 (قابلة للتعديل)

2. نماذج الشبكات العصبية

الشبكة العصبية الكثيفة (DNN):

طبقة الإدخال: 10 ميزات
الطبقات المخفية: تتضمن تطبيع الدفعات و Dropout
دالة التفعيل: ReLU
طبقة الإخراج: عصبون واحد مع تفعيل Sigmoid

الشبكة العصبية الالتفافية (CNN):

معمارية مشابهة لكن تستخدم طبقات التفافية لمعالجة الميزات
تتضمن طبقات التجميع والطبقات المتصلة بالكامل

معاملات التدريب:

دالة الخسارة: Cross Entropy Loss (مناسبة لعدم التوازن الطبقي)
محسّن: Adam (معدل تعلم متكيف)
عدد الحقب: 400 حقبة
التنظيم: Dropout + تطبيع الدفعات

نقاط الابتكار التقني

المقارنة متعددة المعمارية: أول مقارنة منهجية بين CNN و DNN في التنبؤ بالسكتة الدماغية باستخدام البيانات الجدولية
التصميم الموجه للطب: استخدام دوال خسارة مرجحة للتعامل مع مشكلة عدم التوازن الطبقي
تحليل أهمية الميزات: تحليل معاملات الانحدار اللوجستي لتحديد مساهمة العوامل البيولوجية في التنبؤ
التحقق من الاستقرار الإحصائي: استخدام إعادة العينات Bootstrap لحساب فترات الثقة 95%

إعداد التجربة

مجموعة البيانات

المصدر: مجموعة بيانات التنبؤ بالسكتة الدماغية من Kaggle
الحجم: حوالي 5000 عينة
توزيع الفئات: غير متوازن بشدة (فقط 5-6% حالات سكتة دماغية)
التقسيم: 80% مجموعة التدريب، 20% مجموعة الاختبار
الميزات: 10 ميزات سريرية واجتماعية

مقاييس التقييم

الدقة (Accuracy): معدل الصحة الإجمالي
الاستدعاء (Recall): القدرة على تحديد حالات السكتة الدماغية الفعلية (التركيز الرئيسي)
الدقة (Precision): دقة التنبؤ بحالات السكتة الدماغية
درجة F1: المتوسط التوافقي للدقة والاستدعاء
AUC-ROC: القدرة التمييزية عند عتبات مختلفة
مصفوفة الالتباس: تحليل تفصيلي لأخطاء التصنيف

الطرق المقارنة

الانحدار اللوجستي (تطبيق Sklearn)
الشبكة العصبية الكثيفة (تطبيق PyTorch)
الشبكة العصبية الالتفافية (تطبيق PyTorch)

تفاصيل التطبيق

الإطار: PyTorch (الشبكات العصبية)، Sklearn (الانحدار اللوجستي)
الأجهزة: بيئة حوسبة قياسية
إمكانية التكرار: بذور عشوائية ثابتة، كود مفتوح المصدر

نتائج التجربة

النتائج الرئيسية

النموذج	الدقة	الاستدعاء	الدقة	درجة F1
الانحدار اللوجستي	74.95%	75.81%	16.31%	-
الشبكة العصبية الكثيفة	86.50%	43.55%	20.77%	-
الشبكة العصبية الالتفافية	78.67%	53.23%	-	-

الاكتشافات الرئيسية

المقايضة بين الدقة والاستدعاء:
- حققت الشبكة العصبية الكثيفة أعلى دقة (86.50%)، لكن استدعاء أقل (43.55%)
- حقق الانحدار اللوجستي أعلى استدعاء (75.81%)، لكن دقة أقل (16.31%)
- حققت شبكة CNN توازنًا بين الاثنين
تحليل أهمية الميزات:
- العمر هو أهم عامل تنبؤي (يتوافق مع المعرفة الطبية)
- أهمية مؤشر كتلة الجسم أقل من المتوقع (لا يتوافق مع الأبحاث الحالية)
ديناميكيات التدريب:
- تتقارب شبكة CNN ببطء بعد 50 حقبة
- تستمر الشبكة العصبية الكثيفة في التحسن طوال 400 حقبة تدريب
- لا توجد ظواهر واضحة للإفراط في التدريب

الدلالة الإحصائية

حساب فترات الثقة 95% باستخدام إعادة العينات Bootstrap (1000 تكرار):

دقة الشبكة العصبية الكثيفة: 86.50% 84.32%, 88.68%
استدعاء الشبكة العصبية الكثيفة: 43.55% 39.87%, 47.23%
دقة الانحدار اللوجستي: 74.95% 72.63%, 77.27%
استدعاء الانحدار اللوجستي: 75.81% 72.14%, 79.48%

الأعمال ذات الصلة

تستشهد الورقة بعدة دراسات ذات صلة:

Shao et al. (2024): يؤكد على أهمية مؤشر كتلة الجسم والعمر كعوامل تنبؤية بيولوجية
Gupta et al. (2025): نموذج التنبؤ بالسكتة الدماغية القائم على الشبكات العصبية
Zhang et al. (2022): تطبيق المحللات متعددة الطبقات في التنبؤ بالسكتة الدماغية

مزايا هذا البحث مقارنة بالأعمال الحالية:

مقارنة منهجية لطرق التعلم الآلي المتعددة
التركيز على تقليل النتائج السلبية الخاطئة
تحليل شامل يجمع بين الميزات السريرية والاجتماعية

الخلاصات والمناقشة

الاستنتاجات الرئيسية

اختيار النموذج يعتمد على سيناريو التطبيق:
- الانحدار اللوجستي: مناسب للفحص الأولي (استدعاء عالي، قابلية تفسير قوية)
- الشبكة العصبية الكثيفة: مناسبة للتقييم الدقيق (دقة عالية، نتائج إيجابية خاطئة منخفضة)
- شبكة CNN: أداء متوازن، مناسبة كأداة تحقق
توصيات النظام متعدد النماذج:
- المرحلة الأولى: فحص أولي باستخدام الانحدار اللوجستي
- المرحلة الثانية: تقييم دقيق للمرضى عالي الخطورة باستخدام الشبكة العصبية الكثيفة
- المرحلة الثالثة: التحقق والموازنة باستخدام شبكة CNN

القيود

عدم التوازن في البيانات: فقط 5-6% من الحالات الإيجابية يحد من قدرة النموذج على التعلم
شذوذ أهمية الميزات: انخفاض أهمية مؤشر كتلة الجسم عن المتوقع قد يؤثر على دقة التنبؤ
القدرة على التعميم: قد تحد مجموعة البيانات الواحدة من القابلية العامة للنموذج
حجم العينة: 5000 عينة نسبيًا صغيرة، خاصة مع ندرة الحالات الإيجابية

الاتجاهات المستقبلية

توسيع البيانات: جمع المزيد من بيانات مرضى السكتة الدماغية الفعلية لتخفيف عدم التوازن الطبقي
هندسة الميزات: إعادة تقييم واستكشاف استراتيجيات اختيار الميزات
دمج النماذج: تطوير طرق دمج متطورة لنماذج متعددة
التحقق السريري: التحقق من فعالية النموذج في بيئات طبية فعلية

التقييم المتعمق

المزايا

التوجه العملي: التركيز الواضح على تقليل النتائج السلبية الخاطئة في السياقات الطبية
الشمولية المنهجية: مقارنة منهجية بين طرق التعلم الآلي التقليدية والتعلم العميق
الصرامة الإحصائية: استخدام طريقة Bootstrap للتحقق من استقرار النتائج
إمكانية التكرار: توفير كود كامل وبيانات مع ترخيص MIT مفتوح المصدر
الصلة السريرية: دمج عوامل الخطر المعترف بها في المجال الطبي

أوجه القصور

جودة البيانات: لم يتم معالجة مشكلة عدم التوازن الطبقي الحاد بشكل كافٍ
عمق النموذج: معمارية الشبكات العصبية نسبيًا بسيطة، لم تستكشف بالكامل إمكانيات التعلم العميق
هندسة الميزات غير كافية: شذوذ أهمية مؤشر كتلة الجسم يشير إلى مشاكل محتملة في معالجة الميزات
قيود التقييم: نقص المقارنة مع أدوات تقييم المخاطر السريرية الموجودة
نطاق التجربة: مجموعة بيانات واحدة، نقص التحقق عبر مجموعات البيانات

التأثير

المساهمة الأكاديمية: توفير إطار عمل عملي لمقارنة النماذج المتعددة لمجال الذكاء الاصطناعي الطبي
القيمة السريرية: النظام التنبؤي المتدرج المقترح له إمكانية تطبيق عملي
الأهمية المنهجية: التأكيد على أهمية التحكم في النتائج السلبية الخاطئة في الذكاء الاصطناعي الطبي
القابلية للتوسع: يمكن تعميم الطريقة على مهام التنبؤ الطبية الأخرى

سيناريوهات التطبيق

الرعاية الصحية الأولية: نموذج الانحدار اللوجستي مناسب لفحص الرعاية الصحية المجتمعية
المستشفيات المتخصصة: الشبكة العصبية الكثيفة مناسبة لتقييم المخاطر الدقيق
إدارة الصحة: يمكن دمجها في تطبيقات مراقبة الصحة الشخصية
البحث السريري: توفير أداة لأبحاث عوامل خطر السكتة الدماغية

المراجع

CDC. منع وفيات السكتة الدماغية. https://www.cdc.gov/vitalsigns/pdf/2017-09-vitalsigns.pdf
Shao, Y., et al. (2024). الارتباط بين مؤشر الجلوكوز-الدهون الثلاثية-كتلة الجسم وخطر السكتة الدماغية المستقبلي لدى الصينيين في منتصف العمر والمسنين. أمراض القلب والسكري.
Gupta, A., et al. (2025). التنبؤ بخطر السكتة الدماغية: نموذج فعال للتنبؤ بالسكتة الدماغية قائم على الشبكات العصبية. مجلة إعادة التأهيل العصبي.

التقييم الإجمالي: توفر هذه الدراسة تحليل مقارنة قيم متعدد النماذج لمشكلة طبية مهمة وهي التنبؤ بالسكتة الدماغية، حيث يعكس التركيز على التحكم في النتائج السلبية الخاطئة الاحتياجات العملية الفعلية للذكاء الاصطناعي الطبي. على الرغم من وجود قيود مثل عدم التوازن في البيانات، فإن معمارية النظام متعدد النماذج المقترحة لها قيمة تطبيقية عملية وتوفر إطار عمل مرجعي جيد للأبحاث المماثلة في مجال الذكاء الاصطناعي الطبي.