Every year in the United States, 800,000 individuals suffer a stroke - one person every 40 seconds, with a death occurring every four minutes. While individual factors vary, certain predictors are more prevalent in determining stroke risk. As strokes are the second leading cause of death and disability worldwide, predicting stroke likelihood based on lifestyle factors is crucial. Showing individuals their stroke risk could motivate lifestyle changes, and machine learning offers solutions to this prediction challenge. Neural networks excel at predicting outcomes based on training features like lifestyle factors, however, they're not the only option. Logistic regression models can also effectively compute the likelihood of binary outcomes based on independent variables, making them well-suited for stroke prediction. This analysis will compare both neural networks (dense and convolutional) and logistic regression models for stroke prediction, examining their pros, cons, and differences to develop the most effective predictor that minimizes false negatives.
academic- معرّف الورقة: 2501.00048
- العنوان: التنبؤ بالسكتة الدماغية باستخدام الميزات السريرية والاجتماعية في التعلم الآلي
- المؤلف: Aidan Chadha (جامعة فرجينيا التقنية)
- التصنيف: cs.LG cs.AI
- وقت النشر/المؤتمر: نسخة أولية لعام 2025
- رابط الورقة: https://arxiv.org/abs/2501.00048
- رابط الكود: https://github.com/Aidan7757/stroke_prediction_using_clinical_social_features
يعاني 800,000 شخص من السكتة الدماغية سنويًا في الولايات المتحدة، حيث يحدث سكتة واحدة كل 40 ثانية، ويموت شخص واحد كل 4 دقائق بسبب السكتة الدماغية. كثاني سبب للوفيات والإعاقة عالميًا، يعتبر التنبؤ بخطر السكتة الدماغية بناءً على عوامل نمط الحياة أمرًا بالغ الأهمية. تقارن هذه الدراسة أداء الشبكات العصبية (الكثيفة والالتفافية) مع نماذج الانحدار اللوجستي في التنبؤ بالسكتة الدماغية، بهدف تطوير أفضل منبئ لتقليل النتائج السلبية الخاطئة.
التنبؤ بالسكتة الدماغية مشكلة صحية حرجة تتضمن عوامل داخلية وخارجية متعددة:
- العوامل الخارجية: الحالة الزوجية، نوع العمل، بيئة السكن، وغيرها
- العوامل الداخلية: تاريخ أمراض القلب، مؤشر كتلة الجسم، العمر، مستويات السكر في الدم، وغيرها
- التأثير على الصحة العامة: السكتة الدماغية هي ثاني سبب للوفيات والإعاقة عالميًا
- قيمة الوقاية: يمكن لتقييم المخاطر المبكر أن يحفز تغييرات نمط الحياة
- التطبيق السريري: يمكن دمج تقييم المخاطر في الوقت الفعلي في الفحوصات الطبية الروتينية
- نقص النماذج الشاملة التي تجمع بفعالية بين الميزات السريرية والاجتماعية
- لم يتم إيلاء اهتمام كافٍ لأضرار النتائج السلبية الخاطئة في السياقات الطبية
- الدراسات المقارنة بين طرق التعلم الآلي المختلفة في التنبؤ بالسكتة الدماغية محدودة
- إطار عمل المقارنة متعددة النماذج: مقارنة منهجية لأداء الانحدار اللوجستي والشبكات العصبية الكثيفة والالتفافية في التنبؤ بالسكتة الدماغية
- استراتيجية التقييم الموجهة للطب: التركيز على تقليل النتائج السلبية الخاطئة، وهو ما يتوافق مع الاحتياجات العملية في السياقات الطبية
- تحليل الميزات الشامل: دمج المؤشرات السريرية والعوامل الاجتماعية لتقديم تقييم شامل للمخاطر
- توصيات النظام متعدد النماذج العملية: اقتراح خط أنابيب تنبؤ متدرج يجمع بين مزايا نماذج متعددة
- الإدخال: بيانات المريض التي تحتوي على 10 ميزات (العمر، الجنس، ارتفاع ضغط الدم، أمراض القلب، الحالة الزوجية، نوع العمل، نوع السكن، متوسط مستوى السكر في الدم، مؤشر كتلة الجسم، حالة التدخين)
- الإخراج: نتيجة التصنيف الثنائي (0: بدون سكتة دماغية، 1: مع سكتة دماغية)
- القيود: تقليل النتائج السلبية الخاطئة، موازنة الدقة والاستدعاء
- المعالجة المسبقة: استخدام StandardScaler لتوحيد الميزات، Label Encoder لترميز المتغيرات الفئوية
- التنظيم: تنظيم L2 لمنع الإفراط في التدريب
- التحسين: الحد الأقصى لعدد التكرارات 10,000 لضمان التقارب
- حدود القرار: عتبة احتمالية 0.5 (قابلة للتعديل)
الشبكة العصبية الكثيفة (DNN):
- طبقة الإدخال: 10 ميزات
- الطبقات المخفية: تتضمن تطبيع الدفعات و Dropout
- دالة التفعيل: ReLU
- طبقة الإخراج: عصبون واحد مع تفعيل Sigmoid
الشبكة العصبية الالتفافية (CNN):
- معمارية مشابهة لكن تستخدم طبقات التفافية لمعالجة الميزات
- تتضمن طبقات التجميع والطبقات المتصلة بالكامل
معاملات التدريب:
- دالة الخسارة: Cross Entropy Loss (مناسبة لعدم التوازن الطبقي)
- محسّن: Adam (معدل تعلم متكيف)
- عدد الحقب: 400 حقبة
- التنظيم: Dropout + تطبيع الدفعات
- المقارنة متعددة المعمارية: أول مقارنة منهجية بين CNN و DNN في التنبؤ بالسكتة الدماغية باستخدام البيانات الجدولية
- التصميم الموجه للطب: استخدام دوال خسارة مرجحة للتعامل مع مشكلة عدم التوازن الطبقي
- تحليل أهمية الميزات: تحليل معاملات الانحدار اللوجستي لتحديد مساهمة العوامل البيولوجية في التنبؤ
- التحقق من الاستقرار الإحصائي: استخدام إعادة العينات Bootstrap لحساب فترات الثقة 95%
- المصدر: مجموعة بيانات التنبؤ بالسكتة الدماغية من Kaggle
- الحجم: حوالي 5000 عينة
- توزيع الفئات: غير متوازن بشدة (فقط 5-6% حالات سكتة دماغية)
- التقسيم: 80% مجموعة التدريب، 20% مجموعة الاختبار
- الميزات: 10 ميزات سريرية واجتماعية
- الدقة (Accuracy): معدل الصحة الإجمالي
- الاستدعاء (Recall): القدرة على تحديد حالات السكتة الدماغية الفعلية (التركيز الرئيسي)
- الدقة (Precision): دقة التنبؤ بحالات السكتة الدماغية
- درجة F1: المتوسط التوافقي للدقة والاستدعاء
- AUC-ROC: القدرة التمييزية عند عتبات مختلفة
- مصفوفة الالتباس: تحليل تفصيلي لأخطاء التصنيف
- الانحدار اللوجستي (تطبيق Sklearn)
- الشبكة العصبية الكثيفة (تطبيق PyTorch)
- الشبكة العصبية الالتفافية (تطبيق PyTorch)
- الإطار: PyTorch (الشبكات العصبية)، Sklearn (الانحدار اللوجستي)
- الأجهزة: بيئة حوسبة قياسية
- إمكانية التكرار: بذور عشوائية ثابتة، كود مفتوح المصدر
| النموذج | الدقة | الاستدعاء | الدقة | درجة F1 |
|---|
| الانحدار اللوجستي | 74.95% | 75.81% | 16.31% | - |
| الشبكة العصبية الكثيفة | 86.50% | 43.55% | 20.77% | - |
| الشبكة العصبية الالتفافية | 78.67% | 53.23% | - | - |
- المقايضة بين الدقة والاستدعاء:
- حققت الشبكة العصبية الكثيفة أعلى دقة (86.50%)، لكن استدعاء أقل (43.55%)
- حقق الانحدار اللوجستي أعلى استدعاء (75.81%)، لكن دقة أقل (16.31%)
- حققت شبكة CNN توازنًا بين الاثنين
- تحليل أهمية الميزات:
- العمر هو أهم عامل تنبؤي (يتوافق مع المعرفة الطبية)
- أهمية مؤشر كتلة الجسم أقل من المتوقع (لا يتوافق مع الأبحاث الحالية)
- ديناميكيات التدريب:
- تتقارب شبكة CNN ببطء بعد 50 حقبة
- تستمر الشبكة العصبية الكثيفة في التحسن طوال 400 حقبة تدريب
- لا توجد ظواهر واضحة للإفراط في التدريب
حساب فترات الثقة 95% باستخدام إعادة العينات Bootstrap (1000 تكرار):
- دقة الشبكة العصبية الكثيفة: 86.50% 84.32%, 88.68%
- استدعاء الشبكة العصبية الكثيفة: 43.55% 39.87%, 47.23%
- دقة الانحدار اللوجستي: 74.95% 72.63%, 77.27%
- استدعاء الانحدار اللوجستي: 75.81% 72.14%, 79.48%
تستشهد الورقة بعدة دراسات ذات صلة:
- Shao et al. (2024): يؤكد على أهمية مؤشر كتلة الجسم والعمر كعوامل تنبؤية بيولوجية
- Gupta et al. (2025): نموذج التنبؤ بالسكتة الدماغية القائم على الشبكات العصبية
- Zhang et al. (2022): تطبيق المحللات متعددة الطبقات في التنبؤ بالسكتة الدماغية
مزايا هذا البحث مقارنة بالأعمال الحالية:
- مقارنة منهجية لطرق التعلم الآلي المتعددة
- التركيز على تقليل النتائج السلبية الخاطئة
- تحليل شامل يجمع بين الميزات السريرية والاجتماعية
- اختيار النموذج يعتمد على سيناريو التطبيق:
- الانحدار اللوجستي: مناسب للفحص الأولي (استدعاء عالي، قابلية تفسير قوية)
- الشبكة العصبية الكثيفة: مناسبة للتقييم الدقيق (دقة عالية، نتائج إيجابية خاطئة منخفضة)
- شبكة CNN: أداء متوازن، مناسبة كأداة تحقق
- توصيات النظام متعدد النماذج:
- المرحلة الأولى: فحص أولي باستخدام الانحدار اللوجستي
- المرحلة الثانية: تقييم دقيق للمرضى عالي الخطورة باستخدام الشبكة العصبية الكثيفة
- المرحلة الثالثة: التحقق والموازنة باستخدام شبكة CNN
- عدم التوازن في البيانات: فقط 5-6% من الحالات الإيجابية يحد من قدرة النموذج على التعلم
- شذوذ أهمية الميزات: انخفاض أهمية مؤشر كتلة الجسم عن المتوقع قد يؤثر على دقة التنبؤ
- القدرة على التعميم: قد تحد مجموعة البيانات الواحدة من القابلية العامة للنموذج
- حجم العينة: 5000 عينة نسبيًا صغيرة، خاصة مع ندرة الحالات الإيجابية
- توسيع البيانات: جمع المزيد من بيانات مرضى السكتة الدماغية الفعلية لتخفيف عدم التوازن الطبقي
- هندسة الميزات: إعادة تقييم واستكشاف استراتيجيات اختيار الميزات
- دمج النماذج: تطوير طرق دمج متطورة لنماذج متعددة
- التحقق السريري: التحقق من فعالية النموذج في بيئات طبية فعلية
- التوجه العملي: التركيز الواضح على تقليل النتائج السلبية الخاطئة في السياقات الطبية
- الشمولية المنهجية: مقارنة منهجية بين طرق التعلم الآلي التقليدية والتعلم العميق
- الصرامة الإحصائية: استخدام طريقة Bootstrap للتحقق من استقرار النتائج
- إمكانية التكرار: توفير كود كامل وبيانات مع ترخيص MIT مفتوح المصدر
- الصلة السريرية: دمج عوامل الخطر المعترف بها في المجال الطبي
- جودة البيانات: لم يتم معالجة مشكلة عدم التوازن الطبقي الحاد بشكل كافٍ
- عمق النموذج: معمارية الشبكات العصبية نسبيًا بسيطة، لم تستكشف بالكامل إمكانيات التعلم العميق
- هندسة الميزات غير كافية: شذوذ أهمية مؤشر كتلة الجسم يشير إلى مشاكل محتملة في معالجة الميزات
- قيود التقييم: نقص المقارنة مع أدوات تقييم المخاطر السريرية الموجودة
- نطاق التجربة: مجموعة بيانات واحدة، نقص التحقق عبر مجموعات البيانات
- المساهمة الأكاديمية: توفير إطار عمل عملي لمقارنة النماذج المتعددة لمجال الذكاء الاصطناعي الطبي
- القيمة السريرية: النظام التنبؤي المتدرج المقترح له إمكانية تطبيق عملي
- الأهمية المنهجية: التأكيد على أهمية التحكم في النتائج السلبية الخاطئة في الذكاء الاصطناعي الطبي
- القابلية للتوسع: يمكن تعميم الطريقة على مهام التنبؤ الطبية الأخرى
- الرعاية الصحية الأولية: نموذج الانحدار اللوجستي مناسب لفحص الرعاية الصحية المجتمعية
- المستشفيات المتخصصة: الشبكة العصبية الكثيفة مناسبة لتقييم المخاطر الدقيق
- إدارة الصحة: يمكن دمجها في تطبيقات مراقبة الصحة الشخصية
- البحث السريري: توفير أداة لأبحاث عوامل خطر السكتة الدماغية
- CDC. منع وفيات السكتة الدماغية. https://www.cdc.gov/vitalsigns/pdf/2017-09-vitalsigns.pdf
- Shao, Y., et al. (2024). الارتباط بين مؤشر الجلوكوز-الدهون الثلاثية-كتلة الجسم وخطر السكتة الدماغية المستقبلي لدى الصينيين في منتصف العمر والمسنين. أمراض القلب والسكري.
- Gupta, A., et al. (2025). التنبؤ بخطر السكتة الدماغية: نموذج فعال للتنبؤ بالسكتة الدماغية قائم على الشبكات العصبية. مجلة إعادة التأهيل العصبي.
التقييم الإجمالي: توفر هذه الدراسة تحليل مقارنة قيم متعدد النماذج لمشكلة طبية مهمة وهي التنبؤ بالسكتة الدماغية، حيث يعكس التركيز على التحكم في النتائج السلبية الخاطئة الاحتياجات العملية الفعلية للذكاء الاصطناعي الطبي. على الرغم من وجود قيود مثل عدم التوازن في البيانات، فإن معمارية النظام متعدد النماذج المقترحة لها قيمة تطبيقية عملية وتوفر إطار عمل مرجعي جيد للأبحاث المماثلة في مجال الذكاء الاصطناعي الطبي.