Every year in the United States, 800,000 individuals suffer a stroke - one person every 40 seconds, with a death occurring every four minutes. While individual factors vary, certain predictors are more prevalent in determining stroke risk. As strokes are the second leading cause of death and disability worldwide, predicting stroke likelihood based on lifestyle factors is crucial. Showing individuals their stroke risk could motivate lifestyle changes, and machine learning offers solutions to this prediction challenge. Neural networks excel at predicting outcomes based on training features like lifestyle factors, however, they're not the only option. Logistic regression models can also effectively compute the likelihood of binary outcomes based on independent variables, making them well-suited for stroke prediction. This analysis will compare both neural networks (dense and convolutional) and logistic regression models for stroke prediction, examining their pros, cons, and differences to develop the most effective predictor that minimizes false negatives.
academic- पेपर ID: 2501.00048
- शीर्षक: Stroke Prediction using Clinical and Social Features in Machine Learning
- लेखक: Aidan Chadha (Virginia Tech)
- वर्गीकरण: cs.LG cs.AI
- प्रकाशन समय/सम्मेलन: 2025 प्रीप्रिंट
- पेपर लिंक: https://arxiv.org/abs/2501.00048
- कोड लिंक: https://github.com/Aidan7757/stroke_prediction_using_clinical_social_features
संयुक्त राज्य अमेरिका में प्रतिवर्ष 8 लाख लोग स्ट्रोक से पीड़ित होते हैं, हर 40 सेकंड में एक व्यक्ति को स्ट्रोक आता है, और हर 4 मिनट में एक व्यक्ति स्ट्रोक से मृत्यु को प्राप्त होता है। वैश्विक स्तर पर दूसरा सबसे बड़ा मृत्यु और विकलांगता का कारण होने के नाते, जीवनशैली कारकों के आधार पर स्ट्रोक की संभावना की भविष्यवाणी करना अत्यंत महत्वपूर्ण है। यह अनुसंधान न्यूरल नेटवर्क (सघन और कनवोल्यूशनल) और लॉजिस्टिक रिग्रेशन मॉडल की स्ट्रोक भविष्यवाणी में तुलना करता है, जिसका उद्देश्य झूठी नकारात्मक को कम करने के लिए सबसे प्रभावी भविष्यवक्ता विकसित करना है।
स्ट्रोक की भविष्यवाणी एक महत्वपूर्ण चिकित्सा स्वास्थ्य समस्या है, जिसमें कई आंतरिक और बाहरी कारक शामिल हैं:
- बाहरी कारक: वैवाहिक स्थिति, कार्य प्रकार, निवास पर्यावरण आदि
- आंतरिक कारक: हृदय रोग का इतिहास, BMI, आयु, रक्त शर्करा स्तर आदि
- सार्वजनिक स्वास्थ्य प्रभाव: स्ट्रोक वैश्विक स्तर पर दूसरा सबसे बड़ा मृत्यु और विकलांगता का कारण है
- रोकथाम मूल्य: प्रारंभिक जोखिम मूल्यांकन जीवनशैली परिवर्तन को प्रेरित कर सकता है
- नैदानिक अनुप्रयोग: वास्तविक समय जोखिम मूल्यांकन नियमित स्वास्थ्य परीक्षा में एकीकृत किया जा सकता है
- नैदानिक और सामाजिक विशेषताओं को प्रभावी ढंग से जोड़ने वाले व्यापक भविष्यवाणी मॉडल की कमी
- चिकित्सा परिदृश्यों में झूठी नकारात्मक के खतरे को पर्याप्त रूप से संबोधित नहीं किया गया है
- स्ट्रोक भविष्यवाणी में विभिन्न मशीन लर्निंग विधियों की तुलनात्मक अनुसंधान सीमित है
- बहु-मॉडल तुलना ढांचा: लॉजिस्टिक रिग्रेशन, सघन न्यूरल नेटवर्क और कनवोल्यूशनल न्यूरल नेटवर्क की स्ट्रोक भविष्यवाणी में कार्यक्षमता की व्यवस्थित तुलना
- चिकित्सा-केंद्रित मूल्यांकन रणनीति: झूठी नकारात्मक को कम करने पर ध्यान केंद्रित करना, जो चिकित्सा परिदृश्य की वास्तविक आवश्यकताओं के अनुरूप है
- व्यापक विशेषता विश्लेषण: नैदानिक संकेतक और सामाजिक कारकों को एकीकृत करना, व्यापक जोखिम मूल्यांकन प्रदान करना
- व्यावहारिक बहु-मॉडल प्रणाली सिफारिश: कई मॉडलों के लाभों को जोड़ने वाली स्तरीय भविष्यवाणी पाइपलाइन का प्रस्ताव
- इनपुट: 10 विशेषताओं वाले रोगी डेटा (आयु, लिंग, उच्च रक्तचाप, हृदय रोग, वैवाहिक स्थिति, कार्य प्रकार, निवास प्रकार, औसत रक्त शर्करा स्तर, BMI, धूम्रपान की स्थिति)
- आउटपुट: द्विआधारी वर्गीकरण परिणाम (0: स्ट्रोक नहीं, 1: स्ट्रोक है)
- बाधा: झूठी नकारात्मक को कम करना, सटीकता और रिकॉल को संतुलित करना
- प्रीप्रोसेसिंग: StandardScaler का उपयोग करके विशेषताओं को सामान्यीकृत करना, Label Encoder से श्रेणीबद्ध चर को एन्कोड करना
- नियमितकरण: अतिफिटिंग को रोकने के लिए L2 नियमितकरण
- अनुकूलन: अभिसरण सुनिश्चित करने के लिए अधिकतम 10,000 पुनरावृत्तियां
- निर्णय सीमा: 0.5 संभावना सीमा (समायोज्य)
सघन न्यूरल नेटवर्क (DNN):
- इनपुट परत: 10 विशेषताएं
- छिपी परतें: Batch Normalization और Dropout के साथ
- सक्रियण फ़ंक्शन: ReLU
- आउटपुट परत: Sigmoid सक्रियण वाला एकल न्यूरॉन
कनवोल्यूशनल न्यूरल नेटवर्क (CNN):
- समान आर्किटेक्चर लेकिन विशेषताओं को संसाधित करने के लिए कनवोल्यूशनल परतों का उपयोग करना
- पूलिंग परतें और पूरी तरह से जुड़ी परतें शामिल हैं
प्रशिक्षण पैरामीटर:
- हानि फ़ंक्शन: Cross Entropy Loss (वर्ग असंतुलन के लिए उपयुक्त)
- अनुकूलक: Adam (अनुकूली शिक्षण दर)
- प्रशिक्षण epochs: 400
- नियमितकरण: Dropout + Batch Normalization
- बहु-आर्किटेक्चर तुलना: तालिका डेटा में स्ट्रोक भविष्यवाणी में CNN और DNN के प्रदर्शन की पहली व्यवस्थित तुलना
- चिकित्सा-केंद्रित डिजाइन: वर्ग असंतुलन समस्या को संभालने के लिए भारित हानि फ़ंक्शन का उपयोग करना
- विशेषता महत्व विश्लेषण: लॉजिस्टिक रिग्रेशन गुणांकों के माध्यम से जैविक कारकों के भविष्यवाणी योगदान का विश्लेषण
- सांख्यिकीय मजबूती सत्यापन: 95% आत्मविश्वास अंतराल की गणना के लिए Bootstrap पुनः नमूनाकरण का उपयोग
- स्रोत: Kaggle स्ट्रोक भविष्यवाणी डेटासेट
- आकार: लगभग 5000 नमूने
- वर्ग वितरण: अत्यधिक असंतुलित (केवल 5-6% स्ट्रोक मामले)
- विभाजन: 80% प्रशिक्षण सेट, 20% परीक्षण सेट
- विशेषताएं: 10 नैदानिक और सामाजिक विशेषताएं
- सटीकता (Accuracy): समग्र सही दर
- रिकॉल (Recall): वास्तविक स्ट्रोक मामलों की पहचान की क्षमता (मुख्य ध्यान)
- सटीकता (Precision): भविष्यवाणी किए गए स्ट्रोक मामलों की सटीकता
- F1-Score: सटीकता और रिकॉल का हार्मोनिक माध्य
- AUC-ROC: विभिन्न सीमाओं पर विभेदन क्षमता
- भ्रम मैट्रिक्स: विस्तृत वर्गीकरण त्रुटि विश्लेषण
- लॉजिस्टिक रिग्रेशन (Sklearn कार्यान्वयन)
- सघन न्यूरल नेटवर्क (PyTorch कार्यान्वयन)
- कनवोल्यूशनल न्यूरल नेटवर्क (PyTorch कार्यान्वयन)
- फ्रेमवर्क: PyTorch (न्यूरल नेटवर्क), Sklearn (लॉजिस्टिक रिग्रेशन)
- हार्डवेयर: मानक कंप्यूटिंग वातावरण
- पुनरुत्पादनीयता: निश्चित यादृच्छिक बीज, ओपन सोर्स कोड
| मॉडल | सटीकता | रिकॉल | सटीकता | F1-Score |
|---|
| लॉजिस्टिक रिग्रेशन | 74.95% | 75.81% | 16.31% | - |
| सघन न्यूरल नेटवर्क | 86.50% | 43.55% | 20.77% | - |
| कनवोल्यूशनल न्यूरल नेटवर्क | 78.67% | 53.23% | - | - |
- सटीकता बनाम रिकॉल व्यापार-बंद:
- सघन न्यूरल नेटवर्क सर्वोच्च सटीकता (86.50%) प्राप्त करता है, लेकिन रिकॉल कम है (43.55%)
- लॉजिस्टिक रिग्रेशन सर्वोच्च रिकॉल (75.81%) प्राप्त करता है, लेकिन सटीकता कम है (16.31%)
- CNN दोनों के बीच संतुलन प्राप्त करता है
- विशेषता महत्व विश्लेषण:
- आयु सबसे महत्वपूर्ण भविष्यवाणी कारक है (चिकित्सा ज्ञान के अनुरूप)
- BMI की महत्ता अपेक्षा से कम है (मौजूदा अनुसंधान से असंगत)
- प्रशिक्षण गतिविधि:
- CNN 50 epochs के बाद धीरे-धीरे अभिसरण करता है
- DNN पूरे 400 epochs प्रशिक्षण में निरंतर सुधार करता है
- कोई स्पष्ट अतिफिटिंग नहीं
Bootstrap पुनः नमूनाकरण (1000 पुनरावृत्तियां) का उपयोग करके 95% आत्मविश्वास अंतराल की गणना:
- DNN सटीकता: 86.50% 84.32%, 88.68%
- DNN रिकॉल: 43.55% 39.87%, 47.23%
- लॉजिस्टिक रिग्रेशन सटीकता: 74.95% 72.63%, 77.27%
- लॉजिस्टिक रिग्रेशन रिकॉल: 75.81% 72.14%, 79.48%
पेपर कई संबंधित अनुसंधानों का संदर्भ देता है:
- Shao et al. (2024): BMI और आयु को जैविक भविष्यवाणी कारकों के रूप में महत्व पर जोर देता है
- Gupta et al. (2025): न्यूरल नेटवर्क-आधारित स्ट्रोक भविष्यवाणी मॉडल
- Zhang et al. (2022): स्ट्रोक भविष्यवाणी में बहु-परत परसेप्ट्रॉन का अनुप्रयोग
मौजूदा कार्य की तुलना में इस अनुसंधान के लाभ:
- कई मशीन लर्निंग विधियों की व्यवस्थित तुलना
- झूठी नकारात्मक को कम करने पर ध्यान केंद्रित करना
- नैदानिक और सामाजिक विशेषताओं का व्यापक विश्लेषण
- मॉडल चयन अनुप्रयोग परिदृश्य पर निर्भर करता है:
- लॉजिस्टिक रिग्रेशन: प्रारंभिक स्क्रीनिंग के लिए उपयुक्त (उच्च रिकॉल, मजबूत व्याख्यात्मकता)
- सघन न्यूरल नेटवर्क: सटीक मूल्यांकन के लिए उपयुक्त (उच्च सटीकता, कम झूठी सकारात्मक)
- CNN: संतुलित प्रदर्शन, सत्यापन उपकरण के लिए उपयुक्त
- बहु-मॉडल प्रणाली सिफारिश:
- प्रथम चरण: लॉजिस्टिक रिग्रेशन प्रारंभिक स्क्रीनिंग
- द्वितीय चरण: उच्च जोखिम वाले रोगियों के सटीक मूल्यांकन के लिए DNN
- तृतीय चरण: सत्यापन और संतुलन के लिए CNN
- डेटा असंतुलन: केवल 5-6% सकारात्मक मामले मॉडल की सीखने की क्षमता को सीमित करते हैं
- विशेषता महत्व विसंगति: BMI की महत्ता अपेक्षा से कम है, जो भविष्यवाणी सटीकता को प्रभावित कर सकता है
- सामान्यीकरण क्षमता: एकल डेटासेट मॉडल की सार्वभौमिकता को सीमित कर सकता है
- नमूना आकार: 5000 नमूने अपेक्षाकृत छोटे हैं, विशेषकर सकारात्मक मामले दुर्लभ हैं
- डेटा विस्तार: वर्ग असंतुलन को कम करने के लिए अधिक वास्तविक स्ट्रोक रोगी डेटा एकत्र करना
- विशेषता इंजीनियरिंग: विशेषता चयन रणनीति का पुनः मूल्यांकन और अनुकूलन करना
- मॉडल एकीकरण: अधिक परिष्कृत बहु-मॉडल संलयन विधि विकसित करना
- नैदानिक सत्यापन: वास्तविक चिकित्सा वातावरण में मॉडल प्रभावशीलता को सत्यापित करना
- व्यावहारिक अभिविन्यास: चिकित्सा परिदृश्यों में झूठी नकारात्मक को कम करने की वास्तविक आवश्यकता पर स्पष्ट ध्यान
- व्यापक विधि: पारंपरिक मशीन लर्निंग और गहन शिक्षण विधियों की व्यवस्थित तुलना
- सांख्यिकीय कठोरता: Bootstrap विधि का उपयोग करके परिणामों की मजबूती को सत्यापित करना
- पुनरुत्पादनीयता: पूर्ण कोड और डेटा प्रदान करना, MIT ओपन सोर्स लाइसेंस अपनाना
- नैदानिक प्रासंगिकता: चिकित्सा क्षेत्र द्वारा मान्यता प्राप्त जोखिम कारकों को एकीकृत करना
- डेटा गुणवत्ता: गंभीर वर्ग असंतुलन समस्या को पर्याप्त रूप से संबोधित नहीं किया गया है
- मॉडल गहराई: न्यूरल नेटवर्क आर्किटेक्चर अपेक्षाकृत सरल है, गहन शिक्षण की क्षमता को पूरी तरह से नहीं खोजा गया है
- विशेषता इंजीनियरिंग अपर्याप्त: BMI महत्व विसंगति विशेषता प्रसंस्करण में संभावित समस्याओं का संकेत देती है
- मूल्यांकन सीमाएं: मौजूदा नैदानिक जोखिम मूल्यांकन उपकरणों के साथ तुलना की कमी
- प्रयोग पैमाना: एकल डेटासेट, क्रॉस-डेटासेट सत्यापन की कमी
- शैक्षणिक योगदान: चिकित्सा AI क्षेत्र के लिए व्यावहारिक बहु-मॉडल तुलना ढांचा प्रदान करता है
- नैदानिक मूल्य: प्रस्तावित स्तरीय भविष्यवाणी प्रणाली में व्यावहारिक अनुप्रयोग क्षमता है
- पद्धति संबंधी महत्व: चिकित्सा AI में झूठी नकारात्मक नियंत्रण के महत्व पर जोर देता है
- विस्तारशीलता: विधि अन्य चिकित्सा भविष्यवाणी कार्यों तक विस्तारित की जा सकती है
- प्राथमिक स्वास्थ्य सेवा: लॉजिस्टिक रिग्रेशन मॉडल सामुदायिक चिकित्सा स्क्रीनिंग के लिए उपयुक्त है
- विशेषज्ञ अस्पताल: सघन न्यूरल नेटवर्क सटीक जोखिम मूल्यांकन के लिए उपयुक्त है
- स्वास्थ्य प्रबंधन: व्यक्तिगत स्वास्थ्य निगरानी अनुप्रयोगों में एकीकृत किया जा सकता है
- नैदानिक अनुसंधान: स्ट्रोक जोखिम कारक अनुसंधान के लिए उपकरण प्रदान करता है
- CDC. Preventing stroke deaths. https://www.cdc.gov/vitalsigns/pdf/2017-09-vitalsigns.pdf
- Shao, Y., et al. (2024). Link between triglyceride-glucose-body mass index and future stroke risk in middle-aged and elderly Chinese. Cardiovascular Diabetology.
- Gupta, A., et al. (2025). Predicting stroke risk: An effective stroke prediction model based on neural networks. Journal of Neurorestoratology.
समग्र मूल्यांकन: यह अनुसंधान स्ट्रोक भविष्यवाणी की इस महत्वपूर्ण चिकित्सा समस्या पर मूल्यवान बहु-मॉडल तुलनात्मक विश्लेषण प्रदान करता है, विशेषकर झूठी नकारात्मक नियंत्रण पर ध्यान चिकित्सा AI की वास्तविक आवश्यकताओं को प्रतिबिंबित करता है। हालांकि डेटा असंतुलन जैसी सीमाएं मौजूद हैं, लेकिन इसके द्वारा प्रस्तावित बहु-मॉडल प्रणाली आर्किटेक्चर में व्यावहारिक अनुप्रयोग मूल्य है, और यह चिकित्सा AI क्षेत्र के समान अनुसंधान के लिए एक अच्छा संदर्भ ढांचा प्रदान करता है।