2025-11-22T01:16:16.023348

Stroke Prediction using Clinical and Social Features in Machine Learning

Chadha

Every year in the United States, 800,000 individuals suffer a stroke - one person every 40 seconds, with a death occurring every four minutes. While individual factors vary, certain predictors are more prevalent in determining stroke risk. As strokes are the second leading cause of death and disability worldwide, predicting stroke likelihood based on lifestyle factors is crucial. Showing individuals their stroke risk could motivate lifestyle changes, and machine learning offers solutions to this prediction challenge. Neural networks excel at predicting outcomes based on training features like lifestyle factors, however, they're not the only option. Logistic regression models can also effectively compute the likelihood of binary outcomes based on independent variables, making them well-suited for stroke prediction. This analysis will compare both neural networks (dense and convolutional) and logistic regression models for stroke prediction, examining their pros, cons, and differences to develop the most effective predictor that minimizes false negatives.

academic

मशीन लर्निंग में नैदानिक और सामाजिक विशेषताओं का उपयोग करके स्ट्रोक की भविष्यवाणी

मूल जानकारी

पेपर ID: 2501.00048
शीर्षक: Stroke Prediction using Clinical and Social Features in Machine Learning
लेखक: Aidan Chadha (Virginia Tech)
वर्गीकरण: cs.LG cs.AI
प्रकाशन समय/सम्मेलन: 2025 प्रीप्रिंट
पेपर लिंक: https://arxiv.org/abs/2501.00048
कोड लिंक: https://github.com/Aidan7757/stroke_prediction_using_clinical_social_features

सारांश

संयुक्त राज्य अमेरिका में प्रतिवर्ष 8 लाख लोग स्ट्रोक से पीड़ित होते हैं, हर 40 सेकंड में एक व्यक्ति को स्ट्रोक आता है, और हर 4 मिनट में एक व्यक्ति स्ट्रोक से मृत्यु को प्राप्त होता है। वैश्विक स्तर पर दूसरा सबसे बड़ा मृत्यु और विकलांगता का कारण होने के नाते, जीवनशैली कारकों के आधार पर स्ट्रोक की संभावना की भविष्यवाणी करना अत्यंत महत्वपूर्ण है। यह अनुसंधान न्यूरल नेटवर्क (सघन और कनवोल्यूशनल) और लॉजिस्टिक रिग्रेशन मॉडल की स्ट्रोक भविष्यवाणी में तुलना करता है, जिसका उद्देश्य झूठी नकारात्मक को कम करने के लिए सबसे प्रभावी भविष्यवक्ता विकसित करना है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या की परिभाषा

स्ट्रोक की भविष्यवाणी एक महत्वपूर्ण चिकित्सा स्वास्थ्य समस्या है, जिसमें कई आंतरिक और बाहरी कारक शामिल हैं:

बाहरी कारक: वैवाहिक स्थिति, कार्य प्रकार, निवास पर्यावरण आदि
आंतरिक कारक: हृदय रोग का इतिहास, BMI, आयु, रक्त शर्करा स्तर आदि

महत्व

सार्वजनिक स्वास्थ्य प्रभाव: स्ट्रोक वैश्विक स्तर पर दूसरा सबसे बड़ा मृत्यु और विकलांगता का कारण है
रोकथाम मूल्य: प्रारंभिक जोखिम मूल्यांकन जीवनशैली परिवर्तन को प्रेरित कर सकता है
नैदानिक अनुप्रयोग: वास्तविक समय जोखिम मूल्यांकन नियमित स्वास्थ्य परीक्षा में एकीकृत किया जा सकता है

मौजूदा सीमाएं

नैदानिक और सामाजिक विशेषताओं को प्रभावी ढंग से जोड़ने वाले व्यापक भविष्यवाणी मॉडल की कमी
चिकित्सा परिदृश्यों में झूठी नकारात्मक के खतरे को पर्याप्त रूप से संबोधित नहीं किया गया है
स्ट्रोक भविष्यवाणी में विभिन्न मशीन लर्निंग विधियों की तुलनात्मक अनुसंधान सीमित है

मुख्य योगदान

बहु-मॉडल तुलना ढांचा: लॉजिस्टिक रिग्रेशन, सघन न्यूरल नेटवर्क और कनवोल्यूशनल न्यूरल नेटवर्क की स्ट्रोक भविष्यवाणी में कार्यक्षमता की व्यवस्थित तुलना
चिकित्सा-केंद्रित मूल्यांकन रणनीति: झूठी नकारात्मक को कम करने पर ध्यान केंद्रित करना, जो चिकित्सा परिदृश्य की वास्तविक आवश्यकताओं के अनुरूप है
व्यापक विशेषता विश्लेषण: नैदानिक संकेतक और सामाजिक कारकों को एकीकृत करना, व्यापक जोखिम मूल्यांकन प्रदान करना
व्यावहारिक बहु-मॉडल प्रणाली सिफारिश: कई मॉडलों के लाभों को जोड़ने वाली स्तरीय भविष्यवाणी पाइपलाइन का प्रस्ताव

विधि विवरण

कार्य परिभाषा

इनपुट: 10 विशेषताओं वाले रोगी डेटा (आयु, लिंग, उच्च रक्तचाप, हृदय रोग, वैवाहिक स्थिति, कार्य प्रकार, निवास प्रकार, औसत रक्त शर्करा स्तर, BMI, धूम्रपान की स्थिति)
आउटपुट: द्विआधारी वर्गीकरण परिणाम (0: स्ट्रोक नहीं, 1: स्ट्रोक है)
बाधा: झूठी नकारात्मक को कम करना, सटीकता और रिकॉल को संतुलित करना

मॉडल आर्किटेक्चर

1. लॉजिस्टिक रिग्रेशन मॉडल

प्रीप्रोसेसिंग: StandardScaler का उपयोग करके विशेषताओं को सामान्यीकृत करना, Label Encoder से श्रेणीबद्ध चर को एन्कोड करना
नियमितकरण: अतिफिटिंग को रोकने के लिए L2 नियमितकरण
अनुकूलन: अभिसरण सुनिश्चित करने के लिए अधिकतम 10,000 पुनरावृत्तियां
निर्णय सीमा: 0.5 संभावना सीमा (समायोज्य)

2. न्यूरल नेटवर्क मॉडल

सघन न्यूरल नेटवर्क (DNN):

इनपुट परत: 10 विशेषताएं
छिपी परतें: Batch Normalization और Dropout के साथ
सक्रियण फ़ंक्शन: ReLU
आउटपुट परत: Sigmoid सक्रियण वाला एकल न्यूरॉन

कनवोल्यूशनल न्यूरल नेटवर्क (CNN):

समान आर्किटेक्चर लेकिन विशेषताओं को संसाधित करने के लिए कनवोल्यूशनल परतों का उपयोग करना
पूलिंग परतें और पूरी तरह से जुड़ी परतें शामिल हैं

प्रशिक्षण पैरामीटर:

हानि फ़ंक्शन: Cross Entropy Loss (वर्ग असंतुलन के लिए उपयुक्त)
अनुकूलक: Adam (अनुकूली शिक्षण दर)
प्रशिक्षण epochs: 400
नियमितकरण: Dropout + Batch Normalization

तकनीकी नवाचार बिंदु

बहु-आर्किटेक्चर तुलना: तालिका डेटा में स्ट्रोक भविष्यवाणी में CNN और DNN के प्रदर्शन की पहली व्यवस्थित तुलना
चिकित्सा-केंद्रित डिजाइन: वर्ग असंतुलन समस्या को संभालने के लिए भारित हानि फ़ंक्शन का उपयोग करना
विशेषता महत्व विश्लेषण: लॉजिस्टिक रिग्रेशन गुणांकों के माध्यम से जैविक कारकों के भविष्यवाणी योगदान का विश्लेषण
सांख्यिकीय मजबूती सत्यापन: 95% आत्मविश्वास अंतराल की गणना के लिए Bootstrap पुनः नमूनाकरण का उपयोग

प्रयोगात्मक सेटअप

डेटासेट

स्रोत: Kaggle स्ट्रोक भविष्यवाणी डेटासेट
आकार: लगभग 5000 नमूने
वर्ग वितरण: अत्यधिक असंतुलित (केवल 5-6% स्ट्रोक मामले)
विभाजन: 80% प्रशिक्षण सेट, 20% परीक्षण सेट
विशेषताएं: 10 नैदानिक और सामाजिक विशेषताएं

मूल्यांकन मेट्रिक्स

सटीकता (Accuracy): समग्र सही दर
रिकॉल (Recall): वास्तविक स्ट्रोक मामलों की पहचान की क्षमता (मुख्य ध्यान)
सटीकता (Precision): भविष्यवाणी किए गए स्ट्रोक मामलों की सटीकता
F1-Score: सटीकता और रिकॉल का हार्मोनिक माध्य
AUC-ROC: विभिन्न सीमाओं पर विभेदन क्षमता
भ्रम मैट्रिक्स: विस्तृत वर्गीकरण त्रुटि विश्लेषण

तुलनात्मक विधियां

लॉजिस्टिक रिग्रेशन (Sklearn कार्यान्वयन)
सघन न्यूरल नेटवर्क (PyTorch कार्यान्वयन)
कनवोल्यूशनल न्यूरल नेटवर्क (PyTorch कार्यान्वयन)

कार्यान्वयन विवरण

फ्रेमवर्क: PyTorch (न्यूरल नेटवर्क), Sklearn (लॉजिस्टिक रिग्रेशन)
हार्डवेयर: मानक कंप्यूटिंग वातावरण
पुनरुत्पादनीयता: निश्चित यादृच्छिक बीज, ओपन सोर्स कोड

प्रयोगात्मक परिणाम

मुख्य परिणाम

मॉडल	सटीकता	रिकॉल	सटीकता	F1-Score
लॉजिस्टिक रिग्रेशन	74.95%	75.81%	16.31%	-
सघन न्यूरल नेटवर्क	86.50%	43.55%	20.77%	-
कनवोल्यूशनल न्यूरल नेटवर्क	78.67%	53.23%	-	-

मुख्य निष्कर्ष

सटीकता बनाम रिकॉल व्यापार-बंद:
- सघन न्यूरल नेटवर्क सर्वोच्च सटीकता (86.50%) प्राप्त करता है, लेकिन रिकॉल कम है (43.55%)
- लॉजिस्टिक रिग्रेशन सर्वोच्च रिकॉल (75.81%) प्राप्त करता है, लेकिन सटीकता कम है (16.31%)
- CNN दोनों के बीच संतुलन प्राप्त करता है
विशेषता महत्व विश्लेषण:
- आयु सबसे महत्वपूर्ण भविष्यवाणी कारक है (चिकित्सा ज्ञान के अनुरूप)
- BMI की महत्ता अपेक्षा से कम है (मौजूदा अनुसंधान से असंगत)
प्रशिक्षण गतिविधि:
- CNN 50 epochs के बाद धीरे-धीरे अभिसरण करता है
- DNN पूरे 400 epochs प्रशिक्षण में निरंतर सुधार करता है
- कोई स्पष्ट अतिफिटिंग नहीं

सांख्यिकीय महत्व

Bootstrap पुनः नमूनाकरण (1000 पुनरावृत्तियां) का उपयोग करके 95% आत्मविश्वास अंतराल की गणना:

DNN सटीकता: 86.50% 84.32%, 88.68%
DNN रिकॉल: 43.55% 39.87%, 47.23%
लॉजिस्टिक रिग्रेशन सटीकता: 74.95% 72.63%, 77.27%
लॉजिस्टिक रिग्रेशन रिकॉल: 75.81% 72.14%, 79.48%

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

मॉडल चयन अनुप्रयोग परिदृश्य पर निर्भर करता है:
- लॉजिस्टिक रिग्रेशन: प्रारंभिक स्क्रीनिंग के लिए उपयुक्त (उच्च रिकॉल, मजबूत व्याख्यात्मकता)
- सघन न्यूरल नेटवर्क: सटीक मूल्यांकन के लिए उपयुक्त (उच्च सटीकता, कम झूठी सकारात्मक)
- CNN: संतुलित प्रदर्शन, सत्यापन उपकरण के लिए उपयुक्त
बहु-मॉडल प्रणाली सिफारिश:
- प्रथम चरण: लॉजिस्टिक रिग्रेशन प्रारंभिक स्क्रीनिंग
- द्वितीय चरण: उच्च जोखिम वाले रोगियों के सटीक मूल्यांकन के लिए DNN
- तृतीय चरण: सत्यापन और संतुलन के लिए CNN

सीमाएं

डेटा असंतुलन: केवल 5-6% सकारात्मक मामले मॉडल की सीखने की क्षमता को सीमित करते हैं
विशेषता महत्व विसंगति: BMI की महत्ता अपेक्षा से कम है, जो भविष्यवाणी सटीकता को प्रभावित कर सकता है
सामान्यीकरण क्षमता: एकल डेटासेट मॉडल की सार्वभौमिकता को सीमित कर सकता है
नमूना आकार: 5000 नमूने अपेक्षाकृत छोटे हैं, विशेषकर सकारात्मक मामले दुर्लभ हैं

भविष्य की दिशाएं

डेटा विस्तार: वर्ग असंतुलन को कम करने के लिए अधिक वास्तविक स्ट्रोक रोगी डेटा एकत्र करना
विशेषता इंजीनियरिंग: विशेषता चयन रणनीति का पुनः मूल्यांकन और अनुकूलन करना
मॉडल एकीकरण: अधिक परिष्कृत बहु-मॉडल संलयन विधि विकसित करना
नैदानिक सत्यापन: वास्तविक चिकित्सा वातावरण में मॉडल प्रभावशीलता को सत्यापित करना

गहन मूल्यांकन

शक्तियां

व्यावहारिक अभिविन्यास: चिकित्सा परिदृश्यों में झूठी नकारात्मक को कम करने की वास्तविक आवश्यकता पर स्पष्ट ध्यान
व्यापक विधि: पारंपरिक मशीन लर्निंग और गहन शिक्षण विधियों की व्यवस्थित तुलना
सांख्यिकीय कठोरता: Bootstrap विधि का उपयोग करके परिणामों की मजबूती को सत्यापित करना
पुनरुत्पादनीयता: पूर्ण कोड और डेटा प्रदान करना, MIT ओपन सोर्स लाइसेंस अपनाना
नैदानिक प्रासंगिकता: चिकित्सा क्षेत्र द्वारा मान्यता प्राप्त जोखिम कारकों को एकीकृत करना

कमजोरियां

डेटा गुणवत्ता: गंभीर वर्ग असंतुलन समस्या को पर्याप्त रूप से संबोधित नहीं किया गया है
मॉडल गहराई: न्यूरल नेटवर्क आर्किटेक्चर अपेक्षाकृत सरल है, गहन शिक्षण की क्षमता को पूरी तरह से नहीं खोजा गया है
विशेषता इंजीनियरिंग अपर्याप्त: BMI महत्व विसंगति विशेषता प्रसंस्करण में संभावित समस्याओं का संकेत देती है
मूल्यांकन सीमाएं: मौजूदा नैदानिक जोखिम मूल्यांकन उपकरणों के साथ तुलना की कमी
प्रयोग पैमाना: एकल डेटासेट, क्रॉस-डेटासेट सत्यापन की कमी

प्रभाव

शैक्षणिक योगदान: चिकित्सा AI क्षेत्र के लिए व्यावहारिक बहु-मॉडल तुलना ढांचा प्रदान करता है
नैदानिक मूल्य: प्रस्तावित स्तरीय भविष्यवाणी प्रणाली में व्यावहारिक अनुप्रयोग क्षमता है
पद्धति संबंधी महत्व: चिकित्सा AI में झूठी नकारात्मक नियंत्रण के महत्व पर जोर देता है
विस्तारशीलता: विधि अन्य चिकित्सा भविष्यवाणी कार्यों तक विस्तारित की जा सकती है

अनुप्रयोग परिदृश्य

प्राथमिक स्वास्थ्य सेवा: लॉजिस्टिक रिग्रेशन मॉडल सामुदायिक चिकित्सा स्क्रीनिंग के लिए उपयुक्त है
विशेषज्ञ अस्पताल: सघन न्यूरल नेटवर्क सटीक जोखिम मूल्यांकन के लिए उपयुक्त है
स्वास्थ्य प्रबंधन: व्यक्तिगत स्वास्थ्य निगरानी अनुप्रयोगों में एकीकृत किया जा सकता है
नैदानिक अनुसंधान: स्ट्रोक जोखिम कारक अनुसंधान के लिए उपकरण प्रदान करता है

संदर्भ

CDC. Preventing stroke deaths. https://www.cdc.gov/vitalsigns/pdf/2017-09-vitalsigns.pdf
Shao, Y., et al. (2024). Link between triglyceride-glucose-body mass index and future stroke risk in middle-aged and elderly Chinese. Cardiovascular Diabetology.
Gupta, A., et al. (2025). Predicting stroke risk: An effective stroke prediction model based on neural networks. Journal of Neurorestoratology.

समग्र मूल्यांकन: यह अनुसंधान स्ट्रोक भविष्यवाणी की इस महत्वपूर्ण चिकित्सा समस्या पर मूल्यवान बहु-मॉडल तुलनात्मक विश्लेषण प्रदान करता है, विशेषकर झूठी नकारात्मक नियंत्रण पर ध्यान चिकित्सा AI की वास्तविक आवश्यकताओं को प्रतिबिंबित करता है। हालांकि डेटा असंतुलन जैसी सीमाएं मौजूद हैं, लेकिन इसके द्वारा प्रस्तावित बहु-मॉडल प्रणाली आर्किटेक्चर में व्यावहारिक अनुप्रयोग मूल्य है, और यह चिकित्सा AI क्षेत्र के समान अनुसंधान के लिए एक अच्छा संदर्भ ढांचा प्रदान करता है।