2025-11-22T01:16:16.023348

Stroke Prediction using Clinical and Social Features in Machine Learning

Chadha
Every year in the United States, 800,000 individuals suffer a stroke - one person every 40 seconds, with a death occurring every four minutes. While individual factors vary, certain predictors are more prevalent in determining stroke risk. As strokes are the second leading cause of death and disability worldwide, predicting stroke likelihood based on lifestyle factors is crucial. Showing individuals their stroke risk could motivate lifestyle changes, and machine learning offers solutions to this prediction challenge. Neural networks excel at predicting outcomes based on training features like lifestyle factors, however, they're not the only option. Logistic regression models can also effectively compute the likelihood of binary outcomes based on independent variables, making them well-suited for stroke prediction. This analysis will compare both neural networks (dense and convolutional) and logistic regression models for stroke prediction, examining their pros, cons, and differences to develop the most effective predictor that minimizes false negatives.
academic

মেশিন লার্নিং এ ক্লিনিক্যাল এবং সোশ্যাল বৈশিষ্ট্য ব্যবহার করে স্ট্রোক পূর্বাভাস

মৌলিক তথ্য

সারসংক্ষেপ

প্রতি বছর আমেরিকায় ৮০ লক্ষ মানুষ স্ট্রোকের শিকার হয়, প্রতি ৪০ সেকেন্ডে একজন স্ট্রোক আক্রান্ত হয় এবং প্রতি ৪ মিনিটে একজন স্ট্রোকে মৃত্যুবরণ করে। বৈশ্বিক দ্বিতীয় বৃহত্তম মৃত্যু এবং প্রতিবন্ধিতার কারণ হিসেবে, জীবনযাত্রার ধরন অনুযায়ী স্ট্রোকের সম্ভাবনা পূর্বাভাস করা অত্যন্ত গুরুত্বপূর্ণ। এই গবেষণা স্ট্রোক পূর্বাভাসে নিউরাল নেটওয়ার্ক (ঘন এবং কনভোলিউশনাল) এবং লজিস্টিক রিগ্রেশন মডেলের কর্মক্ষমতা তুলনা করে, যার লক্ষ্য মিথ্যা নেতিবাচক ন্যূনতম করার জন্য সবচেয়ে কার্যকর পূর্বাভাসক বিকাশ করা।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যার সংজ্ঞা

স্ট্রোক পূর্বাভাস একটি গুরুত্বপূর্ণ চিকিৎসা স্বাস্থ্য সমস্যা যা একাধিক অভ্যন্তরীণ এবং বাহ্যিক কারণ জড়িত:

  • বাহ্যিক কারণ: বৈবাহিক অবস্থা, কর্মের ধরন, বাসস্থানের পরিবেশ ইত্যাদি
  • অভ্যন্তরীণ কারণ: হৃদরোগের ইতিহাস, BMI, বয়স, রক্তে গ্লুকোজের মাত্রা ইত্যাদি

গুরুত্ব

১. জনস্বাস্থ্যের প্রভাব: স্ট্রোক বৈশ্বিক দ্বিতীয় বৃহত্তম মৃত্যু এবং প্রতিবন্ধিতার কারণ ২. প্রতিরোধমূলক মূল্য: প্রাথমিক ঝুঁকি মূল্যায়ন জীবনযাত্রার পরিবর্তনে উৎসাহিত করতে পারে ३. ক্লিনিক্যাল প্রয়োগ: রিয়েল-টাইম ঝুঁকি মূল্যায়ন নিয়মিত স্বাস্থ্য পরীক্ষায় একীভূত করা যায়

বিদ্যমান সীমাবদ্ধতা

  • ক্লিনিক্যাল এবং সোশ্যাল বৈশিষ্ট্য কার্যকরভাবে একত্রিত করতে পারে এমন ব্যাপক পূর্বাভাস মডেলের অভাব
  • চিকিৎসা পরিস্থিতিতে মিথ্যা নেতিবাচকের ক্ষতি যথাযথভাবে বিবেচনা করা হয়নি
  • স্ট্রোক পূর্বাভাসে বিভিন্ন মেশিন লার্নিং পদ্ধতির তুলনামূলক গবেষণা সীমিত

মূল অবদান

১. বহু-মডেল তুলনা কাঠামো: স্ট্রোক পূর্বাভাসে লজিস্টিক রিগ্রেশন, ঘন নিউরাল নেটওয়ার্ক এবং কনভোলিউশনাল নিউরাল নেটওয়ার্কের কর্মক্ষমতা পদ্ধতিগতভাবে তুলনা করা २. চিকিৎসা-ভিত্তিক মূল্যায়ন কৌশল: মিথ্যা নেতিবাচক ন্যূনতমকরণে ফোকাস করা, যা চিকিৎসা পরিস্থিতির প্রকৃত চাহিদা পূরণ করে ३. ব্যাপক বৈশিষ্ট্য বিশ্লেষণ: ক্লিনিক্যাল সূচক এবং সোশ্যাল কারণ একীভূত করে সম্পূর্ণ ঝুঁকি মূল্যায়ন প্রদান করা ४. ব্যবহারিক বহু-মডেল সিস্টেম সুপারিশ: একাধিক মডেলের সুবিধা একত্রিত করে স্তরযুক্ত পূর্বাভাস পাইপলাইন প্রস্তাব করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

  • ইনপুট: ১০টি বৈশিষ্ট্য সহ রোগীর ডেটা (বয়স, লিঙ্গ, উচ্চ রক্তচাপ, হৃদরোগ, বৈবাহিক অবস্থা, কর্মের ধরন, বাসস্থানের ধরন, গড় রক্তে গ্লুকোজের মাত্রা, BMI, ধূমপানের অবস্থা)
  • আউটপুট: দ্বিমুখী শ্রেণীবিভাগ ফলাফল (০: স্ট্রোক নেই, ১: স্ট্রোক আছে)
  • সীমাবদ্ধতা: মিথ্যা নেতিবাচক ন্যূনতম করা, নির্ভুলতা এবং পুনরুদ্ধার হার ভারসাম্য রাখা

মডেল আর্কিটেকচার

১. লজিস্টিক রিগ্রেশন মডেল

  • প্রাক-প্রক্রিয়াকরণ: StandardScaler ব্যবহার করে বৈশিষ্ট্য স্বাভাবিকীকরণ, Label Encoder দিয়ে শ্রেণীগত ভেরিয়েবল এনকোড করা
  • নিয়মিতকরণ: অতিফিটিং প্রতিরোধের জন্য L2 নিয়মিতকরণ
  • অপ্টিমাইজেশন: সংযোগ নিশ্চিত করতে সর্বোচ্চ ১০,০০০ পুনরাবৃত্তি
  • সিদ্ধান্ত সীমানা: ০.৫ সম্ভাবনা থ্রেশহোল্ড (সামঞ্জস্যযোগ্য)

२. নিউরাল নেটওয়ার্ক মডেল

ঘন নিউরাল নেটওয়ার্ক (DNN):

  • ইনপুট স্তর: ১০টি বৈশিষ্ট্য
  • লুকানো স্তর: Batch Normalization এবং Dropout সহ
  • সক্রিয়করণ ফাংশন: ReLU
  • আউটপুট স্তর: Sigmoid সক্রিয়করণ সহ একক নিউরন

কনভোলিউশনাল নিউরাল নেটওয়ার্ক (CNN):

  • অনুরূপ আর্কিটেকচার কিন্তু বৈশিষ্ট্য প্রক্রিয়াকরণের জন্য কনভোলিউশনাল স্তর ব্যবহার করা
  • পুলিং স্তর এবং সম্পূর্ণ সংযুক্ত স্তর অন্তর্ভুক্ত

প্রশিক্ষণ পরামিতি:

  • ক্ষতি ফাংশন: Cross Entropy Loss (শ্রেণী অসামঞ্জস্যের জন্য উপযুক্ত)
  • অপ্টিমাইজার: Adam (স্ব-অভিযোজনশীল শেখার হার)
  • প্রশিক্ষণ রাউন্ড: ৪০০ epochs
  • নিয়মিতকরণ: Dropout + Batch Normalization

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. বহু-আর্কিটেকচার তুলনা: ট্যাবুলার ডেটায় স্ট্রোক পূর্বাভাসে CNN এবং DNN এর কর্মক্ষমতা প্রথমবারের মতো পদ্ধতিগতভাবে তুলনা করা २. চিকিৎসা-ভিত্তিক ডিজাইন: শ্রেণী অসামঞ্জস্য সমস্যা সমাধানের জন্য ওজনযুক্ত ক্ষতি ফাংশন ব্যবহার করা ३. বৈশিষ্ট্য গুরুত্ব বিশ্লেষণ: লজিস্টিক রিগ্রেশন সহগ মাধ্যমে জৈবিক কারণের পূর্বাভাস অবদান বিশ্লেষণ করা ४. পরিসংখ্যানগত শক্তিশালীতা যাচাইকরণ: Bootstrap পুনঃনমুনা ব্যবহার করে ৯৫% আস্থার ব্যবধান গণনা করা

পরীক্ষামূলক সেটআপ

ডেটাসেট

  • উৎস: Kaggle স্ট্রোক পূর্বাভাস ডেটাসেট
  • আকার: প্রায় ৫০০০ নমুনা
  • শ্রেণী বিতরণ: অত্যন্ত অসামঞ্জস্যপূর্ণ (মাত্র ৫-৬% স্ট্রোক কেস)
  • বিভাজন: ৮০% প্রশিক্ষণ সেট, ২০% পরীক্ষা সেট
  • বৈশিষ্ট্য: ১০টি ক্লিনিক্যাল এবং সোশ্যাল বৈশিষ্ট্য

মূল্যায়ন মেট্রিক্স

  • নির্ভুলতা (Accuracy): সামগ্রিক সঠিক হার
  • পুনরুদ্ধার হার (Recall): প্রকৃত স্ট্রোক কেস চিহ্নিত করার ক্ষমতা (প্রধান ফোকাস)
  • নির্ভুলতা (Precision): পূর্বাভাসিত স্ট্রোক কেসের সঠিকতা
  • F1-Score: নির্ভুলতা এবং পুনরুদ্ধার হারের সুরেলা গড়
  • AUC-ROC: বিভিন্ন থ্রেশহোল্ডে বিচক্ষণ ক্ষমতা
  • বিভ্রান্তি ম্যাট্রিক্স: বিস্তারিত শ্রেণীবিভাগ ত্রুটি বিশ্লেষণ

তুলনামূলক পদ্ধতি

  • লজিস্টিক রিগ্রেশন (Sklearn বাস্তবায়ন)
  • ঘন নিউরাল নেটওয়ার্ক (PyTorch বাস্তবায়ন)
  • কনভোলিউশনাল নিউরাল নেটওয়ার্ক (PyTorch বাস্তবায়ন)

বাস্তবায়ন বিবরণ

  • ফ্রেমওয়ার্ক: PyTorch (নিউরাল নেটওয়ার্ক), Sklearn (লজিস্টিক রিগ্রেশন)
  • হার্ডওয়্যার: মান গণনা পরিবেশ
  • পুনরুৎপাদনযোগ্যতা: নির্ধারিত র্যান্ডম সিড, ওপেন সোর্স কোড

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

মডেলনির্ভুলতাপুনরুদ্ধার হারনির্ভুলতাF1-Score
লজিস্টিক রিগ্রেশন৭৪.৯৫%৭৫.৮১%১৬.৩১%-
ঘন নিউরাল নেটওয়ার্ক৮৬.৫০%৪३.৫५%२०.७७%-
কনভোলিউশনাল নিউরাল নেটওয়ার্ক৭८.६७%५३.२३%--

মূল আবিষ্কার

१. নির্ভুলতা বনাম পুনরুদ্ধার হার ভারসাম্য:

  • ঘন নিউরাল নেটওয়ার্ক সর্বোচ্চ নির্ভুলতা অর্জন করে (৮६.५०%), কিন্তু পুনরুদ্ধার হার কম (४३.५५%)
  • লজিস্টিক রিগ্রেশন সর্বোচ্চ পুনরুদ্ধার হার অর্জন করে (७५.८१%), কিন্তু নির্ভুলতা কম (१६.३१%)
  • CNN উভয়ের মধ্যে ভারসাম্য অর্জন করে

२. বৈশিষ্ট্য গুরুত্ব বিশ্লেষণ:

  • বয়স সবচেয়ে গুরুত্বপূর্ণ পূর্বাভাস কারণ (চিকিৎসা জ্ঞানের সাথে সামঞ্জস্যপূর্ণ)
  • BMI এর গুরুত্ব প্রত্যাশার চেয়ে কম (বিদ্যমান গবেষণার সাথে অসামঞ্জস্যপূর্ণ)

३. প্রশিক্ষণ গতিশীলতা:

  • CNN ५० রাউন্ডের পরে ধীরে ধীরে সংযোগ করে
  • DNN সম্পূর্ণ ४०० রাউন্ড প্রশিক্ষণে ক্রমাগত উন্নতি করে
  • কোনো স্পষ্ট অতিফিটিং ঘটনা নেই

পরিসংখ্যানগত তাৎপর্য

Bootstrap পুনঃনমুনা (१००० পুনরাবৃত্তি) ব্যবহার করে ९५% আস্থার ব্যবধান গণনা করা:

  • DNN নির্ভুলতা: ८६.५०% ८४.३२%, ८८.६८%
  • DNN পুনরুদ্ধার হার: ४३.५५% ३९.८७%, ४७.२३%
  • লজিস্টিক রিগ্রেশন নির্ভুলতা: ७४.९५% ७२.६३%, ७७.२७%
  • লজিস্টিক রিগ্রেশন পুনরুদ্ধার হার: ७५.८१% ७२.१४%, ७९.४८%

সম্পর্কিত কাজ

পেপারটি একাধিক সম্পর্কিত গবেষণা উদ্ধৃত করে: १. Shao et al. (२०२४): BMI এবং বয়সকে জৈবিক পূর্বাভাস কারণ হিসেবে তাদের গুরুত্ব জোর দেওয়া २. Gupta et al. (२०२५): নিউরাল নেটওয়ার্ক-ভিত্তিক স্ট্রোক পূর্বাভাস মডেল ३. Zhang et al. (२०२२): স্ট্রোক পূর্বাভাসে বহুস্তরীয় পারসেপ্ট্রনের প্রয়োগ

বিদ্যমান কাজের তুলনায় এই গবেষণার সুবিধা:

  • একাধিক মেশিন লার্নিং পদ্ধতির পদ্ধতিগত তুলনা
  • মিথ্যা নেতিবাচক ন্যূনতমকরণে ফোকাস
  • ক্লিনিক্যাল এবং সোশ্যাল বৈশিষ্ট্যের ব্যাপক বিশ্লেষণ

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. মডেল নির্বাচন প্রয়োগের পরিস্থিতির উপর নির্ভর করে:

  • লজিস্টিক রিগ্রেশন: প্রাথমিক স্ক্রিনিংয়ের জন্য উপযুক্ত (উচ্চ পুনরুদ্ধার হার, শক্তিশালী ব্যাখ্যাযোগ্যতা)
  • ঘন নিউরাল নেটওয়ার্ক: নির্ভুল মূল্যায়নের জন্য উপযুক্ত (উচ্চ নির্ভুলতা, কম মিথ্যা ইতিবাচক)
  • CNN: ভারসাম্যপূর্ণ কর্মক্ষমতা, যাচাইকরণ সরঞ্জামের জন্য উপযুক্ত

२. বহু-মডেল সিস্টেম সুপারিশ:

  • প্রথম পর্যায়: লজিস্টিক রিগ্রেশন প্রাথমিক স্ক্রিনিং
  • দ্বিতীয় পর্যায়: উচ্চ ঝুঁকিপূর্ণ রোগীদের নির্ভুল মূল্যায়নের জন্য DNN
  • তৃতীয় পর্যায়: যাচাইকরণ এবং ভারসাম্যের জন্য CNN

সীমাবদ্ধতা

१. ডেটা অসামঞ্জস্য: মাত্র ५-६% ইতিবাচক কেস মডেল শেখার ক্ষমতা সীমিত করে २. বৈশিষ্ট্য গুরুত্ব অস্বাভাবিকতা: BMI গুরুত্ব প্রত্যাশার চেয়ে কম, যা পূর্বাভাস নির্ভুলতা প্রভাবিত করতে পারে ३. সাধারণীকরণ ক্ষমতা: একক ডেটাসেট মডেলের সর্বজনীনতা সীমিত করতে পারে ४. নমুনা আকার: ५००० নমুনা তুলনামূলকভাবে ছোট, বিশেষ করে ইতিবাচক কেস বিরল

ভবিষ্যত দিকনির্দেশনা

१. ডেটা সম্প্রসারণ: শ্রেণী অসামঞ্জস্য প্রশমিত করতে আরও প্রকৃত স্ট্রোক রোগীর ডেটা সংগ্রহ করা २. বৈশিষ্ট্য প্রকৌশল: বৈশিষ্ট্য নির্বাচন কৌশল পুনর্মূল্যায়ন এবং অপ্টিমাইজ করা ३. মডেল সংমিশ্রণ: আরও পরিশীলিত বহু-মডেল সংমিশ্রণ পদ্ধতি বিকাশ করা ४. ক্লিনিক্যাল যাচাইকরণ: প্রকৃত চিকিৎসা পরিবেশে মডেল কার্যকারিতা যাচাই করা

গভীর মূল্যায়ন

সুবিধা

१. ব্যবহারিক দিকনির্দেশনা: চিকিৎসা পরিস্থিতিতে মিথ্যা নেতিবাচক ন্যূনতমকরণের প্রকৃত চাহিদা স্পষ্টভাবে ফোকাস করা २. পদ্ধতি ব্যাপক: ঐতিহ্যবাহী মেশিন লার্নিং এবং গভীর শেখার পদ্ধতি পদ্ধতিগতভাবে তুলনা করা ३. পরিসংখ্যানগত কঠোরতা: Bootstrap পদ্ধতি ব্যবহার করে ফলাফল শক্তিশালীতা যাচাই করা ४. পুনরুৎপাদনযোগ্যতা: সম্পূর্ণ কোড এবং ডেটা প্রদান করা, MIT ওপেন সোর্স লাইসেন্স গ্রহণ করা ५. ক্লিনিক্যাল প্রাসঙ্গিকতা: চিকিৎসা ক্ষেত্রে স্বীকৃত ঝুঁকি কারণ একীভূত করা

অপূর্ণতা

१. ডেটা গুণমান: গুরুতর শ্রেণী অসামঞ্জস্য সমস্যা যথাযথভাবে সমাধান করা হয়নি २. মডেল গভীরতা: নিউরাল নেটওয়ার্ক আর্কিটেকচার তুলনামূলকভাবে সহজ, গভীর শেখার সম্ভাবনা সম্পূর্ণভাবে অন্বেষণ করা হয়নি ३. বৈশিষ্ট্য প্রকৌশল অপূর্ণ: BMI গুরুত্ব অস্বাভাবিকতা বৈশিষ্ট্য প্রক্রিয়াকরণে সমস্যা থাকতে পারে তা নির্দেশ করে ४. মূল্যায়ন সীমাবদ্ধতা: বিদ্যমান ক্লিনিক্যাল ঝুঁকি মূল্যায়ন সরঞ্জামের সাথে তুলনার অভাব ५. পরীক্ষা স্কেল: একক ডেটাসেট, ক্রস-ডেটাসেট যাচাইকরণের অভাব

প্রভাব

१. একাডেমিক অবদান: চিকিৎসা AI ক্ষেত্রে ব্যবহারিক বহু-মডেল তুলনা কাঠামো প্রদান করা २. ক্লিনিক্যাল মূল্য: প্রস্তাবিত স্তরযুক্ত পূর্বাভাস সিস্টেম প্রকৃত প্রয়োগের সম্ভাবনা রাখে ३. পদ্ধতিগত তাৎপর্য: চিকিৎসা AI তে মিথ্যা নেতিবাচক নিয়ন্ত্রণের গুরুত্ব জোর দেওয়া ४. সম্প্রসারণযোগ্যতা: পদ্ধতি অন্যান্য চিকিৎসা পূর্বাভাস কাজে প্রসারিত করা যায়

প্রযোজ্য পরিস্থিতি

१. প্রাথমিক চিকিৎসা সেবা: লজিস্টিক রিগ্রেশন মডেল সম্প্রদায় চিকিৎসা স্ক্রিনিংয়ের জন্য উপযুক্ত २. বিশেষায়িত হাসপাতাল: ঘন নিউরাল নেটওয়ার্ক নির্ভুল ঝুঁকি মূল্যায়নের জন্য উপযুক্ত ३. স্বাস্থ্য ব্যবস্থাপনা: ব্যক্তিগত স্বাস্থ্য পর্যবেক্ষণ অ্যাপ্লিকেশনে একীভূত করা যায় ४. ক্লিনিক্যাল গবেষণা: স্ট্রোক ঝুঁকি কারণ গবেষণার জন্য সরঞ্জাম প্রদান করা

তথ্যসূত্র

१. CDC. Preventing stroke deaths. https://www.cdc.gov/vitalsigns/pdf/2017-09-vitalsigns.pdf २. Shao, Y., et al. (२०२४). Link between triglyceride-glucose-body mass index and future stroke risk in middle-aged and elderly Chinese. Cardiovascular Diabetology. ३. Gupta, A., et al. (२०२५). Predicting stroke risk: An effective stroke prediction model based on neural networks. Journal of Neurorestoratology.


সামগ্রিক মূল্যায়ন: এই গবেষণা স্ট্রোক পূর্বাভাসের এই গুরুত্বপূর্ণ চিকিৎসা সমস্যায় মূল্যবান বহু-মডেল তুলনামূলক বিশ্লেষণ প্রদান করে, বিশেষত মিথ্যা নেতিবাচক নিয়ন্ত্রণের প্রতি মনোযোগ চিকিৎসা AI এর প্রকৃত চাহিদা প্রতিফলিত করে। ডেটা অসামঞ্জস্য ইত্যাদি সীমাবদ্ধতা থাকা সত্ত্বেও, এর প্রস্তাবিত বহু-মডেল সিস্টেম আর্কিটেকচার প্রকৃত প্রয়োগের মূল্য রাখে এবং চিকিৎসা AI ক্ষেত্রে অনুরূপ গবেষণার জন্য একটি ভাল রেফারেন্স কাঠামো প্রদান করে।