2025-11-22T01:16:16.023348

Stroke Prediction using Clinical and Social Features in Machine Learning

Chadha

Every year in the United States, 800,000 individuals suffer a stroke - one person every 40 seconds, with a death occurring every four minutes. While individual factors vary, certain predictors are more prevalent in determining stroke risk. As strokes are the second leading cause of death and disability worldwide, predicting stroke likelihood based on lifestyle factors is crucial. Showing individuals their stroke risk could motivate lifestyle changes, and machine learning offers solutions to this prediction challenge. Neural networks excel at predicting outcomes based on training features like lifestyle factors, however, they're not the only option. Logistic regression models can also effectively compute the likelihood of binary outcomes based on independent variables, making them well-suited for stroke prediction. This analysis will compare both neural networks (dense and convolutional) and logistic regression models for stroke prediction, examining their pros, cons, and differences to develop the most effective predictor that minimizes false negatives.

academic

Прогнозирование инсульта с использованием клинических и социальных признаков в машинном обучении

Основная информация

ID статьи: 2501.00048
Название: Stroke Prediction using Clinical and Social Features in Machine Learning
Автор: Aidan Chadha (Virginia Tech)
Классификация: cs.LG cs.AI
Время публикации/конференция: Препринт 2025 года
Ссылка на статью: https://arxiv.org/abs/2501.00048
Ссылка на код: https://github.com/Aidan7757/stroke_prediction_using_clinical_social_features

Аннотация

Ежегодно в США 800 тысяч человек переносят инсульт, один инсульт происходит каждые 40 секунд, и один человек умирает от инсульта каждые 4 минуты. Как вторая по значимости причина смерти и инвалидности в мире, прогнозирование вероятности инсульта на основе факторов образа жизни имеет решающее значение. В данном исследовании сравнивается производительность нейронных сетей (полносвязных и сверточных) с моделями логистической регрессии при прогнозировании инсульта с целью разработки наиболее эффективного предиктора для минимизации ложноотрицательных результатов.

Предпосылки и мотивация исследования

Определение проблемы

Прогнозирование инсульта является критической проблемой здравоохранения, включающей множество внутренних и внешних факторов:

Внешние факторы: семейное положение, тип работы, условия проживания и т.д.
Внутренние факторы: история сердечных заболеваний, ИМТ, возраст, уровень глюкозы в крови и т.д.

Значимость

Влияние на общественное здоровье: инсульт является второй по значимости причиной смерти и инвалидности в мире
Ценность профилактики: ранняя оценка риска может мотивировать изменения образа жизни
Клиническое применение: оценка риска в реальном времени может быть интегрирована в плановые медицинские осмотры

Существующие ограничения

Отсутствие комплексных прогностических моделей, эффективно объединяющих клинические и социальные признаки
Недостаточное внимание к вреду ложноотрицательных результатов в медицинских сценариях
Ограниченные сравнительные исследования различных методов машинного обучения при прогнозировании инсульта

Основные вклады

Рамка сравнения нескольких моделей: систематическое сравнение производительности логистической регрессии, полносвязной нейронной сети и сверточной нейронной сети при прогнозировании инсульта
Стратегия оценки, ориентированная на медицину: акцент на минимизацию ложноотрицательных результатов, соответствующий практическим потребностям медицинских сценариев
Комплексный анализ признаков: интеграция клинических показателей и социальных факторов для всестороннего анализа риска
Практические рекомендации многомодельной системы: предложение многоуровневого конвейера прогнозирования, объединяющего преимущества нескольких моделей

Подробное описание методов

Определение задачи

Входные данные: данные пациентов с 10 признаками (возраст, пол, гипертония, сердечное заболевание, семейное положение, тип работы, тип проживания, средний уровень глюкозы в крови, ИМТ, статус курения)
Выходные данные: результат бинарной классификации (0: нет инсульта, 1: есть инсульт)
Ограничения: минимизация ложноотрицательных результатов, баланс между точностью и полнотой

Архитектура моделей

1. Модель логистической регрессии

Предварительная обработка: нормализация признаков с использованием StandardScaler, кодирование категориальных переменных с помощью Label Encoder
Регуляризация: L2-регуляризация для предотвращения переобучения
Оптимизация: максимум 10 000 итераций для обеспечения сходимости
Граница решения: пороговое значение вероятности 0,5 (настраивается)

2. Модели нейронных сетей

Полносвязная нейронная сеть (DNN):

Входной слой: 10 признаков
Скрытые слои: включают пакетную нормализацию и отсев
Функция активации: ReLU
Выходной слой: один нейрон с активацией Sigmoid

Сверточная нейронная сеть (CNN):

Аналогичная архитектура, но использует сверточные слои для обработки признаков
Включает слои объединения и полносвязные слои

Параметры обучения:

Функция потерь: Cross Entropy Loss (подходит для несбалансированных классов)
Оптимизатор: Adam (адаптивная скорость обучения)
Количество эпох: 400
Регуляризация: отсев + пакетная нормализация

Технические инновации

Сравнение нескольких архитектур: первое систематическое сравнение производительности CNN и DNN при прогнозировании инсульта на табличных данных
Медицинский дизайн: использование взвешенной функции потерь для обработки несбалансированности классов
Анализ важности признаков: анализ коэффициентов логистической регрессии для определения вклада биологических факторов в прогнозирование
Проверка статистической надежности: использование бутстреп-переиспользования для расчета 95% доверительных интервалов

Экспериментальная установка

Набор данных

Источник: набор данных о прогнозировании инсульта с Kaggle
Размер: примерно 5000 образцов
Распределение классов: сильно несбалансировано (только 5-6% случаев инсульта)
Разделение: 80% обучающий набор, 20% тестовый набор
Признаки: 10 клинических и социальных признаков

Метрики оценки

Точность (Accuracy): общая доля правильных классификаций
Полнота (Recall): способность выявлять реальные случаи инсульта (основной фокус)
Прецизионность (Precision): точность прогнозов случаев инсульта
F1-Score: гармоническое среднее прецизионности и полноты
AUC-ROC: дискриминационная способность при различных пороговых значениях
Матрица ошибок: детальный анализ ошибок классификации

Методы сравнения

Логистическая регрессия (реализация Sklearn)
Полносвязная нейронная сеть (реализация PyTorch)
Сверточная нейронная сеть (реализация PyTorch)

Детали реализации

Фреймворк: PyTorch (нейронные сети), Sklearn (логистическая регрессия)
Оборудование: стандартная вычислительная среда
Воспроизводимость: фиксированное начальное значение случайного числа, открытый исходный код

Результаты экспериментов

Основные результаты

Модель	Точность	Полнота	Прецизионность	F1-Score
Логистическая регрессия	74,95%	75,81%	16,31%	-
Полносвязная нейронная сеть	86,50%	43,55%	20,77%	-
Сверточная нейронная сеть	78,67%	53,23%	-	-

Ключевые находки

Компромисс между точностью и полнотой:
- Полносвязная нейронная сеть достигает наивысшей точности (86,50%), но имеет более низкую полноту (43,55%)
- Логистическая регрессия имеет наивысшую полноту (75,81%), но более низкую прецизионность (16,31%)
- CNN достигает баланса между двумя показателями
Анализ важности признаков:
- Возраст является наиболее важным предиктором (соответствует медицинским знаниям)
- Важность ИМТ ниже ожидаемой (не соответствует существующим исследованиям)
Динамика обучения:
- CNN сходится медленно после 50 эпох
- DNN продолжает улучшаться на протяжении всех 400 эпох обучения
- Явных признаков переобучения не наблюдается

Статистическая значимость

Расчет 95% доверительных интервалов с использованием бутстреп-переиспользования (1000 итераций):

Точность DNN: 86,50% 84,32%, 88,68%
Полнота DNN: 43,55% 39,87%, 47,23%
Точность логистической регрессии: 74,95% 72,63%, 77,27%
Полнота логистической регрессии: 75,81% 72,14%, 79,48%

Связанные работы

Статья ссылается на несколько соответствующих исследований:

Shao et al. (2024): подчеркивает важность ИМТ и возраста как биологических предикторов
Gupta et al. (2025): модель прогнозирования инсульта на основе нейронных сетей
Zhang et al. (2022): применение многослойного персептрона при прогнозировании инсульта

Преимущества данного исследования по сравнению с существующими работами:

Систематическое сравнение различных методов машинного обучения
Акцент на минимизацию ложноотрицательных результатов
Комплексный анализ, объединяющий клинические и социальные признаки

Выводы и обсуждение

Основные выводы

Выбор модели зависит от сценария применения:
- Логистическая регрессия: подходит для первичного скрининга (высокая полнота, сильная интерпретируемость)
- Полносвязная нейронная сеть: подходит для точной оценки (высокая точность, низкие ложноположительные результаты)
- CNN: сбалансированная производительность, подходит для инструмента верификации
Рекомендации многомодельной системы:
- Первый этап: первичный скрининг с логистической регрессией
- Второй этап: точная оценка пациентов высокого риска с помощью DNN
- Третий этап: верификация и балансировка с помощью CNN

Ограничения

Несбалансированность данных: только 5-6% положительных случаев ограничивает способность модели к обучению
Аномалии в важности признаков: низкая важность ИМТ может повлиять на точность прогнозирования
Способность к обобщению: использование одного набора данных может ограничить универсальность модели
Размер выборки: 5000 образцов относительно небольшой размер, особенно учитывая редкость положительных случаев

Направления будущих исследований

Расширение данных: сбор большего количества данных о реальных пациентах с инсультом для смягчения несбалансированности классов
Инженерия признаков: переоценка и оптимизация стратегии выбора признаков
Ансамбль моделей: разработка более сложных методов объединения нескольких моделей
Клиническая валидация: проверка эффективности модели в реальной медицинской среде

Глубокая оценка

Преимущества

Практическая ориентация: четкий фокус на минимизацию ложноотрицательных результатов в медицинских сценариях
Комплексная методология: систематическое сравнение традиционного машинного обучения и глубокого обучения
Статистическая строгость: использование метода бутстреп для проверки надежности результатов
Воспроизводимость: предоставление полного кода и данных с лицензией MIT
Клиническая релевантность: интеграция признанных в медицине факторов риска

Недостатки

Качество данных: серьезная проблема несбалансированности классов не полностью решена
Глубина модели: архитектура нейронных сетей относительно простая, недостаточно исследует потенциал глубокого обучения
Недостаточная инженерия признаков: аномалия в важности ИМТ указывает на возможные проблемы в обработке признаков
Ограничения оценки: отсутствие сравнения с существующими клиническими инструментами оценки риска
Масштаб экспериментов: использование одного набора данных, отсутствие кросс-датасетной валидации

Влияние

Академический вклад: предоставляет практическую рамку сравнения нескольких моделей для области медицинского ИИ
Клиническая ценность: предложенная многоуровневая система прогнозирования имеет потенциал практического применения
Методологическое значение: подчеркивает важность контроля ложноотрицательных результатов в медицинском ИИ
Масштабируемость: методология может быть распространена на другие задачи медицинского прогнозирования

Сценарии применения

Первичная медико-санитарная помощь: модель логистической регрессии подходит для скрининга в общественных медицинских центрах
Специализированные больницы: полносвязная нейронная сеть подходит для точной оценки риска
Управление здоровьем: может быть интегрирована в приложения личного мониторинга здоровья
Клинические исследования: предоставляет инструмент для исследования факторов риска инсульта

Библиография

CDC. Preventing stroke deaths. https://www.cdc.gov/vitalsigns/pdf/2017-09-vitalsigns.pdf
Shao, Y., et al. (2024). Link between triglyceride-glucose-body mass index and future stroke risk in middle-aged and elderly Chinese. Cardiovascular Diabetology.
Gupta, A., et al. (2025). Predicting stroke risk: An effective stroke prediction model based on neural networks. Journal of Neurorestoratology.

Общая оценка: Данное исследование предоставляет ценный анализ сравнения нескольких моделей для важной медицинской проблемы прогнозирования инсульта, особенно с учетом внимания к контролю ложноотрицательных результатов, что отражает практические потребности медицинского ИИ. Несмотря на ограничения, такие как несбалансированность данных, предложенная архитектура многомодельной системы имеет практическую ценность применения и служит хорошей справочной рамкой для аналогичных исследований в области медицинского ИИ.