2025-11-22T01:16:16.023348

Stroke Prediction using Clinical and Social Features in Machine Learning

Chadha

Every year in the United States, 800,000 individuals suffer a stroke - one person every 40 seconds, with a death occurring every four minutes. While individual factors vary, certain predictors are more prevalent in determining stroke risk. As strokes are the second leading cause of death and disability worldwide, predicting stroke likelihood based on lifestyle factors is crucial. Showing individuals their stroke risk could motivate lifestyle changes, and machine learning offers solutions to this prediction challenge. Neural networks excel at predicting outcomes based on training features like lifestyle factors, however, they're not the only option. Logistic regression models can also effectively compute the likelihood of binary outcomes based on independent variables, making them well-suited for stroke prediction. This analysis will compare both neural networks (dense and convolutional) and logistic regression models for stroke prediction, examining their pros, cons, and differences to develop the most effective predictor that minimizes false negatives.

academic

Predicción de Accidente Cerebrovascular utilizando Características Clínicas y Sociales en Aprendizaje Automático

Información Básica

ID del Artículo: 2501.00048
Título: Stroke Prediction using Clinical and Social Features in Machine Learning
Autor: Aidan Chadha (Virginia Tech)
Clasificación: cs.LG cs.AI
Fecha de Publicación/Conferencia: Preimpresión 2025
Enlace del Artículo: https://arxiv.org/abs/2501.00048
Enlace del Código: https://github.com/Aidan7757/stroke_prediction_using_clinical_social_features

Resumen

Anualmente, 800,000 personas en Estados Unidos sufren accidentes cerebrovasculares, con uno cada 40 segundos y una muerte cada 4 minutos. Como segunda causa mundial de muerte e incapacidad, la predicción de la probabilidad de accidente cerebrovascular basada en factores de estilo de vida es fundamental. Este estudio compara el desempeño de redes neuronales (densas y convolucionales) con modelos de regresión logística en la predicción de accidentes cerebrovasculares, con el objetivo de desarrollar el predictor más efectivo para minimizar falsos negativos.

Antecedentes e Motivación de la Investigación

Definición del Problema

La predicción de accidente cerebrovascular es un problema crítico de salud que involucra múltiples factores internos y externos:

Factores Externos: estado civil, tipo de trabajo, ambiente de residencia, etc.
Factores Internos: antecedentes de enfermedades cardíacas, IMC, edad, niveles de glucosa en sangre, etc.

Importancia

Impacto en Salud Pública: el accidente cerebrovascular es la segunda causa mundial de muerte e incapacidad
Valor Preventivo: la evaluación temprana del riesgo puede motivar cambios en el estilo de vida
Aplicación Clínica: la evaluación del riesgo en tiempo real puede integrarse en exámenes de rutina

Limitaciones Existentes

Falta de modelos predictivos integrales que combinen efectivamente características clínicas y sociales
El daño de los falsos negativos en contextos médicos no ha sido suficientemente enfatizado
Investigación limitada comparando diferentes métodos de aprendizaje automático en predicción de accidente cerebrovascular

Contribuciones Principales

Marco de Comparación Multimodelo: comparación sistemática del desempeño de regresión logística, redes neuronales densas y redes neuronales convolucionales en predicción de accidente cerebrovascular
Estrategia de Evaluación Orientada a la Medicina: enfoque en minimizar falsos negativos, alineado con necesidades prácticas en contextos médicos
Análisis Integral de Características: integración de indicadores clínicos y factores sociales para proporcionar evaluación de riesgo comprehensiva
Recomendaciones de Sistema Multimodelo Práctico: propuesta de pipeline de predicción jerárquico que combina las ventajas de múltiples modelos

Explicación Detallada de Métodos

Definición de Tareas

Entrada: datos de pacientes con 10 características (edad, sexo, hipertensión, enfermedad cardíaca, estado civil, tipo de trabajo, tipo de residencia, nivel promedio de glucosa en sangre, IMC, estado de fumador)
Salida: resultado de clasificación binaria (0: sin accidente cerebrovascular, 1: con accidente cerebrovascular)
Restricciones: minimizar falsos negativos, equilibrar precisión y exhaustividad

Arquitectura de Modelos

1. Modelo de Regresión Logística

Preprocesamiento: normalización de características usando StandardScaler, codificación de variables categóricas con Label Encoder
Regularización: regularización L2 para prevenir sobreajuste
Optimización: máximo de 10,000 iteraciones para asegurar convergencia
Límite de Decisión: umbral de probabilidad de 0.5 (ajustable)

2. Modelos de Redes Neuronales

Red Neuronal Densa (DNN):

Capa de entrada: 10 características
Capas ocultas: incluyen Normalización por Lotes y Dropout
Función de activación: ReLU
Capa de salida: neurona única con activación Sigmoid

Red Neuronal Convolucional (CNN):

Arquitectura similar pero utiliza capas convolucionales para procesar características
Incluye capas de agrupamiento y capas completamente conectadas

Parámetros de Entrenamiento:

Función de pérdida: Cross Entropy Loss (apropiada para desbalance de clases)
Optimizador: Adam (tasa de aprendizaje adaptativa)
Épocas de entrenamiento: 400
Regularización: Dropout + Normalización por Lotes

Puntos de Innovación Técnica

Comparación Multiarquitectura: primera comparación sistemática del desempeño de CNN y DNN en predicción de accidente cerebrovascular con datos tabulares
Diseño Orientado a la Medicina: uso de función de pérdida ponderada para manejar desbalance de clases
Análisis de Importancia de Características: análisis de coeficientes de regresión logística para determinar contribución predictiva de factores biológicos
Validación de Robustez Estadística: uso de remuestreo Bootstrap para calcular intervalos de confianza del 95%

Configuración Experimental

Conjunto de Datos

Fuente: Conjunto de datos de predicción de accidente cerebrovascular de Kaggle
Escala: aproximadamente 5,000 muestras
Distribución de Clases: altamente desbalanceada (solo 5-6% son casos de accidente cerebrovascular)
División: 80% conjunto de entrenamiento, 20% conjunto de prueba
Características: 10 características clínicas y sociales

Métricas de Evaluación

Precisión (Accuracy): tasa de corrección general
Exhaustividad (Recall): capacidad de identificar casos reales de accidente cerebrovascular (enfoque principal)
Precisión (Precision): precisión de casos predichos de accidente cerebrovascular
F1-Score: media armónica de precisión y exhaustividad
AUC-ROC: capacidad discriminativa en diferentes umbrales
Matriz de Confusión: análisis detallado de errores de clasificación

Métodos de Comparación

Regresión Logística (implementación Sklearn)
Red Neuronal Densa (implementación PyTorch)
Red Neuronal Convolucional (implementación PyTorch)

Detalles de Implementación

Marco: PyTorch (redes neuronales), Sklearn (regresión logística)
Hardware: entorno computacional estándar
Reproducibilidad: semillas aleatorias fijas, código de código abierto

Resultados Experimentales

Resultados Principales

Modelo	Precisión	Exhaustividad	Precisión	F1-Score
Regresión Logística	74.95%	75.81%	16.31%	-
Red Neuronal Densa	86.50%	43.55%	20.77%	-
Red Neuronal Convolucional	78.67%	53.23%	-	-

Hallazgos Clave

Compensación Precisión vs Exhaustividad:
- La red neuronal densa logra la precisión más alta (86.50%), pero exhaustividad más baja (43.55%)
- La regresión logística tiene la exhaustividad más alta (75.81%), pero precisión más baja (16.31%)
- CNN logra equilibrio entre ambas
Análisis de Importancia de Características:
- La edad es el factor predictivo más importante (consistente con conocimiento médico)
- La importancia del IMC es menor de lo esperado (inconsistente con investigación existente)
Dinámicas de Entrenamiento:
- CNN converge lentamente después de 50 épocas
- DNN mejora continuamente durante las 400 épocas de entrenamiento
- Sin fenómenos evidentes de sobreajuste

Significancia Estadística

Intervalos de confianza del 95% calculados mediante remuestreo Bootstrap (1,000 iteraciones):

Precisión DNN: 86.50% 84.32%, 88.68%
Exhaustividad DNN: 43.55% 39.87%, 47.23%
Precisión Regresión Logística: 74.95% 72.63%, 77.27%
Exhaustividad Regresión Logística: 75.81% 72.14%, 79.48%

Trabajos Relacionados

El artículo cita múltiples investigaciones relacionadas:

Shao et al. (2024): enfatiza la importancia del IMC y la edad como factores predictivos biológicos
Gupta et al. (2025): modelo de predicción de accidente cerebrovascular basado en redes neuronales
Zhang et al. (2022): aplicación de perceptrón multicapa en predicción de accidente cerebrovascular

Ventajas de este estudio respecto a trabajos existentes:

Comparación sistemática de múltiples métodos de aprendizaje automático
Enfoque en minimizar falsos negativos
Análisis integral combinando características clínicas y sociales

Conclusiones y Discusión

Conclusiones Principales

La Selección de Modelo Depende del Contexto de Aplicación:
- Regresión Logística: apropiada para cribado inicial (alta exhaustividad, fuerte interpretabilidad)
- Red Neuronal Densa: apropiada para evaluación precisa (alta precisión, bajo falsos positivos)
- CNN: desempeño equilibrado, apropiada como herramienta de validación
Recomendaciones de Sistema Multimodelo:
- Fase Uno: cribado inicial con regresión logística
- Fase Dos: evaluación precisa de pacientes de alto riesgo con DNN
- Fase Tres: validación y equilibrio con CNN

Limitaciones

Desbalance de Datos: solo 5-6% de casos positivos limita la capacidad de aprendizaje del modelo
Anomalías en Importancia de Características: la baja importancia del IMC puede afectar la precisión predictiva
Capacidad de Generalización: un único conjunto de datos puede limitar la aplicabilidad universal del modelo
Escala de Muestra: 5,000 muestras son relativamente pequeñas, especialmente con casos positivos escasos

Direcciones Futuras

Expansión de Datos: recopilar más datos de pacientes con accidente cerebrovascular real para aliviar desbalance de clases
Ingeniería de Características: reevaluar y optimizar estrategia de selección de características
Integración de Modelos: desarrollar métodos más sofisticados de fusión multimodelo
Validación Clínica: verificar efectividad del modelo en entornos médicos reales

Evaluación Profunda

Fortalezas

Orientación Práctica: enfoque claro en minimizar falsos negativos en contextos médicos reales
Metodología Integral: comparación sistemática de métodos de aprendizaje automático tradicional y aprendizaje profundo
Rigor Estadístico: uso de método Bootstrap para verificar robustez de resultados
Reproducibilidad: proporciona código completo y datos, utiliza licencia de código abierto MIT
Relevancia Clínica: integra factores de riesgo reconocidos en el campo médico

Deficiencias

Calidad de Datos: problema severo de desbalance de clases no completamente resuelto
Profundidad de Modelo: arquitecturas de redes neuronales relativamente simples, no exploran completamente el potencial del aprendizaje profundo
Ingeniería de Características Insuficiente: la anomalía en importancia del IMC sugiere posibles problemas en procesamiento de características
Limitaciones de Evaluación: falta comparación con herramientas de evaluación de riesgo clínico existentes
Escala Experimental: conjunto de datos único, falta validación entre conjuntos de datos

Impacto

Contribución Académica: proporciona marco práctico de comparación multimodelo para campo de IA médica
Valor Clínico: el sistema de predicción jerárquico propuesto tiene potencial de aplicación práctica
Significancia Metodológica: enfatiza la importancia del control de falsos negativos en IA médica
Escalabilidad: la metodología puede generalizarse a otras tareas de predicción médica

Escenarios de Aplicación

Atención Médica Primaria: modelo de regresión logística apropiado para cribado en medicina comunitaria
Hospitales Especializados: red neuronal densa apropiada para evaluación precisa de riesgo
Gestión de Salud: puede integrarse en aplicaciones de monitoreo de salud personal
Investigación Clínica: proporciona herramienta para investigación de factores de riesgo de accidente cerebrovascular

Referencias

CDC. Preventing stroke deaths. https://www.cdc.gov/vitalsigns/pdf/2017-09-vitalsigns.pdf
Shao, Y., et al. (2024). Link between triglyceride-glucose-body mass index and future stroke risk in middle-aged and elderly Chinese. Cardiovascular Diabetology.
Gupta, A., et al. (2025). Predicting stroke risk: An effective stroke prediction model based on neural networks. Journal of Neurorestoratology.

Evaluación General: Este estudio proporciona análisis de comparación multimodelo valioso en el importante problema médico de predicción de accidente cerebrovascular, con énfasis particular en el control de falsos negativos que refleja necesidades prácticas reales de IA médica. Aunque existen limitaciones como desbalance de datos, el sistema multimodelo propuesto tiene valor de aplicación práctica y proporciona marco de referencia útil para investigación similar en el campo de IA médica.