2025-11-22T01:16:16.023348

Stroke Prediction using Clinical and Social Features in Machine Learning

Chadha

Every year in the United States, 800,000 individuals suffer a stroke - one person every 40 seconds, with a death occurring every four minutes. While individual factors vary, certain predictors are more prevalent in determining stroke risk. As strokes are the second leading cause of death and disability worldwide, predicting stroke likelihood based on lifestyle factors is crucial. Showing individuals their stroke risk could motivate lifestyle changes, and machine learning offers solutions to this prediction challenge. Neural networks excel at predicting outcomes based on training features like lifestyle factors, however, they're not the only option. Logistic regression models can also effectively compute the likelihood of binary outcomes based on independent variables, making them well-suited for stroke prediction. This analysis will compare both neural networks (dense and convolutional) and logistic regression models for stroke prediction, examining their pros, cons, and differences to develop the most effective predictor that minimizes false negatives.

academic

Previsione dell'Ictus utilizzando Caratteristiche Cliniche e Sociali nel Machine Learning

Informazioni Fondamentali

ID Articolo: 2501.00048
Titolo: Stroke Prediction using Clinical and Social Features in Machine Learning
Autore: Aidan Chadha (Virginia Tech)
Classificazione: cs.LG cs.AI
Data di Pubblicazione/Conferenza: Preprint 2025
Link Articolo: https://arxiv.org/abs/2501.00048
Link Codice: https://github.com/Aidan7757/stroke_prediction_using_clinical_social_features

Riassunto

Ogni anno negli Stati Uniti 800.000 persone subiscono un ictus, con un evento ogni 40 secondi e un decesso ogni 4 minuti. Come seconda causa globale di morte e disabilità, la previsione della probabilità di ictus basata su fattori legati allo stile di vita è di cruciale importanza. Questo studio confronta le prestazioni di reti neurali (dense e convoluzionali) con modelli di regressione logistica nella previsione dell'ictus, con l'obiettivo di sviluppare il predittore più efficace per minimizzare i falsi negativi.

Contesto di Ricerca e Motivazione

Definizione del Problema

La previsione dell'ictus è un problema critico di sanità pubblica che coinvolge molteplici fattori interni ed esterni:

Fattori Esterni: stato civile, tipo di lavoro, ambiente di residenza, ecc.
Fattori Interni: storia di malattie cardiache, BMI, età, livelli di glucosio nel sangue, ecc.

Importanza

Impatto sulla Sanità Pubblica: l'ictus è la seconda causa globale di morte e disabilità
Valore Preventivo: la valutazione precoce del rischio può incentivare cambiamenti nello stile di vita
Applicazione Clinica: la valutazione del rischio in tempo reale può essere integrata negli esami medici di routine

Limitazioni Esistenti

Mancanza di modelli predittivi completi che combinino efficacemente caratteristiche cliniche e sociali
Il danno dei falsi negativi in contesti medici non è stato sufficientemente sottolineato
Ricerche comparative limitate tra diversi metodi di machine learning nella previsione dell'ictus

Contributi Principali

Framework di Confronto Multi-Modello: confronto sistematico delle prestazioni di regressione logistica, reti neurali dense e reti neurali convoluzionali nella previsione dell'ictus
Strategia di Valutazione Orientata al Settore Medico: focus sulla minimizzazione dei falsi negativi, allineato alle esigenze pratiche del contesto medico
Analisi Completa delle Caratteristiche: integrazione di indicatori clinici e fattori sociali per una valutazione del rischio complessiva
Raccomandazioni Pratiche di Sistema Multi-Modello: proposta di una pipeline predittiva stratificata che combina i vantaggi di più modelli

Dettagli Metodologici

Definizione del Compito

Input: dati dei pazienti contenenti 10 caratteristiche (età, sesso, ipertensione, malattia cardiaca, stato civile, tipo di lavoro, tipo di residenza, livello medio di glucosio nel sangue, BMI, stato di fumatore)
Output: risultato di classificazione binaria (0: nessun ictus, 1: ictus presente)
Vincoli: minimizzazione dei falsi negativi, equilibrio tra precisione e recall

Architetture dei Modelli

1. Modello di Regressione Logistica

Preprocessing: normalizzazione delle caratteristiche utilizzando StandardScaler, codifica delle variabili categoriche con Label Encoder
Regolarizzazione: regolarizzazione L2 per prevenire l'overfitting
Ottimizzazione: numero massimo di iterazioni 10.000 per garantire la convergenza
Confine Decisionale: soglia di probabilità 0.5 (regolabile)

2. Modelli di Reti Neurali

Rete Neurale Densa (DNN):

Strato di input: 10 caratteristiche
Strati nascosti: contenenti Batch Normalization e Dropout
Funzione di attivazione: ReLU
Strato di output: singolo neurone con attivazione Sigmoid

Rete Neurale Convoluzionale (CNN):

Architettura simile ma utilizza strati convoluzionali per l'elaborazione delle caratteristiche
Contiene strati di pooling e strati completamente connessi

Parametri di Addestramento:

Funzione di perdita: Cross Entropy Loss (appropriata per squilibrio di classe)
Ottimizzatore: Adam (tasso di apprendimento adattivo)
Epoche di addestramento: 400
Regolarizzazione: Dropout + Batch Normalization

Punti di Innovazione Tecnica

Confronto Multi-Architettura: primo confronto sistematico delle prestazioni di CNN e DNN nella previsione dell'ictus con dati tabulari
Design Orientato al Settore Medico: utilizzo di funzioni di perdita pesate per affrontare lo squilibrio di classe
Analisi dell'Importanza delle Caratteristiche: analisi dei coefficienti di regressione logistica per il contributo predittivo dei fattori biologici
Verifica della Robustezza Statistica: utilizzo del ricampionamento Bootstrap per il calcolo degli intervalli di confidenza al 95%

Configurazione Sperimentale

Dataset

Fonte: Dataset di previsione dell'ictus da Kaggle
Dimensione: circa 5000 campioni
Distribuzione di Classe: altamente squilibrata (solo 5-6% casi di ictus)
Divisione: 80% set di addestramento, 20% set di test
Caratteristiche: 10 caratteristiche cliniche e sociali

Metriche di Valutazione

Accuratezza (Accuracy): tasso di correttezza complessivo
Recall (Sensibilità): capacità di identificare i casi reali di ictus (focus principale)
Precisione (Precision): accuratezza dei casi di ictus predetti
F1-Score: media armonica di precisione e recall
AUC-ROC: capacità discriminativa a diverse soglie
Matrice di Confusione: analisi dettagliata degli errori di classificazione

Metodi di Confronto

Regressione Logistica (implementazione Sklearn)
Rete Neurale Densa (implementazione PyTorch)
Rete Neurale Convoluzionale (implementazione PyTorch)

Dettagli di Implementazione

Framework: PyTorch (reti neurali), Sklearn (regressione logistica)
Hardware: ambiente di calcolo standard
Riproducibilità: seed casuale fisso, codice open source

Risultati Sperimentali

Risultati Principali

Modello	Accuratezza	Recall	Precisione	F1-Score
Regressione Logistica	74.95%	75.81%	16.31%	-
Rete Neurale Densa	86.50%	43.55%	20.77%	-
Rete Neurale Convoluzionale	78.67%	53.23%	-	-

Scoperte Chiave

Compromesso Accuratezza vs Recall:
- La rete neurale densa raggiunge l'accuratezza più alta (86.50%), ma con recall inferiore (43.55%)
- La regressione logistica ha il recall più alto (75.81%), ma precisione inferiore (16.31%)
- La CNN raggiunge un equilibrio tra i due
Analisi dell'Importanza delle Caratteristiche:
- L'età è il fattore predittivo più importante (coerente con la conoscenza medica)
- L'importanza del BMI è inferiore alle aspettative (incoerente con la ricerca esistente)
Dinamiche di Addestramento:
- La CNN converge lentamente dopo 50 epoche
- La DNN continua a migliorare durante tutte le 400 epoche di addestramento
- Nessun evidente fenomeno di overfitting

Significatività Statistica

Intervalli di confidenza al 95% calcolati mediante ricampionamento Bootstrap (1000 iterazioni):

Accuratezza DNN: 86.50% 84.32%, 88.68%
Recall DNN: 43.55% 39.87%, 47.23%
Accuratezza Regressione Logistica: 74.95% 72.63%, 77.27%
Recall Regressione Logistica: 75.81% 72.14%, 79.48%

Lavori Correlati

L'articolo cita numerosi studi correlati:

Shao et al. (2024): enfatizza l'importanza del BMI e dell'età come fattori predittivi biologici
Gupta et al. (2025): modelli di previsione dell'ictus basati su reti neurali
Zhang et al. (2022): applicazione di perceptron multistrato nella previsione dell'ictus

Vantaggi di questo studio rispetto ai lavori esistenti:

Confronto sistematico di molteplici metodi di machine learning
Focus sulla minimizzazione dei falsi negativi
Analisi completa che combina caratteristiche cliniche e sociali

Conclusioni e Discussione

Conclusioni Principali

La Scelta del Modello Dipende dallo Scenario di Applicazione:
- Regressione Logistica: appropriata per lo screening iniziale (alto recall, forte interpretabilità)
- Rete Neurale Densa: appropriata per la valutazione precisa (alta accuratezza, bassi falsi positivi)
- CNN: prestazioni equilibrate, appropriata come strumento di verifica
Raccomandazioni di Sistema Multi-Modello:
- Fase 1: screening iniziale con regressione logistica
- Fase 2: valutazione precisa con DNN per pazienti ad alto rischio
- Fase 3: verifica e bilanciamento con CNN

Limitazioni

Squilibrio dei Dati: solo il 5-6% di casi positivi limita la capacità di apprendimento del modello
Anomalie nell'Importanza delle Caratteristiche: l'importanza inferiore del BMI potrebbe influenzare l'accuratezza predittiva
Capacità di Generalizzazione: un singolo dataset potrebbe limitare l'applicabilità universale del modello
Dimensione del Campione: 5000 campioni sono relativamente piccoli, specialmente per i casi positivi

Direzioni Future

Ampliamento dei Dati: raccolta di più dati di pazienti con ictus reali per alleviare lo squilibrio di classe
Ingegneria delle Caratteristiche: rivalutazione e ottimizzazione della strategia di selezione delle caratteristiche
Ensemble di Modelli: sviluppo di metodi di fusione multi-modello più sofisticati
Validazione Clinica: verifica dell'efficacia del modello in ambienti medici reali

Valutazione Approfondita

Punti di Forza

Orientamento Pratico: focus esplicito sulla minimizzazione dei falsi negativi nel contesto medico
Metodologia Completa: confronto sistematico tra metodi tradizionali di machine learning e deep learning
Rigore Statistico: utilizzo del metodo Bootstrap per verificare la robustezza dei risultati
Riproducibilità: fornitura di codice completo e dati con licenza MIT open source
Rilevanza Clinica: integrazione di fattori di rischio riconosciuti dal settore medico

Insufficienze

Qualità dei Dati: il grave squilibrio di classe non è stato adeguatamente affrontato
Profondità del Modello: le architetture di reti neurali sono relativamente semplici, non sfruttano pienamente il potenziale del deep learning
Ingegneria delle Caratteristiche Insufficiente: l'anomalia nell'importanza del BMI suggerisce possibili problemi nell'elaborazione delle caratteristiche
Limitazioni nella Valutazione: mancanza di confronto con strumenti di valutazione del rischio clinico esistenti
Scala Sperimentale: singolo dataset, mancanza di validazione cross-dataset

Impatto

Contributo Accademico: fornisce un framework di confronto multi-modello pratico per il settore dell'IA medica
Valore Clinico: il sistema di previsione stratificato proposto ha potenziale di applicazione pratica
Significato Metodologico: sottolinea l'importanza del controllo dei falsi negativi nell'IA medica
Scalabilità: il metodo può essere esteso ad altri compiti di previsione medica

Scenari di Applicazione

Assistenza Medica Primaria: il modello di regressione logistica è appropriato per lo screening medico comunitario
Ospedali Specializzati: la rete neurale densa è appropriata per la valutazione precisa del rischio
Gestione della Salute: può essere integrata in applicazioni di monitoraggio della salute personale
Ricerca Clinica: fornisce strumenti per la ricerca sui fattori di rischio dell'ictus

Riferimenti Bibliografici

CDC. Preventing stroke deaths. https://www.cdc.gov/vitalsigns/pdf/2017-09-vitalsigns.pdf
Shao, Y., et al. (2024). Link between triglyceride-glucose-body mass index and future stroke risk in middle-aged and elderly Chinese. Cardiovascular Diabetology.
Gupta, A., et al. (2025). Predicting stroke risk: An effective stroke prediction model based on neural networks. Journal of Neurorestoratology.

Valutazione Complessiva: Questo studio fornisce un'analisi di confronto multi-modello preziosa su questo importante problema medico di previsione dell'ictus, con particolare attenzione al controllo dei falsi negativi che riflette le esigenze pratiche dell'IA medica. Nonostante le limitazioni come lo squilibrio dei dati, l'architettura di sistema multi-modello proposta ha valore di applicazione pratica e fornisce un buon framework di riferimento per ricerche simili nel settore dell'IA medica.