2025-11-11T11:34:09.241880

LUME-DBN: Full Bayesian Learning of DBNs from Incomplete data in Intensive Care

Pirola, Stella, Grzegorczyk
Dynamic Bayesian networks (DBNs) are increasingly used in healthcare due to their ability to model complex temporal relationships in patient data while maintaining interpretability, an essential feature for clinical decision-making. However, existing approaches to handling missing data in longitudinal clinical datasets are largely derived from static Bayesian networks literature, failing to properly account for the temporal nature of the data. This gap limits the ability to quantify uncertainty over time, which is particularly critical in settings such as intensive care, where understanding the temporal dynamics is fundamental for model trustworthiness and applicability across diverse patient groups. Despite the potential of DBNs, a full Bayesian framework that integrates missing data handling remains underdeveloped. In this work, we propose a novel Gibbs sampling-based method for learning DBNs from incomplete data. Our method treats each missing value as an unknown parameter following a Gaussian distribution. At each iteration, the unobserved values are sampled from their full conditional distributions, allowing for principled imputation and uncertainty estimation. We evaluate our method on both simulated datasets and real-world intensive care data from critically ill patients. Compared to standard model-agnostic techniques such as MICE, our Bayesian approach demonstrates superior reconstruction accuracy and convergence properties. These results highlight the clinical relevance of incorporating full Bayesian inference in temporal models, providing more reliable imputations and offering deeper insight into model behavior. Our approach supports safer and more informed clinical decision-making, particularly in settings where missing data are frequent and potentially impactful.
academic

LUME-DBN: Apprendimento Bayesiano Completo di DBN da Dati Incompleti in Terapia Intensiva

Informazioni Fondamentali

  • ID Articolo: 2511.04333
  • Titolo: LUME-DBN: Full Bayesian Learning of DBNs from Incomplete data in Intensive Care
  • Autori: Federico Pirola (University of Milano-Bicocca), Fabio Stella (University of Milano-Bicocca), Marco Grzegorczyk (University of Groningen)
  • Classificazione: cs.LG (Machine Learning), cs.AI (Artificial Intelligence)
  • Data di Pubblicazione: 6 novembre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2511.04333

Riassunto

Le reti bayesiane dinamiche (DBN) trovano applicazione sempre più diffusa nel settore sanitario, poiché sono in grado di modellare relazioni temporali complesse nei dati dei pazienti mantenendo l'interpretabilità, una caratteristica essenziale per le decisioni cliniche. Tuttavia, i metodi esistenti per affrontare i valori mancanti nei dataset clinici longitudinali provengono principalmente dalla letteratura sulle reti bayesiane statiche e non considerano adeguatamente la natura temporale dei dati. Questo divario limita la capacità di quantificare l'incertezza temporale, aspetto particolarmente critico in contesti come la terapia intensiva, dove la comprensione della dinamica temporale è fondamentale per l'affidabilità del modello e l'applicabilità tra diversi gruppi di pazienti. Il presente articolo propone un nuovo metodo basato sul campionamento di Gibbs per l'apprendimento di DBN da dati incompleti, trattando ogni valore mancante come un parametro sconosciuto che segue una distribuzione gaussiana, realizzando imputazione principiata e stima dell'incertezza mediante campionamento dalle distribuzioni condizionali complete.

Contesto di Ricerca e Motivazione

Problema Centrale

Il problema centrale affrontato da questa ricerca è come apprendere efficacemente reti bayesiane dinamiche in presenza di una grande quantità di dati mancanti, in particolare nelle applicazioni in ambienti di terapia intensiva.

Importanza del Problema

  1. Urgenza Clinica: In ICU, la valutazione tempestiva e accurata dell'evoluzione dello stato del paziente è cruciale per guidare gli interventi terapeutici
  2. Sfide nella Qualità dei Dati: I dati ICU sono frequentemente affetti da valori mancanti, campionamento irregolare e errori di misurazione
  3. Quantificazione dell'Incertezza: I metodi tradizionali non riescono a considerare adeguatamente l'incertezza introdotta dai dati mancanti, potendo causare distorsioni nelle stime dei parametri

Limitazioni dei Metodi Esistenti

  1. Cecità Temporale dei Metodi Statici: I metodi esistenti per il trattamento dei dati mancanti provengono principalmente da reti bayesiane statiche e non considerano la natura temporale
  2. Insufficienza dei Metodi Frequentisti: L'imputazione tradizionale o i metodi frequentisti potrebbero non considerare adeguatamente l'incertezza introdotta dai dati mancanti
  3. Problema dell'Ottimo Locale: Algoritmi come l'Expectation-Maximization strutturale (SEM) tendono a convergere a soluzioni localmente ottimali

Motivazione della Ricerca

Sviluppare un framework completamente bayesiano che possa gestire simultaneamente l'incertezza nella struttura della rete, nei parametri e nei valori mancanti, fornendo un supporto più affidabile per le decisioni cliniche.

Contributi Principali

  1. Contributo Teorico: Derivazione di soluzioni in forma chiusa per le distribuzioni condizionali complete (FCD) dei valori mancanti in DBN, provando la loro trattabilità
  2. Innovazione Metodologica: Proposta dell'algoritmo LUME-DBN, che combina il campionamento di Gibbs per l'imputazione dei dati mancanti con l'apprendimento della struttura MCMC
  3. Verifica Sperimentale: Validazione del metodo su dati simulati e dati reali ICU, mostrando accuratezza di ricostruzione superiore rispetto a metodi come MICE
  4. Applicazione Clinica: Dimostrazione del metodo sul dataset PhysioNet 2012, evidenziando relazioni temporali significative scoperte in diversi tipi di ICU

Dettagli del Metodo

Definizione del Compito

Input: Dati di serie temporali multivariate contenenti valori mancanti DRN×k×(T+1)D \in \mathbb{R}^{N \times k \times (T+1)}, dove NN è il numero di campioni, kk è il numero di variabili, T+1T+1 è il numero di punti temporali

Output: Campioni dalle distribuzioni a posteriori della struttura DBN, dei parametri e dei valori mancanti

Vincoli: Assunzione di proprietà markoviana del primo ordine e assenza di effetti istantanei

Architettura del Modello

Framework Fondamentale di DBN

La DBN è modellata come kk modelli indipendenti di regressione bayesiana lineare (BLR):

xit=β0(i)+j:(Xjt1π(i))βj(i)xjt1+ϵitx_i^t = \beta_0^{(i)} + \sum_{j:(X_j^{t-1} \in \pi(i))} \beta_j^{(i)} x_j^{t-1} + \epsilon_i^t

dove π(i)\pi(i) rappresenta l'insieme dei nodi genitori della variabile XiX_i, e ϵitN(0,σ(i)2)\epsilon_i^t \sim N(0, \sigma^2_{(i)}).

Specificazione delle Distribuzioni A Priori

  • Coefficienti di regressione: β(i)N(μ(i),σ(i)2δ(i)2I)\beta^{(i)} \sim N(\mu^{(i)}, \sigma^2_{(i)}\delta^2_{(i)}I)
  • Parametri di rumore: σ(i)2Inv-Gamma(a,b)\sigma^2_{(i)} \sim \text{Inv-Gamma}(a, b)
  • Parametri di incertezza: δ(i)2Inv-Gamma(αδ,βδ)\delta^2_{(i)} \sim \text{Inv-Gamma}(\alpha_\delta, \beta_\delta)
  • Dimensione dell'insieme dei genitori: π(i)Poisson(λ)|\pi(i)| \sim \text{Poisson}(\lambda)

Distribuzioni Condizionali Complete per Valori Mancanti

Per il valore mancante xit[MIS]x_i^t[MIS] della variabile XiX_i al tempo tt, la FCD è:

P(xit[MIS])=N(μ,σ2)P(x_i^t[MIS] | \cdot) = N(\mu_*, \sigma^2_*)

dove: σ2=(1σ(i)2+j:(Xitπ(j))(βi(j))2σ(j)2)1\sigma^2_* = \left(\frac{1}{\sigma^2_{(i)}} + \sum_{j:(X_i^t \in \pi(j))} \frac{(\beta_i^{(j)})^2}{\sigma^2_{(j)}}\right)^{-1}

μ=σ2(μitσ(i)2+j:(Xitπ(j))βi(j)(xjt+1μ{i}(j)(t+1))σ(j)2)\mu_* = \sigma^2_* \cdot \left(\frac{\mu_i^t}{\sigma^2_{(i)}} + \sum_{j:(X_i^t \in \pi(j))} \frac{\beta_i^{(j)}(x_j^{t+1} - \mu_{{\{-i\}}}^{(j)(t+1)})}{\sigma^2_{(j)}}\right)

Punti di Innovazione Tecnica

  1. Strategia di Imputazione Unificata: Progettazione di passi di Gibbs che aggiornano congiuntamente i valori mancanti su tutti i modelli di regressione
  2. Derivazione in Forma Chiusa: Prova della trattabilità della FCD dei valori mancanti, rendendo possibile l'inferenza MCMC efficiente
  3. Invarianza Temporale: La struttura della FCD è invariante rispetto ai parametri della DBN, migliorando l'efficienza computazionale
  4. Evasione dall'Ottimo Locale: Il campionamento MCMC consente di evitare minimi locali, ottenendo ricostruzioni di rete più accurate

Configurazione Sperimentale

Dataset

Dati Simulati

  • Struttura: 10 strutture DBN indipendenti di 10 nodi ciascuna, con massimo 5 nodi genitori per nodo
  • Lunghezza Temporale: T{50,100,200}T \in \{50, 100, 200\}
  • Tasso di Dati Mancanti: {10%,20%,30%,40%}\{10\%, 20\%, 30\%, 40\%\}
  • Impostazione dei Parametri: Coefficienti di regressione campionati da Uniform[0.2,0.8]\text{Uniform}[0.2, 0.8], varianza del rumore σ2=1\sigma^2 = 1

Dati Reali

  • Fonte dei Dati: Dataset PhysioNet 2012 Challenge
  • Numero di Pazienti: Oltre 20.000 pazienti adulti in ICU
  • Finestra Temporale: Prime 48 ore di ricovero in ICU
  • Numero di Variabili: 11 variabili cliniche (segni vitali, indicatori ematici, caratteristiche fisiologiche)
  • Raggruppamento ICU: MICU (34 casi), SICU (104 casi), CCU (114 casi), CSRU (62 casi)

Metriche di Valutazione

  • Ricostruzione della Struttura: Area sotto la curva Precisione-Recall (AUC-PR)
  • Diagnostica di Convergenza: Fattore di Riduzione della Scala Potenziale (PSRF < 1.1)
  • Significatività Statistica: Test t accoppiato

Metodi di Confronto

  • MICE: Multiple Imputation by Chained Equations
  • MICE Temporale: Variante temporale di MICE che utilizza variabili predittive ritardate
  • Dati Completi: Come riferimento del limite superiore delle prestazioni

Dettagli di Implementazione

  • Numero di Iterazioni: 20.000 iterazioni, con le prime 5.000 come burn-in
  • Frequenza di Aggiornamento dei Valori Mancanti: Aggiornamento ogni 10 iterazioni (EM=10E_M = 10)
  • Rarefazione della Catena: Conservazione di 1 campione ogni 5 per ridurre l'autocorrelazione
  • Parametri A Priori: λ=1\lambda = 1, σ(i)2=δ(i)2=1\sigma^2_{(i)} = \delta^2_{(i)} = 1

Risultati Sperimentali

Risultati Principali

Risultati su Dati Simulati

LUME-DBN supera significativamente i metodi baseline in tutte le impostazioni sperimentali:

  1. Prestazioni di MICE: Completamente inefficace quando il tasso di dati mancanti supera il 20%, riflettendo la sua inefficienza su dati temporali
  2. MICE Temporale: Prestazioni superiori a MICE ma significativamente inferiori a LUME-DBN
  3. Vantaggi di LUME-DBN: Prestazioni particolarmente eccellenti con alti tassi di dati mancanti, con perdita di prestazioni minima rispetto ai dati completi in caso di campioni di grandi dimensioni

Analisi di Convergenza

  • Convergenza della Struttura: Convergenza entro 1.5k iterazioni per tutti i tassi di dati mancanti
  • Convergenza dei Valori Mancanti: Richiede 5k iterazioni con tasso di dati mancanti del 40%
  • Stabilità della Convergenza: Il tempo di convergenza si allunga con l'aumentare del tasso di dati mancanti, ma alla fine converge in tutti i casi

Analisi dei Dati ICU

Relazioni Cliniche Scoperte

  1. Cicli di Autoregolazione: Forti connessioni interne tra parametri di pressione (MAP, Sys, Dias) e variabili respiratorie (FiO2, PaCO2, PaO2, pH)
  2. Interazioni Neurologiche: La riduzione del livello di coscienza porta a un aumento della frequenza cardiaca (CCU: GCS → HR)
  3. Effetti Emodinamici: La pressione sanguigna influenza fortemente il livello di coscienza (pazienti medici: Dias, MAP → GCS)
  4. Dinamica della Termoregolazione: I cambiamenti di temperatura durante il recupero chirurgico influenzano la produzione di urina (Temp → Urine)
  5. Feedback Cardiopolmonare: Bassi livelli di ossigeno innescano un aumento compensatorio della frequenza cardiaca (FiO2 → HR)

Effetti della Normalizzazione

  • Normalizzazione Locale: Scoperta di più relazioni specifiche dell'ICU
  • Normalizzazione Globale: La rete mostra più comunanze, ma alcune relazioni mancano di supporto clinico

Lavori Correlati

Dati Mancanti in Reti Bayesiane Statiche

  • Algoritmo SEM: Variante Hard EM efficace con dati limitati, ma tende a rimanere intrappolata in ottimi locali
  • Metodi MCMC: Metodi di campionamento recenti riescono a evitare minimi locali, ottenendo ricostruzioni più accurate

Reti Bayesiane Dinamiche

  • Metodi Esistenti: Principalmente utilizzano metodi model-agnostic come MICE per gestire i dati mancanti
  • Contributo di questo Articolo: Prima estensione dei metodi di campionamento al trattamento dei dati mancanti in DBN

Applicazioni Cliniche

  • Previsione del Fallimento d'Organo: DBN utilizzate per prevedere le traiettorie di fallimento d'organo
  • Previsione di Cambiamenti Fisiologici: Previsione di cambiamenti fisiologici e rischio di morte
  • Supporto Decisionale: Fornire supporto decisionale interpretabile

Conclusioni e Discussione

Conclusioni Principali

  1. Efficacia del Metodo: LUME-DBN supera i metodi esistenti sia nella ricostruzione della struttura che nell'imputazione dei valori mancanti
  2. Rilevanza Clinica: Le relazioni temporali scoperte hanno significato clinico, supportando decisioni cliniche più sicure
  3. Quantificazione dell'Incertezza: Il framework completamente bayesiano fornisce una codifica esplicita dell'incertezza nel modello, nei parametri e nei valori mancanti

Limitazioni

  1. Complessità Computazionale: Il campionamento MCMC ha costi computazionali elevati, richiedendo ottimizzazione parallela
  2. Assunzione di Dati Mancanti Casualmente: Il metodo attuale gestisce solo dati mancanti casualmente; i pattern di dati mancanti non casuali nei dati clinici richiedono ulteriori ricerche
  3. Limitazione della Dimensione del Campione: In caso di piccoli campioni, alcune relazioni potrebbero non essere sufficientemente stabili
  4. Conoscenza A Priori: È necessaria una migliore integrazione della conoscenza clinica a priori per guidare l'inferenza del modello

Direzioni Future

  1. Trattamento MNAR: Integrazione di metodi di grafici mancanti per gestire pattern di dati mancanti non casuali
  2. DBN Non Omogenee: Estensione a DBN non omogenee globalmente accoppiate per catturare relazioni non stazionarie
  3. Variabili Miste: Gestione di tipi di variabili miste continue e discrete
  4. Applicazioni in Tempo Reale: Sviluppo di sistemi di supporto decisionale clinico in tempo reale

Valutazione Approfondita

Punti di Forza

  1. Rigore Teorico: Derivazione completa di soluzioni in forma chiusa per le FCD dei valori mancanti, con fondamenti teorici solidi
  2. Innovazione Metodologica: Prima applicazione del metodo completamente bayesiano all'apprendimento di DBN da dati mancanti
  3. Completezza Sperimentale: Validazione su dati simulati e reali, coprendo diversi tassi di dati mancanti e dimensioni di campioni
  4. Rilevanza Clinica: Le relazioni scoperte hanno significato clinico, verificando il valore pratico del metodo
  5. Riproducibilità: Descrizione algoritmica completa e codice open source forniti

Carenze

  1. Efficienza Computazionale: Mancanza di analisi dettagliata dei tempi di calcolo e strategie di ottimizzazione
  2. Confronto Frequentista: Mancanza di confronto con metodi classici frequentisti di apprendimento di DBN
  3. Analisi di Sensibilità: Analisi insufficiente della sensibilità alla scelta degli iperparametri
  4. Scalabilità: Prestazioni su reti di dimensioni maggiori sconosciute

Impatto

  1. Contributo Accademico: Fornisce un nuovo framework teorico per il trattamento dei dati mancanti in DBN
  2. Valore Pratico: Prospettive di applicazione importanti in settori critici come l'assistenza sanitaria
  3. Generalità del Metodo: Estendibile ad altri campi che richiedono il trattamento di dati mancanti in serie temporali

Scenari di Applicabilità

  1. Assistenza Sanitaria: Monitoraggio ICU, gestione malattie croniche, analisi studi clinici
  2. Finanza: Modellazione del rischio di serie temporali, previsione di mercato
  3. Industria: Monitoraggio della salute dei dispositivi, controllo della qualità
  4. Ambiente: Modellazione climatica, monitoraggio dell'inquinamento

Bibliografia

L'articolo cita 42 lavori correlati, coprendo importanti contributi in più campi inclusi l'apprendimento di reti bayesiane, il trattamento dei dati mancanti e l'informatica medica, fornendo una base teorica solida per la ricerca.


Valutazione Complessiva: Questo è un articolo di alta qualità con importanti innovazioni metodologiche, che non solo rappresenta un avanzamento teorico ma dimostra anche valore nelle applicazioni pratiche. Sebbene vi sia spazio per miglioramenti in termini di efficienza computazionale e confronti metodologici, i contributi sono sufficienti per promuovere lo sviluppo del campo.