2025-11-11T11:34:09.241880

LUME-DBN: Full Bayesian Learning of DBNs from Incomplete data in Intensive Care

Pirola, Stella, Grzegorczyk

Dynamic Bayesian networks (DBNs) are increasingly used in healthcare due to their ability to model complex temporal relationships in patient data while maintaining interpretability, an essential feature for clinical decision-making. However, existing approaches to handling missing data in longitudinal clinical datasets are largely derived from static Bayesian networks literature, failing to properly account for the temporal nature of the data. This gap limits the ability to quantify uncertainty over time, which is particularly critical in settings such as intensive care, where understanding the temporal dynamics is fundamental for model trustworthiness and applicability across diverse patient groups. Despite the potential of DBNs, a full Bayesian framework that integrates missing data handling remains underdeveloped. In this work, we propose a novel Gibbs sampling-based method for learning DBNs from incomplete data. Our method treats each missing value as an unknown parameter following a Gaussian distribution. At each iteration, the unobserved values are sampled from their full conditional distributions, allowing for principled imputation and uncertainty estimation. We evaluate our method on both simulated datasets and real-world intensive care data from critically ill patients. Compared to standard model-agnostic techniques such as MICE, our Bayesian approach demonstrates superior reconstruction accuracy and convergence properties. These results highlight the clinical relevance of incorporating full Bayesian inference in temporal models, providing more reliable imputations and offering deeper insight into model behavior. Our approach supports safer and more informed clinical decision-making, particularly in settings where missing data are frequent and potentially impactful.

academic

LUME-DBN : Apprentissage Bayésien Complet des RBD à partir de Données Incomplètes en Soins Intensifs

Informations Fondamentales

ID de l'article : 2511.04333
Titre : LUME-DBN: Full Bayesian Learning of DBNs from Incomplete data in Intensive Care
Auteurs : Federico Pirola (Université de Milano-Bicocca), Fabio Stella (Université de Milano-Bicocca), Marco Grzegorczyk (Université de Groningen)
Classification : cs.LG (Apprentissage Automatique), cs.AI (Intelligence Artificielle)
Date de publication : 6 novembre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2511.04333

Résumé

Les réseaux bayésiens dynamiques (RBD) sont de plus en plus utilisés dans le domaine de la santé, car ils permettent de modéliser les relations temporelles complexes dans les données des patients tout en conservant l'interprétabilité — une caractéristique essentielle pour la prise de décision clinique. Cependant, les méthodes existantes pour traiter les valeurs manquantes dans les ensembles de données cliniques longitudinales proviennent principalement de la littérature sur les réseaux bayésiens statiques et ne tiennent pas adéquatement compte de la nature temporelle des données. Cette lacune limite la capacité à quantifier l'incertitude temporelle, ce qui est particulièrement critique dans des contextes tels que les soins intensifs, où la compréhension de la dynamique temporelle est essentielle pour la fiabilité du modèle et son applicabilité à différentes populations de patients. Cet article propose une nouvelle méthode basée sur l'échantillonnage de Gibbs pour apprendre les RBD à partir de données incomplètes, en traitant chaque valeur manquante comme un paramètre inconnu suivant une distribution gaussienne, réalisant une imputation justifiée et une estimation de l'incertitude par échantillonnage à partir des distributions conditionnelles complètes.

Contexte et Motivation de la Recherche

Problème Central

Le problème central que cette recherche vise à résoudre est comment apprendre efficacement les réseaux bayésiens dynamiques en présence d'une grande quantité de données manquantes, en particulier dans les applications en environnement de soins intensifs.

Importance du Problème

Urgence clinique : En unité de soins intensifs, l'évaluation rapide et précise de l'évolution de l'état du patient est cruciale pour guider les interventions
Défis de qualité des données : Les données d'USI sont souvent entachées de valeurs manquantes, d'échantillonnage irrégulier et de biais de mesure
Quantification de l'incertitude : Les méthodes traditionnelles ne tiennent pas suffisamment compte de l'incertitude introduite par les données manquantes, ce qui peut entraîner des biais dans l'estimation des paramètres

Limitations des Méthodes Existantes

Points aveugles temporels des méthodes statiques : Les méthodes existantes de traitement des données manquantes proviennent principalement des réseaux bayésiens statiques et ne considèrent pas la nature temporelle
Insuffisances des méthodes fréquentistes : Les méthodes d'imputation traditionnelles ou fréquentistes peuvent ne pas tenir suffisamment compte de l'incertitude introduite par les données manquantes
Problème d'optima locaux : Des algorithmes tels que l'algorithme d'espérance-maximisation structurelle (SEM) peuvent converger vers des optima locaux

Motivation de la Recherche

Développer un cadre entièrement bayésien capable de gérer simultanément l'incertitude concernant la structure du réseau, les paramètres et les valeurs manquantes, fournissant un soutien plus fiable pour la prise de décision clinique.

Contributions Principales

Contribution théorique : Dérivation de solutions en forme fermée pour les distributions conditionnelles complètes (DCC) des valeurs manquantes dans les RBD, démontrant leur traitabilité
Innovation méthodologique : Proposition de l'algorithme LUME-DBN, combinant l'échantillonnage de Gibbs pour l'imputation des données manquantes et l'apprentissage de structure MCMC
Vérification expérimentale : Validation de l'efficacité de la méthode sur des données simulées et des données réelles d'USI, montrant une précision de reconstruction supérieure par rapport à des méthodes telles que MICE
Application clinique : Démonstration de la méthode sur l'ensemble de données PhysioNet 2012, révélant des relations temporelles significatives découvertes dans différents types d'USI

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : Données de séries temporelles multivariées contenant des valeurs manquantes $D \in \mathbb{R}^{N \times k \times (T+1)}$ , où $N$ est le nombre d'échantillons, $k$ est le nombre de variables et $T+1$ est le nombre de points temporels

Sortie : Échantillons de la distribution postérieure de la structure du RBD, des paramètres et des valeurs manquantes

Contraintes : Hypothèse de propriété markovienne du premier ordre et absence d'effets instantanés

Architecture du Modèle

Cadre Fondamental du RBD

Le RBD est modélisé comme $k$ modèles indépendants de régression linéaire bayésienne (RLB) :

$x_i^t = \beta_0^{(i)} + \sum_{j:(X_j^{t-1} \in \pi(i))} \beta_j^{(i)} x_j^{t-1} + \epsilon_i^t$

où $\pi(i)$ représente l'ensemble des nœuds parents de la variable $X_i$ , et $\epsilon_i^t \sim N(0, \sigma^2_{(i)})$ .

Spécification des Distributions a Priori

Coefficients de régression : $\beta^{(i)} \sim N(\mu^{(i)}, \sigma^2_{(i)}\delta^2_{(i)}I)$
Paramètres de bruit : $\sigma^2_{(i)} \sim \text{Inv-Gamma}(a, b)$
Paramètres d'incertitude : $\delta^2_{(i)} \sim \text{Inv-Gamma}(\alpha_\delta, \beta_\delta)$
Taille de l'ensemble des nœuds parents : $|\pi(i)| \sim \text{Poisson}(\lambda)$

Distribution Conditionnelle Complète des Valeurs Manquantes

Pour la valeur manquante $x_i^t[MIS]$ de la variable $X_i$ au moment $t$ , sa DCC est :

$P(x_i^t[MIS] | \cdot) = N(\mu_*, \sigma^2_*)$

où : $\sigma^2_* = \left(\frac{1}{\sigma^2_{(i)}} + \sum_{j:(X_i^t \in \pi(j))} \frac{(\beta_i^{(j)})^2}{\sigma^2_{(j)}}\right)^{-1}$

$\mu_* = \sigma^2_* \cdot \left(\frac{\mu_i^t}{\sigma^2_{(i)}} + \sum_{j:(X_i^t \in \pi(j))} \frac{\beta_i^{(j)}(x_j^{t+1} - \mu_{{\{-i\}}}^{(j)(t+1)})}{\sigma^2_{(j)}}\right)$

Points d'Innovation Technique

Stratégie d'imputation unifiée : Conception d'étapes de Gibbs mettant à jour conjointement les valeurs manquantes sur tous les modèles de régression
Dérivation en forme fermée : Démonstration de la traitabilité de la DCC des valeurs manquantes, permettant une inférence MCMC efficace
Invariance temporelle : La structure de la DCC est invariante par rapport aux paramètres du RBD, améliorant l'efficacité computationnelle
Échappement aux optima locaux : L'échantillonnage MCMC permet d'échapper aux minima locaux et d'obtenir une reconstruction de réseau plus précise

Configuration Expérimentale

Ensembles de Données

Données Simulées

Structure : 10 structures RBD indépendantes de 10 nœuds chacune, avec au maximum 5 nœuds parents par nœud
Longueur temporelle : $T \in \{50, 100, 200\}$
Taux de données manquantes : $\{10\%, 20\%, 30\%, 40\%\}$
Paramètres : Coefficients de régression échantillonnés à partir de $\text{Uniform}[0.2, 0.8]$ , variance du bruit $\sigma^2 = 1$

Données Réelles

Source de données : Ensemble de données PhysioNet 2012 Challenge
Nombre de patients : Plus de 20 000 patients adultes en USI
Fenêtre temporelle : 48 premières heures d'hospitalisation en USI
Nombre de variables : 11 variables cliniques (signes vitaux, indices sanguins, caractéristiques physiologiques)
Groupes d'USI : MICU (34 cas), SICU (104 cas), CCU (114 cas), CSRU (62 cas)

Métriques d'Évaluation

Reconstruction de structure : Aire sous la courbe précision-rappel (AUC-PR)
Diagnostic de convergence : Facteur de réduction d'échelle potentiel (PSRF < 1.1)
Significativité statistique : Test t apparié

Méthodes de Comparaison

MICE : Imputation multiple par équations en chaînes
MICE Temporelle : Variante temporelle de MICE utilisant des variables décalées
Données complètes : Référence de limite supérieure de performance

Détails d'Implémentation

Nombre d'itérations d'échantillonnage : 20 000 itérations, 5 000 premières itérations comme période de rodage
Fréquence de mise à jour des valeurs manquantes : Mise à jour tous les 10 itérations ( $E_M = 10$ )
Raréfaction de la chaîne : Conservation d'1 échantillon sur 5 pour réduire l'autocorrélation
Paramètres a priori : $\lambda = 1$ , $\sigma^2_{(i)} = \delta^2_{(i)} = 1$

Résultats Expérimentaux

Résultats Principaux

Résultats sur Données Simulées

LUME-DBN surpasse significativement les méthodes de base dans tous les paramètres expérimentaux :

Performance de MICE : Défaillance complète lorsque le taux de données manquantes dépasse 20%, reflétant son inefficacité sur les données temporelles
MICE Temporelle : Performance supérieure à MICE mais significativement inférieure à LUME-DBN
Avantages de LUME-DBN : Performance particulièrement remarquable avec des taux élevés de données manquantes, avec une perte de performance mineure par rapport aux données complètes dans les cas de grands échantillons

Analyse de Convergence

Convergence de structure : Convergence en moins de 1,5k itérations pour tous les taux de données manquantes
Convergence des valeurs manquantes : Nécessite 5k itérations pour un taux de 40% de données manquantes
Stabilité de convergence : Le temps de convergence augmente avec le taux de données manquantes, mais converge finalement dans tous les cas

Analyse des Données d'USI

Relations Cliniques Découvertes

Boucles d'autorégulation : Connexions fortes au sein des paramètres de pression (MAP, Sys, Dias) et des variables respiratoires (FiO2, PaCO2, PaO2, pH)
Interactions neurologiques : La diminution du niveau de conscience entraîne une augmentation de la fréquence cardiaque (CCU : GCS → HR)
Effets hémodynamiques : La pression artérielle affecte fortement le niveau de conscience (patients médicaux : Dias, MAP → GCS)
Dynamique de régulation thermique : Les variations de température corporelle affectent le débit urinaire pendant la récupération chirurgicale (Temp → Urine)
Rétroaction cardiopulmonaire : Les niveaux d'hypoxie déclenchent une augmentation compensatoire de la fréquence cardiaque (FiO2 → HR)

Impacts Normalisés

Normalisation locale : Révèle davantage de relations spécifiques à l'USI
Normalisation globale : Le réseau affiche davantage de caractéristiques communes, mais certaines relations manquent de support clinique

Travaux Connexes

Données Manquantes dans les Réseaux Bayésiens Statiques

Algorithme SEM : Les variantes Hard EM sont efficaces avec des données limitées, mais peuvent converger vers des optima locaux
Méthodes MCMC : Les méthodes d'échantillonnage récentes peuvent échapper aux minima locaux et obtenir une reconstruction plus précise

Réseaux Bayésiens Dynamiques

Méthodes existantes : Utilisent principalement des méthodes indépendantes du modèle telles que MICE pour traiter les données manquantes
Contribution de cet article : Première extension des méthodes d'échantillonnage au traitement des données manquantes dans les RBD

Applications Cliniques

Prédiction de défaillance d'organe : Utilisation des RBD pour prédire les trajectoires de défaillance d'organe
Prédiction de changements physiologiques : Prédiction des changements physiologiques et du risque de décès
Soutien à la décision : Fourniture d'un soutien à la décision interprétable

Conclusions et Discussion

Conclusions Principales

Efficacité de la méthode : LUME-DBN surpasse les méthodes existantes à la fois en reconstruction de structure et en imputation de valeurs manquantes
Pertinence clinique : Les relations temporelles découvertes ont une signification clinique et soutiennent une prise de décision clinique plus sûre
Quantification de l'incertitude : Le cadre entièrement bayésien fournit un codage explicite de l'incertitude concernant le modèle, les paramètres et les valeurs manquantes

Limitations

Complexité computationnelle : L'échantillonnage MCMC a un coût computationnel élevé, nécessitant une optimisation par parallélisation
Hypothèse de données manquantes aléatoires : La méthode actuelle ne traite que les données manquantes aléatoires ; les modèles de données manquantes non aléatoires dans les données cliniques nécessitent une recherche supplémentaire
Limitation de la taille d'échantillon : Certaines relations peuvent ne pas être suffisamment stables avec de petits échantillons
Connaissance a priori : Nécessité d'une meilleure intégration des connaissances cliniques a priori pour guider l'inférence du modèle

Directions Futures

Traitement MNAR : Intégration de méthodes de graphiques de données manquantes pour traiter les modèles de données manquantes non aléatoires
RBD non homogènes : Extension aux RBD non homogènes couplés globalement pour capturer les relations non stationnaires
Variables mixtes : Traitement des types de variables mixtes continus et discrets
Applications en temps réel : Développement de systèmes de soutien à la décision clinique en temps réel

Évaluation Approfondie

Points Forts

Rigueur théorique : Dérivation complète de solutions en forme fermée pour la DCC des valeurs manquantes, fondation théorique solide
Innovativité méthodologique : Première application de méthodes entièrement bayésiennes à l'apprentissage des RBD à partir de données manquantes
Suffisance expérimentale : Validation sur données simulées et réelles, couvrant différents taux de données manquantes et tailles d'échantillon
Pertinence clinique : Les relations découvertes ont une signification clinique, validant la valeur pratique de la méthode
Reproductibilité : Fourniture de descriptions complètes d'algorithmes et de code open source

Insuffisances

Efficacité computationnelle : Absence d'analyse détaillée du temps de calcul et de stratégies d'optimisation
Comparaison fréquentiste : Manque de comparaison avec les méthodes classiques fréquentistes d'apprentissage des RBD
Analyse de sensibilité aux paramètres : Analyse insuffisante de la sensibilité aux choix d'hyperparamètres
Extensibilité : Performance inconnue sur des réseaux de plus grande taille

Impact

Contribution académique : Fournit un nouveau cadre théorique pour le traitement des données manquantes dans les RBD
Valeur pratique : Perspectives d'application importantes dans des domaines critiques tels que la santé
Généralité de la méthode : Extensible à d'autres domaines nécessitant le traitement de données de séries temporelles manquantes

Scénarios d'Application

Santé : Surveillance en USI, gestion des maladies chroniques, analyse d'essais cliniques
Finance : Modélisation du risque de séries temporelles, prévision de marché
Industrie : Surveillance de la santé des équipements, contrôle de qualité
Environnement : Modélisation climatique, surveillance de la pollution

Références

L'article cite 42 références connexes, couvrant plusieurs domaines tels que l'apprentissage des réseaux bayésiens, le traitement des données manquantes et l'informatique médicale, fournissant une base théorique solide pour la recherche.

Évaluation Globale : Il s'agit d'un article de haute qualité présentant une innovation méthodologique importante, qui non seulement apporte une percée théorique mais démontre également sa valeur dans les applications pratiques. Bien qu'il y ait encore de la place pour l'amélioration en termes d'efficacité computationnelle et de comparaisons méthodologiques, ses contributions sont suffisantes pour faire progresser le domaine.