2025-11-11T11:34:09.241880

LUME-DBN: Full Bayesian Learning of DBNs from Incomplete data in Intensive Care

Pirola, Stella, Grzegorczyk
Dynamic Bayesian networks (DBNs) are increasingly used in healthcare due to their ability to model complex temporal relationships in patient data while maintaining interpretability, an essential feature for clinical decision-making. However, existing approaches to handling missing data in longitudinal clinical datasets are largely derived from static Bayesian networks literature, failing to properly account for the temporal nature of the data. This gap limits the ability to quantify uncertainty over time, which is particularly critical in settings such as intensive care, where understanding the temporal dynamics is fundamental for model trustworthiness and applicability across diverse patient groups. Despite the potential of DBNs, a full Bayesian framework that integrates missing data handling remains underdeveloped. In this work, we propose a novel Gibbs sampling-based method for learning DBNs from incomplete data. Our method treats each missing value as an unknown parameter following a Gaussian distribution. At each iteration, the unobserved values are sampled from their full conditional distributions, allowing for principled imputation and uncertainty estimation. We evaluate our method on both simulated datasets and real-world intensive care data from critically ill patients. Compared to standard model-agnostic techniques such as MICE, our Bayesian approach demonstrates superior reconstruction accuracy and convergence properties. These results highlight the clinical relevance of incorporating full Bayesian inference in temporal models, providing more reliable imputations and offering deeper insight into model behavior. Our approach supports safer and more informed clinical decision-making, particularly in settings where missing data are frequent and potentially impactful.
academic

LUME-DBN : Apprentissage Bayésien Complet des RBD à partir de Données Incomplètes en Soins Intensifs

Informations Fondamentales

  • ID de l'article : 2511.04333
  • Titre : LUME-DBN: Full Bayesian Learning of DBNs from Incomplete data in Intensive Care
  • Auteurs : Federico Pirola (Université de Milano-Bicocca), Fabio Stella (Université de Milano-Bicocca), Marco Grzegorczyk (Université de Groningen)
  • Classification : cs.LG (Apprentissage Automatique), cs.AI (Intelligence Artificielle)
  • Date de publication : 6 novembre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2511.04333

Résumé

Les réseaux bayésiens dynamiques (RBD) sont de plus en plus utilisés dans le domaine de la santé, car ils permettent de modéliser les relations temporelles complexes dans les données des patients tout en conservant l'interprétabilité — une caractéristique essentielle pour la prise de décision clinique. Cependant, les méthodes existantes pour traiter les valeurs manquantes dans les ensembles de données cliniques longitudinales proviennent principalement de la littérature sur les réseaux bayésiens statiques et ne tiennent pas adéquatement compte de la nature temporelle des données. Cette lacune limite la capacité à quantifier l'incertitude temporelle, ce qui est particulièrement critique dans des contextes tels que les soins intensifs, où la compréhension de la dynamique temporelle est essentielle pour la fiabilité du modèle et son applicabilité à différentes populations de patients. Cet article propose une nouvelle méthode basée sur l'échantillonnage de Gibbs pour apprendre les RBD à partir de données incomplètes, en traitant chaque valeur manquante comme un paramètre inconnu suivant une distribution gaussienne, réalisant une imputation justifiée et une estimation de l'incertitude par échantillonnage à partir des distributions conditionnelles complètes.

Contexte et Motivation de la Recherche

Problème Central

Le problème central que cette recherche vise à résoudre est comment apprendre efficacement les réseaux bayésiens dynamiques en présence d'une grande quantité de données manquantes, en particulier dans les applications en environnement de soins intensifs.

Importance du Problème

  1. Urgence clinique : En unité de soins intensifs, l'évaluation rapide et précise de l'évolution de l'état du patient est cruciale pour guider les interventions
  2. Défis de qualité des données : Les données d'USI sont souvent entachées de valeurs manquantes, d'échantillonnage irrégulier et de biais de mesure
  3. Quantification de l'incertitude : Les méthodes traditionnelles ne tiennent pas suffisamment compte de l'incertitude introduite par les données manquantes, ce qui peut entraîner des biais dans l'estimation des paramètres

Limitations des Méthodes Existantes

  1. Points aveugles temporels des méthodes statiques : Les méthodes existantes de traitement des données manquantes proviennent principalement des réseaux bayésiens statiques et ne considèrent pas la nature temporelle
  2. Insuffisances des méthodes fréquentistes : Les méthodes d'imputation traditionnelles ou fréquentistes peuvent ne pas tenir suffisamment compte de l'incertitude introduite par les données manquantes
  3. Problème d'optima locaux : Des algorithmes tels que l'algorithme d'espérance-maximisation structurelle (SEM) peuvent converger vers des optima locaux

Motivation de la Recherche

Développer un cadre entièrement bayésien capable de gérer simultanément l'incertitude concernant la structure du réseau, les paramètres et les valeurs manquantes, fournissant un soutien plus fiable pour la prise de décision clinique.

Contributions Principales

  1. Contribution théorique : Dérivation de solutions en forme fermée pour les distributions conditionnelles complètes (DCC) des valeurs manquantes dans les RBD, démontrant leur traitabilité
  2. Innovation méthodologique : Proposition de l'algorithme LUME-DBN, combinant l'échantillonnage de Gibbs pour l'imputation des données manquantes et l'apprentissage de structure MCMC
  3. Vérification expérimentale : Validation de l'efficacité de la méthode sur des données simulées et des données réelles d'USI, montrant une précision de reconstruction supérieure par rapport à des méthodes telles que MICE
  4. Application clinique : Démonstration de la méthode sur l'ensemble de données PhysioNet 2012, révélant des relations temporelles significatives découvertes dans différents types d'USI

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : Données de séries temporelles multivariées contenant des valeurs manquantes DRN×k×(T+1)D \in \mathbb{R}^{N \times k \times (T+1)}, où NN est le nombre d'échantillons, kk est le nombre de variables et T+1T+1 est le nombre de points temporels

Sortie : Échantillons de la distribution postérieure de la structure du RBD, des paramètres et des valeurs manquantes

Contraintes : Hypothèse de propriété markovienne du premier ordre et absence d'effets instantanés

Architecture du Modèle

Cadre Fondamental du RBD

Le RBD est modélisé comme kk modèles indépendants de régression linéaire bayésienne (RLB) :

xit=β0(i)+j:(Xjt1π(i))βj(i)xjt1+ϵitx_i^t = \beta_0^{(i)} + \sum_{j:(X_j^{t-1} \in \pi(i))} \beta_j^{(i)} x_j^{t-1} + \epsilon_i^t

π(i)\pi(i) représente l'ensemble des nœuds parents de la variable XiX_i, et ϵitN(0,σ(i)2)\epsilon_i^t \sim N(0, \sigma^2_{(i)}).

Spécification des Distributions a Priori

  • Coefficients de régression : β(i)N(μ(i),σ(i)2δ(i)2I)\beta^{(i)} \sim N(\mu^{(i)}, \sigma^2_{(i)}\delta^2_{(i)}I)
  • Paramètres de bruit : σ(i)2Inv-Gamma(a,b)\sigma^2_{(i)} \sim \text{Inv-Gamma}(a, b)
  • Paramètres d'incertitude : δ(i)2Inv-Gamma(αδ,βδ)\delta^2_{(i)} \sim \text{Inv-Gamma}(\alpha_\delta, \beta_\delta)
  • Taille de l'ensemble des nœuds parents : π(i)Poisson(λ)|\pi(i)| \sim \text{Poisson}(\lambda)

Distribution Conditionnelle Complète des Valeurs Manquantes

Pour la valeur manquante xit[MIS]x_i^t[MIS] de la variable XiX_i au moment tt, sa DCC est :

P(xit[MIS])=N(μ,σ2)P(x_i^t[MIS] | \cdot) = N(\mu_*, \sigma^2_*)

où : σ2=(1σ(i)2+j:(Xitπ(j))(βi(j))2σ(j)2)1\sigma^2_* = \left(\frac{1}{\sigma^2_{(i)}} + \sum_{j:(X_i^t \in \pi(j))} \frac{(\beta_i^{(j)})^2}{\sigma^2_{(j)}}\right)^{-1}

μ=σ2(μitσ(i)2+j:(Xitπ(j))βi(j)(xjt+1μ{i}(j)(t+1))σ(j)2)\mu_* = \sigma^2_* \cdot \left(\frac{\mu_i^t}{\sigma^2_{(i)}} + \sum_{j:(X_i^t \in \pi(j))} \frac{\beta_i^{(j)}(x_j^{t+1} - \mu_{{\{-i\}}}^{(j)(t+1)})}{\sigma^2_{(j)}}\right)

Points d'Innovation Technique

  1. Stratégie d'imputation unifiée : Conception d'étapes de Gibbs mettant à jour conjointement les valeurs manquantes sur tous les modèles de régression
  2. Dérivation en forme fermée : Démonstration de la traitabilité de la DCC des valeurs manquantes, permettant une inférence MCMC efficace
  3. Invariance temporelle : La structure de la DCC est invariante par rapport aux paramètres du RBD, améliorant l'efficacité computationnelle
  4. Échappement aux optima locaux : L'échantillonnage MCMC permet d'échapper aux minima locaux et d'obtenir une reconstruction de réseau plus précise

Configuration Expérimentale

Ensembles de Données

Données Simulées

  • Structure : 10 structures RBD indépendantes de 10 nœuds chacune, avec au maximum 5 nœuds parents par nœud
  • Longueur temporelle : T{50,100,200}T \in \{50, 100, 200\}
  • Taux de données manquantes : {10%,20%,30%,40%}\{10\%, 20\%, 30\%, 40\%\}
  • Paramètres : Coefficients de régression échantillonnés à partir de Uniform[0.2,0.8]\text{Uniform}[0.2, 0.8], variance du bruit σ2=1\sigma^2 = 1

Données Réelles

  • Source de données : Ensemble de données PhysioNet 2012 Challenge
  • Nombre de patients : Plus de 20 000 patients adultes en USI
  • Fenêtre temporelle : 48 premières heures d'hospitalisation en USI
  • Nombre de variables : 11 variables cliniques (signes vitaux, indices sanguins, caractéristiques physiologiques)
  • Groupes d'USI : MICU (34 cas), SICU (104 cas), CCU (114 cas), CSRU (62 cas)

Métriques d'Évaluation

  • Reconstruction de structure : Aire sous la courbe précision-rappel (AUC-PR)
  • Diagnostic de convergence : Facteur de réduction d'échelle potentiel (PSRF < 1.1)
  • Significativité statistique : Test t apparié

Méthodes de Comparaison

  • MICE : Imputation multiple par équations en chaînes
  • MICE Temporelle : Variante temporelle de MICE utilisant des variables décalées
  • Données complètes : Référence de limite supérieure de performance

Détails d'Implémentation

  • Nombre d'itérations d'échantillonnage : 20 000 itérations, 5 000 premières itérations comme période de rodage
  • Fréquence de mise à jour des valeurs manquantes : Mise à jour tous les 10 itérations (EM=10E_M = 10)
  • Raréfaction de la chaîne : Conservation d'1 échantillon sur 5 pour réduire l'autocorrélation
  • Paramètres a priori : λ=1\lambda = 1, σ(i)2=δ(i)2=1\sigma^2_{(i)} = \delta^2_{(i)} = 1

Résultats Expérimentaux

Résultats Principaux

Résultats sur Données Simulées

LUME-DBN surpasse significativement les méthodes de base dans tous les paramètres expérimentaux :

  1. Performance de MICE : Défaillance complète lorsque le taux de données manquantes dépasse 20%, reflétant son inefficacité sur les données temporelles
  2. MICE Temporelle : Performance supérieure à MICE mais significativement inférieure à LUME-DBN
  3. Avantages de LUME-DBN : Performance particulièrement remarquable avec des taux élevés de données manquantes, avec une perte de performance mineure par rapport aux données complètes dans les cas de grands échantillons

Analyse de Convergence

  • Convergence de structure : Convergence en moins de 1,5k itérations pour tous les taux de données manquantes
  • Convergence des valeurs manquantes : Nécessite 5k itérations pour un taux de 40% de données manquantes
  • Stabilité de convergence : Le temps de convergence augmente avec le taux de données manquantes, mais converge finalement dans tous les cas

Analyse des Données d'USI

Relations Cliniques Découvertes

  1. Boucles d'autorégulation : Connexions fortes au sein des paramètres de pression (MAP, Sys, Dias) et des variables respiratoires (FiO2, PaCO2, PaO2, pH)
  2. Interactions neurologiques : La diminution du niveau de conscience entraîne une augmentation de la fréquence cardiaque (CCU : GCS → HR)
  3. Effets hémodynamiques : La pression artérielle affecte fortement le niveau de conscience (patients médicaux : Dias, MAP → GCS)
  4. Dynamique de régulation thermique : Les variations de température corporelle affectent le débit urinaire pendant la récupération chirurgicale (Temp → Urine)
  5. Rétroaction cardiopulmonaire : Les niveaux d'hypoxie déclenchent une augmentation compensatoire de la fréquence cardiaque (FiO2 → HR)

Impacts Normalisés

  • Normalisation locale : Révèle davantage de relations spécifiques à l'USI
  • Normalisation globale : Le réseau affiche davantage de caractéristiques communes, mais certaines relations manquent de support clinique

Travaux Connexes

Données Manquantes dans les Réseaux Bayésiens Statiques

  • Algorithme SEM : Les variantes Hard EM sont efficaces avec des données limitées, mais peuvent converger vers des optima locaux
  • Méthodes MCMC : Les méthodes d'échantillonnage récentes peuvent échapper aux minima locaux et obtenir une reconstruction plus précise

Réseaux Bayésiens Dynamiques

  • Méthodes existantes : Utilisent principalement des méthodes indépendantes du modèle telles que MICE pour traiter les données manquantes
  • Contribution de cet article : Première extension des méthodes d'échantillonnage au traitement des données manquantes dans les RBD

Applications Cliniques

  • Prédiction de défaillance d'organe : Utilisation des RBD pour prédire les trajectoires de défaillance d'organe
  • Prédiction de changements physiologiques : Prédiction des changements physiologiques et du risque de décès
  • Soutien à la décision : Fourniture d'un soutien à la décision interprétable

Conclusions et Discussion

Conclusions Principales

  1. Efficacité de la méthode : LUME-DBN surpasse les méthodes existantes à la fois en reconstruction de structure et en imputation de valeurs manquantes
  2. Pertinence clinique : Les relations temporelles découvertes ont une signification clinique et soutiennent une prise de décision clinique plus sûre
  3. Quantification de l'incertitude : Le cadre entièrement bayésien fournit un codage explicite de l'incertitude concernant le modèle, les paramètres et les valeurs manquantes

Limitations

  1. Complexité computationnelle : L'échantillonnage MCMC a un coût computationnel élevé, nécessitant une optimisation par parallélisation
  2. Hypothèse de données manquantes aléatoires : La méthode actuelle ne traite que les données manquantes aléatoires ; les modèles de données manquantes non aléatoires dans les données cliniques nécessitent une recherche supplémentaire
  3. Limitation de la taille d'échantillon : Certaines relations peuvent ne pas être suffisamment stables avec de petits échantillons
  4. Connaissance a priori : Nécessité d'une meilleure intégration des connaissances cliniques a priori pour guider l'inférence du modèle

Directions Futures

  1. Traitement MNAR : Intégration de méthodes de graphiques de données manquantes pour traiter les modèles de données manquantes non aléatoires
  2. RBD non homogènes : Extension aux RBD non homogènes couplés globalement pour capturer les relations non stationnaires
  3. Variables mixtes : Traitement des types de variables mixtes continus et discrets
  4. Applications en temps réel : Développement de systèmes de soutien à la décision clinique en temps réel

Évaluation Approfondie

Points Forts

  1. Rigueur théorique : Dérivation complète de solutions en forme fermée pour la DCC des valeurs manquantes, fondation théorique solide
  2. Innovativité méthodologique : Première application de méthodes entièrement bayésiennes à l'apprentissage des RBD à partir de données manquantes
  3. Suffisance expérimentale : Validation sur données simulées et réelles, couvrant différents taux de données manquantes et tailles d'échantillon
  4. Pertinence clinique : Les relations découvertes ont une signification clinique, validant la valeur pratique de la méthode
  5. Reproductibilité : Fourniture de descriptions complètes d'algorithmes et de code open source

Insuffisances

  1. Efficacité computationnelle : Absence d'analyse détaillée du temps de calcul et de stratégies d'optimisation
  2. Comparaison fréquentiste : Manque de comparaison avec les méthodes classiques fréquentistes d'apprentissage des RBD
  3. Analyse de sensibilité aux paramètres : Analyse insuffisante de la sensibilité aux choix d'hyperparamètres
  4. Extensibilité : Performance inconnue sur des réseaux de plus grande taille

Impact

  1. Contribution académique : Fournit un nouveau cadre théorique pour le traitement des données manquantes dans les RBD
  2. Valeur pratique : Perspectives d'application importantes dans des domaines critiques tels que la santé
  3. Généralité de la méthode : Extensible à d'autres domaines nécessitant le traitement de données de séries temporelles manquantes

Scénarios d'Application

  1. Santé : Surveillance en USI, gestion des maladies chroniques, analyse d'essais cliniques
  2. Finance : Modélisation du risque de séries temporelles, prévision de marché
  3. Industrie : Surveillance de la santé des équipements, contrôle de qualité
  4. Environnement : Modélisation climatique, surveillance de la pollution

Références

L'article cite 42 références connexes, couvrant plusieurs domaines tels que l'apprentissage des réseaux bayésiens, le traitement des données manquantes et l'informatique médicale, fournissant une base théorique solide pour la recherche.


Évaluation Globale : Il s'agit d'un article de haute qualité présentant une innovation méthodologique importante, qui non seulement apporte une percée théorique mais démontre également sa valeur dans les applications pratiques. Bien qu'il y ait encore de la place pour l'amélioration en termes d'efficacité computationnelle et de comparaisons méthodologiques, ses contributions sont suffisantes pour faire progresser le domaine.