Dynamic Bayesian networks (DBNs) are increasingly used in healthcare due to their ability to model complex temporal relationships in patient data while maintaining interpretability, an essential feature for clinical decision-making. However, existing approaches to handling missing data in longitudinal clinical datasets are largely derived from static Bayesian networks literature, failing to properly account for the temporal nature of the data. This gap limits the ability to quantify uncertainty over time, which is particularly critical in settings such as intensive care, where understanding the temporal dynamics is fundamental for model trustworthiness and applicability across diverse patient groups. Despite the potential of DBNs, a full Bayesian framework that integrates missing data handling remains underdeveloped. In this work, we propose a novel Gibbs sampling-based method for learning DBNs from incomplete data. Our method treats each missing value as an unknown parameter following a Gaussian distribution. At each iteration, the unobserved values are sampled from their full conditional distributions, allowing for principled imputation and uncertainty estimation. We evaluate our method on both simulated datasets and real-world intensive care data from critically ill patients. Compared to standard model-agnostic techniques such as MICE, our Bayesian approach demonstrates superior reconstruction accuracy and convergence properties. These results highlight the clinical relevance of incorporating full Bayesian inference in temporal models, providing more reliable imputations and offering deeper insight into model behavior. Our approach supports safer and more informed clinical decision-making, particularly in settings where missing data are frequent and potentially impactful.
- ID de l'article : 2511.04333
- Titre : LUME-DBN: Full Bayesian Learning of DBNs from Incomplete data in Intensive Care
- Auteurs : Federico Pirola (Université de Milano-Bicocca), Fabio Stella (Université de Milano-Bicocca), Marco Grzegorczyk (Université de Groningen)
- Classification : cs.LG (Apprentissage Automatique), cs.AI (Intelligence Artificielle)
- Date de publication : 6 novembre 2025 (prépublication arXiv)
- Lien de l'article : https://arxiv.org/abs/2511.04333
Les réseaux bayésiens dynamiques (RBD) sont de plus en plus utilisés dans le domaine de la santé, car ils permettent de modéliser les relations temporelles complexes dans les données des patients tout en conservant l'interprétabilité — une caractéristique essentielle pour la prise de décision clinique. Cependant, les méthodes existantes pour traiter les valeurs manquantes dans les ensembles de données cliniques longitudinales proviennent principalement de la littérature sur les réseaux bayésiens statiques et ne tiennent pas adéquatement compte de la nature temporelle des données. Cette lacune limite la capacité à quantifier l'incertitude temporelle, ce qui est particulièrement critique dans des contextes tels que les soins intensifs, où la compréhension de la dynamique temporelle est essentielle pour la fiabilité du modèle et son applicabilité à différentes populations de patients. Cet article propose une nouvelle méthode basée sur l'échantillonnage de Gibbs pour apprendre les RBD à partir de données incomplètes, en traitant chaque valeur manquante comme un paramètre inconnu suivant une distribution gaussienne, réalisant une imputation justifiée et une estimation de l'incertitude par échantillonnage à partir des distributions conditionnelles complètes.
Le problème central que cette recherche vise à résoudre est comment apprendre efficacement les réseaux bayésiens dynamiques en présence d'une grande quantité de données manquantes, en particulier dans les applications en environnement de soins intensifs.
- Urgence clinique : En unité de soins intensifs, l'évaluation rapide et précise de l'évolution de l'état du patient est cruciale pour guider les interventions
- Défis de qualité des données : Les données d'USI sont souvent entachées de valeurs manquantes, d'échantillonnage irrégulier et de biais de mesure
- Quantification de l'incertitude : Les méthodes traditionnelles ne tiennent pas suffisamment compte de l'incertitude introduite par les données manquantes, ce qui peut entraîner des biais dans l'estimation des paramètres
- Points aveugles temporels des méthodes statiques : Les méthodes existantes de traitement des données manquantes proviennent principalement des réseaux bayésiens statiques et ne considèrent pas la nature temporelle
- Insuffisances des méthodes fréquentistes : Les méthodes d'imputation traditionnelles ou fréquentistes peuvent ne pas tenir suffisamment compte de l'incertitude introduite par les données manquantes
- Problème d'optima locaux : Des algorithmes tels que l'algorithme d'espérance-maximisation structurelle (SEM) peuvent converger vers des optima locaux
Développer un cadre entièrement bayésien capable de gérer simultanément l'incertitude concernant la structure du réseau, les paramètres et les valeurs manquantes, fournissant un soutien plus fiable pour la prise de décision clinique.
- Contribution théorique : Dérivation de solutions en forme fermée pour les distributions conditionnelles complètes (DCC) des valeurs manquantes dans les RBD, démontrant leur traitabilité
- Innovation méthodologique : Proposition de l'algorithme LUME-DBN, combinant l'échantillonnage de Gibbs pour l'imputation des données manquantes et l'apprentissage de structure MCMC
- Vérification expérimentale : Validation de l'efficacité de la méthode sur des données simulées et des données réelles d'USI, montrant une précision de reconstruction supérieure par rapport à des méthodes telles que MICE
- Application clinique : Démonstration de la méthode sur l'ensemble de données PhysioNet 2012, révélant des relations temporelles significatives découvertes dans différents types d'USI
Entrée : Données de séries temporelles multivariées contenant des valeurs manquantes D∈RN×k×(T+1), où N est le nombre d'échantillons, k est le nombre de variables et T+1 est le nombre de points temporels
Sortie : Échantillons de la distribution postérieure de la structure du RBD, des paramètres et des valeurs manquantes
Contraintes : Hypothèse de propriété markovienne du premier ordre et absence d'effets instantanés
Le RBD est modélisé comme k modèles indépendants de régression linéaire bayésienne (RLB) :
xit=β0(i)+∑j:(Xjt−1∈π(i))βj(i)xjt−1+ϵit
où π(i) représente l'ensemble des nœuds parents de la variable Xi, et ϵit∼N(0,σ(i)2).
- Coefficients de régression : β(i)∼N(μ(i),σ(i)2δ(i)2I)
- Paramètres de bruit : σ(i)2∼Inv-Gamma(a,b)
- Paramètres d'incertitude : δ(i)2∼Inv-Gamma(αδ,βδ)
- Taille de l'ensemble des nœuds parents : ∣π(i)∣∼Poisson(λ)
Pour la valeur manquante xit[MIS] de la variable Xi au moment t, sa DCC est :
P(xit[MIS]∣⋅)=N(μ∗,σ∗2)
où :
σ∗2=(σ(i)21+∑j:(Xit∈π(j))σ(j)2(βi(j))2)−1
μ∗=σ∗2⋅(σ(i)2μit+∑j:(Xit∈π(j))σ(j)2βi(j)(xjt+1−μ{−i}(j)(t+1)))
- Stratégie d'imputation unifiée : Conception d'étapes de Gibbs mettant à jour conjointement les valeurs manquantes sur tous les modèles de régression
- Dérivation en forme fermée : Démonstration de la traitabilité de la DCC des valeurs manquantes, permettant une inférence MCMC efficace
- Invariance temporelle : La structure de la DCC est invariante par rapport aux paramètres du RBD, améliorant l'efficacité computationnelle
- Échappement aux optima locaux : L'échantillonnage MCMC permet d'échapper aux minima locaux et d'obtenir une reconstruction de réseau plus précise
- Structure : 10 structures RBD indépendantes de 10 nœuds chacune, avec au maximum 5 nœuds parents par nœud
- Longueur temporelle : T∈{50,100,200}
- Taux de données manquantes : {10%,20%,30%,40%}
- Paramètres : Coefficients de régression échantillonnés à partir de Uniform[0.2,0.8], variance du bruit σ2=1
- Source de données : Ensemble de données PhysioNet 2012 Challenge
- Nombre de patients : Plus de 20 000 patients adultes en USI
- Fenêtre temporelle : 48 premières heures d'hospitalisation en USI
- Nombre de variables : 11 variables cliniques (signes vitaux, indices sanguins, caractéristiques physiologiques)
- Groupes d'USI : MICU (34 cas), SICU (104 cas), CCU (114 cas), CSRU (62 cas)
- Reconstruction de structure : Aire sous la courbe précision-rappel (AUC-PR)
- Diagnostic de convergence : Facteur de réduction d'échelle potentiel (PSRF < 1.1)
- Significativité statistique : Test t apparié
- MICE : Imputation multiple par équations en chaînes
- MICE Temporelle : Variante temporelle de MICE utilisant des variables décalées
- Données complètes : Référence de limite supérieure de performance
- Nombre d'itérations d'échantillonnage : 20 000 itérations, 5 000 premières itérations comme période de rodage
- Fréquence de mise à jour des valeurs manquantes : Mise à jour tous les 10 itérations (EM=10)
- Raréfaction de la chaîne : Conservation d'1 échantillon sur 5 pour réduire l'autocorrélation
- Paramètres a priori : λ=1, σ(i)2=δ(i)2=1
LUME-DBN surpasse significativement les méthodes de base dans tous les paramètres expérimentaux :
- Performance de MICE : Défaillance complète lorsque le taux de données manquantes dépasse 20%, reflétant son inefficacité sur les données temporelles
- MICE Temporelle : Performance supérieure à MICE mais significativement inférieure à LUME-DBN
- Avantages de LUME-DBN : Performance particulièrement remarquable avec des taux élevés de données manquantes, avec une perte de performance mineure par rapport aux données complètes dans les cas de grands échantillons
- Convergence de structure : Convergence en moins de 1,5k itérations pour tous les taux de données manquantes
- Convergence des valeurs manquantes : Nécessite 5k itérations pour un taux de 40% de données manquantes
- Stabilité de convergence : Le temps de convergence augmente avec le taux de données manquantes, mais converge finalement dans tous les cas
- Boucles d'autorégulation : Connexions fortes au sein des paramètres de pression (MAP, Sys, Dias) et des variables respiratoires (FiO2, PaCO2, PaO2, pH)
- Interactions neurologiques : La diminution du niveau de conscience entraîne une augmentation de la fréquence cardiaque (CCU : GCS → HR)
- Effets hémodynamiques : La pression artérielle affecte fortement le niveau de conscience (patients médicaux : Dias, MAP → GCS)
- Dynamique de régulation thermique : Les variations de température corporelle affectent le débit urinaire pendant la récupération chirurgicale (Temp → Urine)
- Rétroaction cardiopulmonaire : Les niveaux d'hypoxie déclenchent une augmentation compensatoire de la fréquence cardiaque (FiO2 → HR)
- Normalisation locale : Révèle davantage de relations spécifiques à l'USI
- Normalisation globale : Le réseau affiche davantage de caractéristiques communes, mais certaines relations manquent de support clinique
- Algorithme SEM : Les variantes Hard EM sont efficaces avec des données limitées, mais peuvent converger vers des optima locaux
- Méthodes MCMC : Les méthodes d'échantillonnage récentes peuvent échapper aux minima locaux et obtenir une reconstruction plus précise
- Méthodes existantes : Utilisent principalement des méthodes indépendantes du modèle telles que MICE pour traiter les données manquantes
- Contribution de cet article : Première extension des méthodes d'échantillonnage au traitement des données manquantes dans les RBD
- Prédiction de défaillance d'organe : Utilisation des RBD pour prédire les trajectoires de défaillance d'organe
- Prédiction de changements physiologiques : Prédiction des changements physiologiques et du risque de décès
- Soutien à la décision : Fourniture d'un soutien à la décision interprétable
- Efficacité de la méthode : LUME-DBN surpasse les méthodes existantes à la fois en reconstruction de structure et en imputation de valeurs manquantes
- Pertinence clinique : Les relations temporelles découvertes ont une signification clinique et soutiennent une prise de décision clinique plus sûre
- Quantification de l'incertitude : Le cadre entièrement bayésien fournit un codage explicite de l'incertitude concernant le modèle, les paramètres et les valeurs manquantes
- Complexité computationnelle : L'échantillonnage MCMC a un coût computationnel élevé, nécessitant une optimisation par parallélisation
- Hypothèse de données manquantes aléatoires : La méthode actuelle ne traite que les données manquantes aléatoires ; les modèles de données manquantes non aléatoires dans les données cliniques nécessitent une recherche supplémentaire
- Limitation de la taille d'échantillon : Certaines relations peuvent ne pas être suffisamment stables avec de petits échantillons
- Connaissance a priori : Nécessité d'une meilleure intégration des connaissances cliniques a priori pour guider l'inférence du modèle
- Traitement MNAR : Intégration de méthodes de graphiques de données manquantes pour traiter les modèles de données manquantes non aléatoires
- RBD non homogènes : Extension aux RBD non homogènes couplés globalement pour capturer les relations non stationnaires
- Variables mixtes : Traitement des types de variables mixtes continus et discrets
- Applications en temps réel : Développement de systèmes de soutien à la décision clinique en temps réel
- Rigueur théorique : Dérivation complète de solutions en forme fermée pour la DCC des valeurs manquantes, fondation théorique solide
- Innovativité méthodologique : Première application de méthodes entièrement bayésiennes à l'apprentissage des RBD à partir de données manquantes
- Suffisance expérimentale : Validation sur données simulées et réelles, couvrant différents taux de données manquantes et tailles d'échantillon
- Pertinence clinique : Les relations découvertes ont une signification clinique, validant la valeur pratique de la méthode
- Reproductibilité : Fourniture de descriptions complètes d'algorithmes et de code open source
- Efficacité computationnelle : Absence d'analyse détaillée du temps de calcul et de stratégies d'optimisation
- Comparaison fréquentiste : Manque de comparaison avec les méthodes classiques fréquentistes d'apprentissage des RBD
- Analyse de sensibilité aux paramètres : Analyse insuffisante de la sensibilité aux choix d'hyperparamètres
- Extensibilité : Performance inconnue sur des réseaux de plus grande taille
- Contribution académique : Fournit un nouveau cadre théorique pour le traitement des données manquantes dans les RBD
- Valeur pratique : Perspectives d'application importantes dans des domaines critiques tels que la santé
- Généralité de la méthode : Extensible à d'autres domaines nécessitant le traitement de données de séries temporelles manquantes
- Santé : Surveillance en USI, gestion des maladies chroniques, analyse d'essais cliniques
- Finance : Modélisation du risque de séries temporelles, prévision de marché
- Industrie : Surveillance de la santé des équipements, contrôle de qualité
- Environnement : Modélisation climatique, surveillance de la pollution
L'article cite 42 références connexes, couvrant plusieurs domaines tels que l'apprentissage des réseaux bayésiens, le traitement des données manquantes et l'informatique médicale, fournissant une base théorique solide pour la recherche.
Évaluation Globale : Il s'agit d'un article de haute qualité présentant une innovation méthodologique importante, qui non seulement apporte une percée théorique mais démontre également sa valeur dans les applications pratiques. Bien qu'il y ait encore de la place pour l'amélioration en termes d'efficacité computationnelle et de comparaisons méthodologiques, ses contributions sont suffisantes pour faire progresser le domaine.