Dynamic Bayesian networks (DBNs) are increasingly used in healthcare due to their ability to model complex temporal relationships in patient data while maintaining interpretability, an essential feature for clinical decision-making. However, existing approaches to handling missing data in longitudinal clinical datasets are largely derived from static Bayesian networks literature, failing to properly account for the temporal nature of the data. This gap limits the ability to quantify uncertainty over time, which is particularly critical in settings such as intensive care, where understanding the temporal dynamics is fundamental for model trustworthiness and applicability across diverse patient groups. Despite the potential of DBNs, a full Bayesian framework that integrates missing data handling remains underdeveloped. In this work, we propose a novel Gibbs sampling-based method for learning DBNs from incomplete data. Our method treats each missing value as an unknown parameter following a Gaussian distribution. At each iteration, the unobserved values are sampled from their full conditional distributions, allowing for principled imputation and uncertainty estimation. We evaluate our method on both simulated datasets and real-world intensive care data from critically ill patients. Compared to standard model-agnostic techniques such as MICE, our Bayesian approach demonstrates superior reconstruction accuracy and convergence properties. These results highlight the clinical relevance of incorporating full Bayesian inference in temporal models, providing more reliable imputations and offering deeper insight into model behavior. Our approach supports safer and more informed clinical decision-making, particularly in settings where missing data are frequent and potentially impactful.
- 论文ID: 2511.04333
- 标题: LUME-DBN: Full Bayesian Learning of DBNs from Incomplete data in Intensive Care
- 作者: Federico Pirola (University of Milano-Bicocca), Fabio Stella (University of Milano-Bicocca), Marco Grzegorczyk (University of Groningen)
- 分类: cs.LG (Machine Learning), cs.AI (Artificial Intelligence)
- 发表时间: 2025年11月6日 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/2511.04333
动态贝叶斯网络(DBNs)在医疗保健领域应用日益广泛,因其能够建模患者数据中复杂的时间关系,同时保持可解释性——这是临床决策的重要特征。然而,现有处理纵向临床数据集缺失值的方法主要来源于静态贝叶斯网络文献,未能恰当考虑数据的时间性质。这一差距限制了对时间不确定性的量化能力,在重症监护等场景中尤为关键,理解时间动态对模型可信度和跨不同患者群体的适用性至关重要。本文提出了一种基于Gibbs采样的新方法来从不完整数据中学习DBNs,将每个缺失值视为遵循高斯分布的未知参数,通过全条件分布采样实现有原则的插补和不确定性估计。
本研究要解决的核心问题是如何在存在大量缺失数据的情况下,有效学习动态贝叶斯网络,特别是在重症监护环境中的应用。
- 临床紧迫性: 在ICU中,及时准确评估患者病情演变对指导干预措施至关重要
- 数据质量挑战: ICU数据经常受到缺失值、不规则采样和测量偏差的困扰
- 不确定性量化: 传统方法无法充分考虑缺失性引入的不确定性,可能导致参数估计偏差
- 静态方法的时间盲区: 现有缺失数据处理方法主要源于静态贝叶斯网络,未考虑时间性质
- 频率派方法的不足: 传统插补或频率派方法可能无法充分考虑缺失性引入的不确定性
- 局部最优问题: 结构期望最大化(SEM)算法等方法容易收敛到局部最优解
开发一个完全贝叶斯框架,能够同时处理网络结构、参数和缺失值的不确定性,为临床决策提供更可靠的支持。
- 理论贡献: 推导了DBN中缺失值的全条件分布(FCDs)的闭式解,证明了其可处理性
- 方法创新: 提出LUME-DBN算法,结合Gibbs采样进行缺失数据插补与MCMC结构学习
- 实验验证: 在模拟数据和真实ICU数据上验证了方法的有效性,相比MICE等方法显示出优越的重构准确性
- 临床应用: 在PhysioNet 2012数据集上展示了方法在不同ICU类型中发现的有意义的时间关系
输入: 包含缺失值的多变量时间序列数据 D∈RN×k×(T+1),其中N为样本数,k为变量数,T+1为时间点数
输出: DBN结构、参数和缺失值的后验分布样本
约束: 假设一阶马尔可夫性质和无瞬时效应
DBN被建模为k个独立的贝叶斯线性回归(BLR)模型:
xit=β0(i)+∑j:(Xjt−1∈π(i))βj(i)xjt−1+ϵit
其中π(i)表示变量Xi的父节点集合,ϵit∼N(0,σ(i)2)。
- 回归系数:β(i)∼N(μ(i),σ(i)2δ(i)2I)
- 噪声参数:σ(i)2∼Inv-Gamma(a,b)
- 不确定性参数:δ(i)2∼Inv-Gamma(αδ,βδ)
- 父节点集合大小:∣π(i)∣∼Poisson(λ)
对于时刻t变量Xi的缺失值xit[MIS],其FCD为:
P(xit[MIS]∣⋅)=N(μ∗,σ∗2)
其中:
σ∗2=(σ(i)21+∑j:(Xit∈π(j))σ(j)2(βi(j))2)−1
μ∗=σ∗2⋅(σ(i)2μit+∑j:(Xit∈π(j))σ(j)2βi(j)(xjt+1−μ{−i}(j)(t+1)))
- 统一插补策略: 设计了跨所有回归模型联合更新缺失值的Gibbs步骤
- 闭式解推导: 证明了缺失值FCD的可处理性,使得高效MCMC推断成为可能
- 时间不变性: FCD结构相对于DBN参数具有时间不变性,提高计算效率
- 逃逸局部最优: 通过MCMC采样能够逃逸局部最小值,获得更准确的网络重构
- 结构: 10个独立的10节点DBN结构,每个节点最多5个父节点
- 时间长度: T∈{50,100,200}
- 缺失率: {10%,20%,30%,40%}
- 参数设定: 回归系数从Uniform[0.2,0.8]采样,噪声方差σ2=1
- 数据源: PhysioNet 2012 Challenge数据集
- 患者数量: 20,000+成人ICU患者
- 时间窗口: ICU住院前48小时
- 变量数量: 11个临床变量(生命体征、血液指标、生理特征)
- ICU分组: MICU(34例)、SICU(104例)、CCU(114例)、CSRU(62例)
- 结构重构: 精确率-召回率曲线下面积(AUC-PR)
- 收敛诊断: 潜在尺度缩减因子(PSRF < 1.1)
- 统计显著性: 配对t检验
- MICE: 多重插补链式方程
- Temporal MICE: 使用滞后预测变量的时间MICE变体
- 完整数据: 作为性能上界参考
- 采样轮数: 20,000轮,前5,000轮作为burn-in
- 缺失值更新频率: 每10轮更新一次(EM=10)
- 链稀疏化: 每5个样本保留1个以减少自相关
- 先验参数: λ=1, σ(i)2=δ(i)2=1
在所有实验设置下,LUME-DBN均显著优于baseline方法:
- MICE表现: 在缺失率超过20%时完全失效,反映其在时间数据上的低效性
- Temporal MICE: 表现优于MICE但仍显著劣于LUME-DBN
- LUME-DBN优势: 特别在高缺失率下表现突出,在大样本情况下相比完整数据性能损失较小
- 结构收敛: 在所有缺失率下1.5k轮内收敛
- 缺失值收敛: 40%缺失率下需要5k轮收敛
- 收敛稳定性: 随缺失率增加收敛时间延长,但最终都能收敛
- 自调节环路: 压力参数(MAP, Sys, Dias)和呼吸相关变量(FiO2, PaCO2, PaO2, pH)内部强连接
- 神经相互作用: 意识水平降低导致心率增加(CCU中GCS → HR)
- 血流动力学效应: 血压强烈影响意识水平(医疗患者中Dias,MAP → GCS)
- 体温调节动态: 手术恢复中体温变化影响尿量(Temp → Urine)
- 心肺反馈: 低氧水平触发代偿性心率增加(FiO2 → HR)
- 局部标准化: 发现更多ICU特异性关系
- 全局标准化: 网络显示更多共性,但某些关系缺乏临床证据支持
- SEM算法: Hard EM变体在有限数据下有效,但容易陷入局部最优
- MCMC方法: 近期采样方法能够逃逸局部最小值,获得更准确重构
- 现有方法: 主要使用MICE等模型无关方法处理缺失数据
- 本文贡献: 首次将采样方法扩展到DBN的缺失数据处理
- 器官衰竭预测: DBN用于预测器官衰竭轨迹
- 生理变化预测: 预测生理变化和死亡风险
- 决策支持: 提供可解释的决策支持
- 方法有效性: LUME-DBN在结构重构和缺失值插补方面均优于现有方法
- 临床相关性: 发现的时间关系具有临床意义,支持更安全的临床决策
- 不确定性量化: 全贝叶斯框架提供了对模型、参数和缺失值的显式不确定性编码
- 计算复杂性: MCMC采样计算成本较高,需要并行化优化
- 随机缺失假设: 当前方法仅处理随机缺失,临床数据中的非随机缺失模式需要进一步研究
- 样本量限制: 小样本情况下某些关系可能不够稳定
- 先验知识: 需要更好地整合临床先验知识指导模型推断
- MNAR处理: 集成缺失图方法处理非随机缺失模式
- 非齐次DBN: 扩展到全局耦合非齐次DBN以捕获非平稳关系
- 混合变量: 处理连续和离散混合变量类型
- 实时应用: 开发实时临床决策支持系统
- 理论严谨性: 完整推导了缺失值FCD的闭式解,理论基础扎实
- 方法创新性: 首次将完全贝叶斯方法应用于DBN缺失数据学习
- 实验充分性: 包含模拟和真实数据验证,涵盖不同缺失率和样本量
- 临床相关性: 发现的关系具有临床意义,验证了方法的实用价值
- 可重现性: 提供完整的算法描述和开源代码
- 计算效率: 未提供详细的计算时间分析和优化策略
- 频率派对比: 缺乏与经典频率派DBN学习方法的对比
- 参数敏感性: 对超参数选择的敏感性分析不足
- 扩展性: 在更大规模网络上的性能未知
- 学术贡献: 为DBN缺失数据处理提供了新的理论框架
- 实用价值: 在医疗保健等关键领域具有重要应用前景
- 方法通用性: 可扩展到其他需要处理时间序列缺失数据的领域
- 医疗保健: ICU监护、慢病管理、临床试验分析
- 金融: 时间序列风险建模、市场预测
- 工业: 设备健康监测、质量控制
- 环境: 气候建模、污染监测
论文引用了42篇相关文献,涵盖了贝叶斯网络学习、缺失数据处理、医疗信息学等多个领域的重要工作,为研究提供了坚实的理论基础。
总体评价: 这是一篇在方法论上具有重要创新的高质量论文,不仅在理论上有所突破,更在实际应用中展现了价值。虽然在计算效率和方法对比方面还有改进空间,但其贡献足以推动该领域的发展。