2025-11-15T01:58:11.277924

Accounting for Missing Data in Public Health Research Using a Synthesis of Statistical and Mathematical Models

Zivich, Shook-Sa, Cole et al.
Introduction: Accounting for missing data by imputing or weighting conditional on covariates relies on the variable with missingness being observed at least some of the time for all unique covariate values. This requirement is referred to as positivity and positivity violations can result in bias. Here, we review a novel approach to addressing positivity violations in the context of systolic blood pressure. Methods: To illustrate the proposed approach, we estimate the mean systolic blood pressure among children and adolescents aged 2-17 years old in the United States using data from the 2017-2018 National Health and Nutrition Examination Survey (NHANES). As blood pressure was not measured for those aged 2-7, there exists a positivity violation by design. Using a recently proposed synthesis of statistical and mathematical models, we integrate external information with NHANES to address our motivating question. Results: With the synthesis model, the estimated mean systolic blood pressure was 100.5 (95% confidence interval: 99.9, 101.0), which is notably lower than either a complete-case analysis or extrapolation from a statistical model. The synthesis results were supported by a diagnostic comparing the performance of the mathematical model in the positive region. Discussion: Positivity violations pose a threat to quantitative medical research, and standard approaches to addressing nonpositivity rely on restrictive untestable assumptions. Using a synthesis model, like the one detailed here, offers a viable alternative.
academic

Accounting for Missing Data in Public Health Research Using a Synthesis of Statistical and Mathematical Models

基本信息

  • 论文ID: 2503.02789
  • 标题: Accounting for Missing Data in Public Health Research Using a Synthesis of Statistical and Mathematical Models
  • 作者: Paul N Zivich, Bonnie E Shook-Sa, Stephen R Cole, Eric T Lofgren, Jessie K Edwards
  • 分类: stat.AP (应用统计), stat.ME (统计方法)
  • 发表时间: October 16, 2025
  • 论文链接: https://arxiv.org/abs/2503.02789

摘要

本研究针对公共卫生研究中缺失数据处理的正向性违反问题,提出了一种结合统计模型和数学模型的综合方法。研究以估计美国2-17岁儿童青少年收缩压均值为例,使用2017-2018年国家健康与营养检查调查(NHANES)数据。由于NHANES设计中未对2-7岁儿童测量血压,存在设计性的正向性违反。通过整合外部信息与NHANES数据,综合模型估计的平均收缩压为100.5 mmHg (95% CI: 99.9, 101.0),显著低于完整病例分析或统计模型外推的结果。

研究背景与动机

核心问题识别

  1. 正向性假设的重要性: 在缺失数据处理中,通过协变量进行插补或加权依赖于正向性假设,即对于所有唯一协变量值,缺失变量至少在某些时候被观测到
  2. 正向性违反的普遍性: 当某些协变量组合完全缺失目标变量的观测值时,会导致正向性违反,进而产生偏倚
  3. 现有方法的局限性: 传统处理非正向性的方法要么修改研究问题,要么依赖于限制性的、不可检验的建模假设

研究意义

  • 理论意义: 提供了处理正向性违反的新理论框架,避免了传统方法的限制性假设
  • 实践价值: 为公共卫生和临床研究中的缺失数据问题提供了可行的解决方案
  • 方法创新: 首次系统性地将统计模型与数学模型结合处理非正向性问题

核心贡献

  1. 提出了综合模型框架: 将数据分为正向性满足区域和违反区域,分别使用统计模型和数学模型处理
  2. 开发了重采样算法: 提供了考虑两种模型不确定性的方差估计方法
  3. 构建了模型诊断程序: 通过比较正向性区域内统计模型和数学模型的表现来验证方法有效性
  4. 提供了完整的实现方案: 包括R和Python代码,增强了方法的可复现性和实用性

方法详解

任务定义

估计参数 μ=E[Y]\mu = E[Y],其中 YY 为收缩压,但在某些协变量值 XX 下完全缺失,违反正向性假设 Pr(R=1X=x)>0Pr(R = 1 | X = x) > 0

模型架构

1. 数据分割策略

将数据分为两个区域:

  • 正向性区域 (X=1X^* = 1): 年龄8-17岁,存在收缩压观测值
  • 非正向性区域 (X=0X^* = 0): 年龄2-7岁,完全缺失收缩压观测值

参数可重写为: E[Y]=E[YX=1]Pr(X=1)+E[YX=0]Pr(X=0)E[Y] = E[Y | X^* = 1]Pr(X^* = 1) + E[Y | X^* = 0]Pr(X^* = 0)

2. 统计模型(正向性区域)

在正向性区域使用饱和模型: E[YX,R=1,X=1;β]=β8I(X=8)+β9I(X=9)++β17I(X=17)E[Y | X, R = 1, X^* = 1; \beta] = \beta_8 I(X = 8) + \beta_9 I(X = 9) + \cdots + \beta_{17} I(X = 17)

采用g-computation方法:

  • 基于完整数据拟合回归模型
  • 对所有观测值预测收缩压
  • 计算样本加权平均值

3. 数学模型(非正向性区域)

基于外部发表的美国儿童青少年收缩压分布信息:

  • 使用年龄、性别、身高百分位特异性分布
  • 假设正态分布,均值等于中位数
  • 标准差由第90百分位数近似

技术创新点

  1. 避免外推假设: 与传统线性外推不同,不需要假设8-17岁的关系延伸到2-7岁
  2. 灵活的模型选择: 正向性区域可使用非参数方法,非正向性区域整合外部信息
  3. 不确定性量化: 重采样算法同时考虑统计模型参数估计和数学模型分布的不确定性

实验设置

数据集

  • 主要数据: 2017-2018年NHANES,n=2572名2-17岁儿童青少年
  • 外部信息: Flynn等人发表的美国儿童青少年收缩压分布数据
  • 缺失模式: 2-7岁儿童收缩压完全缺失(设计性缺失),8-17岁中8%缺失

变量定义

  • 结果变量: 收缩压(mmHg),取最多3次测量的平均值
  • 协变量: 年龄(年)、身高(厘米)、体重(公斤)、性别
  • 采样权重: 应用NHANES采样权重进行美国人群推断

对比方法

  1. 完整病例分析: 仅使用有收缩压测量的观测值
  2. 线性外推: 基于8-17岁数据拟合线性模型,外推至2-7岁
  3. 敏感性分析: 对2-7岁平均收缩压设定70-120 mmHg范围进行边界分析

实现细节

  • 重采样次数: 10,000次
  • 置信区间: 使用2.5%和97.5%分位数构建95%置信区间
  • 点估计: 使用中位数作为点估计值

实验结果

主要结果

方法平均收缩压 (mmHg)95% 置信区间
完整病例分析104.7(104.1, 105.3)
线性外推101.6(100.8, 102.4)
综合模型100.5(99.9, 101.0)
边界分析92.7-109.9(91.9, 110.5)

关键发现

  1. 综合模型结果最低: 比线性外推低1.1 mmHg,差异为外推方法标准误的2.9倍
  2. 方法间差异有统计学意义: 综合模型与其他方法的差异超出了估计的不确定性范围
  3. 边界分析支持结果: 综合模型估计值落在合理的边界范围内

模型验证

通过比较正向性区域内统计模型和数学模型的表现:

  • 两种模型预测的收缩压分布有合理重叠
  • 年龄特异性均值差异接近零,但15-17岁统计模型结果略低于数学模型
  • 整体支持数学模型在正向性区域的有效性

扩展分析结果

在附录中考虑更多协变量(性别、身高、体重)的结果:

  • 综合模型结果保持稳定:100.5 (99.9, 101.0)
  • 外推方法结果向综合模型靠近:100.8 (97.7, 103.8)
  • 增强逆概率加权估计器结果类似

相关工作

传统缺失数据方法

  1. 插补方法: 多重插补、最大似然估计
  2. 加权方法: 逆概率加权
  3. 双稳健方法: 增强逆概率加权估计器

非正向性处理方法

  1. 问题修改: 限制研究人群至正向性满足区域
  2. 参数外推: 使用限制性建模假设进行外推
  3. 边界分析: 提供敏感性分析范围

本文贡献的独特性

  • 首次系统性结合统计和数学模型
  • 避免修改研究问题或强参数假设
  • 提供了实用的不确定性量化方法

结论与讨论

主要结论

  1. 综合模型有效性: 成功估计了包含非正向性区域的总体参数
  2. 方法优势: 避免了传统方法的限制性假设,提供了更合理的估计
  3. 实用价值: 为处理设计性缺失或系统性缺失提供了可行方案

局限性

  1. 方差估计: 未考虑NHANES的聚类抽样设计,可能低估不确定性
  2. 数学模型复杂性: 当前使用相对简单的模型,复杂情况可能需要中间过程建模
  3. 外部信息依赖: 方法有效性依赖于外部信息的准确性和适用性
  4. 多变量非正向性: 当多个变量同时存在非正向性时的应用需要进一步研究

未来方向

  1. 复杂数学模型: 开发处理药物浓度、生理反应等复杂过程的模型
  2. 方差估计改进: 扩展重采样算法以考虑聚类等复杂抽样设计
  3. 多维非正向性: 研究多个变量同时存在非正向性的情况
  4. 诊断方法完善: 开发更全面的模型有效性诊断程序

深度评价

优点

  1. 方法创新性强: 首次系统性地将统计和数学模型结合处理非正向性
  2. 理论基础扎实: 基于因果推断和缺失数据理论的坚实基础
  3. 实用性突出: 提供完整的实现代码和详细的算法描述
  4. 验证充分: 通过多种对比方法和诊断程序验证方法有效性

不足

  1. 外部信息要求: 方法成功依赖于高质量外部信息的可获得性
  2. 计算复杂性: 重采样程序增加了计算负担
  3. 适用范围限制: 主要适用于有可靠外部信息的情况
  4. 理论保证: 缺乏关于方法渐近性质的理论分析

影响力评估

  1. 学术贡献: 为统计学和流行病学领域提供了重要的方法学贡献
  2. 实践价值: 对公共卫生研究中常见的设计性缺失问题具有直接应用价值
  3. 可复现性: 提供的代码和详细描述确保了方法的可复现性
  4. 推广潜力: 方法框架可推广至其他存在非正向性的研究领域

适用场景

  1. 设计性缺失: 如年龄限制、伦理考虑导致的系统性缺失
  2. 外部信息丰富: 存在可靠的外部研究或先验知识
  3. 参数估计: 主要适用于总体参数估计而非个体预测
  4. 公共卫生研究: 特别适合大规模流行病学调查中的缺失数据问题

参考文献

论文引用了相关领域的重要文献,包括:

  • Cole等人关于流行病学研究中缺失结果数据的综述
  • Westreich和Cole关于正向性实践的评论
  • Petersen等人关于正向性假设违反的诊断和应对
  • Flynn等人关于儿童青少年血压筛查和管理的临床实践指南