Introduction: Accounting for missing data by imputing or weighting conditional on covariates relies on the variable with missingness being observed at least some of the time for all unique covariate values. This requirement is referred to as positivity and positivity violations can result in bias. Here, we review a novel approach to addressing positivity violations in the context of systolic blood pressure. Methods: To illustrate the proposed approach, we estimate the mean systolic blood pressure among children and adolescents aged 2-17 years old in the United States using data from the 2017-2018 National Health and Nutrition Examination Survey (NHANES). As blood pressure was not measured for those aged 2-7, there exists a positivity violation by design. Using a recently proposed synthesis of statistical and mathematical models, we integrate external information with NHANES to address our motivating question. Results: With the synthesis model, the estimated mean systolic blood pressure was 100.5 (95% confidence interval: 99.9, 101.0), which is notably lower than either a complete-case analysis or extrapolation from a statistical model. The synthesis results were supported by a diagnostic comparing the performance of the mathematical model in the positive region. Discussion: Positivity violations pose a threat to quantitative medical research, and standard approaches to addressing nonpositivity rely on restrictive untestable assumptions. Using a synthesis model, like the one detailed here, offers a viable alternative.
- 論文ID: 2503.02789
- タイトル: Accounting for Missing Data in Public Health Research Using a Synthesis of Statistical and Mathematical Models
- 著者: Paul N Zivich, Bonnie E Shook-Sa, Stephen R Cole, Eric T Lofgren, Jessie K Edwards
- 分類: stat.AP(応用統計)、stat.ME(統計方法論)
- 発表日: 2025年10月16日
- 論文リンク: https://arxiv.org/abs/2503.02789
本研究は、公衆衛生研究における欠損データ処理の正向性違反問題に対して、統計モデルと数学モデルを統合した方法を提案している。本研究は、米国2~17歳児童・青少年の収縮期血圧平均値の推定を例として、2017~2018年国民健康栄養調査(NHANES)データを使用している。NHANES設計では2~7歳児童の血圧測定がなされていないため、設計上の正向性違反が存在する。外部情報とNHANESデータを統合することで、統合モデルで推定された平均収縮期血圧は100.5 mmHg(95% CI: 99.9, 101.0)であり、完全症例分析または統計モデルの外挿結果よりも有意に低かった。
- 正向性仮説の重要性: 欠損データ処理において、共変量による補完または重み付けは正向性仮説に依存している。すなわち、すべての一意な共変量値に対して、欠損変数が少なくとも時折観測されることが必要である
- 正向性違反の普遍性: 特定の共変量の組み合わせで目的変数の観測値が完全に欠損する場合、正向性違反が生じ、その結果バイアスが発生する
- 既存方法の限界: 非正向性に対処する従来の方法は、研究問題を修正するか、制限的で検証不可能な建模仮説に依存している
- 理論的意義: 正向性違反に対処するための新しい理論的枠組みを提供し、従来の方法の制限的仮説を回避している
- 実践的価値: 公衆衛生および臨床研究における欠損データ問題に対して実行可能な解決策を提供している
- 方法論的革新: 非正向性問題に対処するために、統計モデルと数学モデルを体系的に統合した初の試み
- 統合モデル枠組みの提案: データを正向性満足領域と違反領域に分割し、それぞれ統計モデルと数学モデルで処理
- リサンプリングアルゴリズムの開発: 2つのモデルの不確実性を考慮した分散推定方法を提供
- モデル診断手順の構築: 正向性領域内の統計モデルと数学モデルの性能を比較して方法の有効性を検証
- 完全な実装方案の提供: RおよびPythonコードを含め、方法の再現性と実用性を向上
パラメータ μ=E[Y] を推定する。ここで Y は収縮期血圧であるが、特定の共変量値 X では完全に欠損しており、正向性仮説 Pr(R=1∣X=x)>0 に違反している。
データを2つの領域に分割する:
- 正向性領域 (X∗=1): 年齢8~17歳、収縮期血圧の観測値が存在
- 非正向性領域 (X∗=0): 年齢2~7歳、収縮期血圧が完全に欠損
パラメータは以下のように書き直される:
E[Y]=E[Y∣X∗=1]Pr(X∗=1)+E[Y∣X∗=0]Pr(X∗=0)
正向性領域では飽和モデルを使用する:
E[Y∣X,R=1,X∗=1;β]=β8I(X=8)+β9I(X=9)+⋯+β17I(X=17)
g-computation方法を採用する:
- 完全データに基づいて回帰モデルを適合
- すべての観測値に対して収縮期血圧を予測
- サンプル加重平均値を計算
外部発表の米国児童・青少年収縮期血圧分布情報に基づく:
- 年齢、性別、身長百分位特異的分布を使用
- 正規分布を仮定し、平均値は中央値に等しい
- 標準偏差は90百分位数から近似
- 外挿仮説の回避: 従来の線形外挿とは異なり、8~17歳の関係が2~7歳に延長されることを仮定する必要がない
- 柔軟なモデル選択: 正向性領域ではノンパラメトリック方法を使用でき、非正向性領域では外部情報を統合
- 不確実性の定量化: リサンプリングアルゴリズムは統計モデルのパラメータ推定と数学モデル分布の不確実性を同時に考慮
- 主要データ: 2017~2018年NHANES、n=2,572名の2~17歳児童・青少年
- 外部情報: Flynnらが発表した米国児童・青少年収縮期血圧分布データ
- 欠損パターン: 2~7歳児童の収縮期血圧が完全に欠損(設計上の欠損)、8~17歳では8%が欠損
- 結果変数: 収縮期血圧(mmHg)、最大3回の測定値の平均
- 共変量: 年齢(年)、身長(センチメートル)、体重(キログラム)、性別
- サンプリング重み: 米国人口への推論のためにNHANESサンプリング重みを適用
- 完全症例分析: 収縮期血圧測定を有する観測値のみを使用
- 線形外挿: 8~17歳データに基づいて線形モデルを適合し、2~7歳に外挿
- 感度分析: 2~7歳の平均収縮期血圧を70~120 mmHg範囲で設定して境界分析を実施
- リサンプリング回数: 10,000回
- 信頼区間: 2.5%および97.5%分位数を使用して95%信頼区間を構築
- 点推定: 中央値を点推定値として使用
| 方法 | 平均収縮期血圧(mmHg) | 95%信頼区間 |
|---|
| 完全症例分析 | 104.7 | (104.1, 105.3) |
| 線形外挿 | 101.6 | (100.8, 102.4) |
| 統合モデル | 100.5 | (99.9, 101.0) |
| 境界分析 | 92.7-109.9 | (91.9, 110.5) |
- 統合モデルの結果が最も低い: 線形外挿より1.1 mmHg低く、その差は外挿方法の標準誤差の2.9倍である
- 方法間の差異に統計学的有意性: 統合モデルと他の方法の差異は推定された不確実性の範囲を超えている
- 境界分析が結果を支持: 統合モデルの推定値は合理的な境界範囲内に収まっている
正向性領域内の統計モデルと数学モデルの性能を比較することで検証:
- 2つのモデルで予測された収縮期血圧分布は合理的な重複を示している
- 年齢特異的平均値の差はほぼゼロに近いが、15~17歳では統計モデルの結果が数学モデルより若干低い
- 全体的に正向性領域における数学モデルの有効性を支持している
付録でより多くの共変量(性別、身長、体重)を考慮した結果:
- 統合モデルの結果は安定している:100.5(99.9, 101.0)
- 外挿方法の結果は統合モデルに接近:100.8(97.7, 103.8)
- 強化逆確率加重推定器の結果は類似
- 補完方法: 多重補完、最大尤度推定
- 重み付け方法: 逆確率加重
- 二重堅牢性方法: 強化逆確率加重推定器
- 問題の修正: 研究対象者を正向性満足領域に限定
- パラメトリック外挿: 制限的な建模仮説を用いた外挿
- 境界分析: 感度分析範囲を提供
- 統計モデルと数学モデルを体系的に統合した初の試み
- 研究問題の修正または強いパラメトリック仮説を回避
- 実用的な不確実性定量化方法を提供
- 統合モデルの有効性: 非正向性領域を含む総体パラメータの推定に成功
- 方法の利点: 従来の方法の制限的仮説を回避し、より合理的な推定を提供
- 実用的価値: 設計上の欠損または体系的欠損に対処するための実行可能な方案を提供
- 分散推定: NHANESのクラスター抽出設計を考慮していないため、不確実性を過小評価する可能性がある
- 数学モデルの複雑性: 現在は相対的に単純なモデルを使用しており、複雑な状況では中間過程の建模が必要な場合がある
- 外部情報への依存: 方法の有効性は外部情報の正確性と適用可能性に依存している
- 多変量非正向性: 複数の変数が同時に非正向性を示す場合の応用には、さらなる研究が必要である
- 複雑な数学モデル: 薬物濃度、生理反応などの複雑なプロセスに対処するモデルの開発
- 分散推定の改善: クラスター抽出などの複雑なサンプリング設計を考慮するようにリサンプリングアルゴリズムを拡張
- 多次元非正向性: 複数の変数が同時に非正向性を示す場合の研究
- 診断方法の完善: モデル有効性のより包括的な診断手順の開発
- 方法論の革新性が強い: 統計モデルと数学モデルを体系的に統合して非正向性に対処した初の試み
- 理論的基礎が堅実: 因果推論と欠損データ理論の堅実な基礎に基づいている
- 実用性が顕著: 完全な実装コードと詳細なアルゴリズム説明を提供
- 検証が十分: 複数の比較方法と診断手順を通じて方法の有効性を検証
- 外部情報の要件: 方法の成功は高品質な外部情報の入手可能性に依存している
- 計算の複雑性: リサンプリング手順は計算負荷を増加させている
- 適用範囲の制限: 主に信頼できる外部情報が存在する場合に適用可能
- 理論的保証: 方法の漸近的性質に関する理論的分析が不足している
- 学術的貢献: 統計学と疫学分野に重要な方法論的貢献を提供
- 実践的価値: 公衆衛生研究における一般的な設計上の欠損問題に直接応用可能
- 再現性: 提供されたコードと詳細な説明により、方法の再現性を確保
- 推進可能性: 方法論的枠組みは非正向性が存在する他の研究分野に推広可能
- 設計上の欠損: 年齢制限、倫理的配慮による体系的欠損
- 外部情報が豊富: 信頼できる外部研究または先行知識が存在
- パラメータ推定: 主に総体パラメータ推定に適用可能であり、個別予測には不適切
- 公衆衛生研究: 特に大規模疫学調査における欠損データ問題に適用可能
本論文は関連分野の重要な文献を引用しており、以下を含む:
- Coleらによる疫学研究における欠損結果データに関する総説
- WestreichとColeによる正向性実践に関する論評
- Petersenらによる正向性仮説違反の診断と対応
- Flynnらによる児童・青少年血圧スクリーニングと管理に関する臨床実践ガイドライン