2025-11-15T01:58:11.277924

Accounting for Missing Data in Public Health Research Using a Synthesis of Statistical and Mathematical Models

Zivich, Shook-Sa, Cole et al.
Introduction: Accounting for missing data by imputing or weighting conditional on covariates relies on the variable with missingness being observed at least some of the time for all unique covariate values. This requirement is referred to as positivity and positivity violations can result in bias. Here, we review a novel approach to addressing positivity violations in the context of systolic blood pressure. Methods: To illustrate the proposed approach, we estimate the mean systolic blood pressure among children and adolescents aged 2-17 years old in the United States using data from the 2017-2018 National Health and Nutrition Examination Survey (NHANES). As blood pressure was not measured for those aged 2-7, there exists a positivity violation by design. Using a recently proposed synthesis of statistical and mathematical models, we integrate external information with NHANES to address our motivating question. Results: With the synthesis model, the estimated mean systolic blood pressure was 100.5 (95% confidence interval: 99.9, 101.0), which is notably lower than either a complete-case analysis or extrapolation from a statistical model. The synthesis results were supported by a diagnostic comparing the performance of the mathematical model in the positive region. Discussion: Positivity violations pose a threat to quantitative medical research, and standard approaches to addressing nonpositivity rely on restrictive untestable assumptions. Using a synthesis model, like the one detailed here, offers a viable alternative.
academic

Comptabilisation des données manquantes dans la recherche en santé publique à l'aide d'une synthèse de modèles statistiques et mathématiques

Informations de base

  • ID de l'article: 2503.02789
  • Titre: Accounting for Missing Data in Public Health Research Using a Synthesis of Statistical and Mathematical Models
  • Auteurs: Paul N Zivich, Bonnie E Shook-Sa, Stephen R Cole, Eric T Lofgren, Jessie K Edwards
  • Classification: stat.AP (Statistique appliquée), stat.ME (Méthodes statistiques)
  • Date de publication: 16 octobre 2025
  • Lien de l'article: https://arxiv.org/abs/2503.02789

Résumé

Cette étude aborde le problème de violation de la positivité dans le traitement des données manquantes en recherche en santé publique en proposant une approche synthétique combinant des modèles statistiques et mathématiques. L'étude prend pour exemple l'estimation de la pression artérielle systolique moyenne chez les enfants et adolescents américains âgés de 2 à 17 ans, en utilisant les données de l'Enquête nationale sur la santé et la nutrition (NHANES) de 2017-2018. En raison de la conception de NHANES, qui n'inclut pas la mesure de la tension artérielle chez les enfants de 2 à 7 ans, il existe une violation de positivité de conception. En intégrant les informations externes aux données NHANES, le modèle synthétique estime la pression artérielle systolique moyenne à 100,5 mmHg (IC 95% : 99,9, 101,0), significativement inférieure aux résultats de l'analyse des cas complets ou de l'extrapolation du modèle statistique.

Contexte et motivation de la recherche

Identification des problèmes fondamentaux

  1. Importance de l'hypothèse de positivité: Dans le traitement des données manquantes, l'imputation ou la pondération par covariables dépend de l'hypothèse de positivité, c'est-à-dire que pour toutes les valeurs de covariables uniques, la variable manquante est observée au moins à certains moments
  2. Prévalence des violations de positivité: Lorsque certaines combinaisons de covariables manquent complètement d'observations de la variable cible, cela entraîne une violation de positivité et par conséquent un biais
  3. Limitations des méthodes existantes: Les approches traditionnelles pour traiter la non-positivité modifient soit le problème de recherche, soit s'appuient sur des hypothèses de modélisation restrictives et non testables

Signification de la recherche

  • Signification théorique: Fournit un nouveau cadre théorique pour traiter les violations de positivité, évitant les hypothèses restrictives des méthodes traditionnelles
  • Valeur pratique: Offre une solution réalisable aux problèmes de données manquantes en recherche en santé publique et clinique
  • Innovation méthodologique: Première combinaison systématique de modèles statistiques et mathématiques pour traiter les problèmes de non-positivité

Contributions principales

  1. Proposition d'un cadre de modèle synthétique: Divise les données en régions satisfaisant la positivité et régions de violation, traitées respectivement par des modèles statistiques et mathématiques
  2. Développement d'un algorithme de rééchantillonnage: Fournit une méthode d'estimation de la variance tenant compte de l'incertitude des deux modèles
  3. Construction d'une procédure de diagnostic de modèle: Valide l'efficacité de la méthode en comparant les performances des modèles statistiques et mathématiques dans les régions de positivité
  4. Fourniture d'une solution de mise en œuvre complète: Inclut le code R et Python, améliorant la reproductibilité et l'utilité pratique de la méthode

Détails méthodologiques

Définition de la tâche

Estimer le paramètre μ=E[Y]\mu = E[Y], où YY est la pression artérielle systolique, mais qui est complètement manquante pour certaines valeurs de covariables XX, violant l'hypothèse de positivité Pr(R=1X=x)>0Pr(R = 1 | X = x) > 0.

Architecture du modèle

1. Stratégie de partitionnement des données

Les données sont divisées en deux régions:

  • Région de positivité (X=1X^* = 1): Âges 8-17 ans, avec observations de pression artérielle systolique
  • Région de non-positivité (X=0X^* = 0): Âges 2-7 ans, complètement dépourvue d'observations de pression artérielle systolique

Le paramètre peut être réécrit comme: E[Y]=E[YX=1]Pr(X=1)+E[YX=0]Pr(X=0)E[Y] = E[Y | X^* = 1]Pr(X^* = 1) + E[Y | X^* = 0]Pr(X^* = 0)

2. Modèle statistique (région de positivité)

Dans la région de positivité, un modèle saturé est utilisé: E[YX,R=1,X=1;β]=β8I(X=8)+β9I(X=9)++β17I(X=17)E[Y | X, R = 1, X^* = 1; \beta] = \beta_8 I(X = 8) + \beta_9 I(X = 9) + \cdots + \beta_{17} I(X = 17)

La méthode g-computation est adoptée:

  • Ajustement du modèle de régression basé sur les données complètes
  • Prédiction de la pression artérielle systolique pour toutes les observations
  • Calcul de la moyenne pondérée de l'échantillon

3. Modèle mathématique (région de non-positivité)

Basé sur les informations publiées externes concernant la distribution de la pression artérielle systolique chez les enfants et adolescents américains:

  • Utilisation de distributions spécifiques à l'âge, au sexe et au percentile de taille
  • Hypothèse d'une distribution normale, avec la moyenne égale à la médiane
  • L'écart-type est approximé par le percentile 90

Points d'innovation technique

  1. Éviter les hypothèses d'extrapolation: Contrairement à l'extrapolation linéaire traditionnelle, ne nécessite pas l'hypothèse que la relation des âges 8-17 ans s'étend aux âges 2-7 ans
  2. Sélection flexible du modèle: Les méthodes non paramétriques peuvent être utilisées dans la région de positivité, tandis que les informations externes sont intégrées dans la région de non-positivité
  3. Quantification de l'incertitude: L'algorithme de rééchantillonnage considère simultanément l'estimation des paramètres du modèle statistique et l'incertitude de la distribution du modèle mathématique

Configuration expérimentale

Ensemble de données

  • Données principales: NHANES 2017-2018, n=2572 enfants et adolescents âgés de 2-17 ans
  • Informations externes: Données de distribution de la pression artérielle systolique chez les enfants et adolescents américains publiées par Flynn et al.
  • Motif de manque: Pression artérielle systolique complètement manquante chez les enfants de 2-7 ans (manque de conception), 8% manquant chez les enfants de 8-17 ans

Définition des variables

  • Variable de résultat: Pression artérielle systolique (mmHg), moyenne de jusqu'à 3 mesures
  • Covariables: Âge (années), taille (centimètres), poids (kilogrammes), sexe
  • Poids d'échantillonnage: Application des poids d'échantillonnage NHANES pour l'inférence sur la population américaine

Méthodes de comparaison

  1. Analyse des cas complets: Utilisation uniquement des observations avec mesures de pression artérielle systolique
  2. Extrapolation linéaire: Ajustement d'un modèle linéaire basé sur les données des âges 8-17 ans, extrapolation aux âges 2-7 ans
  3. Analyse de sensibilité: Analyse des limites avec une plage de 70-120 mmHg pour la pression artérielle systolique moyenne des âges 2-7 ans

Détails de mise en œuvre

  • Nombre de rééchantillonnages: 10 000
  • Intervalle de confiance: Intervalle de confiance à 95% construit à l'aide des quantiles 2,5% et 97,5%
  • Estimation ponctuelle: Utilisation de la médiane comme estimation ponctuelle

Résultats expérimentaux

Résultats principaux

MéthodePression artérielle systolique moyenne (mmHg)IC 95%
Analyse des cas complets104,7(104,1, 105,3)
Extrapolation linéaire101,6(100,8, 102,4)
Modèle synthétique100,5(99,9, 101,0)
Analyse des limites92,7-109,9(91,9, 110,5)

Résultats clés

  1. Résultat du modèle synthétique le plus bas: 1,1 mmHg inférieur à l'extrapolation linéaire, la différence étant 2,9 fois l'erreur-type de la méthode d'extrapolation
  2. Différence statistiquement significative entre les méthodes: La différence entre le modèle synthétique et les autres méthodes dépasse l'incertitude estimée
  3. L'analyse des limites soutient les résultats: L'estimation du modèle synthétique se situe dans une plage de limites raisonnable

Validation du modèle

En comparant les performances des modèles statistiques et mathématiques dans la région de positivité:

  • Les distributions de pression artérielle systolique prédites par les deux modèles présentent un chevauchement raisonnable
  • Les différences de moyennes spécifiques à l'âge sont proches de zéro, mais le modèle statistique pour les âges 15-17 ans est légèrement inférieur au modèle mathématique
  • Soutient globalement l'efficacité du modèle mathématique dans la région de positivité

Résultats d'analyse étendue

Résultats considérant plus de covariables (sexe, taille, poids) en annexe:

  • Le résultat du modèle synthétique reste stable: 100,5 (99,9, 101,0)
  • Le résultat de la méthode d'extrapolation se rapproche du modèle synthétique: 100,8 (97,7, 103,8)
  • Les résultats de l'estimateur de pondération par probabilité inverse amélioré sont similaires

Travaux connexes

Méthodes traditionnelles de traitement des données manquantes

  1. Méthodes d'imputation: Imputation multiple, estimation du maximum de vraisemblance
  2. Méthodes de pondération: Pondération par probabilité inverse
  3. Méthodes doublement robustes: Estimateur de pondération par probabilité inverse amélioré

Méthodes de traitement de la non-positivité

  1. Modification du problème: Restriction de la population d'étude aux régions satisfaisant la positivité
  2. Extrapolation paramétrique: Extrapolation utilisant des hypothèses de modélisation restrictives
  3. Analyse des limites: Fourniture d'une plage d'analyse de sensibilité

Unicité de la contribution de cet article

  • Première combinaison systématique de modèles statistiques et mathématiques
  • Évite la modification du problème de recherche ou les hypothèses paramétriques fortes
  • Fournit une méthode pratique de quantification de l'incertitude

Conclusions et discussion

Conclusions principales

  1. Efficacité du modèle synthétique: Estimation réussie du paramètre de population incluant les régions de non-positivité
  2. Avantages de la méthode: Évite les hypothèses restrictives des méthodes traditionnelles, fournissant une estimation plus raisonnable
  3. Valeur pratique: Fournit une solution réalisable pour traiter les données manquantes de conception ou systématiques

Limitations

  1. Estimation de la variance: N'a pas considéré la conception d'échantillonnage en grappes de NHANES, ce qui peut sous-estimer l'incertitude
  2. Complexité du modèle mathématique: Le modèle actuellement utilisé est relativement simple; les cas complexes peuvent nécessiter une modélisation des processus intermédiaires
  3. Dépendance aux informations externes: L'efficacité de la méthode dépend de l'exactitude et de l'applicabilité des informations externes
  4. Non-positivité multivariée: L'application lorsque plusieurs variables présentent simultanément une non-positivité nécessite des recherches supplémentaires

Directions futures

  1. Modèles mathématiques complexes: Développement de modèles pour traiter les processus complexes tels que les concentrations de médicaments et les réponses physiologiques
  2. Amélioration de l'estimation de la variance: Extension de l'algorithme de rééchantillonnage pour considérer les conceptions d'échantillonnage complexes telles que le regroupement
  3. Non-positivité multidimensionnelle: Étude des cas où plusieurs variables présentent simultanément une non-positivité
  4. Perfectionnement des méthodes de diagnostic: Développement de procédures de diagnostic plus complètes pour la validité du modèle

Évaluation approfondie

Points forts

  1. Innovation méthodologique forte: Première combinaison systématique de modèles statistiques et mathématiques pour traiter la non-positivité
  2. Fondations théoriques solides: Basée sur des fondations solides de l'inférence causale et de la théorie des données manquantes
  3. Utilité pratique remarquable: Fournit un code de mise en œuvre complet et une description d'algorithme détaillée
  4. Validation suffisante: Valide l'efficacité de la méthode par plusieurs méthodes de comparaison et procédures de diagnostic

Insuffisances

  1. Exigences d'informations externes: Le succès de la méthode dépend de la disponibilité d'informations externes de haute qualité
  2. Complexité computationnelle: La procédure de rééchantillonnage augmente la charge computationnelle
  3. Limitations du champ d'application: Principalement applicable aux cas où des informations externes fiables sont disponibles
  4. Garanties théoriques: Manque d'analyse théorique concernant les propriétés asymptotiques de la méthode

Évaluation de l'impact

  1. Contribution académique: Fournit une contribution méthodologique importante aux domaines de la statistique et de l'épidémiologie
  2. Valeur pratique: Possède une valeur d'application directe aux problèmes courants de données manquantes de conception en recherche en santé publique
  3. Reproductibilité: Le code fourni et la description détaillée assurent la reproductibilité de la méthode
  4. Potentiel de généralisation: Le cadre méthodologique peut être généralisé à d'autres domaines de recherche présentant une non-positivité

Scénarios d'application

  1. Données manquantes de conception: Telles que les restrictions d'âge ou les données manquantes systématiques dues à des considérations éthiques
  2. Informations externes abondantes: Existence de connaissances externes ou antérieures fiables
  3. Estimation de paramètres: Principalement applicable à l'estimation de paramètres de population plutôt qu'à la prédiction individuelle
  4. Recherche en santé publique: Particulièrement adaptée aux problèmes de données manquantes dans les enquêtes épidémiologiques à grande échelle

Références

L'article cite les littératures importantes dans les domaines connexes, notamment:

  • Examen par Cole et al. des données de résultats manquantes dans la recherche épidémiologique
  • Commentaire par Westreich et Cole sur la pratique de la positivité
  • Diagnostic et réponse aux violations de l'hypothèse de positivité par Petersen et al.
  • Directives de pratique clinique sur le dépistage et la gestion de la tension artérielle chez les enfants et adolescents par Flynn et al.