2025-11-15T01:58:11.277924

Accounting for Missing Data in Public Health Research Using a Synthesis of Statistical and Mathematical Models

Zivich, Shook-Sa, Cole et al.
Introduction: Accounting for missing data by imputing or weighting conditional on covariates relies on the variable with missingness being observed at least some of the time for all unique covariate values. This requirement is referred to as positivity and positivity violations can result in bias. Here, we review a novel approach to addressing positivity violations in the context of systolic blood pressure. Methods: To illustrate the proposed approach, we estimate the mean systolic blood pressure among children and adolescents aged 2-17 years old in the United States using data from the 2017-2018 National Health and Nutrition Examination Survey (NHANES). As blood pressure was not measured for those aged 2-7, there exists a positivity violation by design. Using a recently proposed synthesis of statistical and mathematical models, we integrate external information with NHANES to address our motivating question. Results: With the synthesis model, the estimated mean systolic blood pressure was 100.5 (95% confidence interval: 99.9, 101.0), which is notably lower than either a complete-case analysis or extrapolation from a statistical model. The synthesis results were supported by a diagnostic comparing the performance of the mathematical model in the positive region. Discussion: Positivity violations pose a threat to quantitative medical research, and standard approaches to addressing nonpositivity rely on restrictive untestable assumptions. Using a synthesis model, like the one detailed here, offers a viable alternative.
academic

Contabilización de Datos Faltantes en Investigación de Salud Pública Utilizando una Síntesis de Modelos Estadísticos y Matemáticos

Información Básica

  • ID del Artículo: 2503.02789
  • Título: Accounting for Missing Data in Public Health Research Using a Synthesis of Statistical and Mathematical Models
  • Autores: Paul N Zivich, Bonnie E Shook-Sa, Stephen R Cole, Eric T Lofgren, Jessie K Edwards
  • Clasificación: stat.AP (Estadística Aplicada), stat.ME (Métodos Estadísticos)
  • Fecha de Publicación: 16 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2503.02789

Resumen

Este estudio aborda el problema de violación de positividad en el tratamiento de datos faltantes en investigación de salud pública, proponiendo un enfoque integral que combina modelos estadísticos y matemáticos. El estudio utiliza como ejemplo la estimación de la presión arterial sistólica media en niños y adolescentes estadounidenses de 2-17 años, empleando datos de la Encuesta Nacional de Examen de Salud y Nutrición (NHANES) 2017-2018. Debido a que el diseño de NHANES no incluyó mediciones de presión arterial en niños de 2-7 años, existe una violación de positividad por diseño. Al integrar información externa con datos de NHANES, el modelo sintético estimó una presión arterial sistólica promedio de 100.5 mmHg (IC 95%: 99.9, 101.0), significativamente menor que el análisis de casos completos o la extrapolación del modelo estadístico.

Antecedentes y Motivación de la Investigación

Identificación del Problema Central

  1. Importancia del Supuesto de Positividad: En el tratamiento de datos faltantes, la imputación o ponderación mediante covariables depende del supuesto de positividad, es decir, que para todos los valores únicos de covariables, la variable faltante se observe al menos en algunas ocasiones
  2. Prevalencia de Violaciones de Positividad: Cuando ciertas combinaciones de covariables carecen completamente de valores observados de la variable objetivo, se produce una violación de positividad que genera sesgo
  3. Limitaciones de Métodos Existentes: Los métodos tradicionales para abordar la no-positividad modifican el problema de investigación o dependen de supuestos de modelado restrictivos e incontrastables

Significado de la Investigación

  • Significado Teórico: Proporciona un nuevo marco teórico para abordar violaciones de positividad, evitando los supuestos restrictivos de métodos tradicionales
  • Valor Práctico: Ofrece una solución viable para problemas de datos faltantes en investigación de salud pública y clínica
  • Innovación Metodológica: Primera combinación sistemática de modelos estadísticos y matemáticos para abordar problemas de no-positividad

Contribuciones Principales

  1. Propuesta de Marco de Modelo Sintético: Divide los datos en regiones donde se cumple positividad y regiones donde se viola, tratando cada una con modelos estadísticos y matemáticos respectivamente
  2. Desarrollo de Algoritmo de Remuestreo: Proporciona métodos de estimación de varianza que consideran la incertidumbre de ambos modelos
  3. Construcción de Procedimiento de Diagnóstico de Modelo: Valida la efectividad del método comparando el desempeño de modelos estadísticos y matemáticos dentro de la región de positividad
  4. Provisión de Solución de Implementación Completa: Incluye código en R y Python, mejorando la reproducibilidad y practicidad del método

Explicación Detallada de Métodos

Definición de Tarea

Estimar el parámetro μ=E[Y]\mu = E[Y], donde YY es la presión arterial sistólica, pero que está completamente faltante bajo ciertos valores de covariables XX, violando el supuesto de positividad Pr(R=1X=x)>0Pr(R = 1 | X = x) > 0.

Arquitectura del Modelo

1. Estrategia de Partición de Datos

Los datos se dividen en dos regiones:

  • Región de Positividad (X=1X^* = 1): Edades 8-17 años, con valores observados de presión arterial sistólica
  • Región de No-Positividad (X=0X^* = 0): Edades 2-7 años, completamente faltante de presión arterial sistólica

El parámetro se puede reescribir como: E[Y]=E[YX=1]Pr(X=1)+E[YX=0]Pr(X=0)E[Y] = E[Y | X^* = 1]Pr(X^* = 1) + E[Y | X^* = 0]Pr(X^* = 0)

2. Modelo Estadístico (Región de Positividad)

En la región de positividad se utiliza un modelo saturado: E[YX,R=1,X=1;β]=β8I(X=8)+β9I(X=9)++β17I(X=17)E[Y | X, R = 1, X^* = 1; \beta] = \beta_8 I(X = 8) + \beta_9 I(X = 9) + \cdots + \beta_{17} I(X = 17)

Empleando el método g-computation:

  • Ajuste de modelo de regresión basado en datos completos
  • Predicción de presión arterial sistólica para todas las observaciones
  • Cálculo del promedio ponderado de la muestra

3. Modelo Matemático (Región de No-Positividad)

Basado en información de distribución de presión arterial sistólica en niños y adolescentes estadounidenses publicada externamente:

  • Utiliza distribución específica por edad, sexo y percentil de altura
  • Asume distribución normal, con media igual a la mediana
  • Desviación estándar aproximada por el percentil 90

Puntos de Innovación Técnica

  1. Evita Supuestos de Extrapolación: A diferencia de la extrapolación lineal tradicional, no requiere asumir que la relación de edades 8-17 se extienda a edades 2-7
  2. Selección Flexible de Modelos: La región de positividad puede utilizar métodos no paramétricos, mientras que la región de no-positividad integra información externa
  3. Cuantificación de Incertidumbre: El algoritmo de remuestreo considera simultáneamente la estimación de parámetros del modelo estadístico y la incertidumbre de la distribución del modelo matemático

Configuración Experimental

Conjunto de Datos

  • Datos Principales: NHANES 2017-2018, n=2,572 niños y adolescentes de 2-17 años
  • Información Externa: Datos de distribución de presión arterial sistólica en niños y adolescentes estadounidenses publicados por Flynn et al.
  • Patrón de Falta: Presión arterial sistólica completamente faltante en niños de 2-7 años (falta por diseño), 8% faltante en edades 8-17 años

Definición de Variables

  • Variable de Resultado: Presión arterial sistólica (mmHg), promedio de hasta 3 mediciones
  • Covariables: Edad (años), altura (centímetros), peso (kilogramos), sexo
  • Pesos de Muestreo: Aplicación de pesos de muestreo de NHANES para inferencia poblacional estadounidense

Métodos de Comparación

  1. Análisis de Casos Completos: Utiliza solo observaciones con mediciones de presión arterial sistólica
  2. Extrapolación Lineal: Ajusta modelo lineal basado en datos de edades 8-17, extrapola a edades 2-7
  3. Análisis de Sensibilidad: Análisis de límites estableciendo rango de 70-120 mmHg para presión arterial sistólica promedio en edades 2-7

Detalles de Implementación

  • Número de Remuestreos: 10,000 iteraciones
  • Intervalo de Confianza: Intervalo de confianza del 95% construido usando cuantiles 2.5% y 97.5%
  • Estimación Puntual: Mediana utilizada como valor puntual

Resultados Experimentales

Resultados Principales

MétodoPresión Arterial Sistólica Promedio (mmHg)Intervalo de Confianza 95%
Análisis de Casos Completos104.7(104.1, 105.3)
Extrapolación Lineal101.6(100.8, 102.4)
Modelo Sintético100.5(99.9, 101.0)
Análisis de Límites92.7-109.9(91.9, 110.5)

Hallazgos Clave

  1. Resultado del Modelo Sintético Más Bajo: 1.1 mmHg menor que la extrapolación lineal, diferencia equivalente a 2.9 veces el error estándar del método de extrapolación
  2. Diferencia Estadísticamente Significativa Entre Métodos: La diferencia entre el modelo sintético y otros métodos excede los rangos de incertidumbre estimados
  3. Análisis de Límites Respalda Resultados: La estimación del modelo sintético cae dentro de rangos de límites razonables

Validación del Modelo

Mediante comparación del desempeño de modelos estadísticos y matemáticos dentro de la región de positividad:

  • Distribuciones de presión arterial sistólica predichas por ambos modelos muestran superposición razonable
  • Diferencias de medias específicas por edad cercanas a cero, aunque modelo estadístico ligeramente inferior al matemático en edades 15-17
  • Respalda en general la validez del modelo matemático en la región de positividad

Resultados de Análisis Extendido

Resultados considerando más covariables (sexo, altura, peso) en apéndice:

  • Resultado del modelo sintético permanece estable: 100.5 (99.9, 101.0)
  • Resultado del método de extrapolación se acerca al modelo sintético: 100.8 (97.7, 103.8)
  • Estimador de ponderación de probabilidad inversa aumentada produce resultados similares

Trabajo Relacionado

Métodos Tradicionales de Datos Faltantes

  1. Métodos de Imputación: Imputación múltiple, estimación de máxima verosimilitud
  2. Métodos de Ponderación: Ponderación de probabilidad inversa
  3. Métodos Doblemente Robustos: Estimador de ponderación de probabilidad inversa aumentado

Métodos de Tratamiento de No-Positividad

  1. Modificación del Problema: Restricción de población de estudio a región donde se cumple positividad
  2. Extrapolación Paramétrica: Extrapolación usando supuestos de modelado restrictivos
  3. Análisis de Límites: Provisión de rango de análisis de sensibilidad

Singularidad de la Contribución de Este Artículo

  • Primera combinación sistemática de modelos estadísticos y matemáticos
  • Evita modificación de problema de investigación o supuestos paramétricos fuertes
  • Proporciona método práctico de cuantificación de incertidumbre

Conclusiones y Discusión

Conclusiones Principales

  1. Efectividad del Modelo Sintético: Estimación exitosa de parámetros poblacionales incluyendo regiones de no-positividad
  2. Ventajas del Método: Evita supuestos restrictivos de métodos tradicionales, proporciona estimaciones más razonables
  3. Valor Práctico: Ofrece solución viable para abordar falta por diseño o falta sistemática

Limitaciones

  1. Estimación de Varianza: No considera diseño de muestreo por conglomerados de NHANES, puede subestimar incertidumbre
  2. Complejidad del Modelo Matemático: Modelos relativamente simples actualmente, casos complejos pueden requerir modelado de procesos intermedios
  3. Dependencia de Información Externa: Efectividad del método depende de precisión y aplicabilidad de información externa
  4. No-Positividad Multivariada: Aplicación cuando múltiples variables simultáneamente presentan no-positividad requiere investigación adicional

Direcciones Futuras

  1. Modelos Matemáticos Complejos: Desarrollo de modelos para procesos complejos como concentraciones de fármacos, respuestas fisiológicas
  2. Mejora de Estimación de Varianza: Extensión de algoritmo de remuestreo para considerar diseños de muestreo complejos como conglomeración
  3. No-Positividad Multidimensional: Investigación de casos donde múltiples variables presentan simultáneamente no-positividad
  4. Perfeccionamiento de Métodos de Diagnóstico: Desarrollo de procedimientos de diagnóstico de validez de modelo más comprehensivos

Evaluación Profunda

Fortalezas

  1. Innovación Metodológica Fuerte: Primera combinación sistemática de modelos estadísticos y matemáticos para abordar no-positividad
  2. Fundamento Teórico Sólido: Basado en fundamentos sólidos de inferencia causal y teoría de datos faltantes
  3. Practicidad Destacada: Proporciona código de implementación completo y descripción detallada de algoritmo
  4. Validación Suficiente: Validación de efectividad del método mediante múltiples métodos de comparación y procedimientos de diagnóstico

Insuficiencias

  1. Requisito de Información Externa: Éxito del método depende de disponibilidad de información externa de alta calidad
  2. Complejidad Computacional: Procedimiento de remuestreo aumenta carga computacional
  3. Limitación de Rango de Aplicación: Principalmente aplicable en casos con información externa confiable disponible
  4. Garantías Teóricas: Carencia de análisis teórico sobre propiedades asintóticas del método

Evaluación de Impacto

  1. Contribución Académica: Proporciona contribución metodológica importante para campos de estadística y epidemiología
  2. Valor Práctico: Aplicación directa a problemas comunes de falta por diseño en investigación de salud pública
  3. Reproducibilidad: Código proporcionado y descripción detallada aseguran reproducibilidad del método
  4. Potencial de Generalización: Marco metodológico generalizable a otros campos de investigación con no-positividad

Escenarios de Aplicación

  1. Falta por Diseño: Como restricciones de edad, consideraciones éticas que causan falta sistemática
  2. Información Externa Abundante: Existencia de investigación confiable o conocimiento previo
  3. Estimación de Parámetros Poblacionales: Principalmente aplicable a estimación de parámetros poblacionales en lugar de predicción individual
  4. Investigación de Salud Pública: Particularmente adecuado para problemas de datos faltantes en encuestas epidemiológicas a gran escala

Referencias Bibliográficas

El artículo cita literatura importante en campos relacionados, incluyendo:

  • Revisión de Cole et al. sobre datos de resultado faltante en investigación epidemiológica
  • Comentario de Westreich y Cole sobre práctica de positividad
  • Diagnóstico y respuesta de Petersen et al. ante violaciones del supuesto de positividad
  • Directrices de práctica clínica de Flynn et al. sobre cribado y manejo de presión arterial en niños y adolescentes