Introduction: Accounting for missing data by imputing or weighting conditional on covariates relies on the variable with missingness being observed at least some of the time for all unique covariate values. This requirement is referred to as positivity and positivity violations can result in bias. Here, we review a novel approach to addressing positivity violations in the context of systolic blood pressure. Methods: To illustrate the proposed approach, we estimate the mean systolic blood pressure among children and adolescents aged 2-17 years old in the United States using data from the 2017-2018 National Health and Nutrition Examination Survey (NHANES). As blood pressure was not measured for those aged 2-7, there exists a positivity violation by design. Using a recently proposed synthesis of statistical and mathematical models, we integrate external information with NHANES to address our motivating question. Results: With the synthesis model, the estimated mean systolic blood pressure was 100.5 (95% confidence interval: 99.9, 101.0), which is notably lower than either a complete-case analysis or extrapolation from a statistical model. The synthesis results were supported by a diagnostic comparing the performance of the mathematical model in the positive region. Discussion: Positivity violations pose a threat to quantitative medical research, and standard approaches to addressing nonpositivity rely on restrictive untestable assumptions. Using a synthesis model, like the one detailed here, offers a viable alternative.
Contabilización de Datos Faltantes en Investigación de Salud Pública Utilizando una Síntesis de Modelos Estadísticos y Matemáticos
- ID del Artículo: 2503.02789
- Título: Accounting for Missing Data in Public Health Research Using a Synthesis of Statistical and Mathematical Models
- Autores: Paul N Zivich, Bonnie E Shook-Sa, Stephen R Cole, Eric T Lofgren, Jessie K Edwards
- Clasificación: stat.AP (Estadística Aplicada), stat.ME (Métodos Estadísticos)
- Fecha de Publicación: 16 de octubre de 2025
- Enlace del Artículo: https://arxiv.org/abs/2503.02789
Este estudio aborda el problema de violación de positividad en el tratamiento de datos faltantes en investigación de salud pública, proponiendo un enfoque integral que combina modelos estadísticos y matemáticos. El estudio utiliza como ejemplo la estimación de la presión arterial sistólica media en niños y adolescentes estadounidenses de 2-17 años, empleando datos de la Encuesta Nacional de Examen de Salud y Nutrición (NHANES) 2017-2018. Debido a que el diseño de NHANES no incluyó mediciones de presión arterial en niños de 2-7 años, existe una violación de positividad por diseño. Al integrar información externa con datos de NHANES, el modelo sintético estimó una presión arterial sistólica promedio de 100.5 mmHg (IC 95%: 99.9, 101.0), significativamente menor que el análisis de casos completos o la extrapolación del modelo estadístico.
- Importancia del Supuesto de Positividad: En el tratamiento de datos faltantes, la imputación o ponderación mediante covariables depende del supuesto de positividad, es decir, que para todos los valores únicos de covariables, la variable faltante se observe al menos en algunas ocasiones
- Prevalencia de Violaciones de Positividad: Cuando ciertas combinaciones de covariables carecen completamente de valores observados de la variable objetivo, se produce una violación de positividad que genera sesgo
- Limitaciones de Métodos Existentes: Los métodos tradicionales para abordar la no-positividad modifican el problema de investigación o dependen de supuestos de modelado restrictivos e incontrastables
- Significado Teórico: Proporciona un nuevo marco teórico para abordar violaciones de positividad, evitando los supuestos restrictivos de métodos tradicionales
- Valor Práctico: Ofrece una solución viable para problemas de datos faltantes en investigación de salud pública y clínica
- Innovación Metodológica: Primera combinación sistemática de modelos estadísticos y matemáticos para abordar problemas de no-positividad
- Propuesta de Marco de Modelo Sintético: Divide los datos en regiones donde se cumple positividad y regiones donde se viola, tratando cada una con modelos estadísticos y matemáticos respectivamente
- Desarrollo de Algoritmo de Remuestreo: Proporciona métodos de estimación de varianza que consideran la incertidumbre de ambos modelos
- Construcción de Procedimiento de Diagnóstico de Modelo: Valida la efectividad del método comparando el desempeño de modelos estadísticos y matemáticos dentro de la región de positividad
- Provisión de Solución de Implementación Completa: Incluye código en R y Python, mejorando la reproducibilidad y practicidad del método
Estimar el parámetro μ=E[Y], donde Y es la presión arterial sistólica, pero que está completamente faltante bajo ciertos valores de covariables X, violando el supuesto de positividad Pr(R=1∣X=x)>0.
Los datos se dividen en dos regiones:
- Región de Positividad (X∗=1): Edades 8-17 años, con valores observados de presión arterial sistólica
- Región de No-Positividad (X∗=0): Edades 2-7 años, completamente faltante de presión arterial sistólica
El parámetro se puede reescribir como:
E[Y]=E[Y∣X∗=1]Pr(X∗=1)+E[Y∣X∗=0]Pr(X∗=0)
En la región de positividad se utiliza un modelo saturado:
E[Y∣X,R=1,X∗=1;β]=β8I(X=8)+β9I(X=9)+⋯+β17I(X=17)
Empleando el método g-computation:
- Ajuste de modelo de regresión basado en datos completos
- Predicción de presión arterial sistólica para todas las observaciones
- Cálculo del promedio ponderado de la muestra
Basado en información de distribución de presión arterial sistólica en niños y adolescentes estadounidenses publicada externamente:
- Utiliza distribución específica por edad, sexo y percentil de altura
- Asume distribución normal, con media igual a la mediana
- Desviación estándar aproximada por el percentil 90
- Evita Supuestos de Extrapolación: A diferencia de la extrapolación lineal tradicional, no requiere asumir que la relación de edades 8-17 se extienda a edades 2-7
- Selección Flexible de Modelos: La región de positividad puede utilizar métodos no paramétricos, mientras que la región de no-positividad integra información externa
- Cuantificación de Incertidumbre: El algoritmo de remuestreo considera simultáneamente la estimación de parámetros del modelo estadístico y la incertidumbre de la distribución del modelo matemático
- Datos Principales: NHANES 2017-2018, n=2,572 niños y adolescentes de 2-17 años
- Información Externa: Datos de distribución de presión arterial sistólica en niños y adolescentes estadounidenses publicados por Flynn et al.
- Patrón de Falta: Presión arterial sistólica completamente faltante en niños de 2-7 años (falta por diseño), 8% faltante en edades 8-17 años
- Variable de Resultado: Presión arterial sistólica (mmHg), promedio de hasta 3 mediciones
- Covariables: Edad (años), altura (centímetros), peso (kilogramos), sexo
- Pesos de Muestreo: Aplicación de pesos de muestreo de NHANES para inferencia poblacional estadounidense
- Análisis de Casos Completos: Utiliza solo observaciones con mediciones de presión arterial sistólica
- Extrapolación Lineal: Ajusta modelo lineal basado en datos de edades 8-17, extrapola a edades 2-7
- Análisis de Sensibilidad: Análisis de límites estableciendo rango de 70-120 mmHg para presión arterial sistólica promedio en edades 2-7
- Número de Remuestreos: 10,000 iteraciones
- Intervalo de Confianza: Intervalo de confianza del 95% construido usando cuantiles 2.5% y 97.5%
- Estimación Puntual: Mediana utilizada como valor puntual
| Método | Presión Arterial Sistólica Promedio (mmHg) | Intervalo de Confianza 95% |
|---|
| Análisis de Casos Completos | 104.7 | (104.1, 105.3) |
| Extrapolación Lineal | 101.6 | (100.8, 102.4) |
| Modelo Sintético | 100.5 | (99.9, 101.0) |
| Análisis de Límites | 92.7-109.9 | (91.9, 110.5) |
- Resultado del Modelo Sintético Más Bajo: 1.1 mmHg menor que la extrapolación lineal, diferencia equivalente a 2.9 veces el error estándar del método de extrapolación
- Diferencia Estadísticamente Significativa Entre Métodos: La diferencia entre el modelo sintético y otros métodos excede los rangos de incertidumbre estimados
- Análisis de Límites Respalda Resultados: La estimación del modelo sintético cae dentro de rangos de límites razonables
Mediante comparación del desempeño de modelos estadísticos y matemáticos dentro de la región de positividad:
- Distribuciones de presión arterial sistólica predichas por ambos modelos muestran superposición razonable
- Diferencias de medias específicas por edad cercanas a cero, aunque modelo estadístico ligeramente inferior al matemático en edades 15-17
- Respalda en general la validez del modelo matemático en la región de positividad
Resultados considerando más covariables (sexo, altura, peso) en apéndice:
- Resultado del modelo sintético permanece estable: 100.5 (99.9, 101.0)
- Resultado del método de extrapolación se acerca al modelo sintético: 100.8 (97.7, 103.8)
- Estimador de ponderación de probabilidad inversa aumentada produce resultados similares
- Métodos de Imputación: Imputación múltiple, estimación de máxima verosimilitud
- Métodos de Ponderación: Ponderación de probabilidad inversa
- Métodos Doblemente Robustos: Estimador de ponderación de probabilidad inversa aumentado
- Modificación del Problema: Restricción de población de estudio a región donde se cumple positividad
- Extrapolación Paramétrica: Extrapolación usando supuestos de modelado restrictivos
- Análisis de Límites: Provisión de rango de análisis de sensibilidad
- Primera combinación sistemática de modelos estadísticos y matemáticos
- Evita modificación de problema de investigación o supuestos paramétricos fuertes
- Proporciona método práctico de cuantificación de incertidumbre
- Efectividad del Modelo Sintético: Estimación exitosa de parámetros poblacionales incluyendo regiones de no-positividad
- Ventajas del Método: Evita supuestos restrictivos de métodos tradicionales, proporciona estimaciones más razonables
- Valor Práctico: Ofrece solución viable para abordar falta por diseño o falta sistemática
- Estimación de Varianza: No considera diseño de muestreo por conglomerados de NHANES, puede subestimar incertidumbre
- Complejidad del Modelo Matemático: Modelos relativamente simples actualmente, casos complejos pueden requerir modelado de procesos intermedios
- Dependencia de Información Externa: Efectividad del método depende de precisión y aplicabilidad de información externa
- No-Positividad Multivariada: Aplicación cuando múltiples variables simultáneamente presentan no-positividad requiere investigación adicional
- Modelos Matemáticos Complejos: Desarrollo de modelos para procesos complejos como concentraciones de fármacos, respuestas fisiológicas
- Mejora de Estimación de Varianza: Extensión de algoritmo de remuestreo para considerar diseños de muestreo complejos como conglomeración
- No-Positividad Multidimensional: Investigación de casos donde múltiples variables presentan simultáneamente no-positividad
- Perfeccionamiento de Métodos de Diagnóstico: Desarrollo de procedimientos de diagnóstico de validez de modelo más comprehensivos
- Innovación Metodológica Fuerte: Primera combinación sistemática de modelos estadísticos y matemáticos para abordar no-positividad
- Fundamento Teórico Sólido: Basado en fundamentos sólidos de inferencia causal y teoría de datos faltantes
- Practicidad Destacada: Proporciona código de implementación completo y descripción detallada de algoritmo
- Validación Suficiente: Validación de efectividad del método mediante múltiples métodos de comparación y procedimientos de diagnóstico
- Requisito de Información Externa: Éxito del método depende de disponibilidad de información externa de alta calidad
- Complejidad Computacional: Procedimiento de remuestreo aumenta carga computacional
- Limitación de Rango de Aplicación: Principalmente aplicable en casos con información externa confiable disponible
- Garantías Teóricas: Carencia de análisis teórico sobre propiedades asintóticas del método
- Contribución Académica: Proporciona contribución metodológica importante para campos de estadística y epidemiología
- Valor Práctico: Aplicación directa a problemas comunes de falta por diseño en investigación de salud pública
- Reproducibilidad: Código proporcionado y descripción detallada aseguran reproducibilidad del método
- Potencial de Generalización: Marco metodológico generalizable a otros campos de investigación con no-positividad
- Falta por Diseño: Como restricciones de edad, consideraciones éticas que causan falta sistemática
- Información Externa Abundante: Existencia de investigación confiable o conocimiento previo
- Estimación de Parámetros Poblacionales: Principalmente aplicable a estimación de parámetros poblacionales en lugar de predicción individual
- Investigación de Salud Pública: Particularmente adecuado para problemas de datos faltantes en encuestas epidemiológicas a gran escala
El artículo cita literatura importante en campos relacionados, incluyendo:
- Revisión de Cole et al. sobre datos de resultado faltante en investigación epidemiológica
- Comentario de Westreich y Cole sobre práctica de positividad
- Diagnóstico y respuesta de Petersen et al. ante violaciones del supuesto de positividad
- Directrices de práctica clínica de Flynn et al. sobre cribado y manejo de presión arterial en niños y adolescentes