2025-11-15T01:58:11.277924

Accounting for Missing Data in Public Health Research Using a Synthesis of Statistical and Mathematical Models

Zivich, Shook-Sa, Cole et al.

Introduction: Accounting for missing data by imputing or weighting conditional on covariates relies on the variable with missingness being observed at least some of the time for all unique covariate values. This requirement is referred to as positivity and positivity violations can result in bias. Here, we review a novel approach to addressing positivity violations in the context of systolic blood pressure. Methods: To illustrate the proposed approach, we estimate the mean systolic blood pressure among children and adolescents aged 2-17 years old in the United States using data from the 2017-2018 National Health and Nutrition Examination Survey (NHANES). As blood pressure was not measured for those aged 2-7, there exists a positivity violation by design. Using a recently proposed synthesis of statistical and mathematical models, we integrate external information with NHANES to address our motivating question. Results: With the synthesis model, the estimated mean systolic blood pressure was 100.5 (95% confidence interval: 99.9, 101.0), which is notably lower than either a complete-case analysis or extrapolation from a statistical model. The synthesis results were supported by a diagnostic comparing the performance of the mathematical model in the positive region. Discussion: Positivity violations pose a threat to quantitative medical research, and standard approaches to addressing nonpositivity rely on restrictive untestable assumptions. Using a synthesis model, like the one detailed here, offers a viable alternative.

academic

Contabilización de Datos Faltantes en Investigación de Salud Pública Utilizando una Síntesis de Modelos Estadísticos y Matemáticos

Información Básica

ID del Artículo: 2503.02789
Título: Accounting for Missing Data in Public Health Research Using a Synthesis of Statistical and Mathematical Models
Autores: Paul N Zivich, Bonnie E Shook-Sa, Stephen R Cole, Eric T Lofgren, Jessie K Edwards
Clasificación: stat.AP (Estadística Aplicada), stat.ME (Métodos Estadísticos)
Fecha de Publicación: 16 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2503.02789

Resumen

Este estudio aborda el problema de violación de positividad en el tratamiento de datos faltantes en investigación de salud pública, proponiendo un enfoque integral que combina modelos estadísticos y matemáticos. El estudio utiliza como ejemplo la estimación de la presión arterial sistólica media en niños y adolescentes estadounidenses de 2-17 años, empleando datos de la Encuesta Nacional de Examen de Salud y Nutrición (NHANES) 2017-2018. Debido a que el diseño de NHANES no incluyó mediciones de presión arterial en niños de 2-7 años, existe una violación de positividad por diseño. Al integrar información externa con datos de NHANES, el modelo sintético estimó una presión arterial sistólica promedio de 100.5 mmHg (IC 95%: 99.9, 101.0), significativamente menor que el análisis de casos completos o la extrapolación del modelo estadístico.

Antecedentes y Motivación de la Investigación

Identificación del Problema Central

Importancia del Supuesto de Positividad: En el tratamiento de datos faltantes, la imputación o ponderación mediante covariables depende del supuesto de positividad, es decir, que para todos los valores únicos de covariables, la variable faltante se observe al menos en algunas ocasiones
Prevalencia de Violaciones de Positividad: Cuando ciertas combinaciones de covariables carecen completamente de valores observados de la variable objetivo, se produce una violación de positividad que genera sesgo
Limitaciones de Métodos Existentes: Los métodos tradicionales para abordar la no-positividad modifican el problema de investigación o dependen de supuestos de modelado restrictivos e incontrastables

Significado de la Investigación

Significado Teórico: Proporciona un nuevo marco teórico para abordar violaciones de positividad, evitando los supuestos restrictivos de métodos tradicionales
Valor Práctico: Ofrece una solución viable para problemas de datos faltantes en investigación de salud pública y clínica
Innovación Metodológica: Primera combinación sistemática de modelos estadísticos y matemáticos para abordar problemas de no-positividad

Contribuciones Principales

Propuesta de Marco de Modelo Sintético: Divide los datos en regiones donde se cumple positividad y regiones donde se viola, tratando cada una con modelos estadísticos y matemáticos respectivamente
Desarrollo de Algoritmo de Remuestreo: Proporciona métodos de estimación de varianza que consideran la incertidumbre de ambos modelos
Construcción de Procedimiento de Diagnóstico de Modelo: Valida la efectividad del método comparando el desempeño de modelos estadísticos y matemáticos dentro de la región de positividad
Provisión de Solución de Implementación Completa: Incluye código en R y Python, mejorando la reproducibilidad y practicidad del método

Explicación Detallada de Métodos

Definición de Tarea

Estimar el parámetro $\mu = E[Y]$ , donde $Y$ es la presión arterial sistólica, pero que está completamente faltante bajo ciertos valores de covariables $X$ , violando el supuesto de positividad $Pr(R = 1 | X = x) > 0$ .

Arquitectura del Modelo

1. Estrategia de Partición de Datos

Los datos se dividen en dos regiones:

Región de Positividad ( $X^* = 1$ ): Edades 8-17 años, con valores observados de presión arterial sistólica
Región de No-Positividad ( $X^* = 0$ ): Edades 2-7 años, completamente faltante de presión arterial sistólica

El parámetro se puede reescribir como: $E[Y] = E[Y | X^* = 1]Pr(X^* = 1) + E[Y | X^* = 0]Pr(X^* = 0)$

2. Modelo Estadístico (Región de Positividad)

En la región de positividad se utiliza un modelo saturado: $E[Y | X, R = 1, X^* = 1; \beta] = \beta_8 I(X = 8) + \beta_9 I(X = 9) + \cdots + \beta_{17} I(X = 17)$

Empleando el método g-computation:

Ajuste de modelo de regresión basado en datos completos
Predicción de presión arterial sistólica para todas las observaciones
Cálculo del promedio ponderado de la muestra

3. Modelo Matemático (Región de No-Positividad)

Basado en información de distribución de presión arterial sistólica en niños y adolescentes estadounidenses publicada externamente:

Utiliza distribución específica por edad, sexo y percentil de altura
Asume distribución normal, con media igual a la mediana
Desviación estándar aproximada por el percentil 90

Puntos de Innovación Técnica

Evita Supuestos de Extrapolación: A diferencia de la extrapolación lineal tradicional, no requiere asumir que la relación de edades 8-17 se extienda a edades 2-7
Selección Flexible de Modelos: La región de positividad puede utilizar métodos no paramétricos, mientras que la región de no-positividad integra información externa
Cuantificación de Incertidumbre: El algoritmo de remuestreo considera simultáneamente la estimación de parámetros del modelo estadístico y la incertidumbre de la distribución del modelo matemático

Configuración Experimental

Conjunto de Datos

Datos Principales: NHANES 2017-2018, n=2,572 niños y adolescentes de 2-17 años
Información Externa: Datos de distribución de presión arterial sistólica en niños y adolescentes estadounidenses publicados por Flynn et al.
Patrón de Falta: Presión arterial sistólica completamente faltante en niños de 2-7 años (falta por diseño), 8% faltante en edades 8-17 años

Definición de Variables

Variable de Resultado: Presión arterial sistólica (mmHg), promedio de hasta 3 mediciones
Covariables: Edad (años), altura (centímetros), peso (kilogramos), sexo
Pesos de Muestreo: Aplicación de pesos de muestreo de NHANES para inferencia poblacional estadounidense

Métodos de Comparación

Análisis de Casos Completos: Utiliza solo observaciones con mediciones de presión arterial sistólica
Extrapolación Lineal: Ajusta modelo lineal basado en datos de edades 8-17, extrapola a edades 2-7
Análisis de Sensibilidad: Análisis de límites estableciendo rango de 70-120 mmHg para presión arterial sistólica promedio en edades 2-7

Detalles de Implementación

Número de Remuestreos: 10,000 iteraciones
Intervalo de Confianza: Intervalo de confianza del 95% construido usando cuantiles 2.5% y 97.5%
Estimación Puntual: Mediana utilizada como valor puntual

Resultados Experimentales

Resultados Principales

Método	Presión Arterial Sistólica Promedio (mmHg)	Intervalo de Confianza 95%
Análisis de Casos Completos	104.7	(104.1, 105.3)
Extrapolación Lineal	101.6	(100.8, 102.4)
Modelo Sintético	100.5	(99.9, 101.0)
Análisis de Límites	92.7-109.9	(91.9, 110.5)

Hallazgos Clave

Resultado del Modelo Sintético Más Bajo: 1.1 mmHg menor que la extrapolación lineal, diferencia equivalente a 2.9 veces el error estándar del método de extrapolación
Diferencia Estadísticamente Significativa Entre Métodos: La diferencia entre el modelo sintético y otros métodos excede los rangos de incertidumbre estimados
Análisis de Límites Respalda Resultados: La estimación del modelo sintético cae dentro de rangos de límites razonables

Validación del Modelo

Mediante comparación del desempeño de modelos estadísticos y matemáticos dentro de la región de positividad:

Distribuciones de presión arterial sistólica predichas por ambos modelos muestran superposición razonable
Diferencias de medias específicas por edad cercanas a cero, aunque modelo estadístico ligeramente inferior al matemático en edades 15-17
Respalda en general la validez del modelo matemático en la región de positividad

Resultados de Análisis Extendido

Resultados considerando más covariables (sexo, altura, peso) en apéndice:

Resultado del modelo sintético permanece estable: 100.5 (99.9, 101.0)
Resultado del método de extrapolación se acerca al modelo sintético: 100.8 (97.7, 103.8)
Estimador de ponderación de probabilidad inversa aumentada produce resultados similares

Trabajo Relacionado

Métodos Tradicionales de Datos Faltantes

Métodos de Imputación: Imputación múltiple, estimación de máxima verosimilitud
Métodos de Ponderación: Ponderación de probabilidad inversa
Métodos Doblemente Robustos: Estimador de ponderación de probabilidad inversa aumentado

Métodos de Tratamiento de No-Positividad

Modificación del Problema: Restricción de población de estudio a región donde se cumple positividad
Extrapolación Paramétrica: Extrapolación usando supuestos de modelado restrictivos
Análisis de Límites: Provisión de rango de análisis de sensibilidad

Singularidad de la Contribución de Este Artículo

Primera combinación sistemática de modelos estadísticos y matemáticos
Evita modificación de problema de investigación o supuestos paramétricos fuertes
Proporciona método práctico de cuantificación de incertidumbre

Conclusiones y Discusión

Conclusiones Principales

Efectividad del Modelo Sintético: Estimación exitosa de parámetros poblacionales incluyendo regiones de no-positividad
Ventajas del Método: Evita supuestos restrictivos de métodos tradicionales, proporciona estimaciones más razonables
Valor Práctico: Ofrece solución viable para abordar falta por diseño o falta sistemática

Limitaciones

Estimación de Varianza: No considera diseño de muestreo por conglomerados de NHANES, puede subestimar incertidumbre
Complejidad del Modelo Matemático: Modelos relativamente simples actualmente, casos complejos pueden requerir modelado de procesos intermedios
Dependencia de Información Externa: Efectividad del método depende de precisión y aplicabilidad de información externa
No-Positividad Multivariada: Aplicación cuando múltiples variables simultáneamente presentan no-positividad requiere investigación adicional

Direcciones Futuras

Modelos Matemáticos Complejos: Desarrollo de modelos para procesos complejos como concentraciones de fármacos, respuestas fisiológicas
Mejora de Estimación de Varianza: Extensión de algoritmo de remuestreo para considerar diseños de muestreo complejos como conglomeración
No-Positividad Multidimensional: Investigación de casos donde múltiples variables presentan simultáneamente no-positividad
Perfeccionamiento de Métodos de Diagnóstico: Desarrollo de procedimientos de diagnóstico de validez de modelo más comprehensivos

Evaluación Profunda

Fortalezas

Innovación Metodológica Fuerte: Primera combinación sistemática de modelos estadísticos y matemáticos para abordar no-positividad
Fundamento Teórico Sólido: Basado en fundamentos sólidos de inferencia causal y teoría de datos faltantes
Practicidad Destacada: Proporciona código de implementación completo y descripción detallada de algoritmo
Validación Suficiente: Validación de efectividad del método mediante múltiples métodos de comparación y procedimientos de diagnóstico

Insuficiencias

Requisito de Información Externa: Éxito del método depende de disponibilidad de información externa de alta calidad
Complejidad Computacional: Procedimiento de remuestreo aumenta carga computacional
Limitación de Rango de Aplicación: Principalmente aplicable en casos con información externa confiable disponible
Garantías Teóricas: Carencia de análisis teórico sobre propiedades asintóticas del método

Evaluación de Impacto

Contribución Académica: Proporciona contribución metodológica importante para campos de estadística y epidemiología
Valor Práctico: Aplicación directa a problemas comunes de falta por diseño en investigación de salud pública
Reproducibilidad: Código proporcionado y descripción detallada aseguran reproducibilidad del método
Potencial de Generalización: Marco metodológico generalizable a otros campos de investigación con no-positividad

Escenarios de Aplicación

Falta por Diseño: Como restricciones de edad, consideraciones éticas que causan falta sistemática
Información Externa Abundante: Existencia de investigación confiable o conocimiento previo
Estimación de Parámetros Poblacionales: Principalmente aplicable a estimación de parámetros poblacionales en lugar de predicción individual
Investigación de Salud Pública: Particularmente adecuado para problemas de datos faltantes en encuestas epidemiológicas a gran escala

Referencias Bibliográficas

El artículo cita literatura importante en campos relacionados, incluyendo:

Revisión de Cole et al. sobre datos de resultado faltante en investigación epidemiológica
Comentario de Westreich y Cole sobre práctica de positividad
Diagnóstico y respuesta de Petersen et al. ante violaciones del supuesto de positividad
Directrices de práctica clínica de Flynn et al. sobre cribado y manejo de presión arterial en niños y adolescentes