2025-11-15T01:58:11.277924

Accounting for Missing Data in Public Health Research Using a Synthesis of Statistical and Mathematical Models

Zivich, Shook-Sa, Cole et al.

Introduction: Accounting for missing data by imputing or weighting conditional on covariates relies on the variable with missingness being observed at least some of the time for all unique covariate values. This requirement is referred to as positivity and positivity violations can result in bias. Here, we review a novel approach to addressing positivity violations in the context of systolic blood pressure. Methods: To illustrate the proposed approach, we estimate the mean systolic blood pressure among children and adolescents aged 2-17 years old in the United States using data from the 2017-2018 National Health and Nutrition Examination Survey (NHANES). As blood pressure was not measured for those aged 2-7, there exists a positivity violation by design. Using a recently proposed synthesis of statistical and mathematical models, we integrate external information with NHANES to address our motivating question. Results: With the synthesis model, the estimated mean systolic blood pressure was 100.5 (95% confidence interval: 99.9, 101.0), which is notably lower than either a complete-case analysis or extrapolation from a statistical model. The synthesis results were supported by a diagnostic comparing the performance of the mathematical model in the positive region. Discussion: Positivity violations pose a threat to quantitative medical research, and standard approaches to addressing nonpositivity rely on restrictive untestable assumptions. Using a synthesis model, like the one detailed here, offers a viable alternative.

academic

Contabilizzazione dei Dati Mancanti nella Ricerca di Sanità Pubblica Utilizzando una Sintesi di Modelli Statistici e Matematici

Informazioni Fondamentali

ID Articolo: 2503.02789
Titolo: Accounting for Missing Data in Public Health Research Using a Synthesis of Statistical and Mathematical Models
Autori: Paul N Zivich, Bonnie E Shook-Sa, Stephen R Cole, Eric T Lofgren, Jessie K Edwards
Classificazione: stat.AP (Statistica Applicata), stat.ME (Metodi Statistici)
Data di Pubblicazione: 16 ottobre 2025
Link dell'Articolo: https://arxiv.org/abs/2503.02789

Riassunto

Questo studio affronta il problema della violazione della positività nel trattamento dei dati mancanti nella ricerca di sanità pubblica, proponendo un approccio sintetico che combina modelli statistici e matematici. Lo studio stima la pressione arteriosa sistolica media nei bambini e negli adolescenti statunitensi di età 2-17 anni utilizzando i dati del National Health and Nutrition Examination Survey (NHANES) 2017-2018. A causa della progettazione di NHANES, che non ha misurato la pressione arteriosa nei bambini di età 2-7 anni, esiste una violazione della positività di natura progettuale. Integrando informazioni esterne con i dati NHANES, il modello sintetico stima una pressione arteriosa sistolica media di 100,5 mmHg (IC 95%: 99,9, 101,0), significativamente inferiore ai risultati dell'analisi dei casi completi o dell'estrapolazione del modello statistico.

Contesto di Ricerca e Motivazione

Identificazione dei Problemi Fondamentali

Importanza dell'Assunzione di Positività: Nel trattamento dei dati mancanti, l'imputazione o la ponderazione attraverso covariate dipendono dall'assunzione di positività, ovvero che per tutti i valori univoci delle covariate, la variabile mancante sia osservata almeno in alcuni casi
Prevalenza della Violazione della Positività: Quando determinate combinazioni di covariate mancano completamente di osservazioni della variabile target, si verifica una violazione della positività, che produce distorsione
Limitazioni dei Metodi Esistenti: I metodi tradizionali per affrontare la non-positività modificano il problema di ricerca oppure si basano su assunzioni di modellazione restrittive e non verificabili

Significato della Ricerca

Significato Teorico: Fornisce un nuovo quadro teorico per affrontare la violazione della positività, evitando le assunzioni restrittive dei metodi tradizionali
Valore Pratico: Offre una soluzione praticabile per il problema dei dati mancanti nella ricerca di sanità pubblica e clinica
Innovazione Metodologica: Primo approccio sistematico che combina modelli statistici e matematici per affrontare il problema della non-positività

Contributi Fondamentali

Propone un Quadro di Modello Sintetico: Divide i dati in regioni dove la positività è soddisfatta e regioni dove è violata, trattando ciascuna con modelli statistici e matematici rispettivamente
Sviluppa un Algoritmo di Ricampionamento: Fornisce metodi di stima della varianza che considerano l'incertezza di entrambi i modelli
Costruisce Procedure di Diagnostica del Modello: Valida l'efficacia del metodo confrontando le prestazioni dei modelli statistici e matematici all'interno della regione di positività
Fornisce una Soluzione di Implementazione Completa: Include codice R e Python, migliorando la riproducibilità e l'applicabilità pratica del metodo

Dettagli Metodologici

Definizione del Compito

Stimare il parametro $\mu = E[Y]$ , dove $Y$ è la pressione arteriosa sistolica, ma è completamente mancante sotto determinati valori di covariate $X$ , violando l'assunzione di positività $Pr(R = 1 | X = x) > 0$ .

Architettura del Modello

1. Strategia di Partizione dei Dati

I dati sono divisi in due regioni:

Regione di Positività ( $X^* = 1$ ): Età 8-17 anni, con osservazioni di pressione arteriosa sistolica disponibili
Regione di Non-Positività ( $X^* = 0$ ): Età 2-7 anni, pressione arteriosa sistolica completamente mancante

Il parametro può essere riscritto come: $E[Y] = E[Y | X^* = 1]Pr(X^* = 1) + E[Y | X^* = 0]Pr(X^* = 0)$

2. Modello Statistico (Regione di Positività)

Nella regione di positività viene utilizzato un modello saturo: $E[Y | X, R = 1, X^* = 1; \beta] = \beta_8 I(X = 8) + \beta_9 I(X = 9) + \cdots + \beta_{17} I(X = 17)$

Utilizzando il metodo g-computation:

Adattare il modello di regressione basato sui dati completi
Prevedere la pressione arteriosa sistolica per tutte le osservazioni
Calcolare la media ponderata del campione

3. Modello Matematico (Regione di Non-Positività)

Basato su informazioni pubblicate esternamente sulla distribuzione della pressione arteriosa sistolica nei bambini e negli adolescenti statunitensi:

Utilizzare distribuzioni specifiche per età, sesso e percentile di altezza
Assumere una distribuzione normale, con media uguale alla mediana
Approssimare la deviazione standard dal percentile 90

Punti di Innovazione Tecnica

Evita Assunzioni di Estrapolazione: A differenza dell'estrapolazione lineare tradizionale, non richiede l'assunzione che la relazione 8-17 anni si estenda a 2-7 anni
Scelta Flessibile del Modello: La regione di positività può utilizzare metodi non parametrici, mentre la regione di non-positività integra informazioni esterne
Quantificazione dell'Incertezza: L'algoritmo di ricampionamento considera simultaneamente l'incertezza nella stima dei parametri del modello statistico e nella distribuzione del modello matematico

Configurazione Sperimentale

Dataset

Dati Principali: NHANES 2017-2018, n=2.572 bambini e adolescenti di età 2-17 anni
Informazioni Esterne: Dati sulla distribuzione della pressione arteriosa sistolica nei bambini e negli adolescenti statunitensi pubblicati da Flynn et al.
Modello di Dati Mancanti: Pressione arteriosa sistolica completamente mancante nei bambini di età 2-7 anni (mancanza di natura progettuale), 8% mancante nei bambini di età 8-17 anni

Definizione delle Variabili

Variabile di Risultato: Pressione arteriosa sistolica (mmHg), media di un massimo di 3 misurazioni
Covariate: Età (anni), altezza (centimetri), peso (chilogrammi), sesso
Pesi di Campionamento: Applicare i pesi di campionamento NHANES per l'inferenza sulla popolazione statunitense

Metodi di Confronto

Analisi dei Casi Completi: Utilizzo solo di osservazioni con misurazioni di pressione arteriosa sistolica
Estrapolazione Lineare: Adattare un modello lineare basato su dati di età 8-17 anni ed estrapolarlo a 2-7 anni
Analisi di Sensibilità: Analisi dei limiti con intervallo di pressione arteriosa sistolica media 70-120 mmHg per l'età 2-7 anni

Dettagli di Implementazione

Numero di Ricampionamenti: 10.000
Intervallo di Confidenza: Costruito utilizzando i quantili 2,5% e 97,5% per l'intervallo di confidenza al 95%
Stima Puntuale: Utilizzo della mediana come stima puntuale

Risultati Sperimentali

Risultati Principali

Metodo	Pressione Arteriosa Sistolica Media (mmHg)	IC 95%
Analisi dei Casi Completi	104,7	(104,1, 105,3)
Estrapolazione Lineare	101,6	(100,8, 102,4)
Modello Sintetico	100,5	(99,9, 101,0)
Analisi dei Limiti	92,7-109,9	(91,9, 110,5)

Risultati Chiave

Risultato del Modello Sintetico Più Basso: 1,1 mmHg inferiore all'estrapolazione lineare, con una differenza pari a 2,9 volte l'errore standard del metodo di estrapolazione
Differenza Statisticamente Significativa tra i Metodi: Le differenze tra il modello sintetico e altri metodi superano l'intervallo di incertezza stimato
Analisi dei Limiti Supporta i Risultati: La stima del modello sintetico rientra in un intervallo ragionevole di limiti

Validazione del Modello

Confrontando le prestazioni dei modelli statistici e matematici all'interno della regione di positività:

Le distribuzioni di pressione arteriosa sistolica previste dai due modelli mostrano una sovrapposizione ragionevole
Le differenze medie specifiche per età sono prossime a zero, sebbene il modello statistico per l'età 15-17 anni sia leggermente inferiore al modello matematico
Nel complesso, supporta l'efficacia del modello matematico nella regione di positività

Risultati dell'Analisi Estesa

I risultati considerando più covariate (sesso, altezza, peso) nell'appendice:

I risultati del modello sintetico rimangono stabili: 100,5 (99,9, 101,0)
I risultati del metodo di estrapolazione si avvicinano al modello sintetico: 100,8 (97,7, 103,8)
I risultati dello stimatore di ponderazione della probabilità inversa aumentato sono simili

Lavori Correlati

Metodi Tradizionali di Dati Mancanti

Metodi di Imputazione: Imputazione multipla, stima di massima verosimiglianza
Metodi di Ponderazione: Ponderazione della probabilità inversa
Metodi Doppiamente Robusti: Stimatore di ponderazione della probabilità inversa aumentato

Metodi di Trattamento della Non-Positività

Modifica del Problema: Limitazione della popolazione di studio alle regioni dove la positività è soddisfatta
Estrapolazione Parametrica: Utilizzo di assunzioni di modellazione restrittive per l'estrapolazione
Analisi dei Limiti: Fornitura di intervalli di analisi di sensibilità

Unicità del Contributo di questo Articolo

Primo approccio sistematico che combina modelli statistici e matematici
Evita la modifica del problema di ricerca o forti assunzioni parametriche
Fornisce un metodo pratico di quantificazione dell'incertezza

Conclusioni e Discussione

Conclusioni Principali

Efficacia del Modello Sintetico: Stima con successo i parametri della popolazione totale includendo la regione di non-positività
Vantaggi del Metodo: Evita le assunzioni restrittive dei metodi tradizionali, fornendo stime più ragionevoli
Valore Pratico: Fornisce una soluzione praticabile per affrontare i dati mancanti di natura progettuale o sistematica

Limitazioni

Stima della Varianza: Non considera il disegno di campionamento a grappoli di NHANES, potrebbe sottostimare l'incertezza
Complessità del Modello Matematico: I modelli attuali sono relativamente semplici; i casi complessi potrebbero richiedere modellazione di processi intermedi
Dipendenza da Informazioni Esterne: L'efficacia del metodo dipende dall'accuratezza e dall'applicabilità delle informazioni esterne
Non-Positività Multivariata: L'applicazione quando più variabili presentano simultaneamente non-positività richiede ulteriori ricerche

Direzioni Future

Modelli Matematici Complessi: Sviluppare modelli per affrontare processi complessi come concentrazioni di farmaci e risposte fisiologiche
Miglioramento della Stima della Varianza: Estendere l'algoritmo di ricampionamento per considerare disegni di campionamento complessi come il campionamento a grappoli
Non-Positività Multidimensionale: Ricercare situazioni in cui più variabili presentano simultaneamente non-positività
Perfezionamento delle Procedure di Diagnostica: Sviluppare procedure di diagnostica più complete per la validità del modello

Valutazione Approfondita

Punti di Forza

Forte Innovazione Metodologica: Primo approccio sistematico che combina modelli statistici e matematici per affrontare la non-positività
Fondamenti Teorici Solidi: Basato su fondamenti solidi della teoria dell'inferenza causale e della teoria dei dati mancanti
Praticità Prominente: Fornisce codice di implementazione completo e descrizioni dettagliate degli algoritmi
Validazione Sufficiente: Valida l'efficacia del metodo attraverso molteplici metodi di confronto e procedure di diagnostica

Insufficienze

Requisiti di Informazioni Esterne: Il successo del metodo dipende dalla disponibilità di informazioni esterne di alta qualità
Complessità Computazionale: La procedura di ricampionamento aumenta l'onere computazionale
Limitazioni dell'Ambito di Applicabilità: Principalmente applicabile a situazioni con informazioni esterne affidabili disponibili
Garanzie Teoriche: Mancanza di analisi teoriche sulle proprietà asintotiche del metodo

Valutazione dell'Impatto

Contributo Accademico: Fornisce un importante contributo metodologico ai campi della statistica e dell'epidemiologia
Valore Pratico: Ha valore di applicazione diretta per il problema comune dei dati mancanti di natura progettuale nella ricerca di sanità pubblica
Riproducibilità: Il codice fornito e le descrizioni dettagliate garantiscono la riproducibilità del metodo
Potenziale di Diffusione: Il quadro metodologico può essere generalizzato ad altri campi di ricerca con problemi di non-positività

Scenari di Applicabilità

Dati Mancanti di Natura Progettuale: Come limitazioni di età, considerazioni etiche che causano mancanza sistematica
Informazioni Esterne Abbondanti: Disponibilità di ricerche esterne affidabili o conoscenze precedenti
Stima dei Parametri della Popolazione: Principalmente applicabile alla stima dei parametri della popolazione piuttosto che alla previsione individuale
Ricerca di Sanità Pubblica: Particolarmente adatto ai problemi di dati mancanti in indagini epidemiologiche su larga scala

Bibliografia

L'articolo cita letteratura importante nei campi correlati, inclusi:

Revisione di Cole et al. sui dati di risultato mancanti nella ricerca epidemiologica
Commento di Westreich e Cole sulla pratica della positività
Diagnostica e risposta alla violazione dell'assunzione di positività di Petersen et al.
Linee guida di pratica clinica di Flynn et al. sullo screening e la gestione della pressione arteriosa nei bambini e negli adolescenti