2025-11-15T01:58:11.277924

Accounting for Missing Data in Public Health Research Using a Synthesis of Statistical and Mathematical Models

Zivich, Shook-Sa, Cole et al.
Introduction: Accounting for missing data by imputing or weighting conditional on covariates relies on the variable with missingness being observed at least some of the time for all unique covariate values. This requirement is referred to as positivity and positivity violations can result in bias. Here, we review a novel approach to addressing positivity violations in the context of systolic blood pressure. Methods: To illustrate the proposed approach, we estimate the mean systolic blood pressure among children and adolescents aged 2-17 years old in the United States using data from the 2017-2018 National Health and Nutrition Examination Survey (NHANES). As blood pressure was not measured for those aged 2-7, there exists a positivity violation by design. Using a recently proposed synthesis of statistical and mathematical models, we integrate external information with NHANES to address our motivating question. Results: With the synthesis model, the estimated mean systolic blood pressure was 100.5 (95% confidence interval: 99.9, 101.0), which is notably lower than either a complete-case analysis or extrapolation from a statistical model. The synthesis results were supported by a diagnostic comparing the performance of the mathematical model in the positive region. Discussion: Positivity violations pose a threat to quantitative medical research, and standard approaches to addressing nonpositivity rely on restrictive untestable assumptions. Using a synthesis model, like the one detailed here, offers a viable alternative.
academic

Contabilizzazione dei Dati Mancanti nella Ricerca di Sanità Pubblica Utilizzando una Sintesi di Modelli Statistici e Matematici

Informazioni Fondamentali

  • ID Articolo: 2503.02789
  • Titolo: Accounting for Missing Data in Public Health Research Using a Synthesis of Statistical and Mathematical Models
  • Autori: Paul N Zivich, Bonnie E Shook-Sa, Stephen R Cole, Eric T Lofgren, Jessie K Edwards
  • Classificazione: stat.AP (Statistica Applicata), stat.ME (Metodi Statistici)
  • Data di Pubblicazione: 16 ottobre 2025
  • Link dell'Articolo: https://arxiv.org/abs/2503.02789

Riassunto

Questo studio affronta il problema della violazione della positività nel trattamento dei dati mancanti nella ricerca di sanità pubblica, proponendo un approccio sintetico che combina modelli statistici e matematici. Lo studio stima la pressione arteriosa sistolica media nei bambini e negli adolescenti statunitensi di età 2-17 anni utilizzando i dati del National Health and Nutrition Examination Survey (NHANES) 2017-2018. A causa della progettazione di NHANES, che non ha misurato la pressione arteriosa nei bambini di età 2-7 anni, esiste una violazione della positività di natura progettuale. Integrando informazioni esterne con i dati NHANES, il modello sintetico stima una pressione arteriosa sistolica media di 100,5 mmHg (IC 95%: 99,9, 101,0), significativamente inferiore ai risultati dell'analisi dei casi completi o dell'estrapolazione del modello statistico.

Contesto di Ricerca e Motivazione

Identificazione dei Problemi Fondamentali

  1. Importanza dell'Assunzione di Positività: Nel trattamento dei dati mancanti, l'imputazione o la ponderazione attraverso covariate dipendono dall'assunzione di positività, ovvero che per tutti i valori univoci delle covariate, la variabile mancante sia osservata almeno in alcuni casi
  2. Prevalenza della Violazione della Positività: Quando determinate combinazioni di covariate mancano completamente di osservazioni della variabile target, si verifica una violazione della positività, che produce distorsione
  3. Limitazioni dei Metodi Esistenti: I metodi tradizionali per affrontare la non-positività modificano il problema di ricerca oppure si basano su assunzioni di modellazione restrittive e non verificabili

Significato della Ricerca

  • Significato Teorico: Fornisce un nuovo quadro teorico per affrontare la violazione della positività, evitando le assunzioni restrittive dei metodi tradizionali
  • Valore Pratico: Offre una soluzione praticabile per il problema dei dati mancanti nella ricerca di sanità pubblica e clinica
  • Innovazione Metodologica: Primo approccio sistematico che combina modelli statistici e matematici per affrontare il problema della non-positività

Contributi Fondamentali

  1. Propone un Quadro di Modello Sintetico: Divide i dati in regioni dove la positività è soddisfatta e regioni dove è violata, trattando ciascuna con modelli statistici e matematici rispettivamente
  2. Sviluppa un Algoritmo di Ricampionamento: Fornisce metodi di stima della varianza che considerano l'incertezza di entrambi i modelli
  3. Costruisce Procedure di Diagnostica del Modello: Valida l'efficacia del metodo confrontando le prestazioni dei modelli statistici e matematici all'interno della regione di positività
  4. Fornisce una Soluzione di Implementazione Completa: Include codice R e Python, migliorando la riproducibilità e l'applicabilità pratica del metodo

Dettagli Metodologici

Definizione del Compito

Stimare il parametro μ=E[Y]\mu = E[Y], dove YY è la pressione arteriosa sistolica, ma è completamente mancante sotto determinati valori di covariate XX, violando l'assunzione di positività Pr(R=1X=x)>0Pr(R = 1 | X = x) > 0.

Architettura del Modello

1. Strategia di Partizione dei Dati

I dati sono divisi in due regioni:

  • Regione di Positività (X=1X^* = 1): Età 8-17 anni, con osservazioni di pressione arteriosa sistolica disponibili
  • Regione di Non-Positività (X=0X^* = 0): Età 2-7 anni, pressione arteriosa sistolica completamente mancante

Il parametro può essere riscritto come: E[Y]=E[YX=1]Pr(X=1)+E[YX=0]Pr(X=0)E[Y] = E[Y | X^* = 1]Pr(X^* = 1) + E[Y | X^* = 0]Pr(X^* = 0)

2. Modello Statistico (Regione di Positività)

Nella regione di positività viene utilizzato un modello saturo: E[YX,R=1,X=1;β]=β8I(X=8)+β9I(X=9)++β17I(X=17)E[Y | X, R = 1, X^* = 1; \beta] = \beta_8 I(X = 8) + \beta_9 I(X = 9) + \cdots + \beta_{17} I(X = 17)

Utilizzando il metodo g-computation:

  • Adattare il modello di regressione basato sui dati completi
  • Prevedere la pressione arteriosa sistolica per tutte le osservazioni
  • Calcolare la media ponderata del campione

3. Modello Matematico (Regione di Non-Positività)

Basato su informazioni pubblicate esternamente sulla distribuzione della pressione arteriosa sistolica nei bambini e negli adolescenti statunitensi:

  • Utilizzare distribuzioni specifiche per età, sesso e percentile di altezza
  • Assumere una distribuzione normale, con media uguale alla mediana
  • Approssimare la deviazione standard dal percentile 90

Punti di Innovazione Tecnica

  1. Evita Assunzioni di Estrapolazione: A differenza dell'estrapolazione lineare tradizionale, non richiede l'assunzione che la relazione 8-17 anni si estenda a 2-7 anni
  2. Scelta Flessibile del Modello: La regione di positività può utilizzare metodi non parametrici, mentre la regione di non-positività integra informazioni esterne
  3. Quantificazione dell'Incertezza: L'algoritmo di ricampionamento considera simultaneamente l'incertezza nella stima dei parametri del modello statistico e nella distribuzione del modello matematico

Configurazione Sperimentale

Dataset

  • Dati Principali: NHANES 2017-2018, n=2.572 bambini e adolescenti di età 2-17 anni
  • Informazioni Esterne: Dati sulla distribuzione della pressione arteriosa sistolica nei bambini e negli adolescenti statunitensi pubblicati da Flynn et al.
  • Modello di Dati Mancanti: Pressione arteriosa sistolica completamente mancante nei bambini di età 2-7 anni (mancanza di natura progettuale), 8% mancante nei bambini di età 8-17 anni

Definizione delle Variabili

  • Variabile di Risultato: Pressione arteriosa sistolica (mmHg), media di un massimo di 3 misurazioni
  • Covariate: Età (anni), altezza (centimetri), peso (chilogrammi), sesso
  • Pesi di Campionamento: Applicare i pesi di campionamento NHANES per l'inferenza sulla popolazione statunitense

Metodi di Confronto

  1. Analisi dei Casi Completi: Utilizzo solo di osservazioni con misurazioni di pressione arteriosa sistolica
  2. Estrapolazione Lineare: Adattare un modello lineare basato su dati di età 8-17 anni ed estrapolarlo a 2-7 anni
  3. Analisi di Sensibilità: Analisi dei limiti con intervallo di pressione arteriosa sistolica media 70-120 mmHg per l'età 2-7 anni

Dettagli di Implementazione

  • Numero di Ricampionamenti: 10.000
  • Intervallo di Confidenza: Costruito utilizzando i quantili 2,5% e 97,5% per l'intervallo di confidenza al 95%
  • Stima Puntuale: Utilizzo della mediana come stima puntuale

Risultati Sperimentali

Risultati Principali

MetodoPressione Arteriosa Sistolica Media (mmHg)IC 95%
Analisi dei Casi Completi104,7(104,1, 105,3)
Estrapolazione Lineare101,6(100,8, 102,4)
Modello Sintetico100,5(99,9, 101,0)
Analisi dei Limiti92,7-109,9(91,9, 110,5)

Risultati Chiave

  1. Risultato del Modello Sintetico Più Basso: 1,1 mmHg inferiore all'estrapolazione lineare, con una differenza pari a 2,9 volte l'errore standard del metodo di estrapolazione
  2. Differenza Statisticamente Significativa tra i Metodi: Le differenze tra il modello sintetico e altri metodi superano l'intervallo di incertezza stimato
  3. Analisi dei Limiti Supporta i Risultati: La stima del modello sintetico rientra in un intervallo ragionevole di limiti

Validazione del Modello

Confrontando le prestazioni dei modelli statistici e matematici all'interno della regione di positività:

  • Le distribuzioni di pressione arteriosa sistolica previste dai due modelli mostrano una sovrapposizione ragionevole
  • Le differenze medie specifiche per età sono prossime a zero, sebbene il modello statistico per l'età 15-17 anni sia leggermente inferiore al modello matematico
  • Nel complesso, supporta l'efficacia del modello matematico nella regione di positività

Risultati dell'Analisi Estesa

I risultati considerando più covariate (sesso, altezza, peso) nell'appendice:

  • I risultati del modello sintetico rimangono stabili: 100,5 (99,9, 101,0)
  • I risultati del metodo di estrapolazione si avvicinano al modello sintetico: 100,8 (97,7, 103,8)
  • I risultati dello stimatore di ponderazione della probabilità inversa aumentato sono simili

Lavori Correlati

Metodi Tradizionali di Dati Mancanti

  1. Metodi di Imputazione: Imputazione multipla, stima di massima verosimiglianza
  2. Metodi di Ponderazione: Ponderazione della probabilità inversa
  3. Metodi Doppiamente Robusti: Stimatore di ponderazione della probabilità inversa aumentato

Metodi di Trattamento della Non-Positività

  1. Modifica del Problema: Limitazione della popolazione di studio alle regioni dove la positività è soddisfatta
  2. Estrapolazione Parametrica: Utilizzo di assunzioni di modellazione restrittive per l'estrapolazione
  3. Analisi dei Limiti: Fornitura di intervalli di analisi di sensibilità

Unicità del Contributo di questo Articolo

  • Primo approccio sistematico che combina modelli statistici e matematici
  • Evita la modifica del problema di ricerca o forti assunzioni parametriche
  • Fornisce un metodo pratico di quantificazione dell'incertezza

Conclusioni e Discussione

Conclusioni Principali

  1. Efficacia del Modello Sintetico: Stima con successo i parametri della popolazione totale includendo la regione di non-positività
  2. Vantaggi del Metodo: Evita le assunzioni restrittive dei metodi tradizionali, fornendo stime più ragionevoli
  3. Valore Pratico: Fornisce una soluzione praticabile per affrontare i dati mancanti di natura progettuale o sistematica

Limitazioni

  1. Stima della Varianza: Non considera il disegno di campionamento a grappoli di NHANES, potrebbe sottostimare l'incertezza
  2. Complessità del Modello Matematico: I modelli attuali sono relativamente semplici; i casi complessi potrebbero richiedere modellazione di processi intermedi
  3. Dipendenza da Informazioni Esterne: L'efficacia del metodo dipende dall'accuratezza e dall'applicabilità delle informazioni esterne
  4. Non-Positività Multivariata: L'applicazione quando più variabili presentano simultaneamente non-positività richiede ulteriori ricerche

Direzioni Future

  1. Modelli Matematici Complessi: Sviluppare modelli per affrontare processi complessi come concentrazioni di farmaci e risposte fisiologiche
  2. Miglioramento della Stima della Varianza: Estendere l'algoritmo di ricampionamento per considerare disegni di campionamento complessi come il campionamento a grappoli
  3. Non-Positività Multidimensionale: Ricercare situazioni in cui più variabili presentano simultaneamente non-positività
  4. Perfezionamento delle Procedure di Diagnostica: Sviluppare procedure di diagnostica più complete per la validità del modello

Valutazione Approfondita

Punti di Forza

  1. Forte Innovazione Metodologica: Primo approccio sistematico che combina modelli statistici e matematici per affrontare la non-positività
  2. Fondamenti Teorici Solidi: Basato su fondamenti solidi della teoria dell'inferenza causale e della teoria dei dati mancanti
  3. Praticità Prominente: Fornisce codice di implementazione completo e descrizioni dettagliate degli algoritmi
  4. Validazione Sufficiente: Valida l'efficacia del metodo attraverso molteplici metodi di confronto e procedure di diagnostica

Insufficienze

  1. Requisiti di Informazioni Esterne: Il successo del metodo dipende dalla disponibilità di informazioni esterne di alta qualità
  2. Complessità Computazionale: La procedura di ricampionamento aumenta l'onere computazionale
  3. Limitazioni dell'Ambito di Applicabilità: Principalmente applicabile a situazioni con informazioni esterne affidabili disponibili
  4. Garanzie Teoriche: Mancanza di analisi teoriche sulle proprietà asintotiche del metodo

Valutazione dell'Impatto

  1. Contributo Accademico: Fornisce un importante contributo metodologico ai campi della statistica e dell'epidemiologia
  2. Valore Pratico: Ha valore di applicazione diretta per il problema comune dei dati mancanti di natura progettuale nella ricerca di sanità pubblica
  3. Riproducibilità: Il codice fornito e le descrizioni dettagliate garantiscono la riproducibilità del metodo
  4. Potenziale di Diffusione: Il quadro metodologico può essere generalizzato ad altri campi di ricerca con problemi di non-positività

Scenari di Applicabilità

  1. Dati Mancanti di Natura Progettuale: Come limitazioni di età, considerazioni etiche che causano mancanza sistematica
  2. Informazioni Esterne Abbondanti: Disponibilità di ricerche esterne affidabili o conoscenze precedenti
  3. Stima dei Parametri della Popolazione: Principalmente applicabile alla stima dei parametri della popolazione piuttosto che alla previsione individuale
  4. Ricerca di Sanità Pubblica: Particolarmente adatto ai problemi di dati mancanti in indagini epidemiologiche su larga scala

Bibliografia

L'articolo cita letteratura importante nei campi correlati, inclusi:

  • Revisione di Cole et al. sui dati di risultato mancanti nella ricerca epidemiologica
  • Commento di Westreich e Cole sulla pratica della positività
  • Diagnostica e risposta alla violazione dell'assunzione di positività di Petersen et al.
  • Linee guida di pratica clinica di Flynn et al. sullo screening e la gestione della pressione arteriosa nei bambini e negli adolescenti