Introduction: Accounting for missing data by imputing or weighting conditional on covariates relies on the variable with missingness being observed at least some of the time for all unique covariate values. This requirement is referred to as positivity and positivity violations can result in bias. Here, we review a novel approach to addressing positivity violations in the context of systolic blood pressure. Methods: To illustrate the proposed approach, we estimate the mean systolic blood pressure among children and adolescents aged 2-17 years old in the United States using data from the 2017-2018 National Health and Nutrition Examination Survey (NHANES). As blood pressure was not measured for those aged 2-7, there exists a positivity violation by design. Using a recently proposed synthesis of statistical and mathematical models, we integrate external information with NHANES to address our motivating question. Results: With the synthesis model, the estimated mean systolic blood pressure was 100.5 (95% confidence interval: 99.9, 101.0), which is notably lower than either a complete-case analysis or extrapolation from a statistical model. The synthesis results were supported by a diagnostic comparing the performance of the mathematical model in the positive region. Discussion: Positivity violations pose a threat to quantitative medical research, and standard approaches to addressing nonpositivity rely on restrictive untestable assumptions. Using a synthesis model, like the one detailed here, offers a viable alternative.
Contabilizzazione dei Dati Mancanti nella Ricerca di Sanità Pubblica Utilizzando una Sintesi di Modelli Statistici e Matematici
- ID Articolo: 2503.02789
- Titolo: Accounting for Missing Data in Public Health Research Using a Synthesis of Statistical and Mathematical Models
- Autori: Paul N Zivich, Bonnie E Shook-Sa, Stephen R Cole, Eric T Lofgren, Jessie K Edwards
- Classificazione: stat.AP (Statistica Applicata), stat.ME (Metodi Statistici)
- Data di Pubblicazione: 16 ottobre 2025
- Link dell'Articolo: https://arxiv.org/abs/2503.02789
Questo studio affronta il problema della violazione della positività nel trattamento dei dati mancanti nella ricerca di sanità pubblica, proponendo un approccio sintetico che combina modelli statistici e matematici. Lo studio stima la pressione arteriosa sistolica media nei bambini e negli adolescenti statunitensi di età 2-17 anni utilizzando i dati del National Health and Nutrition Examination Survey (NHANES) 2017-2018. A causa della progettazione di NHANES, che non ha misurato la pressione arteriosa nei bambini di età 2-7 anni, esiste una violazione della positività di natura progettuale. Integrando informazioni esterne con i dati NHANES, il modello sintetico stima una pressione arteriosa sistolica media di 100,5 mmHg (IC 95%: 99,9, 101,0), significativamente inferiore ai risultati dell'analisi dei casi completi o dell'estrapolazione del modello statistico.
- Importanza dell'Assunzione di Positività: Nel trattamento dei dati mancanti, l'imputazione o la ponderazione attraverso covariate dipendono dall'assunzione di positività, ovvero che per tutti i valori univoci delle covariate, la variabile mancante sia osservata almeno in alcuni casi
- Prevalenza della Violazione della Positività: Quando determinate combinazioni di covariate mancano completamente di osservazioni della variabile target, si verifica una violazione della positività, che produce distorsione
- Limitazioni dei Metodi Esistenti: I metodi tradizionali per affrontare la non-positività modificano il problema di ricerca oppure si basano su assunzioni di modellazione restrittive e non verificabili
- Significato Teorico: Fornisce un nuovo quadro teorico per affrontare la violazione della positività, evitando le assunzioni restrittive dei metodi tradizionali
- Valore Pratico: Offre una soluzione praticabile per il problema dei dati mancanti nella ricerca di sanità pubblica e clinica
- Innovazione Metodologica: Primo approccio sistematico che combina modelli statistici e matematici per affrontare il problema della non-positività
- Propone un Quadro di Modello Sintetico: Divide i dati in regioni dove la positività è soddisfatta e regioni dove è violata, trattando ciascuna con modelli statistici e matematici rispettivamente
- Sviluppa un Algoritmo di Ricampionamento: Fornisce metodi di stima della varianza che considerano l'incertezza di entrambi i modelli
- Costruisce Procedure di Diagnostica del Modello: Valida l'efficacia del metodo confrontando le prestazioni dei modelli statistici e matematici all'interno della regione di positività
- Fornisce una Soluzione di Implementazione Completa: Include codice R e Python, migliorando la riproducibilità e l'applicabilità pratica del metodo
Stimare il parametro μ=E[Y], dove Y è la pressione arteriosa sistolica, ma è completamente mancante sotto determinati valori di covariate X, violando l'assunzione di positività Pr(R=1∣X=x)>0.
I dati sono divisi in due regioni:
- Regione di Positività (X∗=1): Età 8-17 anni, con osservazioni di pressione arteriosa sistolica disponibili
- Regione di Non-Positività (X∗=0): Età 2-7 anni, pressione arteriosa sistolica completamente mancante
Il parametro può essere riscritto come:
E[Y]=E[Y∣X∗=1]Pr(X∗=1)+E[Y∣X∗=0]Pr(X∗=0)
Nella regione di positività viene utilizzato un modello saturo:
E[Y∣X,R=1,X∗=1;β]=β8I(X=8)+β9I(X=9)+⋯+β17I(X=17)
Utilizzando il metodo g-computation:
- Adattare il modello di regressione basato sui dati completi
- Prevedere la pressione arteriosa sistolica per tutte le osservazioni
- Calcolare la media ponderata del campione
Basato su informazioni pubblicate esternamente sulla distribuzione della pressione arteriosa sistolica nei bambini e negli adolescenti statunitensi:
- Utilizzare distribuzioni specifiche per età, sesso e percentile di altezza
- Assumere una distribuzione normale, con media uguale alla mediana
- Approssimare la deviazione standard dal percentile 90
- Evita Assunzioni di Estrapolazione: A differenza dell'estrapolazione lineare tradizionale, non richiede l'assunzione che la relazione 8-17 anni si estenda a 2-7 anni
- Scelta Flessibile del Modello: La regione di positività può utilizzare metodi non parametrici, mentre la regione di non-positività integra informazioni esterne
- Quantificazione dell'Incertezza: L'algoritmo di ricampionamento considera simultaneamente l'incertezza nella stima dei parametri del modello statistico e nella distribuzione del modello matematico
- Dati Principali: NHANES 2017-2018, n=2.572 bambini e adolescenti di età 2-17 anni
- Informazioni Esterne: Dati sulla distribuzione della pressione arteriosa sistolica nei bambini e negli adolescenti statunitensi pubblicati da Flynn et al.
- Modello di Dati Mancanti: Pressione arteriosa sistolica completamente mancante nei bambini di età 2-7 anni (mancanza di natura progettuale), 8% mancante nei bambini di età 8-17 anni
- Variabile di Risultato: Pressione arteriosa sistolica (mmHg), media di un massimo di 3 misurazioni
- Covariate: Età (anni), altezza (centimetri), peso (chilogrammi), sesso
- Pesi di Campionamento: Applicare i pesi di campionamento NHANES per l'inferenza sulla popolazione statunitense
- Analisi dei Casi Completi: Utilizzo solo di osservazioni con misurazioni di pressione arteriosa sistolica
- Estrapolazione Lineare: Adattare un modello lineare basato su dati di età 8-17 anni ed estrapolarlo a 2-7 anni
- Analisi di Sensibilità: Analisi dei limiti con intervallo di pressione arteriosa sistolica media 70-120 mmHg per l'età 2-7 anni
- Numero di Ricampionamenti: 10.000
- Intervallo di Confidenza: Costruito utilizzando i quantili 2,5% e 97,5% per l'intervallo di confidenza al 95%
- Stima Puntuale: Utilizzo della mediana come stima puntuale
| Metodo | Pressione Arteriosa Sistolica Media (mmHg) | IC 95% |
|---|
| Analisi dei Casi Completi | 104,7 | (104,1, 105,3) |
| Estrapolazione Lineare | 101,6 | (100,8, 102,4) |
| Modello Sintetico | 100,5 | (99,9, 101,0) |
| Analisi dei Limiti | 92,7-109,9 | (91,9, 110,5) |
- Risultato del Modello Sintetico Più Basso: 1,1 mmHg inferiore all'estrapolazione lineare, con una differenza pari a 2,9 volte l'errore standard del metodo di estrapolazione
- Differenza Statisticamente Significativa tra i Metodi: Le differenze tra il modello sintetico e altri metodi superano l'intervallo di incertezza stimato
- Analisi dei Limiti Supporta i Risultati: La stima del modello sintetico rientra in un intervallo ragionevole di limiti
Confrontando le prestazioni dei modelli statistici e matematici all'interno della regione di positività:
- Le distribuzioni di pressione arteriosa sistolica previste dai due modelli mostrano una sovrapposizione ragionevole
- Le differenze medie specifiche per età sono prossime a zero, sebbene il modello statistico per l'età 15-17 anni sia leggermente inferiore al modello matematico
- Nel complesso, supporta l'efficacia del modello matematico nella regione di positività
I risultati considerando più covariate (sesso, altezza, peso) nell'appendice:
- I risultati del modello sintetico rimangono stabili: 100,5 (99,9, 101,0)
- I risultati del metodo di estrapolazione si avvicinano al modello sintetico: 100,8 (97,7, 103,8)
- I risultati dello stimatore di ponderazione della probabilità inversa aumentato sono simili
- Metodi di Imputazione: Imputazione multipla, stima di massima verosimiglianza
- Metodi di Ponderazione: Ponderazione della probabilità inversa
- Metodi Doppiamente Robusti: Stimatore di ponderazione della probabilità inversa aumentato
- Modifica del Problema: Limitazione della popolazione di studio alle regioni dove la positività è soddisfatta
- Estrapolazione Parametrica: Utilizzo di assunzioni di modellazione restrittive per l'estrapolazione
- Analisi dei Limiti: Fornitura di intervalli di analisi di sensibilità
- Primo approccio sistematico che combina modelli statistici e matematici
- Evita la modifica del problema di ricerca o forti assunzioni parametriche
- Fornisce un metodo pratico di quantificazione dell'incertezza
- Efficacia del Modello Sintetico: Stima con successo i parametri della popolazione totale includendo la regione di non-positività
- Vantaggi del Metodo: Evita le assunzioni restrittive dei metodi tradizionali, fornendo stime più ragionevoli
- Valore Pratico: Fornisce una soluzione praticabile per affrontare i dati mancanti di natura progettuale o sistematica
- Stima della Varianza: Non considera il disegno di campionamento a grappoli di NHANES, potrebbe sottostimare l'incertezza
- Complessità del Modello Matematico: I modelli attuali sono relativamente semplici; i casi complessi potrebbero richiedere modellazione di processi intermedi
- Dipendenza da Informazioni Esterne: L'efficacia del metodo dipende dall'accuratezza e dall'applicabilità delle informazioni esterne
- Non-Positività Multivariata: L'applicazione quando più variabili presentano simultaneamente non-positività richiede ulteriori ricerche
- Modelli Matematici Complessi: Sviluppare modelli per affrontare processi complessi come concentrazioni di farmaci e risposte fisiologiche
- Miglioramento della Stima della Varianza: Estendere l'algoritmo di ricampionamento per considerare disegni di campionamento complessi come il campionamento a grappoli
- Non-Positività Multidimensionale: Ricercare situazioni in cui più variabili presentano simultaneamente non-positività
- Perfezionamento delle Procedure di Diagnostica: Sviluppare procedure di diagnostica più complete per la validità del modello
- Forte Innovazione Metodologica: Primo approccio sistematico che combina modelli statistici e matematici per affrontare la non-positività
- Fondamenti Teorici Solidi: Basato su fondamenti solidi della teoria dell'inferenza causale e della teoria dei dati mancanti
- Praticità Prominente: Fornisce codice di implementazione completo e descrizioni dettagliate degli algoritmi
- Validazione Sufficiente: Valida l'efficacia del metodo attraverso molteplici metodi di confronto e procedure di diagnostica
- Requisiti di Informazioni Esterne: Il successo del metodo dipende dalla disponibilità di informazioni esterne di alta qualità
- Complessità Computazionale: La procedura di ricampionamento aumenta l'onere computazionale
- Limitazioni dell'Ambito di Applicabilità: Principalmente applicabile a situazioni con informazioni esterne affidabili disponibili
- Garanzie Teoriche: Mancanza di analisi teoriche sulle proprietà asintotiche del metodo
- Contributo Accademico: Fornisce un importante contributo metodologico ai campi della statistica e dell'epidemiologia
- Valore Pratico: Ha valore di applicazione diretta per il problema comune dei dati mancanti di natura progettuale nella ricerca di sanità pubblica
- Riproducibilità: Il codice fornito e le descrizioni dettagliate garantiscono la riproducibilità del metodo
- Potenziale di Diffusione: Il quadro metodologico può essere generalizzato ad altri campi di ricerca con problemi di non-positività
- Dati Mancanti di Natura Progettuale: Come limitazioni di età, considerazioni etiche che causano mancanza sistematica
- Informazioni Esterne Abbondanti: Disponibilità di ricerche esterne affidabili o conoscenze precedenti
- Stima dei Parametri della Popolazione: Principalmente applicabile alla stima dei parametri della popolazione piuttosto che alla previsione individuale
- Ricerca di Sanità Pubblica: Particolarmente adatto ai problemi di dati mancanti in indagini epidemiologiche su larga scala
L'articolo cita letteratura importante nei campi correlati, inclusi:
- Revisione di Cole et al. sui dati di risultato mancanti nella ricerca epidemiologica
- Commento di Westreich e Cole sulla pratica della positività
- Diagnostica e risposta alla violazione dell'assunzione di positività di Petersen et al.
- Linee guida di pratica clinica di Flynn et al. sullo screening e la gestione della pressione arteriosa nei bambini e negli adolescenti