2025-11-15T01:58:11.277924

Accounting for Missing Data in Public Health Research Using a Synthesis of Statistical and Mathematical Models

Zivich, Shook-Sa, Cole et al.
Introduction: Accounting for missing data by imputing or weighting conditional on covariates relies on the variable with missingness being observed at least some of the time for all unique covariate values. This requirement is referred to as positivity and positivity violations can result in bias. Here, we review a novel approach to addressing positivity violations in the context of systolic blood pressure. Methods: To illustrate the proposed approach, we estimate the mean systolic blood pressure among children and adolescents aged 2-17 years old in the United States using data from the 2017-2018 National Health and Nutrition Examination Survey (NHANES). As blood pressure was not measured for those aged 2-7, there exists a positivity violation by design. Using a recently proposed synthesis of statistical and mathematical models, we integrate external information with NHANES to address our motivating question. Results: With the synthesis model, the estimated mean systolic blood pressure was 100.5 (95% confidence interval: 99.9, 101.0), which is notably lower than either a complete-case analysis or extrapolation from a statistical model. The synthesis results were supported by a diagnostic comparing the performance of the mathematical model in the positive region. Discussion: Positivity violations pose a threat to quantitative medical research, and standard approaches to addressing nonpositivity rely on restrictive untestable assumptions. Using a synthesis model, like the one detailed here, offers a viable alternative.
academic

Berücksichtigung fehlender Daten in der öffentlichen Gesundheitsforschung unter Verwendung einer Synthese statistischer und mathematischer Modelle

Grundinformationen

  • Papier-ID: 2503.02789
  • Titel: Accounting for Missing Data in Public Health Research Using a Synthesis of Statistical and Mathematical Models
  • Autoren: Paul N Zivich, Bonnie E Shook-Sa, Stephen R Cole, Eric T Lofgren, Jessie K Edwards
  • Klassifizierung: stat.AP (Angewandte Statistik), stat.ME (Statistische Methoden)
  • Veröffentlichungsdatum: 16. Oktober 2025
  • Papier-Link: https://arxiv.org/abs/2503.02789

Zusammenfassung

Diese Studie befasst sich mit Verletzungen der Positivitätsannahme bei der Behandlung fehlender Daten in der öffentlichen Gesundheitsforschung und schlägt einen integrierten Ansatz vor, der statistische und mathematische Modelle kombiniert. Die Studie verwendet Daten der National Health and Nutrition Examination Survey (NHANES) 2017-2018 zur Schätzung des mittleren systolischen Blutdrucks bei amerikanischen Kindern und Jugendlichen im Alter von 2-17 Jahren. Aufgrund des NHANES-Designs wurden bei Kindern im Alter von 2-7 Jahren keine Blutdruckmessungen durchgeführt, was zu einer designbedingten Positivitätsverletzung führt. Durch die Integration externer Informationen mit NHANES-Daten schätzt das integrierte Modell einen mittleren systolischen Blutdruck von 100,5 mmHg (95% KI: 99,9, 101,0), was deutlich unter den Ergebnissen der vollständigen Fallanalyse oder der statistischen Modellextrapolation liegt.

Forschungshintergrund und Motivation

Identifizierung von Kernproblemen

  1. Bedeutung der Positivitätsannahme: Bei der Behandlung fehlender Daten hängt die Imputation oder Gewichtung durch Kovariaten von der Positivitätsannahme ab, d. h., für alle eindeutigen Kovariatenwerte wird die fehlende Variable mindestens manchmal beobachtet
  2. Verbreitung von Positivitätsverletzungen: Wenn bestimmte Kovariatenkombinationen vollständig fehlende Beobachtungen der Zielvariablen aufweisen, führt dies zu Positivitätsverletzungen und damit zu Verzerrungen
  3. Einschränkungen bestehender Methoden: Herkömmliche Methoden zur Behandlung von Nicht-Positivität ändern entweder die Forschungsfrage oder beruhen auf restriktiven, nicht überprüfbaren Modellierungsannahmen

Forschungsbedeutung

  • Theoretische Bedeutung: Bietet einen neuen theoretischen Rahmen für die Behandlung von Positivitätsverletzungen und vermeidet restriktive Annahmen herkömmlicher Methoden
  • Praktischer Wert: Bietet praktikable Lösungen für Probleme fehlender Daten in der öffentlichen Gesundheit und klinischer Forschung
  • Methodische Innovation: Erste systematische Kombination statistischer und mathematischer Modelle zur Behandlung von Nicht-Positivitätsproblemen

Kernbeiträge

  1. Vorschlag eines integrierten Modellrahmens: Unterteilt Daten in Regionen mit erfüllter Positivität und Verletzungsregionen und behandelt diese mit statistischen bzw. mathematischen Modellen
  2. Entwicklung eines Resampling-Algorithmus: Bietet Varianzschätzungsmethoden, die die Unsicherheit beider Modelle berücksichtigen
  3. Konstruktion von Modelldiagnoseverfahren: Validiert die Methodeneffektivität durch Vergleich der Leistung statistischer und mathematischer Modelle in der Positivitätsregion
  4. Bereitstellung einer vollständigen Implementierungslösung: Einschließlich R- und Python-Code zur Verbesserung der Reproduzierbarkeit und Praktikabilität der Methode

Methodische Details

Aufgabendefinition

Schätzung des Parameters μ=E[Y]\mu = E[Y], wobei YY der systolische Blutdruck ist, aber bei bestimmten Kovariatenwerten XX vollständig fehlt und die Positivitätsannahme Pr(R=1X=x)>0Pr(R = 1 | X = x) > 0 verletzt.

Modellarchitektur

1. Datenteilungsstrategie

Unterteilt Daten in zwei Regionen:

  • Positivitätsregion (X=1X^* = 1): Alter 8-17 Jahre mit vorhandenen systolischen Blutdruckmessungen
  • Nicht-Positivitätsregion (X=0X^* = 0): Alter 2-7 Jahre mit vollständig fehlenden systolischen Blutdruckmessungen

Der Parameter kann umgeschrieben werden als: E[Y]=E[YX=1]Pr(X=1)+E[YX=0]Pr(X=0)E[Y] = E[Y | X^* = 1]Pr(X^* = 1) + E[Y | X^* = 0]Pr(X^* = 0)

2. Statistisches Modell (Positivitätsregion)

Verwendung eines gesättigten Modells in der Positivitätsregion: E[YX,R=1,X=1;β]=β8I(X=8)+β9I(X=9)++β17I(X=17)E[Y | X, R = 1, X^* = 1; \beta] = \beta_8 I(X = 8) + \beta_9 I(X = 9) + \cdots + \beta_{17} I(X = 17)

Anwendung der g-Computation-Methode:

  • Anpassung eines Regressionsmodells basierend auf vollständigen Daten
  • Vorhersage des systolischen Blutdrucks für alle Beobachtungen
  • Berechnung des gewichteten Stichprobenmittelwerts

3. Mathematisches Modell (Nicht-Positivitätsregion)

Basierend auf extern veröffentlichten Informationen zur Verteilung des systolischen Blutdrucks bei amerikanischen Kindern und Jugendlichen:

  • Verwendung alters-, geschlechts- und größenperzenilspezifischer Verteilungen
  • Annahme einer Normalverteilung mit Mittelwert gleich dem Median
  • Standardabweichung approximiert durch das 90. Perzentil

Technische Innovationspunkte

  1. Vermeidung von Extrapolationsannahmen: Im Gegensatz zur herkömmlichen linearen Extrapolation ist keine Annahme erforderlich, dass sich die Beziehung der 8-17-Jährigen auf 2-7-Jährige erstreckt
  2. Flexible Modellwahl: Die Positivitätsregion kann nichtparametrische Methoden verwenden, die Nicht-Positivitätsregion integriert externe Informationen
  3. Quantifizierung der Unsicherheit: Der Resampling-Algorithmus berücksichtigt gleichzeitig die Unsicherheit der Parameterschätzung des statistischen Modells und die Verteilung des mathematischen Modells

Experimentelle Einrichtung

Datensatz

  • Hauptdaten: NHANES 2017-2018, n=2.572 Kinder und Jugendliche im Alter von 2-17 Jahren
  • Externe Informationen: Von Flynn et al. veröffentlichte Daten zur Verteilung des systolischen Blutdrucks bei amerikanischen Kindern und Jugendlichen
  • Fehlmuster: Systolischer Blutdruck bei 2-7-Jährigen vollständig fehlend (designbedingt), bei 8-17-Jährigen 8% fehlend

Variablendefinition

  • Ergebnisvariable: Systolischer Blutdruck (mmHg), Durchschnitt von bis zu 3 Messungen
  • Kovariaten: Alter (Jahre), Größe (Zentimeter), Gewicht (Kilogramm), Geschlecht
  • Stichprobengewichte: Anwendung von NHANES-Stichprobengewichten für Rückschlüsse auf die amerikanische Bevölkerung

Vergleichsmethoden

  1. Vollständige Fallanalyse: Verwendung nur von Beobachtungen mit systolischen Blutdruckmessungen
  2. Lineare Extrapolation: Anpassung eines linearen Modells basierend auf Daten der 8-17-Jährigen, Extrapolation auf 2-7-Jährige
  3. Sensitivitätsanalyse: Grenzwertanalyse mit Bereich von 70-120 mmHg für den mittleren systolischen Blutdruck bei 2-7-Jährigen

Implementierungsdetails

  • Resampling-Iterationen: 10.000
  • Konfidenzintervalle: Konstruktion von 95%-Konfidenzintervallen unter Verwendung von 2,5%- und 97,5%-Perzentilen
  • Punktschätzung: Verwendung des Medians als Punktschätzung

Experimentelle Ergebnisse

Hauptergebnisse

MethodeMittlerer systolischer Blutdruck (mmHg)95% Konfidenzintervall
Vollständige Fallanalyse104,7(104,1, 105,3)
Lineare Extrapolation101,6(100,8, 102,4)
Integriertes Modell100,5(99,9, 101,0)
Grenzwertanalyse92,7-109,9(91,9, 110,5)

Wichtigste Erkenntnisse

  1. Integriertes Modell zeigt niedrigste Ergebnisse: 1,1 mmHg niedriger als lineare Extrapolation, Differenz ist 2,9-fach des Standardfehlers der Extrapolationsmethode
  2. Statistisch signifikante Unterschiede zwischen Methoden: Die Differenzen zwischen dem integrierten Modell und anderen Methoden überschreiten die geschätzte Unsicherheit
  3. Grenzwertanalyse unterstützt Ergebnisse: Die Schätzung des integrierten Modells liegt innerhalb eines angemessenen Grenzbereichs

Modellvalidierung

Durch Vergleich der Leistung statistischer und mathematischer Modelle in der Positivitätsregion:

  • Angemessene Überlappung der von beiden Modellen vorhergesagten systolischen Blutdruckverteilungen
  • Altersgerechte Mittelwertdifferenzen nahe Null, aber statistisches Modell bei 15-17-Jährigen leicht niedriger als mathematisches Modell
  • Insgesamt unterstützt die Effektivität des mathematischen Modells in der Positivitätsregion

Ergebnisse der erweiterten Analyse

Ergebnisse unter Berücksichtigung zusätzlicher Kovariaten (Geschlecht, Größe, Gewicht) im Anhang:

  • Ergebnisse des integrierten Modells bleiben stabil: 100,5 (99,9, 101,0)
  • Extrapolationsergebnisse nähern sich dem integrierten Modell an: 100,8 (97,7, 103,8)
  • Ähnliche Ergebnisse mit verbessertem inverses Wahrscheinlichkeitsgewichtungs-Schätzer

Verwandte Arbeiten

Herkömmliche Methoden für fehlende Daten

  1. Imputationsmethoden: Multiple Imputation, Maximum-Likelihood-Schätzung
  2. Gewichtungsmethoden: Inverse Wahrscheinlichkeitsgewichtung
  3. Doppelt robuste Methoden: Verbesserter inverser Wahrscheinlichkeitsgewichtungs-Schätzer

Methoden zur Behandlung von Nicht-Positivität

  1. Problemmodifikation: Einschränkung der Studienpopulation auf Regionen mit erfüllter Positivität
  2. Parametrische Extrapolation: Extrapolation unter Verwendung restriktiver Modellierungsannahmen
  3. Grenzwertanalyse: Bereitstellung von Sensitivitätsanalysebereichen

Einzigartigkeit des Beitrags dieses Papiers

  • Erste systematische Kombination statistischer und mathematischer Modelle
  • Vermeidung von Problemmodifikation oder starken parametrischen Annahmen
  • Bereitstellung praktischer Unsicherheitsquantifizierungsmethoden

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Effektivität des integrierten Modells: Erfolgreiche Schätzung von Gesamtparametern einschließlich Nicht-Positivitätsregionen
  2. Methodische Vorteile: Vermeidung restriktiver Annahmen herkömmlicher Methoden, Bereitstellung vernünftigerer Schätzungen
  3. Praktischer Wert: Bietet praktikable Lösungen für designbedingte oder systematische Fehlbehandlung

Einschränkungen

  1. Varianzschätzung: Berücksichtigung des Cluster-Stichprobendesigns von NHANES nicht erfolgt, kann zu Unterschätzung der Unsicherheit führen
  2. Komplexität des mathematischen Modells: Derzeit werden relativ einfache Modelle verwendet; komplexe Fälle können Zwischenprozessmodellierung erfordern
  3. Abhängigkeit von externen Informationen: Die Methodeneffektivität hängt von der Genauigkeit und Anwendbarkeit externer Informationen ab
  4. Multivariate Nicht-Positivität: Die Anwendung bei gleichzeitiger Nicht-Positivität mehrerer Variablen erfordert weitere Forschung

Zukünftige Richtungen

  1. Komplexe mathematische Modelle: Entwicklung von Modellen zur Behandlung komplexer Prozesse wie Arzneimittelkonzentrationen und physiologische Reaktionen
  2. Verbesserung der Varianzschätzung: Erweiterung des Resampling-Algorithmus zur Berücksichtigung komplexer Stichprobendesigns wie Clustering
  3. Multivariate Nicht-Positivität: Untersuchung von Fällen mit gleichzeitiger Nicht-Positivität mehrerer Variablen
  4. Verbesserung von Diagnosemethoden: Entwicklung umfassenderer Diagnoseverfahren zur Modellvalidität

Tiefgreifende Bewertung

Stärken

  1. Starke methodische Innovation: Erste systematische Kombination statistischer und mathematischer Modelle zur Behandlung von Nicht-Positivität
  2. Solide theoretische Grundlagen: Basierend auf soliden Grundlagen der Kausalinferenz und Theorie fehlender Daten
  3. Hervorragende Praktikabilität: Bereitstellung vollständiger Implementierungscode und detaillierter Algorithmusbeschreibungen
  4. Umfassende Validierung: Validierung der Methodeneffektivität durch mehrere Vergleichsmethoden und Diagnoseverfahren

Schwächen

  1. Anforderung externer Informationen: Der Methodenerfolg hängt von der Verfügbarkeit hochwertiger externer Informationen ab
  2. Rechenkomplexität: Das Resampling-Verfahren erhöht die Rechenlast
  3. Begrenzte Anwendbarkeit: Hauptsächlich anwendbar auf Fälle mit zuverlässigen externen Informationen
  4. Theoretische Garantien: Mangel an theoretischer Analyse asymptotischer Eigenschaften der Methode

Bewertung der Auswirkungen

  1. Akademischer Beitrag: Bietet wichtige methodische Beiträge für Statistik und Epidemiologie
  2. Praktischer Wert: Direkte Anwendbarkeit auf häufige designbedingte Fehlprobleme in der öffentlichen Gesundheitsforschung
  3. Reproduzierbarkeit: Bereitgestellter Code und detaillierte Beschreibungen gewährleisten Reproduzierbarkeit der Methode
  4. Verbreitungspotenzial: Der Methodenrahmen kann auf andere Forschungsbereiche mit Nicht-Positivitätsproblemen verallgemeinert werden

Anwendungsszenarien

  1. Designbedingte Fehlbehandlung: Wie Altersbeschränkungen oder ethische Überlegungen führende systematische Fehlbehandlung
  2. Reichhaltige externe Informationen: Verfügbarkeit zuverlässiger externer Forschung oder Vorwissen
  3. Parameterschätzung: Hauptsächlich anwendbar auf Gesamtparameterschätzung statt Einzelvorhersage
  4. Öffentliche Gesundheitsforschung: Besonders geeignet für Probleme fehlender Daten in großen epidemiologischen Erhebungen

Literaturverzeichnis

Das Papier zitiert wichtige Literatur in verwandten Bereichen, einschließlich:

  • Übersicht von Cole et al. über fehlende Ergebnisdaten in epidemiologischen Studien
  • Kommentar von Westreich und Cole zur Positivitätspraxis
  • Diagnose und Umgang mit Positivitätsannahmeverletzungen von Petersen et al.
  • Klinische Praxisrichtlinien zur Blutdruckscreening und -management bei Kindern und Jugendlichen von Flynn et al.