2025-11-15T01:58:11.277924

Accounting for Missing Data in Public Health Research Using a Synthesis of Statistical and Mathematical Models

Zivich, Shook-Sa, Cole et al.
Introduction: Accounting for missing data by imputing or weighting conditional on covariates relies on the variable with missingness being observed at least some of the time for all unique covariate values. This requirement is referred to as positivity and positivity violations can result in bias. Here, we review a novel approach to addressing positivity violations in the context of systolic blood pressure. Methods: To illustrate the proposed approach, we estimate the mean systolic blood pressure among children and adolescents aged 2-17 years old in the United States using data from the 2017-2018 National Health and Nutrition Examination Survey (NHANES). As blood pressure was not measured for those aged 2-7, there exists a positivity violation by design. Using a recently proposed synthesis of statistical and mathematical models, we integrate external information with NHANES to address our motivating question. Results: With the synthesis model, the estimated mean systolic blood pressure was 100.5 (95% confidence interval: 99.9, 101.0), which is notably lower than either a complete-case analysis or extrapolation from a statistical model. The synthesis results were supported by a diagnostic comparing the performance of the mathematical model in the positive region. Discussion: Positivity violations pose a threat to quantitative medical research, and standard approaches to addressing nonpositivity rely on restrictive untestable assumptions. Using a synthesis model, like the one detailed here, offers a viable alternative.
academic

Учет пропущенных данных в исследованиях общественного здравоохранения с использованием синтеза статистических и математических моделей

Основная информация

  • ID статьи: 2503.02789
  • Название: Accounting for Missing Data in Public Health Research Using a Synthesis of Statistical and Mathematical Models
  • Авторы: Paul N Zivich, Bonnie E Shook-Sa, Stephen R Cole, Eric T Lofgren, Jessie K Edwards
  • Классификация: stat.AP (прикладная статистика), stat.ME (статистические методы)
  • Дата публикации: 16 октября 2025 г.
  • Ссылка на статью: https://arxiv.org/abs/2503.02789

Аннотация

В данном исследовании предложен комплексный подход, объединяющий статистические и математические модели, для решения проблемы нарушения позитивности при обработке пропущенных данных в исследованиях общественного здравоохранения. На примере оценки среднего систолического артериального давления у детей и подростков в возрасте 2-17 лет в США с использованием данных Национального исследования здоровья и питания (NHANES) 2017-2018 гг. показано, что из-за конструктивного нарушения позитивности (отсутствие измерений артериального давления у детей 2-7 лет) синтетическая модель дает оценку среднего систолического давления 100,5 мм рт. ст. (95% ДИ: 99,9, 101,0), что значительно ниже результатов анализа полных случаев или экстраполяции статистической модели.

Научный контекст и мотивация

Выявление основных проблем

  1. Значимость предположения о позитивности: При обработке пропущенных данных импутация или взвешивание на основе ковариат зависит от предположения о позитивности, согласно которому для всех уникальных значений ковариат целевая переменная наблюдается по крайней мере иногда
  2. Распространенность нарушений позитивности: Когда определенные комбинации ковариат полностью лишены наблюдений целевой переменной, возникает нарушение позитивности, приводящее к смещению оценок
  3. Ограничения существующих методов: Традиционные подходы к обработке непозитивности либо модифицируют исследовательский вопрос, либо полагаются на ограничивающие, непроверяемые предположения моделирования

Научная значимость

  • Теоретическое значение: Предоставляет новую теоретическую базу для обработки нарушений позитивности, избегая ограничивающих предположений традиционных методов
  • Практическая ценность: Предлагает осуществимое решение для проблем пропущенных данных в исследованиях общественного здравоохранения и клинических исследованиях
  • Методологическое новшество: Впервые систематически объединяет статистические и математические модели для решения проблемы непозитивности

Основные вклады

  1. Предложена структура синтетической модели: Разделяет данные на область, где позитивность соблюдается, и область нарушения, обрабатывая каждую соответствующей моделью
  2. Разработан алгоритм переиспользования выборок: Предоставляет методы оценки дисперсии, учитывающие неопределенность обеих моделей
  3. Построена процедура диагностики модели: Проверяет эффективность метода путем сравнения производительности статистической и математической моделей в области позитивности
  4. Предоставлено полное решение для реализации: Включает код на R и Python, повышая воспроизводимость и практическую применимость метода

Подробное описание методологии

Определение задачи

Оценить параметр μ=E[Y]\mu = E[Y], где YY — систолическое артериальное давление, которое полностью отсутствует при определенных значениях ковариат XX, нарушая предположение о позитивности Pr(R=1X=x)>0Pr(R = 1 | X = x) > 0.

Архитектура модели

1. Стратегия разделения данных

Данные разделяются на две области:

  • Область позитивности (X=1X^* = 1): возраст 8-17 лет, имеются наблюдения систолического давления
  • Область непозитивности (X=0X^* = 0): возраст 2-7 лет, полностью отсутствуют наблюдения систолического давления

Параметр переписывается как: E[Y]=E[YX=1]Pr(X=1)+E[YX=0]Pr(X=0)E[Y] = E[Y | X^* = 1]Pr(X^* = 1) + E[Y | X^* = 0]Pr(X^* = 0)

2. Статистическая модель (область позитивности)

В области позитивности используется насыщенная модель: E[YX,R=1,X=1;β]=β8I(X=8)+β9I(X=9)++β17I(X=17)E[Y | X, R = 1, X^* = 1; \beta] = \beta_8 I(X = 8) + \beta_9 I(X = 9) + \cdots + \beta_{17} I(X = 17)

Применяется метод g-вычисления:

  • Подгонка регрессионной модели на основе полных данных
  • Прогнозирование систолического давления для всех наблюдений
  • Расчет взвешенного среднего по выборке

3. Математическая модель (область непозитивности)

Основана на опубликованной внешней информации о распределении систолического давления у американских детей и подростков:

  • Использует распределения, специфичные для возраста, пола и процентиля роста
  • Предполагает нормальное распределение со средним, равным медиане
  • Стандартное отклонение аппроксимируется 90-м процентилем

Технологические инновации

  1. Избежание предположений об экстраполяции: В отличие от традиционной линейной экстраполяции, не требует предположения о том, что связь в возрасте 8-17 лет распространяется на возраст 2-7 лет
  2. Гибкий выбор модели: В области позитивности могут использоваться непараметрические методы, в области непозитивности интегрируется внешняя информация
  3. Количественная оценка неопределенности: Алгоритм переиспользования выборок одновременно учитывает неопределенность оценки параметров статистической модели и распределения математической модели

Экспериментальная установка

Набор данных

  • Основные данные: NHANES 2017-2018 гг., n=2572 детей и подростков в возрасте 2-17 лет
  • Внешняя информация: Опубликованные данные Flynn и др. о распределении систолического давления у американских детей и подростков
  • Паттерн пропусков: Полное отсутствие систолического давления у детей 2-7 лет (конструктивный пропуск), 8% пропусков у детей 8-17 лет

Определение переменных

  • Переменная результата: Систолическое артериальное давление (мм рт. ст.), среднее значение до 3 измерений
  • Ковариаты: Возраст (лет), рост (см), вес (кг), пол
  • Веса выборки: Применены веса выборки NHANES для экстраполяции на население США

Методы сравнения

  1. Анализ полных случаев: Использование только наблюдений с измерениями систолического давления
  2. Линейная экстраполяция: Подгонка линейной модели на данные возраста 8-17 лет с экстраполяцией на возраст 2-7 лет
  3. Анализ чувствительности: Граничный анализ с установкой среднего систолического давления для возраста 2-7 лет в диапазоне 70-120 мм рт. ст.

Детали реализации

  • Количество переиспользований выборок: 10 000
  • Доверительные интервалы: Построены на основе 2,5% и 97,5% квантилей для 95% ДИ
  • Точечная оценка: Использована медиана в качестве точечной оценки

Результаты экспериментов

Основные результаты

МетодСреднее систолическое давление (мм рт. ст.)95% доверительный интервал
Анализ полных случаев104,7(104,1, 105,3)
Линейная экстраполяция101,6(100,8, 102,4)
Синтетическая модель100,5(99,9, 101,0)
Граничный анализ92,7-109,9(91,9, 110,5)

Ключевые находки

  1. Результаты синтетической модели наиболее низкие: На 1,1 мм рт. ст. ниже, чем при линейной экстраполяции, различие составляет 2,9 стандартной ошибки метода экстраполяции
  2. Статистически значимые различия между методами: Различия между синтетической моделью и другими методами превышают оцененную неопределенность
  3. Граничный анализ подтверждает результаты: Оценка синтетической модели находится в разумном диапазоне границ

Валидация модели

Путем сравнения производительности статистической и математической моделей в области позитивности:

  • Распределения систолического давления, предсказанные обеими моделями, имеют разумное перекрытие
  • Различия в возрастных средних близки к нулю, но результаты статистической модели для возраста 15-17 лет немного ниже, чем математической модели
  • В целом поддерживает эффективность математической модели в области позитивности

Результаты расширенного анализа

При рассмотрении большего количества ковариат (пол, рост, вес) в приложении:

  • Результаты синтетической модели остаются стабильными: 100,5 (99,9, 101,0)
  • Результаты метода экстраполяции приближаются к синтетической модели: 100,8 (97,7, 103,8)
  • Результаты усиленного оценивателя обратной вероятности аналогичны

Связанные работы

Традиционные методы обработки пропущенных данных

  1. Методы импутации: Множественная импутация, оценка максимального правдоподобия
  2. Методы взвешивания: Взвешивание по обратной вероятности
  3. Двойно-устойчивые методы: Усиленный оценитель обратной вероятности

Методы обработки непозитивности

  1. Модификация проблемы: Ограничение исследуемой популяции областью, где соблюдается позитивность
  2. Параметрическая экстраполяция: Использование ограничивающих предположений моделирования для экстраполяции
  3. Граничный анализ: Предоставление диапазона анализа чувствительности

Уникальность вклада данной работы

  • Впервые систематически объединяет статистические и математические модели
  • Избегает модификации исследовательского вопроса или сильных параметрических предположений
  • Предоставляет практический метод количественной оценки неопределенности

Выводы и обсуждение

Основные выводы

  1. Эффективность синтетической модели: Успешно оценивает параметры совокупности, включающие область непозитивности
  2. Преимущества метода: Избегает ограничивающих предположений традиционных методов, обеспечивая более обоснованные оценки
  3. Практическая ценность: Предоставляет осуществимое решение для обработки конструктивных пропусков или систематических пропусков

Ограничения

  1. Оценка дисперсии: Не учитывает кластеризованный дизайн выборки NHANES, что может привести к недооценке неопределенности
  2. Сложность математической модели: Текущее использование относительно простых моделей; сложные случаи могут требовать промежуточного моделирования процессов
  3. Зависимость от внешней информации: Эффективность метода зависит от точности и применимости внешней информации
  4. Многомерная непозитивность: Применение при одновременном нарушении позитивности несколькими переменными требует дальнейших исследований

Направления будущих исследований

  1. Сложные математические модели: Разработка моделей для обработки сложных процессов, таких как концентрация лекарств и физиологические реакции
  2. Улучшение оценки дисперсии: Расширение алгоритма переиспользования выборок для учета сложных дизайнов выборки, таких как кластеризация
  3. Многомерная непозитивность: Исследование случаев, когда несколько переменных одновременно нарушают позитивность
  4. Совершенствование диагностических методов: Разработка более комплексных процедур диагностики валидности модели

Глубокая оценка

Преимущества

  1. Высокая методологическая инновативность: Впервые систематически объединяет статистические и математические модели для обработки непозитивности
  2. Прочная теоретическая база: Основана на твердой основе теории причинного вывода и теории пропущенных данных
  3. Выдающаяся практическая применимость: Предоставляет полный код реализации и подробное описание алгоритма
  4. Достаточная валидация: Проверяет эффективность метода с использованием множественных методов сравнения и диагностических процедур

Недостатки

  1. Требование внешней информации: Успех метода зависит от доступности высококачественной внешней информации
  2. Вычислительная сложность: Процедура переиспользования выборок увеличивает вычислительную нагрузку
  3. Ограничение области применения: Главным образом применим в случаях с надежной внешней информацией
  4. Теоретические гарантии: Отсутствует теоретический анализ асимптотических свойств метода

Оценка влияния

  1. Академический вклад: Предоставляет важный методологический вклад в области статистики и эпидемиологии
  2. Практическая ценность: Имеет прямое применение к часто встречающейся проблеме конструктивных пропусков в исследованиях общественного здравоохранения
  3. Воспроизводимость: Предоставленный код и подробное описание обеспечивают воспроизводимость метода
  4. Потенциал распространения: Методологическая структура может быть обобщена на другие области исследований с непозитивностью

Сценарии применения

  1. Конструктивные пропуски: Такие как ограничения по возрасту, этические соображения, приводящие к систематическим пропускам
  2. Богатая внешняя информация: Наличие надежных внешних исследований или априорных знаний
  3. Оценка параметров совокупности: Главным образом применим для оценки параметров совокупности, а не индивидуального прогнозирования
  4. Исследования общественного здравоохранения: Особенно подходит для крупномасштабных эпидемиологических обследований с пропущенными данными

Библиография

Статья цитирует важные работы в соответствующих областях, включая:

  • Обзор Cole и др. о пропущенных данных результатов в эпидемиологических исследованиях
  • Комментарий Westreich и Cole о практике позитивности
  • Работу Petersen и др. о диагностике и решении проблемы нарушения предположения о позитивности
  • Клинические практические рекомендации Flynn и др. по скринингу и ведению артериального давления у детей и подростков