2025-11-22T18:49:15.334146

Constructing Confidence Intervals for Average Treatment Effects from Multiple Datasets

Wang, Schröder, Frauen et al.
Constructing confidence intervals (CIs) for the average treatment effect (ATE) from patient records is crucial to assess the effectiveness and safety of drugs. However, patient records typically come from different hospitals, thus raising the question of how multiple observational datasets can be effectively combined for this purpose. In our paper, we propose a new method that estimates the ATE from multiple observational datasets and provides valid CIs. Our method makes little assumptions about the observational datasets and is thus widely applicable in medical practice. The key idea of our method is that we leverage prediction-powered inferences and thereby essentially `shrink' the CIs so that we offer more precise uncertainty quantification as compared to naïve approaches. We further prove the unbiasedness of our method and the validity of our CIs. We confirm our theoretical results through various numerical experiments. Finally, we provide an extension of our method for constructing CIs from combinations of experimental and observational datasets.
academic

Построение доверительных интервалов для средних эффектов лечения из нескольких наборов данных

Основная информация

  • ID статьи: 2412.11511
  • Название: Constructing Confidence Intervals for Average Treatment Effects from Multiple Datasets
  • Авторы: Yuxin Wang, Maresa Schröder, Dennis Frauen, Jonas Schweisthal, Konstantin Hess & Stefan Feuerriegel (LMU Munich, MCML)
  • Классификация: cs.LG, stat.ML
  • Конференция: ICLR 2025
  • Ссылка на статью: https://arxiv.org/abs/2412.11511

Аннотация

В данной статье предлагается новый метод построения доверительных интервалов для среднего эффекта лечения (ATE) на основе нескольких наблюдательных наборов данных. Метод предъявляет меньше требований к наблюдательным наборам данных и имеет широкое применение в медицинской практике. Основная идея заключается в использовании предсказательно-управляемого вывода (prediction-powered inference) для "сжатия" доверительных интервалов, обеспечивая более точное количественное определение неопределённости по сравнению с наивными методами. В статье доказана несмещённость метода и корректность доверительных интервалов, результаты подтверждены численными экспериментами. Кроме того, метод расширен для обработки комбинаций экспериментальных и наблюдательных наборов данных.

Исследовательский контекст и мотивация

Основная проблема

В медицинской области построение доверительных интервалов для ATE из записей пациентов имеет критическое значение для оценки эффективности и безопасности лекарственных препаратов. Однако записи пациентов обычно поступают из разных больниц, и эффективное объединение нескольких наблюдательных наборов данных становится ключевой задачей.

Значимость проблемы

  1. Потребности медицинских решений: Надёжные доверительные интервалы критически важны для принятия медицинских решений, обеспечивая выбор лечения на основе доказательств
  2. Распределённость данных: Электронные медицинские записи обычно распределены между различными медицинскими учреждениями и странами, требуя интегрированного использования
  3. Пример COVID-19: Во время пандемии требовалась быстрая оценка эффективности лекарств из многоцентровых данных, например, исследования нирматрелвира/ритонавира

Ограничения существующих методов

  1. Ограничения точечного оценивания: Большинство существующих методов для нескольких наборов данных сосредоточены на точечном оценивании, не обеспечивая количественное определение неопределённости
  2. Проблемы наивных методов:
    • Прямое объединение наборов данных приводит к смещённым оценкам из-за смешивающих факторов
    • Использование только малого набора данных игнорирует информацию из большого набора, что приводит к чрезмерно консервативным доверительным интервалам
  3. Ограничения предположений: Существующие методы предъявляют строгие требования к отношениям между наборами данных

Основные вклады

  1. Новая методология: Предложен метод построения доверительных интервалов для ATE из нескольких наборов данных на основе предсказательно-управляемого вывода
  2. Теоретические гарантии: Доказана состоятельность оценки и корректность доверительных интервалов
  3. Широкая применимость: Метод расширен на сценарии комбинирования РКИ и наблюдательных наборов данных
  4. Экспериментальная верификация: Эффективность метода подтверждена на синтетических и медицинских данных

Подробное описание метода

Определение задачи

Дан малый несмещённый наблюдательный набор данных D₁ (удовлетворяющий предположению об отсутствии смешивания) и большой наблюдательный набор данных D₂ (допускающий ненаблюдаемое смешивание), целью является оценка ATE целевой популяции τ = EY¹(1) - Y¹(0) и построение корректного доверительного интервала.

Основные предположения

Предположения для D₁:

  • Согласованность: A¹ = a ⇒ Y¹ = Y¹(a)
  • Перекрытие: 0 < π¹(x) < 1
  • Отсутствие смешивания: Y¹(0), Y¹(1) ⊥⊥ A¹ | X¹

Предположения для D₂ (более мягкие):

  • Согласованность и перекрытие, но допускается ненаблюдаемое смешивание

Архитектура модели

Четырёхэтапная методологическая схема

Этап A: Мера соответствия (Measure of Fit) Оценка условного среднего эффекта лечения (CATE) на D₂ с использованием разбиения выборки:

τ̂₂(x) = E[Y²(1) - Y²(0) | X² = x]
τ̂₂ = (1/N)∑ᵢτ̂₂(xᵢ)

Этап B: Оценка функции влияния Вычисление нецентрализованной функции влияния оценки AIPW на D₁:

Ỹη̂(xᵢ) = (aᵢ¹/π̂¹(xᵢ) - (1-aᵢ¹)/(1-π̂¹(xᵢ)))yᵢ¹ - (aᵢ¹-π̂¹(xᵢ))/(π̂¹(xᵢ)(1-π̂¹(xᵢ)))[(1-π̂¹(xᵢ))μ̂₁(xᵢ) + π̂¹(xᵢ)μ̂₀(xᵢ)]

Этап C: Корректор (Rectifier) Определение корректора, количественно оценивающего разницу ATE между двумя наборами данных:

Δ̂τ = (1/n)∑ᵢ[Ỹη̂(xᵢ) - τ̂₂(xᵢ)]

Этап D: Построение доверительного интервала Предсказательно-управляемая оценка ATE:

τ̂ᴾᴾ = Δ̂τ + τ̂₂

Доверительный интервал:

Cᴾᴾα = (τ̂ᴾᴾ ± z₁₋α/₂√(σ̂²Δ/n + σ̂²τ₂/N))

Технические инновации

  1. Адаптация предсказательно-управляемого вывода: Первое применение фреймворка PPI к оценке ATE в причинном выводе
  2. Проектирование корректора: Умное проектирование корректора для обработки различий в распределении между наборами данных и потенциального смешивания
  3. Теоретические гарантии: Предоставлено доказательство асимптотической корректности, обеспечивающее статистическую корректность доверительных интервалов
  4. Гибкость: Поддержка произвольных оценок CATE без ограничения конкретными методами

Теоретический анализ

Теорема 4.2 (Корректность доверительного интервала): При надлежащих условиях:

lim sup P(τ ∈ Cᴾᴾα) ≥ 1-α

Ключевая лемма 4.1: Асимптотическая нормальность корректора:

√n(Δ̂τ - τ + E[τ₂]) → N(0, σ²Δ)

Экспериментальная установка

Наборы данных

Синтетические данные:

  • Механизм генерации данных на основе гауссовских процессов
  • Три сценария смешивания: лёгкое, среднее, сильное
  • Контролируемые размерность ковариат и размер выборки

Медицинские данные:

  1. MIMIC-III: Влияние механической вентиляции на количество эритроцитов у пациентов в отделении интенсивной терапии
  2. Бразильские данные COVID-19: Влияние сопутствующих заболеваний на смертность пациентов с COVID-19

Метрики оценки

  • Ширина доверительного интервала: Измерение точности количественного определения неопределённости
  • Коэффициент покрытия: Верификация статистической корректности доверительного интервала
  • RMSE: Оценка точности точечного оценивания

Методы сравнения

  1. τ̂ᴬᴵᴾᵂ(D₁ only): Наивный базовый метод, использующий только малый набор данных
  2. τ̂ᴬᴵᴾᵂ(D₂ only): Использование только большого набора данных (смещённая оценка)
  3. A-TMLE: Метод van der Laan et al. (РКИ + наблюдательные данные)

Детали реализации

  • DR-learner для оценки CATE
  • Линейная/логистическая регрессия для оценки функций влияния
  • Кросс-подгонка для избежания переобучения
  • Усреднение результатов по 5 случайным начальным значениям

Результаты экспериментов

Основные результаты

Производительность на синтетических данных:

  1. Корректность: Доверительные интервалы последовательно покрывают истинное значение ATE
  2. Улучшение точности: Ширина CI сокращена в среднем на 49,99%-55,37% по сравнению с наивными методами
  3. Стабильность: Сохранение отличной производительности при различных интенсивностях смешивания

Верификация на медицинских данных:

  • MIMIC-III: Сокращение ширины CI примерно в 3,5 раза
  • Данные COVID-19: Отличная производительность при различных стратегиях разбиения
  • Минимальное RMSE и наиболее узкие корректные доверительные интервалы

Анализ чувствительности

Влияние размера набора данных:

  • Преимущество более выраженно при N≫n
  • Улучшение постепенно уменьшается с увеличением D₁ (как и ожидалось)

Высокомерные параметры:

  • Сохранение преимущества при 5, 50 и 500 измерениях ковариат
  • Демонстрация робастности метода в высокомерных параметрах

Различные архитектуры моделей:

  • Поддержка нейронных сетей, XGBoost и других базовых моделей
  • Демонстрация универсальности метода

Расширение РКИ + наблюдательные данные

Метод на основе IPW:

  • Использование известных пропенсити-оценок для упрощения оценки
  • Более стабильно по сравнению с A-TMLE, избегая численных проблем обращения матриц

Сравнение производительности:

  • Последовательное покрытие истинного значения ATE
  • Значительно более узкие CI по сравнению с базовыми методами
  • Сохранение корректности даже в сценариях сильного смешивания

Связанные работы

Построение доверительных интервалов для ATE

  • Традиционные методы основаны на асимптотической нормальности или предположениях конечной выборки
  • Существующие работы в основном сосредоточены на сценариях с одним набором данных

Оценка ATE из нескольких наборов данных

  1. РКИ + наблюдательные данные: Kallus et al., Hatt et al., Demirel et al.
  2. Несколько наблюдательных наборов данных: Yang & Ding, Guo et al.
  3. Ограничения: Большинство сосредоточены только на точечном оценивании, без количественного определения неопределённости

Предсказательно-управляемый вывод

  • Фреймворк PPI, предложенный Angelopoulos et al.
  • Основное применение к традиционным статистическим величинам (среднее, медиана и т.д.)
  • Первое применение в причинном выводе в данной работе

Выводы и обсуждение

Основные выводы

  1. Успешное расширение фреймворка PPI на причинный вывод из нескольких наборов данных
  2. Предоставление теоретически гарантированных корректных доверительных интервалов
  3. Значительное повышение точности по сравнению с наивными методами
  4. Верификация практической применимости на медицинских данных

Ограничения

  1. Зависимость от предположений: Предположение об отсутствии смешивания для D₁ может нарушаться на практике
  2. Предположения о распределении: Предположение об одинаковом маргинальном распределении ковариат
  3. Разбиение выборки: Требуется достаточно большой D₂ для эффективного разбиения

Направления будущих исследований

  1. Расширение на CATE: Распространение метода на гетерогенные эффекты лечения
  2. Анализ выживаемости: Применение к причинному анализу выживаемости
  3. Интеграция больших языковых моделей: Комбинирование с предварительно обученными моделями для текстовых представлений
  4. Анализ чувствительности: Разработка методов, робастных к нарушениям предположений

Глубокая оценка

Преимущества

  1. Теоретическая строгость: Полный асимптотический теоретический анализ и доказательство корректности
  2. Практическая ценность: Решение реальных потребностей медицинской практики
  3. Универсальность метода: Поддержка различных оценок CATE, высокая гибкость
  4. Полнота экспериментов: Охват синтетических и реальных данных, множественные анализы чувствительности

Недостатки

  1. Ограничения предположений: Предположение об отсутствии смешивания является строгим в практических приложениях
  2. Вычислительная сложность: Кросс-подгонка и разбиение выборки увеличивают вычислительные затраты
  3. Ограниченная расширяемость: Основное внимание уделено бинарному лечению, расширение на непрерывное лечение не ясно

Влияние

  1. Академический вклад: Первое применение PPI в причинном выводе, открытие новых направлений исследований
  2. Практическая ценность: Предоставление более надёжных статистических инструментов для медицинских решений
  3. Воспроизводимость: Доступность открытого кода для верификации и применения

Применимые сценарии

  1. Многоцентровые медицинские исследования: Интеграция данных пациентов из различных больниц
  2. Оценка безопасности лекарств: Комбинирование РКИ и данных реального мира
  3. Разработка политики здравоохранения: Циклические решения на основе многоисточниковых данных
  4. Нормативное одобрение: Предоставление статистических доказательств для одобрения лекарств

Библиография

  1. Angelopoulos et al. (2023). Prediction-powered inference. Science.
  2. van der Laan et al. (2024). Adaptive-TMLE for average treatment effect. arXiv.
  3. Kallus et al. (2018). Removing hidden confounding by experimental grounding. NeurIPS.
  4. Yang & Ding (2020). Combining multiple observational data sources. JASA.

Общая оценка: Это высококачественная статья по причинному выводу, успешно применившая фреймворк предсказательно-управляемого вывода к проблеме оценки ATE из нескольких наборов данных. Статья имеет прочную теоретическую базу, разумный экспериментальный дизайн и значительную практическую ценность в медицинских приложениях. Хотя существуют некоторые ограничения предположений, общий вклад значителен и предоставляет новые методологические инструменты для области причинного вывода.