2025-11-25T22:55:18.828107

Inference on effect size after multiple hypothesis testing

Dzemski, Okui, Wang

Significant treatment effects are often emphasized when interpreting and summarizing empirical findings in studies that estimate multiple, possibly many, treatment effects. Under this kind of selective reporting, conventional treatment effect estimates may be biased and their corresponding confidence intervals may undercover the true effect sizes. We propose new estimators and confidence intervals that provide valid inferences on the effect sizes of the significant effects after multiple hypothesis testing. Our methods are based on the principle of selective conditional inference and complement a wide range of tests, including step-up tests and bootstrap-based step-down tests. Our approach is scalable, allowing us to study an application with over 370 estimated effects. We justify our procedure for asymptotically normal treatment effect estimators. We provide two empirical examples that demonstrate bias correction and confidence interval adjustments for significant effects. The magnitude and direction of the bias correction depend on the correlation structure of the estimated effects and whether the interpretation of the significant effects depends on the (in)significance of other effects.

academic

Вывод об величине эффекта после множественного тестирования гипотез

Основная информация

ID статьи: 2503.22369
Название: Inference on effect size after multiple hypothesis testing
Авторы: Andreas Dzemski (Университет Гётеборга), Ryo Okui (Университет Токио), Wenjie Wang (Технологический университет Наньян)
Классификация: econ.EM math.ST stat.TH
Дата публикации: 14 октября 2025 г.
Ссылка на статью: https://arxiv.org/abs/2503.22369

Аннотация

В исследованиях, оценивающих множественные эффекты воздействия, значимые эффекты часто подчеркиваются при интерпретации и обобщении эмпирических результатов. При такой избирательной отчетности традиционные оценки эффекта воздействия могут быть смещены, а соответствующие доверительные интервалы могут не обеспечивать адекватное покрытие истинной величины эффекта. В данной работе предложены новые оценки и доверительные интервалы, обеспечивающие корректный вывод о величине эффекта значимых эффектов после множественного тестирования гипотез. Методология основана на принципах условного избирательного вывода и применима к широкому спектру процедур тестирования, включая пошаговые процедуры повышения и основанные на бутстрепе пошаговые процедуры понижения. Метод масштабируем и может применяться к исследованиям с более чем 370 оцениваемыми эффектами. Авторы доказывают корректность процедуры для асимптотически нормальных оценок эффекта воздействия и предоставляют два эмпирических примера, демонстрирующих коррекцию смещения и корректировку доверительных интервалов для значимых эффектов.

Исследовательский контекст и мотивация

Важность проблемы

В эмпирических исследованиях в области экономики, медицины, психологии и других дисциплин исследователи часто должны оценивать множественные эффекты воздействия. Эти эффекты могут происходить из различных переменных результата, типов вмешательства или подгрупп населения. Посредством процедур множественного тестирования гипотез исследователи классифицируют эти эффекты как статистически значимые или незначимые, а затем сосредотачивают внимание на практической значимости значимых эффектов.

Ограничения существующих методов

Когда исследователи ограничивают внимание значимыми эффектами, оценки величины этих эффектов подвергаются влиянию смещения отбора, что делает традиционные методы статистического вывода неэффективными. Это проявляется следующим образом:

Смещение отбора: Значимые эффекты часто подвергаются положительному отбору ("проклятие победителя"), их величина переоценивается
Недостаточное покрытие доверительных интервалов: Традиционные доверительные интервалы не обеспечивают адекватное статистическое покрытие
Отсутствие коррекции смещения: Существующие методы не предоставляют несмещенные оценки для величины эффекта после отбора

Исследовательская мотивация

Авторы утверждают, что избежание избирательного обобщения и интерпретации не решает проблему, а лишь перекладывает бремя синтеза результатов на читателя, который все еще сталкивается с проблемой избирательного вывода. Поэтому необходимо разработать специализированные статистические методы для решения проблем вывода после множественного тестирования гипотез.

Основные вклады

Предложен новый метод, основанный на условном избирательном выводе: Обеспечивает корректные точечные оценки и доверительные интервалы для величины эффекта значимых эффектов после множественного тестирования гипотез
Разработан эффективный вычислительный алгоритм: Предложен алгоритм с временной сложностью O(m³logm), позволяющий масштабировать метод на приложения с сотнями эффектов
Установлена асимптотическая теория: Доказана асимптотическая эффективность процедуры для асимптотически нормальных оценок эффекта воздействия
Обеспечена широкая применимость: Метод применим к различным процедурам множественного тестирования, включая пошаговые процедуры понижения и повышения
Продемонстрирована практическая ценность: Две эмпирические работы подтверждают эффективность и практичность метода

Подробное описание методологии

Определение задачи

Даны m параметров эффекта воздействия θ = (θ₁, ..., θₘ)' и их оценки θ̂. После определения набора значимых эффектов Ŝ посредством процедуры множественного тестирования гипотез требуется получить несмещенный вывод о истинной величине эффекта для значимых эффектов.

Основная методологическая схема

1. Базовая установка

Предположим θ̂ ~ N(θ, V), где V — известная матрица ковариации
t-статистика: X = diag⁻¹/²(v)θ̂, где v — диагональные элементы V
Значимые эффекты определяются пошаговой процедурой понижения или повышения: эффект h значим, если |Xₕ| ≥ x̄ₕ

2. Метод условного вывода

Для значимого эффекта s ∈ S разложим X следующим образом:

X = Ω•,sXs + Z⁽ˢ⁾

где Z⁽ˢ⁾ = X - Ω•,sXs независима от Xs.

Ключевое инновационное решение заключается в условной функции распределения:

Fs(xs | z, θs, S) = ∫{ξ∈ℝ:ξ+V⁻¹/²s,sθs∈Xs(z,S)} 1{ξ + V⁻¹/²s,sθs ≤ xs} dΦ(ξ) / ∫{ξ∈ℝ:ξ+V⁻¹/²s,sθs∈Xs(z,S)} dΦ(ξ)

3. Оценки и доверительные интервалы

Условная медианно-несмещенная оценка: θ̃ᵘᵇₛ = θ̃ₛ⁽⁰·⁵⁾, где θ̃ₛ⁽ᵖ⁾ удовлетворяет Fs(Xs | Z⁽ˢ⁾, θ̃ₛ⁽ᵖ⁾, S) = p
Условный доверительный интервал: θ̃ₛ⁽¹⁻α/²⁾, θ̃ₛ⁽α/²⁾

Технические инновации

1. Проектирование эффективного алгоритма

Традиционные методы требуют прямого вычисления сложного события отбора X(S). В данной работе это избегается благодаря следующим инновациям:

Алгоритм 2: Вычисление условной поддержки

(A) Найти все пересечения линейных функций xz,h(xs) для определения интервалов I
(B) Для каждого интервала I:
    i. Найти перестановку сортировки σ*I
    ii. Вычислить границы интервала ℓ(I) и u(I)
(C) Вернуть ∪I I ∩ [ℓ(I), u(I)]

2. Унифицированная обработка процедур множественного тестирования

Метод поддерживает различные процедуры тестирования:

Пошаговые процедуры понижения: Bonferroni, Holm, Romano-Wolf и др.
Пошаговые процедуры повышения: Benjamini-Hochberg, Benjamini-Yekutieli и др.

3. Гибкое определение события отбора

Предоставляются два основных типа событий отбора:

Ŝ = S: Полное обусловливание наблюдаемой картиной значимости
Ŝ ⊇ S: Обусловливание только тем, что конкретный эффект обнаружен значимым

Экспериментальная установка

Моделирование методом Монте-Карло

Параметры данных

Количество эффектов: m = 5
Истинные параметры: θ = (0.05, 0.03, 0.01, 0, 0)'
Размеры выборки: n ∈ {100, 300, 500, 700, 900}
Корреляция: ρ = 0.5
Процедура тестирования: Пошаговое понижение Holm, FWER = 10%

Два типа проектирования

Нормальное проектирование: Yᵢ ~ многомерное нормальное распределение
Проектирование хи-квадрат: Yᵢₖ = (U²ᵢₖ-1)/√2 + θₖ, где Uᵢ ~ многомерное нормальное

Эмпирические приложения

Приложение 1: Исследование благотворительных пожертвований

Источник данных: Эксперимент с согласованным пожертвованием Karlan and List (2007)
Количество эффектов: Эффекты воздействия для 4 переменных результата
Процедуры тестирования: Bonferroni, Holm, Romano-Wolf (RW2005)

Приложение 2: Производительность взаимных фондов

Источник данных: База данных взаимных фондов CRSP, январь 2000 г. — апрель 2024 г.
Количество эффектов: Оценки альфа для 371 фонда
Модель: Пятифакторная модель Fama-French
Процедуры тестирования: Holm (контроль FWER) и Benjamini-Yekutieli (контроль FDR)

Результаты экспериментов

Результаты моделирования методом Монте-Карло

Характеристики покрытия

Условные доверительные интервалы: Близки к номинальному уровню покрытия 90% при всех проектированиях и размерах выборки
Традиционные доверительные интервалы: Серьезно недостаточное покрытие, особенно при низких частотах отбора
Интервалы Bonferroni: Достигают номинального покрытия при больших выборках, но чрезмерно консервативны

Сравнение длин интервалов

Условные интервалы шире традиционных, но значительно короче интервалов Bonferroni, демонстрируя выигрыш в эффективности.

Эффект коррекции смещения

Условная медианно-несмещенная оценка снижает условное смещение традиционной оценки (например, 0.084 при нормальном проектировании с n=100) до -0.015.

Результаты эмпирических приложений

Приложение благотворительных пожертвований

Основные результаты:

Уровень отклика и размер пожертвования с согласованием значимы при всех трех процедурах
Направление и величина коррекции смещения зависят от структуры корреляции
Для "размера пожертвования с согласованием" при тестировании Holm и Bonferroni наблюдается восходящая коррекция, связанная с высокой корреляцией с незначимым "размером пожертвования без согласования"

Приложение взаимных фондов

Ключевые результаты:

Среди 371 фонда выявлено 5 фондов со значимой положительной альфой
Условная медианно-несмещенная оценка немного меньше безусловной оценки
Условные доверительные интервалы на 12-36% уже безусловных интервалов
Для 4 из 5 фондов нижняя граница совместного условного доверительного интервала превышает 0.135, указывая на экономически значимую избыточную производительность

Связанные работы

Литература по избирательному выводу

Статья является частью быстро развивающейся литературы по избирательному выводу, включая соответствующие исследования:

Методы условного вывода: Lee et al. (2016), Fithian et al. (2017)
Методы безусловного вывода: Benjamini and Yekutieli (2005), Berk et al. (2013)

Отличия от существующих методов

vs. методы безусловного вывода:
- Условные методы контролируют статистическую ошибку при данной наблюдаемой значимости
- Методы безусловного вывода усредняют статистическую ошибку по различным контекстам
- Условные методы предоставляют точечные оценки с коррекцией смещения
vs. одновременный вывод:
- Условный вывод может дать более узкие доверительные интервалы
- Преимущество мощности методов безусловного вывода не является последовательным

Теоретические результаты

Основные теоремы

Теорема 1 (Медианная несмещенность)

P(θ̃ᵘᵇₛ ≥ θₓ | Ŝ = S) = P(θ̃ᵘᵇₛ ≤ θₛ | Ŝ = S) = 0.5

Теорема 2 (Корректность доверительного множества)

P(θₛ ∈ CCIα(θₛ | S) | Ŝ = S) = 1 - α

Теоремы 5-6 (Асимптотические свойства)

При предположении 1 устанавливаются асимптотическая медианная несмещенность оценок и асимптотическая корректность доверительных интервалов.

Результаты сходимости

Теорема 4 предоставляет достаточные условия для сходимости условного доверительного интервала к безусловному интервалу; когда эффект "высоко значим", оба метода сходятся.

Заключение и обсуждение

Основные выводы

Эффективность метода: Предложенный метод условного вывода показывает хорошие результаты в конечных выборках, захватывая смещение отбора даже в негауссовых условиях
Вычислительная осуществимость: Полиномиальная временная сложность алгоритма позволяет методу обрабатывать сотни эффектов
Практическая ценность: Два эмпирических приложения показывают, что направление и величина коррекции смещения трудно предсказать, подчеркивая релевантность формальных статистических методов

Ограничения

Предварительное указание гипотез: Метод предполагает, что полный набор тестируемых гипотез известен заранее и не может обрабатывать скрытые незначимые результаты
Вычислительная сложность: Хотя это полиномиальное время, для очень больших m могут возникнуть вычислительные трудности
Предположения модели: Требуется асимптотическая нормальность и последовательно оцениваемая матрица ковариации

Направления будущих исследований

Альтернативные процедуры условного вывода: Исследование методов data carving и randomized response
Исследование свойств мощности: Анализ характеристик мощности процедуры
Непараметрические расширения: Ослабление предположения нормальности

Глубокая оценка

Преимущества

Теоретический вклад: Предоставляет строгую теоретическую основу для вывода после множественного тестирования гипотез
Методологические инновации: Эффективный алгоритм делает метод практически применимым
Широкая применимость: Поддерживает различные процедуры множественного тестирования и события отбора
Эмпирическая верификация: Метод тщательно проверен посредством моделирования и реальных приложений
Ясное изложение: Статья хорошо структурирована с подробными техническими деталями

Недостатки

Вычислительная сложность: Хотя это полиномиальное время, O(m³logm) может быть узким местом для очень больших задач
Ограничения предположений: Предположение нормальности и известная структура ковариации могут не выполняться в практических приложениях
Выбор события отбора: Требуется дополнительное руководство по выбору между различными определениями событий отбора

Влияние

Академическая ценность: Обеспечивает важный вклад в литературу по избирательному выводу, особенно в контексте множественного тестирования
Практическая ценность: Метод непосредственно применим к эмпирическим исследованиям в экономике, медицине и других областях
Воспроизводимость: Подробное описание алгоритма и полные теоретические результаты обеспечивают хорошую воспроизводимость

Сценарии применения

Метод особенно подходит для следующих сценариев:

Исследования множественных эффектов воздействия: Рандомизированные контролируемые испытания, требующие одновременной оценки нескольких эффектов вмешательства
Анализ подгрупп: Оценка эффектов воздействия в нескольких подгруппах населения
Множественные переменные результата: Оценка влияния единственного вмешательства на несколько переменных результата
Финансовые приложения: Оценка производительности портфеля, анализ факторов риска и т.д.

Библиография

Статья цитирует ключевые работы в области избирательного вывода, включая полиэдральный метод Lee et al. (2016), принципы условного избирательного вывода Fithian et al. (2017) и процедуры множественного тестирования Romano and Wolf (2005). Эти ссылки отражают глубину и широту вклада статьи в данную область.