Inference on effect size after multiple hypothesis testing
Dzemski, Okui, Wang
Significant treatment effects are often emphasized when interpreting and summarizing empirical findings in studies that estimate multiple, possibly many, treatment effects. Under this kind of selective reporting, conventional treatment effect estimates may be biased and their corresponding confidence intervals may undercover the true effect sizes. We propose new estimators and confidence intervals that provide valid inferences on the effect sizes of the significant effects after multiple hypothesis testing. Our methods are based on the principle of selective conditional inference and complement a wide range of tests, including step-up tests and bootstrap-based step-down tests. Our approach is scalable, allowing us to study an application with over 370 estimated effects. We justify our procedure for asymptotically normal treatment effect estimators. We provide two empirical examples that demonstrate bias correction and confidence interval adjustments for significant effects. The magnitude and direction of the bias correction depend on the correlation structure of the estimated effects and whether the interpretation of the significant effects depends on the (in)significance of other effects.
academic
Вывод об величине эффекта после множественного тестирования гипотез
В исследованиях, оценивающих множественные эффекты воздействия, значимые эффекты часто подчеркиваются при интерпретации и обобщении эмпирических результатов. При такой избирательной отчетности традиционные оценки эффекта воздействия могут быть смещены, а соответствующие доверительные интервалы могут не обеспечивать адекватное покрытие истинной величины эффекта. В данной работе предложены новые оценки и доверительные интервалы, обеспечивающие корректный вывод о величине эффекта значимых эффектов после множественного тестирования гипотез. Методология основана на принципах условного избирательного вывода и применима к широкому спектру процедур тестирования, включая пошаговые процедуры повышения и основанные на бутстрепе пошаговые процедуры понижения. Метод масштабируем и может применяться к исследованиям с более чем 370 оцениваемыми эффектами. Авторы доказывают корректность процедуры для асимптотически нормальных оценок эффекта воздействия и предоставляют два эмпирических примера, демонстрирующих коррекцию смещения и корректировку доверительных интервалов для значимых эффектов.
В эмпирических исследованиях в области экономики, медицины, психологии и других дисциплин исследователи часто должны оценивать множественные эффекты воздействия. Эти эффекты могут происходить из различных переменных результата, типов вмешательства или подгрупп населения. Посредством процедур множественного тестирования гипотез исследователи классифицируют эти эффекты как статистически значимые или незначимые, а затем сосредотачивают внимание на практической значимости значимых эффектов.
Когда исследователи ограничивают внимание значимыми эффектами, оценки величины этих эффектов подвергаются влиянию смещения отбора, что делает традиционные методы статистического вывода неэффективными. Это проявляется следующим образом:
Смещение отбора: Значимые эффекты часто подвергаются положительному отбору ("проклятие победителя"), их величина переоценивается
Авторы утверждают, что избежание избирательного обобщения и интерпретации не решает проблему, а лишь перекладывает бремя синтеза результатов на читателя, который все еще сталкивается с проблемой избирательного вывода. Поэтому необходимо разработать специализированные статистические методы для решения проблем вывода после множественного тестирования гипотез.
Предложен новый метод, основанный на условном избирательном выводе: Обеспечивает корректные точечные оценки и доверительные интервалы для величины эффекта значимых эффектов после множественного тестирования гипотез
Разработан эффективный вычислительный алгоритм: Предложен алгоритм с временной сложностью O(m³logm), позволяющий масштабировать метод на приложения с сотнями эффектов
Установлена асимптотическая теория: Доказана асимптотическая эффективность процедуры для асимптотически нормальных оценок эффекта воздействия
Обеспечена широкая применимость: Метод применим к различным процедурам множественного тестирования, включая пошаговые процедуры понижения и повышения
Продемонстрирована практическая ценность: Две эмпирические работы подтверждают эффективность и практичность метода
Даны m параметров эффекта воздействия θ = (θ₁, ..., θₘ)' и их оценки θ̂. После определения набора значимых эффектов Ŝ посредством процедуры множественного тестирования гипотез требуется получить несмещенный вывод о истинной величине эффекта для значимых эффектов.
Традиционные методы требуют прямого вычисления сложного события отбора X(S). В данной работе это избегается благодаря следующим инновациям:
Алгоритм 2: Вычисление условной поддержки
(A) Найти все пересечения линейных функций xz,h(xs) для определения интервалов I
(B) Для каждого интервала I:
i. Найти перестановку сортировки σ*I
ii. Вычислить границы интервала ℓ(I) и u(I)
(C) Вернуть ∪I I ∩ [ℓ(I), u(I)]
Уровень отклика и размер пожертвования с согласованием значимы при всех трех процедурах
Направление и величина коррекции смещения зависят от структуры корреляции
Для "размера пожертвования с согласованием" при тестировании Holm и Bonferroni наблюдается восходящая коррекция, связанная с высокой корреляцией с незначимым "размером пожертвования без согласования"
Среди 371 фонда выявлено 5 фондов со значимой положительной альфой
Условная медианно-несмещенная оценка немного меньше безусловной оценки
Условные доверительные интервалы на 12-36% уже безусловных интервалов
Для 4 из 5 фондов нижняя граница совместного условного доверительного интервала превышает 0.135, указывая на экономически значимую избыточную производительность
Теорема 4 предоставляет достаточные условия для сходимости условного доверительного интервала к безусловному интервалу; когда эффект "высоко значим", оба метода сходятся.
Эффективность метода: Предложенный метод условного вывода показывает хорошие результаты в конечных выборках, захватывая смещение отбора даже в негауссовых условиях
Вычислительная осуществимость: Полиномиальная временная сложность алгоритма позволяет методу обрабатывать сотни эффектов
Практическая ценность: Два эмпирических приложения показывают, что направление и величина коррекции смещения трудно предсказать, подчеркивая релевантность формальных статистических методов
Предварительное указание гипотез: Метод предполагает, что полный набор тестируемых гипотез известен заранее и не может обрабатывать скрытые незначимые результаты
Вычислительная сложность: Хотя это полиномиальное время, для очень больших m могут возникнуть вычислительные трудности
Предположения модели: Требуется асимптотическая нормальность и последовательно оцениваемая матрица ковариации
Исследования множественных эффектов воздействия: Рандомизированные контролируемые испытания, требующие одновременной оценки нескольких эффектов вмешательства
Анализ подгрупп: Оценка эффектов воздействия в нескольких подгруппах населения
Множественные переменные результата: Оценка влияния единственного вмешательства на несколько переменных результата
Финансовые приложения: Оценка производительности портфеля, анализ факторов риска и т.д.
Статья цитирует ключевые работы в области избирательного вывода, включая полиэдральный метод Lee et al. (2016), принципы условного избирательного вывода Fithian et al. (2017) и процедуры множественного тестирования Romano and Wolf (2005). Эти ссылки отражают глубину и широту вклада статьи в данную область.