Inference on effect size after multiple hypothesis testing
Dzemski, Okui, Wang
Significant treatment effects are often emphasized when interpreting and summarizing empirical findings in studies that estimate multiple, possibly many, treatment effects. Under this kind of selective reporting, conventional treatment effect estimates may be biased and their corresponding confidence intervals may undercover the true effect sizes. We propose new estimators and confidence intervals that provide valid inferences on the effect sizes of the significant effects after multiple hypothesis testing. Our methods are based on the principle of selective conditional inference and complement a wide range of tests, including step-up tests and bootstrap-based step-down tests. Our approach is scalable, allowing us to study an application with over 370 estimated effects. We justify our procedure for asymptotically normal treatment effect estimators. We provide two empirical examples that demonstrate bias correction and confidence interval adjustments for significant effects. The magnitude and direction of the bias correction depend on the correlation structure of the estimated effects and whether the interpretation of the significant effects depends on the (in)significance of other effects.
academic
Inferencia sobre el tamaño del efecto después de pruebas de hipótesis múltiples
En estudios que estiman múltiples efectos de tratamiento, los efectos de tratamiento significativos suelen enfatizarse al interpretar y resumir hallazgos empíricos. Bajo este reporte selectivo, las estimaciones tradicionales de efectos de tratamiento pueden estar sesgadas, y sus intervalos de confianza correspondientes pueden no proporcionar una cobertura adecuada del verdadero tamaño del efecto. Este artículo propone nuevos estimadores e intervalos de confianza para proporcionar inferencia válida sobre el tamaño del efecto de efectos significativos después de pruebas de hipótesis múltiples. La metodología se basa en principios de inferencia condicional selectiva y es aplicable a una amplia gama de procedimientos de prueba, incluyendo pruebas step-up y pruebas step-down basadas en bootstrap. El método es escalable y puede estudiar aplicaciones con más de 370 efectos estimados. Los autores demuestran la validez del procedimiento para estimadores de efectos de tratamiento asintóticamente normales y proporcionan dos ejemplos empíricos que ilustran la corrección de sesgo y el ajuste de intervalos de confianza para efectos significativos.
En investigación empírica en economía, medicina, psicología y otros campos, los investigadores frecuentemente necesitan estimar múltiples efectos de tratamiento. Estos efectos pueden provenir de diferentes variables de resultado, tipos de intervención o subgrupos poblacionales. A través de procedimientos de pruebas de hipótesis múltiples, los investigadores clasifican estos efectos como estadísticamente significativos o no significativos, enfocándose luego en la importancia práctica de los efectos significativos.
Cuando los investigadores restringen su atención a efectos significativos, las estimaciones de magnitud de estos efectos se ven afectadas por sesgo de selección, lo que invalida los métodos tradicionales de inferencia estadística. Esto se manifiesta específicamente como:
Sesgo de Selección: Los efectos significativos tienden a ser seleccionados positivamente ("maldición del ganador"), con sus magnitudes sobreestimadas
Cobertura Insuficiente de Intervalos de Confianza: Los intervalos de confianza tradicionales no proporcionan cobertura estadística válida
Falta de Corrección de Sesgo: Los métodos existentes carecen de estimadores insesgados para tamaños de efecto después de la selección
El artículo sostiene que evitar resúmenes e interpretaciones selectivas no resuelve el problema, sino que simplemente transfiere la carga de síntesis de resultados a los lectores, quienes aún enfrentan problemas de inferencia selectiva. Por lo tanto, es necesario desarrollar métodos estadísticos especializados para manejar problemas de inferencia después de pruebas de hipótesis múltiples.
Propone un nuevo método basado en inferencia condicional selectiva: Proporciona estimación puntual válida e intervalos de confianza para el tamaño del efecto de efectos significativos después de pruebas de hipótesis múltiples
Desarrolla algoritmos computacionales eficientes: Propone un algoritmo con complejidad de tiempo O(m³logm), permitiendo que el método se extienda a aplicaciones con cientos de efectos
Establece teoría asintótica: Demuestra la validez asintótica consistente del procedimiento bajo estimadores de efectos de tratamiento asintóticamente normales
Proporciona amplia aplicabilidad: El método es aplicable a múltiples procedimientos de pruebas múltiples, incluyendo pruebas step-down y step-up
Demuestra valor práctico: Valida la efectividad y practicidad del método a través de dos aplicaciones empíricas
Dado m parámetros de efectos de tratamiento θ = (θ₁, ..., θₘ)' y sus estimadores θ̂, después de determinar el conjunto de efectos significativos Ŝ mediante pruebas de hipótesis múltiples, realizar inferencia insesgada sobre los verdaderos tamaños de efecto de los efectos significativos.
Los métodos tradicionales requieren calcular directamente el complejo evento de selección X(S). Este artículo evita este cálculo mediante las siguientes innovaciones:
Algoritmo 2: Cálculo del Soporte Condicional
(A) Encontrar todos los puntos de intersección de funciones lineales xz,h(xs) para identificar intervalos I
(B) Para cada intervalo I:
i. Encontrar la permutación ordenada σ*I
ii. Calcular los límites del intervalo ℓ(I) y u(I)
(C) Retornar ∪I I ∩ [ℓ(I), u(I)]
Los intervalos condicionales son más amplios que los intervalos tradicionales, pero significativamente más cortos que los intervalos de Bonferroni, demostrando ganancias de eficiencia.
El estimador insesgado condicional de mediana reduce el sesgo condicional de la estimación tradicional (como 0.084 en el diseño normal con n=100) a -0.015.
Tasa de Respuesta y Cantidad de Donación Incluyendo Coincidencia son significativas en los tres procedimientos
La dirección y magnitud de la corrección de sesgo dependen de la estructura de correlación
Para "Cantidad de Donación Incluyendo Coincidencia", se observa corrección hacia arriba bajo pruebas Holm y Bonferroni, relacionada con "Cantidad de Donación Excluyendo Coincidencia" no significativa altamente correlacionada
Se identifican 5 fondos con alfa positivo significativo entre 371 fondos
El estimador insesgado condicional de mediana es ligeramente menor que la estimación incondicional
Los intervalos de confianza condicionales son 12-36% más estrechos que los intervalos incondicionales
Para 4 de los 5 fondos, el límite inferior del intervalo de confianza condicional conjunto supera 0.135, indicando desempeño superior económicamente significativo
El Teorema 4 proporciona condiciones suficientes para que los intervalos de confianza condicionales converjan a intervalos de confianza incondicionales, con ambos métodos tendiendo a coincidir cuando los efectos son "altamente significativos".
Validez del Método: El método de inferencia condicional propuesto funciona bien en muestras finitas, capturando sesgo de selección incluso en configuraciones no gaussianas
Viabilidad Computacional: La complejidad de tiempo polinomial del algoritmo permite que el método maneje cientos de efectos
Valor Práctico: Las dos aplicaciones empíricas muestran que la dirección y magnitud de la corrección de sesgo son difíciles de predecir, destacando la relevancia de métodos estadísticos formales
Suposición de Especificación Previa: El método asume que el conjunto completo de hipótesis a probar es conocido, no puede manejar resultados no significativos ocultos
Complejidad Computacional: Aunque es tiempo polinomial, O(m³logm) puede ser un cuello de botella para m muy grande
Suposiciones del Modelo: Requiere normalidad asintótica y matriz de covarianza consistentemente estimable
Este método es particularmente adecuado para los siguientes escenarios:
Estudios de Múltiples Efectos de Tratamiento: Ensayos controlados aleatorizados que necesitan estimar simultáneamente múltiples efectos de intervención
Análisis de Subgrupos: Evaluación de efectos de tratamiento en múltiples subgrupos poblacionales
Múltiples Variables de Resultado: Evaluación del impacto de una intervención única en múltiples variables de resultado
Aplicaciones Financieras: Evaluación de desempeño de carteras, análisis de factores de riesgo, etc.
El artículo cita literatura clave en el campo de inferencia selectiva, incluyendo el método poliédrico de Lee et al. (2016), los principios de inferencia condicional selectiva de Fithian et al. (2017), y procedimientos de pruebas múltiples de Romano and Wolf (2005). Estas citas reflejan la profundidad y amplitud del artículo en el campo.