2025-11-25T22:55:18.828107

Inference on effect size after multiple hypothesis testing

Dzemski, Okui, Wang

Significant treatment effects are often emphasized when interpreting and summarizing empirical findings in studies that estimate multiple, possibly many, treatment effects. Under this kind of selective reporting, conventional treatment effect estimates may be biased and their corresponding confidence intervals may undercover the true effect sizes. We propose new estimators and confidence intervals that provide valid inferences on the effect sizes of the significant effects after multiple hypothesis testing. Our methods are based on the principle of selective conditional inference and complement a wide range of tests, including step-up tests and bootstrap-based step-down tests. Our approach is scalable, allowing us to study an application with over 370 estimated effects. We justify our procedure for asymptotically normal treatment effect estimators. We provide two empirical examples that demonstrate bias correction and confidence interval adjustments for significant effects. The magnitude and direction of the bias correction depend on the correlation structure of the estimated effects and whether the interpretation of the significant effects depends on the (in)significance of other effects.

academic

Inferencia sobre el tamaño del efecto después de pruebas de hipótesis múltiples

Información Básica

ID del Artículo: 2503.22369
Título: Inference on effect size after multiple hypothesis testing
Autores: Andreas Dzemski (University of Gothenburg), Ryo Okui (University of Tokyo), Wenjie Wang (Nanyang Technological University)
Clasificación: econ.EM math.ST stat.TH
Fecha de Publicación: 14 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2503.22369

Resumen

En estudios que estiman múltiples efectos de tratamiento, los efectos de tratamiento significativos suelen enfatizarse al interpretar y resumir hallazgos empíricos. Bajo este reporte selectivo, las estimaciones tradicionales de efectos de tratamiento pueden estar sesgadas, y sus intervalos de confianza correspondientes pueden no proporcionar una cobertura adecuada del verdadero tamaño del efecto. Este artículo propone nuevos estimadores e intervalos de confianza para proporcionar inferencia válida sobre el tamaño del efecto de efectos significativos después de pruebas de hipótesis múltiples. La metodología se basa en principios de inferencia condicional selectiva y es aplicable a una amplia gama de procedimientos de prueba, incluyendo pruebas step-up y pruebas step-down basadas en bootstrap. El método es escalable y puede estudiar aplicaciones con más de 370 efectos estimados. Los autores demuestran la validez del procedimiento para estimadores de efectos de tratamiento asintóticamente normales y proporcionan dos ejemplos empíricos que ilustran la corrección de sesgo y el ajuste de intervalos de confianza para efectos significativos.

Antecedentes de Investigación y Motivación

Importancia del Problema

En investigación empírica en economía, medicina, psicología y otros campos, los investigadores frecuentemente necesitan estimar múltiples efectos de tratamiento. Estos efectos pueden provenir de diferentes variables de resultado, tipos de intervención o subgrupos poblacionales. A través de procedimientos de pruebas de hipótesis múltiples, los investigadores clasifican estos efectos como estadísticamente significativos o no significativos, enfocándose luego en la importancia práctica de los efectos significativos.

Limitaciones de Métodos Existentes

Cuando los investigadores restringen su atención a efectos significativos, las estimaciones de magnitud de estos efectos se ven afectadas por sesgo de selección, lo que invalida los métodos tradicionales de inferencia estadística. Esto se manifiesta específicamente como:

Sesgo de Selección: Los efectos significativos tienden a ser seleccionados positivamente ("maldición del ganador"), con sus magnitudes sobreestimadas
Cobertura Insuficiente de Intervalos de Confianza: Los intervalos de confianza tradicionales no proporcionan cobertura estadística válida
Falta de Corrección de Sesgo: Los métodos existentes carecen de estimadores insesgados para tamaños de efecto después de la selección

Motivación de la Investigación

El artículo sostiene que evitar resúmenes e interpretaciones selectivas no resuelve el problema, sino que simplemente transfiere la carga de síntesis de resultados a los lectores, quienes aún enfrentan problemas de inferencia selectiva. Por lo tanto, es necesario desarrollar métodos estadísticos especializados para manejar problemas de inferencia después de pruebas de hipótesis múltiples.

Contribuciones Principales

Propone un nuevo método basado en inferencia condicional selectiva: Proporciona estimación puntual válida e intervalos de confianza para el tamaño del efecto de efectos significativos después de pruebas de hipótesis múltiples
Desarrolla algoritmos computacionales eficientes: Propone un algoritmo con complejidad de tiempo O(m³logm), permitiendo que el método se extienda a aplicaciones con cientos de efectos
Establece teoría asintótica: Demuestra la validez asintótica consistente del procedimiento bajo estimadores de efectos de tratamiento asintóticamente normales
Proporciona amplia aplicabilidad: El método es aplicable a múltiples procedimientos de pruebas múltiples, incluyendo pruebas step-down y step-up
Demuestra valor práctico: Valida la efectividad y practicidad del método a través de dos aplicaciones empíricas

Explicación Detallada de la Metodología

Definición de la Tarea

Dado m parámetros de efectos de tratamiento θ = (θ₁, ..., θₘ)' y sus estimadores θ̂, después de determinar el conjunto de efectos significativos Ŝ mediante pruebas de hipótesis múltiples, realizar inferencia insesgada sobre los verdaderos tamaños de efecto de los efectos significativos.

Marco Metodológico Principal

1. Configuración Básica

Suponer θ̂ ~ N(θ, V), donde V es la matriz de covarianza conocida
Estadístico t: X = diag⁻¹/²(v)θ̂, donde v son los elementos diagonales de V
Los efectos significativos se determinan mediante procedimientos step-down o step-up: el efecto h es significativo cuando |Xₕ| ≥ x̄ₕ

2. Método de Inferencia Condicional

Para un efecto significativo s ∈ S, descomponer X como:

X = Ω•,sXs + Z⁽ˢ⁾

donde Z⁽ˢ⁾ = X - Ω•,sXs es independiente de Xs.

La innovación clave radica en la función de distribución condicional:

Fs(xs | z, θs, S) = ∫{ξ∈ℝ:ξ+V⁻¹/²s,sθs∈Xs(z,S)} 1{ξ + V⁻¹/²s,sθs ≤ xs} dΦ(ξ) / ∫{ξ∈ℝ:ξ+V⁻¹/²s,sθs∈Xs(z,S)} dΦ(ξ)

3. Estimadores e Intervalos de Confianza

Estimador Insesgado Condicional de Mediana: θ̃ᵘᵇₛ = θ̃ₛ⁽⁰·⁵⁾, donde θ̃ₛ⁽ᵖ⁾ satisface Fs(Xs | Z⁽ˢ⁾, θ̃ₛ⁽ᵖ⁾, S) = p
Intervalo de Confianza Condicional: θ̃ₛ⁽¹⁻α/²⁾, θ̃ₛ⁽α/²⁾

Puntos de Innovación Técnica

1. Diseño de Algoritmo Eficiente

Los métodos tradicionales requieren calcular directamente el complejo evento de selección X(S). Este artículo evita este cálculo mediante las siguientes innovaciones:

Algoritmo 2: Cálculo del Soporte Condicional

(A) Encontrar todos los puntos de intersección de funciones lineales xz,h(xs) para identificar intervalos I
(B) Para cada intervalo I:
    i. Encontrar la permutación ordenada σ*I
    ii. Calcular los límites del intervalo ℓ(I) y u(I)
(C) Retornar ∪I I ∩ [ℓ(I), u(I)]

2. Tratamiento Unificado de Procedimientos de Pruebas Múltiples

El método soporta múltiples procedimientos de prueba:

Procedimientos Step-down: Bonferroni, Holm, Romano-Wolf, etc.
Procedimientos Step-up: Benjamini-Hochberg, Benjamini-Yekutieli, etc.

3. Definición Flexible de Eventos de Selección

Proporciona dos definiciones principales de eventos de selección:

Ŝ = S: Completamente condicionado al patrón de significancia observado
Ŝ ⊇ S: Condicionado únicamente a que el efecto específico sea encontrado significativo

Configuración Experimental

Simulación de Montecarlo

Configuración de Datos

Número de Efectos: m = 5
Parámetros Verdaderos: θ = (0.05, 0.03, 0.01, 0, 0)'
Tamaños de Muestra: n ∈ {100, 300, 500, 700, 900}
Correlación: ρ = 0.5
Procedimiento de Prueba: Holm step-down, FWER = 10%

Dos Diseños

Diseño Normal: Yᵢ ~ distribución normal multivariada
Diseño Chi-cuadrado: Yᵢₖ = (U²ᵢₖ-1)/√2 + θₖ, donde Uᵢ ~ normal multivariada

Aplicaciones Empíricas

Aplicación 1: Investigación de Donaciones Caritativas

Fuente de Datos: Experimento de donaciones coincidentes de Karlan and List (2007)
Número de Efectos: Efectos de tratamiento en 4 variables de resultado
Procedimientos de Prueba: Bonferroni, Holm, Romano-Wolf (RW2005)

Aplicación 2: Desempeño de Fondos Mutuos

Fuente de Datos: Base de datos CRSP de fondos mutuos, enero 2000 - abril 2024
Número de Efectos: Estimaciones de alfa para 371 fondos
Modelo: Modelo de cinco factores de Fama-French
Procedimientos de Prueba: Holm (control FWER) y Benjamini-Yekutieli (control FDR)

Resultados Experimentales

Resultados de Simulación de Montecarlo

Desempeño de Cobertura

Intervalos de Confianza Condicionales: Se acercan a la tasa de cobertura nominal del 90% en todos los diseños y tamaños de muestra
Intervalos de Confianza Tradicionales: Cobertura severamente insuficiente, particularmente cuando la frecuencia de selección es baja
Intervalos de Bonferroni: Alcanzan cobertura nominal en muestras grandes pero son excesivamente conservadores

Comparación de Longitudes de Intervalo

Los intervalos condicionales son más amplios que los intervalos tradicionales, pero significativamente más cortos que los intervalos de Bonferroni, demostrando ganancias de eficiencia.

Efectos de Corrección de Sesgo

El estimador insesgado condicional de mediana reduce el sesgo condicional de la estimación tradicional (como 0.084 en el diseño normal con n=100) a -0.015.

Resultados de Aplicaciones Empíricas

Aplicación de Donaciones Caritativas

Hallazgos principales:

Tasa de Respuesta y Cantidad de Donación Incluyendo Coincidencia son significativas en los tres procedimientos
La dirección y magnitud de la corrección de sesgo dependen de la estructura de correlación
Para "Cantidad de Donación Incluyendo Coincidencia", se observa corrección hacia arriba bajo pruebas Holm y Bonferroni, relacionada con "Cantidad de Donación Excluyendo Coincidencia" no significativa altamente correlacionada

Aplicación de Fondos Mutuos

Resultados clave:

Se identifican 5 fondos con alfa positivo significativo entre 371 fondos
El estimador insesgado condicional de mediana es ligeramente menor que la estimación incondicional
Los intervalos de confianza condicionales son 12-36% más estrechos que los intervalos incondicionales
Para 4 de los 5 fondos, el límite inferior del intervalo de confianza condicional conjunto supera 0.135, indicando desempeño superior económicamente significativo

Trabajo Relacionado

Literatura de Inferencia Selectiva

El artículo es parte de la literatura de inferencia selectiva en rápido desarrollo, con investigaciones relacionadas incluyendo:

Métodos de Inferencia Condicional: Lee et al. (2016), Fithian et al. (2017)
Métodos de Inferencia Incondicional: Benjamini and Yekutieli (2005), Berk et al. (2013)

Distinción con Métodos Existentes

vs. Métodos Incondicionales:
- Los métodos condicionales controlan el error estadístico dado el patrón de significancia observado
- Los métodos incondicionales promedian errores estadísticos en diferentes contextos
- Los métodos condicionales proporcionan estimadores puntuales con corrección de sesgo
vs. Inferencia Simultánea:
- La inferencia condicional puede producir intervalos de confianza más estrechos
- Las ventajas de potencia de los métodos incondicionales no son consistentes

Resultados Teóricos

Teoremas Principales

Teorema 1 (Insesgadez de Mediana)

P(θ̃ᵘᵇₛ ≥ θₓ | Ŝ = S) = P(θ̃ᵘᵇₛ ≤ θₛ | Ŝ = S) = 0.5

Teorema 2 (Validez del Conjunto de Confianza)

P(θₛ ∈ CCIα(θₛ | S) | Ŝ = S) = 1 - α

Teoremas 5-6 (Propiedades Asintóticas)

Bajo la Suposición 1, se establecen la insesgadez asintótica de mediana del estimador y la validez asintótica del intervalo de confianza.

Resultados de Convergencia

El Teorema 4 proporciona condiciones suficientes para que los intervalos de confianza condicionales converjan a intervalos de confianza incondicionales, con ambos métodos tendiendo a coincidir cuando los efectos son "altamente significativos".

Conclusiones y Discusión

Conclusiones Principales

Validez del Método: El método de inferencia condicional propuesto funciona bien en muestras finitas, capturando sesgo de selección incluso en configuraciones no gaussianas
Viabilidad Computacional: La complejidad de tiempo polinomial del algoritmo permite que el método maneje cientos de efectos
Valor Práctico: Las dos aplicaciones empíricas muestran que la dirección y magnitud de la corrección de sesgo son difíciles de predecir, destacando la relevancia de métodos estadísticos formales

Limitaciones

Suposición de Especificación Previa: El método asume que el conjunto completo de hipótesis a probar es conocido, no puede manejar resultados no significativos ocultos
Complejidad Computacional: Aunque es tiempo polinomial, O(m³logm) puede ser un cuello de botella para m muy grande
Suposiciones del Modelo: Requiere normalidad asintótica y matriz de covarianza consistentemente estimable

Direcciones Futuras

Procedimientos Alternativos de Inferencia Condicional: Explorar métodos como data carving y respuesta aleatoria
Investigación de Propiedades de Potencia: Investigar características de potencia del procedimiento
Extensiones No Paramétricas: Relajar suposiciones de normalidad

Evaluación Profunda

Fortalezas

Contribución Teórica: Proporciona un marco teórico riguroso para inferencia después de pruebas de hipótesis múltiples
Innovación Metodológica: Los algoritmos eficientes hacen que el método sea prácticamente operacional
Amplia Aplicabilidad: Soporta múltiples procedimientos de pruebas múltiples y eventos de selección
Validación Empírica: Valida completamente la efectividad del método mediante simulaciones y aplicaciones reales
Escritura Clara: La estructura del artículo es clara con detalles técnicos exhaustivos

Deficiencias

Complejidad Computacional: Aunque es tiempo polinomial, O(m³logm) puede ser un cuello de botella para problemas de escala muy grande
Restricciones de Suposiciones: Las suposiciones de normalidad y estructura de covarianza conocida pueden no satisfacerse en aplicaciones prácticas
Guía para Selección de Eventos: Se necesita más orientación sobre criterios para elegir entre diferentes definiciones de eventos de selección

Impacto

Valor Académico: Proporciona contribución importante a la literatura de inferencia selectiva, particularmente en el contexto de pruebas múltiples
Valor Práctico: El método es directamente aplicable a investigación empírica en economía, medicina y otros campos
Reproducibilidad: Las descripciones de algoritmos son detalladas y los resultados teóricos son completos, con buena reproducibilidad

Escenarios de Aplicación

Este método es particularmente adecuado para los siguientes escenarios:

Estudios de Múltiples Efectos de Tratamiento: Ensayos controlados aleatorizados que necesitan estimar simultáneamente múltiples efectos de intervención
Análisis de Subgrupos: Evaluación de efectos de tratamiento en múltiples subgrupos poblacionales
Múltiples Variables de Resultado: Evaluación del impacto de una intervención única en múltiples variables de resultado
Aplicaciones Financieras: Evaluación de desempeño de carteras, análisis de factores de riesgo, etc.

Referencias

El artículo cita literatura clave en el campo de inferencia selectiva, incluyendo el método poliédrico de Lee et al. (2016), los principios de inferencia condicional selectiva de Fithian et al. (2017), y procedimientos de pruebas múltiples de Romano and Wolf (2005). Estas citas reflejan la profundidad y amplitud del artículo en el campo.