Inference on effect size after multiple hypothesis testing
Dzemski, Okui, Wang
Significant treatment effects are often emphasized when interpreting and summarizing empirical findings in studies that estimate multiple, possibly many, treatment effects. Under this kind of selective reporting, conventional treatment effect estimates may be biased and their corresponding confidence intervals may undercover the true effect sizes. We propose new estimators and confidence intervals that provide valid inferences on the effect sizes of the significant effects after multiple hypothesis testing. Our methods are based on the principle of selective conditional inference and complement a wide range of tests, including step-up tests and bootstrap-based step-down tests. Our approach is scalable, allowing us to study an application with over 370 estimated effects. We justify our procedure for asymptotically normal treatment effect estimators. We provide two empirical examples that demonstrate bias correction and confidence interval adjustments for significant effects. The magnitude and direction of the bias correction depend on the correlation structure of the estimated effects and whether the interpretation of the significant effects depends on the (in)significance of other effects.
academic
Inférence sur la taille de l'effet après des tests d'hypothèses multiples
Dans les études estimant plusieurs effets de traitement, les effets de traitement significatifs sont souvent mis en avant lors de l'interprétation et de la synthèse des résultats empiriques. Sous ce régime de rapportage sélectif, les estimateurs traditionnels des effets de traitement peuvent être biaisés, et les intervalles de confiance correspondants peuvent ne pas fournir une couverture adéquate de la véritable taille d'effet. Cet article propose de nouveaux estimateurs et intervalles de confiance pour fournir une inférence valide sur la taille d'effet des effets significatifs après des tests d'hypothèses multiples. La méthode repose sur le principe de l'inférence sélective conditionnelle et s'applique à un large éventail de procédures de test, notamment les tests step-up et les tests step-down basés sur le bootstrap. La méthode est extensible et peut être appliquée à des études comportant plus de 370 effets estimés. Les auteurs établissent la validité de la procédure pour les estimateurs d'effets de traitement asymptotiquement normaux et fournissent deux exemples empiriques démontrant la correction du biais et l'ajustement des intervalles de confiance pour les effets significatifs.
Dans la recherche empirique en économie, médecine, psychologie et autres domaines, les chercheurs doivent fréquemment estimer plusieurs effets de traitement. Ces effets peuvent provenir de différentes variables de résultat, types d'interventions ou sous-groupes de population. Grâce à des procédures de tests d'hypothèses multiples, les chercheurs classent ces effets comme statistiquement significatifs ou non significatifs, puis se concentrent sur l'importance pratique des effets significatifs.
Lorsque les chercheurs limitent leur attention aux effets significatifs, les estimations de l'ampleur de ces effets sont affectées par un biais de sélection, ce qui invalide les méthodes traditionnelles d'inférence statistique. Cela se manifeste concrètement par:
Biais de sélection: Les effets significatifs sont souvent sélectionnés positivement (« malédiction du gagnant »), leur ampleur étant surestimée
Couverture insuffisante des intervalles de confiance: Les intervalles de confiance traditionnels ne fournissent pas une couverture statistique valide
Absence de correction du biais: Les méthodes existantes manquent d'estimateurs sans biais pour les tailles d'effet après sélection
L'article soutient que l'évitement de la synthèse et de l'interprétation sélectives ne résout pas le problème, mais transfère simplement le fardeau de la synthèse des résultats aux lecteurs, qui font face à des problèmes d'inférence sélective. Par conséquent, il est nécessaire de développer des méthodes statistiques spécialisées pour traiter l'inférence après des tests d'hypothèses multiples.
Proposition d'une nouvelle méthode basée sur l'inférence sélective conditionnelle: Fournit des estimations ponctuelles valides et des intervalles de confiance pour la taille d'effet des effets significatifs après des tests d'hypothèses multiples
Développement d'algorithmes de calcul efficaces: Propose un algorithme avec une complexité temporelle O(m³logm), permettant à la méthode de s'étendre à des applications comportant des centaines d'effets
Établissement de la théorie asymptotique: Prouve la validité asymptotique cohérente de la procédure pour les estimateurs d'effets de traitement asymptotiquement normaux
Applicabilité générale: La méthode s'applique à diverses procédures de tests multiples, notamment les tests step-down et step-up
Démonstration de la valeur pratique: Valide l'efficacité et l'utilité de la méthode par deux applications empiriques
Étant donné m paramètres d'effets de traitement θ = (θ₁, ..., θₘ)' et leurs estimateurs θ̂, après avoir déterminé l'ensemble des effets significatifs Ŝ par des tests d'hypothèses multiples, réaliser une inférence sans biais sur la véritable taille d'effet des effets significatifs.
Les méthodes traditionnelles nécessitent le calcul direct d'événements de sélection complexes X(S). Cet article évite ce calcul par les innovations suivantes:
Algorithme 2: Calcul du support conditionnel
(A) Trouver tous les points d'intersection des fonctions linéaires xz,h(xs) pour obtenir les intervalles I
(B) Pour chaque intervalle I:
i. Trouver la permutation de tri σ*I
ii. Calculer les limites d'intervalle ℓ(I) et u(I)
(C) Retourner ∪I I ∩ [ℓ(I), u(I)]
Les intervalles conditionnels sont plus larges que les intervalles traditionnels, mais significativement plus courts que les intervalles de Bonferroni, montrant des gains d'efficacité.
L'estimateur sans biais conditionnel à la médiane réduit le biais conditionnel de l'estimateur traditionnel (par exemple, 0.084 dans la conception normale avec n=100) à -0.015.
Le taux de réponse et le montant des dons incluant l'assortiment sont significatifs dans les trois procédures
La direction et l'ampleur de la correction du biais dépendent de la structure de corrélation
Pour le « montant des dons incluant l'assortiment », une correction à la hausse apparaît dans les tests de Holm et Bonferroni, liée au fait que le « montant des dons excluant l'assortiment » hautement corrélé n'est pas significatif
Identification de 5 fonds avec alpha positif significatif parmi 371 fonds
L'estimateur sans biais conditionnel à la médiane est légèrement inférieur à l'estimateur sans condition
Les intervalles de confiance conditionnels sont 12-36% plus étroits que les intervalles sans condition
Pour 4 des 5 fonds, la limite inférieure de l'intervalle de confiance conditionnel conjoint dépasse 0.135, indiquant une surperformance économiquement significative
Le théorème 4 fournit des conditions suffisantes pour que l'intervalle de confiance conditionnel converge vers l'intervalle sans condition, les deux méthodes tendant à coïncider lorsque l'effet est « hautement significatif ».
Validité de la méthode: La méthode d'inférence conditionnelle proposée fonctionne bien en échantillon fini, capturant le biais de sélection même dans des contextes non gaussiens
Faisabilité computationnelle: La complexité temporelle polynomiale de l'algorithme permet à la méthode de traiter des centaines d'effets
Valeur pratique: Les deux applications empiriques montrent que la direction et l'ampleur de la correction du biais sont difficiles à prévoir, soulignant la pertinence des méthodes statistiques formelles
Hypothèse de préspécification: La méthode suppose que l'ensemble complet des hypothèses testées est connu, ne pouvant pas traiter les cas où les résultats non significatifs sont cachés
Complexité computationnelle: Bien que polynomiale, O(m³logm) peut rester un goulot d'étranglement pour les très grands m
Hypothèses du modèle: Nécessite la normalité asymptotique et une matrice de covariance estimable de manière cohérente
Complexité computationnelle: Bien que polynomiale, O(m³logm) peut rester un goulot pour les problèmes à très grande échelle
Limitations des hypothèses: L'hypothèse de normalité et la structure de covariance connue peuvent ne pas être satisfaites dans les applications réelles
Critères de sélection: Les critères de choix entre différentes définitions d'événements de sélection nécessitent plus de guidance
Valeur académique: Fournit une contribution importante à la littérature sur l'inférence sélective, particulièrement dans le contexte des tests multiples
Valeur pratique: La méthode s'applique directement à la recherche empirique en économie, médecine et autres domaines
Reproductibilité: Description détaillée des algorithmes et résultats théoriques complets assurent une bonne reproductibilité
L'article cite les travaux clés de la littérature sur l'inférence sélective, notamment la méthode polyédrale de Lee et al. (2016), le principe d'inférence sélective conditionnelle de Fithian et al. (2017), et les procédures de tests multiples de Romano et Wolf (2005). Ces citations reflètent la profondeur et l'étendue de l'article dans ce domaine.