2025-11-25T22:55:18.828107

Inference on effect size after multiple hypothesis testing

Dzemski, Okui, Wang

Significant treatment effects are often emphasized when interpreting and summarizing empirical findings in studies that estimate multiple, possibly many, treatment effects. Under this kind of selective reporting, conventional treatment effect estimates may be biased and their corresponding confidence intervals may undercover the true effect sizes. We propose new estimators and confidence intervals that provide valid inferences on the effect sizes of the significant effects after multiple hypothesis testing. Our methods are based on the principle of selective conditional inference and complement a wide range of tests, including step-up tests and bootstrap-based step-down tests. Our approach is scalable, allowing us to study an application with over 370 estimated effects. We justify our procedure for asymptotically normal treatment effect estimators. We provide two empirical examples that demonstrate bias correction and confidence interval adjustments for significant effects. The magnitude and direction of the bias correction depend on the correlation structure of the estimated effects and whether the interpretation of the significant effects depends on the (in)significance of other effects.

academic

Inférence sur la taille de l'effet après des tests d'hypothèses multiples

Informations de base

ID de l'article: 2503.22369
Titre: Inference on effect size after multiple hypothesis testing
Auteurs: Andreas Dzemski (Université de Göteborg), Ryo Okui (Université de Tokyo), Wenjie Wang (Université technologique de Nanyang)
Classification: econ.EM math.ST stat.TH
Date de publication: 14 octobre 2025
Lien de l'article: https://arxiv.org/abs/2503.22369

Résumé

Dans les études estimant plusieurs effets de traitement, les effets de traitement significatifs sont souvent mis en avant lors de l'interprétation et de la synthèse des résultats empiriques. Sous ce régime de rapportage sélectif, les estimateurs traditionnels des effets de traitement peuvent être biaisés, et les intervalles de confiance correspondants peuvent ne pas fournir une couverture adéquate de la véritable taille d'effet. Cet article propose de nouveaux estimateurs et intervalles de confiance pour fournir une inférence valide sur la taille d'effet des effets significatifs après des tests d'hypothèses multiples. La méthode repose sur le principe de l'inférence sélective conditionnelle et s'applique à un large éventail de procédures de test, notamment les tests step-up et les tests step-down basés sur le bootstrap. La méthode est extensible et peut être appliquée à des études comportant plus de 370 effets estimés. Les auteurs établissent la validité de la procédure pour les estimateurs d'effets de traitement asymptotiquement normaux et fournissent deux exemples empiriques démontrant la correction du biais et l'ajustement des intervalles de confiance pour les effets significatifs.

Contexte et motivation de la recherche

Importance du problème

Dans la recherche empirique en économie, médecine, psychologie et autres domaines, les chercheurs doivent fréquemment estimer plusieurs effets de traitement. Ces effets peuvent provenir de différentes variables de résultat, types d'interventions ou sous-groupes de population. Grâce à des procédures de tests d'hypothèses multiples, les chercheurs classent ces effets comme statistiquement significatifs ou non significatifs, puis se concentrent sur l'importance pratique des effets significatifs.

Limitations des méthodes existantes

Lorsque les chercheurs limitent leur attention aux effets significatifs, les estimations de l'ampleur de ces effets sont affectées par un biais de sélection, ce qui invalide les méthodes traditionnelles d'inférence statistique. Cela se manifeste concrètement par:

Biais de sélection: Les effets significatifs sont souvent sélectionnés positivement (« malédiction du gagnant »), leur ampleur étant surestimée
Couverture insuffisante des intervalles de confiance: Les intervalles de confiance traditionnels ne fournissent pas une couverture statistique valide
Absence de correction du biais: Les méthodes existantes manquent d'estimateurs sans biais pour les tailles d'effet après sélection

Motivation de la recherche

L'article soutient que l'évitement de la synthèse et de l'interprétation sélectives ne résout pas le problème, mais transfère simplement le fardeau de la synthèse des résultats aux lecteurs, qui font face à des problèmes d'inférence sélective. Par conséquent, il est nécessaire de développer des méthodes statistiques spécialisées pour traiter l'inférence après des tests d'hypothèses multiples.

Contributions principales

Proposition d'une nouvelle méthode basée sur l'inférence sélective conditionnelle: Fournit des estimations ponctuelles valides et des intervalles de confiance pour la taille d'effet des effets significatifs après des tests d'hypothèses multiples
Développement d'algorithmes de calcul efficaces: Propose un algorithme avec une complexité temporelle O(m³logm), permettant à la méthode de s'étendre à des applications comportant des centaines d'effets
Établissement de la théorie asymptotique: Prouve la validité asymptotique cohérente de la procédure pour les estimateurs d'effets de traitement asymptotiquement normaux
Applicabilité générale: La méthode s'applique à diverses procédures de tests multiples, notamment les tests step-down et step-up
Démonstration de la valeur pratique: Valide l'efficacité et l'utilité de la méthode par deux applications empiriques

Explication détaillée de la méthode

Définition de la tâche

Étant donné m paramètres d'effets de traitement θ = (θ₁, ..., θₘ)' et leurs estimateurs θ̂, après avoir déterminé l'ensemble des effets significatifs Ŝ par des tests d'hypothèses multiples, réaliser une inférence sans biais sur la véritable taille d'effet des effets significatifs.

Cadre de la méthode principale

1. Configuration de base

Supposer θ̂ ~ N(θ, V), où V est la matrice de covariance connue
Statistique t: X = diag⁻¹/²(v)θ̂, où v sont les éléments diagonaux de V
Les effets significatifs sont déterminés par des procédures step-down ou step-up: l'effet h est significatif si |Xₕ| ≥ x̄ₕ

2. Méthode d'inférence conditionnelle

Pour un effet significatif s ∈ S, décomposer X comme:

X = Ω•,sXs + Z⁽ˢ⁾

où Z⁽ˢ⁾ = X - Ω•,sXs est indépendant de Xs.

L'innovation clé réside dans la fonction de distribution conditionnelle:

Fs(xs | z, θs, S) = ∫{ξ∈ℝ:ξ+V⁻¹/²s,sθs∈Xs(z,S)} 1{ξ + V⁻¹/²s,sθs ≤ xs} dΦ(ξ) / ∫{ξ∈ℝ:ξ+V⁻¹/²s,sθs∈Xs(z,S)} dΦ(ξ)

3. Estimateurs et intervalles de confiance

Estimateur sans biais conditionnel à la médiane: θ̃ᵘᵇₛ = θ̃ₛ⁽⁰·⁵⁾, où θ̃ₛ⁽ᵖ⁾ satisfait Fs(Xs | Z⁽ˢ⁾, θ̃ₛ⁽ᵖ⁾, S) = p
Intervalle de confiance conditionnel: θ̃ₛ⁽¹⁻α/²⁾, θ̃ₛ⁽α/²⁾

Points d'innovation technique

1. Conception d'algorithmes efficaces

Les méthodes traditionnelles nécessitent le calcul direct d'événements de sélection complexes X(S). Cet article évite ce calcul par les innovations suivantes:

Algorithme 2: Calcul du support conditionnel

(A) Trouver tous les points d'intersection des fonctions linéaires xz,h(xs) pour obtenir les intervalles I
(B) Pour chaque intervalle I:
    i. Trouver la permutation de tri σ*I
    ii. Calculer les limites d'intervalle ℓ(I) et u(I)
(C) Retourner ∪I I ∩ [ℓ(I), u(I)]

2. Traitement unifié des procédures de tests multiples

La méthode supporte diverses procédures de test:

Procédures step-down: Bonferroni, Holm, Romano-Wolf, etc.
Procédures step-up: Benjamini-Hochberg, Benjamini-Yekutieli, etc.

3. Définition flexible des événements de sélection

Fournit deux principaux types d'événements de sélection:

Ŝ = S: Conditionnement complet sur le modèle de significativité observé
Ŝ ⊇ S: Conditionnement uniquement sur le fait que l'effet spécifique soit trouvé significatif

Configuration expérimentale

Simulations de Monte-Carlo

Configuration des données

Nombre d'effets: m = 5
Paramètres réels: θ = (0.05, 0.03, 0.01, 0, 0)'
Tailles d'échantillon: n ∈ {100, 300, 500, 700, 900}
Corrélation: ρ = 0.5
Procédure de test: Holm step-down, FWER = 10%

Deux conceptions

Conception normale: Yᵢ ~ Distribution normale multivariée
Conception chi-carré: Yᵢₖ = (U²ᵢₖ-1)/√2 + θₖ, où Uᵢ ~ Normale multivariée

Applications empiriques

Application 1: Étude sur les dons caritatifs

Source de données: Expérience de dons assortis de Karlan et List (2007)
Nombre d'effets: Effets de traitement sur 4 variables de résultat
Procédures de test: Bonferroni, Holm, Romano-Wolf (RW2005)

Application 2: Performance des fonds communs de placement

Source de données: Base de données CRSP des fonds communs de placement, janvier 2000 - avril 2024
Nombre d'effets: Estimations alpha pour 371 fonds
Modèle: Modèle à cinq facteurs de Fama-French
Procédures de test: Holm (contrôle FWER) et Benjamini-Yekutieli (contrôle FDR)

Résultats expérimentaux

Résultats des simulations de Monte-Carlo

Performance de couverture

Intervalles de confiance conditionnels: Approchent le taux de couverture nominal de 90% dans toutes les conceptions et tailles d'échantillon
Intervalles de confiance traditionnels: Couverture sévèrement insuffisante, particulièrement lorsque la fréquence de sélection est faible
Intervalles de Bonferroni: Atteignent le taux de couverture nominal en grand échantillon mais sont trop conservateurs

Comparaison de la longueur d'intervalle

Les intervalles conditionnels sont plus larges que les intervalles traditionnels, mais significativement plus courts que les intervalles de Bonferroni, montrant des gains d'efficacité.

Effet de correction du biais

L'estimateur sans biais conditionnel à la médiane réduit le biais conditionnel de l'estimateur traditionnel (par exemple, 0.084 dans la conception normale avec n=100) à -0.015.

Résultats des applications empiriques

Application sur les dons caritatifs

Résultats principaux:

Le taux de réponse et le montant des dons incluant l'assortiment sont significatifs dans les trois procédures
La direction et l'ampleur de la correction du biais dépendent de la structure de corrélation
Pour le « montant des dons incluant l'assortiment », une correction à la hausse apparaît dans les tests de Holm et Bonferroni, liée au fait que le « montant des dons excluant l'assortiment » hautement corrélé n'est pas significatif

Application sur les fonds communs de placement

Résultats clés:

Identification de 5 fonds avec alpha positif significatif parmi 371 fonds
L'estimateur sans biais conditionnel à la médiane est légèrement inférieur à l'estimateur sans condition
Les intervalles de confiance conditionnels sont 12-36% plus étroits que les intervalles sans condition
Pour 4 des 5 fonds, la limite inférieure de l'intervalle de confiance conditionnel conjoint dépasse 0.135, indiquant une surperformance économiquement significative

Travaux connexes

Littérature sur l'inférence sélective

L'article fait partie d'une littérature en rapide développement sur l'inférence sélective, incluant les recherches connexes:

Méthodes d'inférence conditionnelle: Lee et al. (2016), Fithian et al. (2017)
Méthodes d'inférence sans condition: Benjamini et Yekutieli (2005), Berk et al. (2013)

Distinction avec les méthodes existantes

vs. Méthodes sans condition:
- Les méthodes conditionnelles contrôlent l'erreur statistique étant donné la significativité observée
- Les méthodes sans condition font la moyenne des erreurs statistiques sur différents contextes
- Les méthodes conditionnelles fournissent des estimations ponctuelles avec correction du biais
vs. Inférence simultanée:
- L'inférence conditionnelle peut produire des intervalles de confiance plus étroits
- L'avantage de puissance des méthodes sans condition n'est pas cohérent

Résultats théoriques

Théorèmes principaux

Théorème 1 (Absence de biais à la médiane)

P(θ̃ᵘᵇₛ ≥ θₓ | Ŝ = S) = P(θ̃ᵘᵇₛ ≤ θₛ | Ŝ = S) = 0.5

Théorème 2 (Validité de l'ensemble de confiance)

P(θₛ ∈ CCIα(θₛ | S) | Ŝ = S) = 1 - α

Théorèmes 5-6 (Propriétés asymptotiques)

Sous l'hypothèse 1, établissent l'absence de biais asymptotique à la médiane de l'estimateur et la validité asymptotique de l'intervalle de confiance.

Résultats de convergence

Le théorème 4 fournit des conditions suffisantes pour que l'intervalle de confiance conditionnel converge vers l'intervalle sans condition, les deux méthodes tendant à coïncider lorsque l'effet est « hautement significatif ».

Conclusion et discussion

Conclusions principales

Validité de la méthode: La méthode d'inférence conditionnelle proposée fonctionne bien en échantillon fini, capturant le biais de sélection même dans des contextes non gaussiens
Faisabilité computationnelle: La complexité temporelle polynomiale de l'algorithme permet à la méthode de traiter des centaines d'effets
Valeur pratique: Les deux applications empiriques montrent que la direction et l'ampleur de la correction du biais sont difficiles à prévoir, soulignant la pertinence des méthodes statistiques formelles

Limitations

Hypothèse de préspécification: La méthode suppose que l'ensemble complet des hypothèses testées est connu, ne pouvant pas traiter les cas où les résultats non significatifs sont cachés
Complexité computationnelle: Bien que polynomiale, O(m³logm) peut rester un goulot d'étranglement pour les très grands m
Hypothèses du modèle: Nécessite la normalité asymptotique et une matrice de covariance estimable de manière cohérente

Directions futures

Procédures d'inférence conditionnelle alternatives: Explorer des méthodes comme le data carving et les réponses randomisées
Étude des propriétés de puissance: Investiguer les caractéristiques de puissance de la procédure
Extensions non paramétriques: Relâcher l'hypothèse de normalité

Évaluation approfondie

Avantages

Contribution théorique: Fournit un cadre théorique rigoureux pour l'inférence après des tests d'hypothèses multiples
Innovation méthodologique: Les algorithmes efficaces rendent la méthode pratiquement opérationnelle
Applicabilité générale: Supporte diverses procédures de tests multiples et événements de sélection
Validation empirique: Valide complètement l'efficacité de la méthode par simulation et applications réelles
Clarté de la rédaction: Structure claire de l'article avec détails techniques complets

Insuffisances

Complexité computationnelle: Bien que polynomiale, O(m³logm) peut rester un goulot pour les problèmes à très grande échelle
Limitations des hypothèses: L'hypothèse de normalité et la structure de covariance connue peuvent ne pas être satisfaites dans les applications réelles
Critères de sélection: Les critères de choix entre différentes définitions d'événements de sélection nécessitent plus de guidance

Impact

Valeur académique: Fournit une contribution importante à la littérature sur l'inférence sélective, particulièrement dans le contexte des tests multiples
Valeur pratique: La méthode s'applique directement à la recherche empirique en économie, médecine et autres domaines
Reproductibilité: Description détaillée des algorithmes et résultats théoriques complets assurent une bonne reproductibilité

Scénarios d'application

Cette méthode est particulièrement adaptée aux scénarios suivants:

Études d'effets de traitement multiples: Essais contrôlés randomisés nécessitant l'estimation simultanée de plusieurs effets d'intervention
Analyses de sous-groupes: Évaluation des effets de traitement dans plusieurs sous-groupes de population
Variables de résultat multiples: Évaluation de l'impact d'une intervention unique sur plusieurs variables de résultat
Applications financières: Évaluation de la performance de portefeuille, analyse des facteurs de risque, etc.

Références

L'article cite les travaux clés de la littérature sur l'inférence sélective, notamment la méthode polyédrale de Lee et al. (2016), le principe d'inférence sélective conditionnelle de Fithian et al. (2017), et les procédures de tests multiples de Romano et Wolf (2005). Ces citations reflètent la profondeur et l'étendue de l'article dans ce domaine.