Inference on effect size after multiple hypothesis testing
Dzemski, Okui, Wang
Significant treatment effects are often emphasized when interpreting and summarizing empirical findings in studies that estimate multiple, possibly many, treatment effects. Under this kind of selective reporting, conventional treatment effect estimates may be biased and their corresponding confidence intervals may undercover the true effect sizes. We propose new estimators and confidence intervals that provide valid inferences on the effect sizes of the significant effects after multiple hypothesis testing. Our methods are based on the principle of selective conditional inference and complement a wide range of tests, including step-up tests and bootstrap-based step-down tests. Our approach is scalable, allowing us to study an application with over 370 estimated effects. We justify our procedure for asymptotically normal treatment effect estimators. We provide two empirical examples that demonstrate bias correction and confidence interval adjustments for significant effects. The magnitude and direction of the bias correction depend on the correlation structure of the estimated effects and whether the interpretation of the significant effects depends on the (in)significance of other effects.
academic
Inferenza sulla dimensione dell'effetto dopo test di ipotesi multipli
Negli studi che stimano molteplici effetti di trattamento, gli effetti di trattamento statisticamente significativi tendono ad essere enfatizzati nell'interpretazione e nella sintesi dei risultati empirici. Sotto questa segnalazione selettiva, le stime tradizionali degli effetti di trattamento possono essere distorte e gli intervalli di confidenza corrispondenti potrebbero non fornire una copertura adeguata della vera dimensione dell'effetto. Questo articolo propone nuovi stimatori e intervalli di confidenza per fornire un'inferenza valida sulla dimensione dell'effetto per gli effetti significativi dopo test di ipotesi multipli. Il metodo si basa sui principi dell'inferenza condizionale selettiva e si applica a un'ampia gamma di procedure di test, inclusi test step-up e test step-down basati su bootstrap. Il metodo è scalabile e può essere applicato a studi con più di 370 effetti stimati. Gli autori provano la validità della procedura per stimatori di effetti di trattamento asintoticamente normali e forniscono due esempi empirici per dimostrare la correzione della distorsione e l'aggiustamento degli intervalli di confidenza per gli effetti significativi.
Nella ricerca empirica in economia, medicina, psicologia e altri campi, i ricercatori devono frequentemente stimare molteplici effetti di trattamento. Questi effetti possono derivare da diverse variabili di risultato, tipi di intervento o sottogruppi di popolazione. Attraverso procedure di test di ipotesi multipli, i ricercatori classificano questi effetti come statisticamente significativi o non significativi, concentrando quindi l'attenzione sull'importanza pratica degli effetti significativi.
Quando i ricercatori limitano l'attenzione agli effetti significativi, le stime dell'ampiezza di questi effetti sono influenzate da distorsione di selezione, il che invalida i metodi tradizionali di inferenza statistica. Ciò si manifesta specificamente come:
Distorsione di selezione: Gli effetti significativi tendono ad essere selezionati positivamente (la "maledizione del vincitore"), con ampiezze sovrastimate
Copertura insufficiente degli intervalli di confidenza: Gli intervalli di confidenza tradizionali non forniscono una copertura statistica valida
Mancanza di correzione della distorsione: I metodi esistenti mancano di stime imparziali per gli effetti dopo la selezione
L'articolo sostiene che evitare la sintesi e l'interpretazione selettiva non risolve il problema, ma trasferisce semplicemente l'onere della sintesi dei risultati ai lettori, che rimangono comunque di fronte a problemi di inferenza selettiva. Pertanto, è necessario sviluppare metodi statistici specializzati per affrontare i problemi di inferenza dopo test di ipotesi multipli.
Propone un nuovo metodo basato sull'inferenza condizionale selettiva: Fornisce stime puntuali valide e intervalli di confidenza per la dimensione dell'effetto degli effetti significativi dopo test di ipotesi multipli
Sviluppa algoritmi computazionali efficienti: Propone un algoritmo con complessità temporale O(m³logm), che consente al metodo di estendersi ad applicazioni con centinaia di effetti
Stabilisce la teoria asintotica: Prova la validità asintotica coerente della procedura per stimatori di effetti di trattamento asintoticamente normali
Fornisce un'ampia applicabilità: Il metodo si applica a varie procedure di test multipli, inclusi test step-down e step-up
Dimostra il valore pratico: Verifica l'efficacia e l'utilità pratica del metodo attraverso due applicazioni empiriche
Dati m parametri di effetto di trattamento θ = (θ₁, ..., θₘ)' e i loro stimatori θ̂, dopo aver determinato l'insieme degli effetti significativi Ŝ attraverso test di ipotesi multipli, condurre un'inferenza imparziale sulla vera dimensione dell'effetto degli effetti significativi.
I metodi tradizionali richiedono il calcolo diretto dell'evento di selezione complesso X(S). Questo articolo evita tale calcolo attraverso le seguenti innovazioni:
Algoritmo 2: Calcolo del supporto condizionale
(A) Trovare tutti i punti di intersezione delle funzioni lineari xz,h(xs) per identificare gli intervalli I
(B) Per ogni intervallo I:
i. Trovare la permutazione ordinata σ*I
ii. Calcolare i limiti dell'intervallo ℓ(I) e u(I)
(C) Restituire ∪I I ∩ [ℓ(I), u(I)]
Gli intervalli condizionali sono più ampi degli intervalli tradizionali, ma significativamente più corti degli intervalli di Bonferroni, mostrando guadagni di efficienza.
Lo stimatore imparziale condizionale della mediana riduce la distorsione condizionale della stima tradizionale (come 0.084 nel progetto normale con n=100) a -0.015.
Tasso di risposta e importo della donazione con abbinamento incluso sono significativi in tutte e tre le procedure
La direzione e l'ampiezza della correzione della distorsione dipendono dalla struttura di correlazione
Per "importo della donazione con abbinamento incluso", si verifica una correzione verso l'alto nei test di Holm e Bonferroni, correlata al fatto che "importo della donazione senza abbinamento incluso" altamente correlato non è significativo
Identificati 5 fondi con alpha positivo significativo tra 371 fondi
Lo stimatore imparziale condizionale della mediana è leggermente inferiore alla stima incondizionata
Gli intervalli di confidenza condizionali sono 12-36% più stretti degli intervalli incondizionati
Per 4 dei 5 fondi, il limite inferiore dell'intervallo di confidenza condizionale congiunto supera 0.135, indicando una sovraperformance economicamente significativa
Il Teorema 4 fornisce condizioni sufficienti per la convergenza dell'intervallo di confidenza condizionale all'intervallo incondizionato, con i due metodi che tendono a coincidere quando l'effetto è "altamente significativo".
Validità del metodo: Il metodo di inferenza condizionale proposto funziona bene in campioni finiti, catturando la distorsione di selezione anche in contesti non gaussiani
Fattibilità computazionale: La complessità temporale polinomiale dell'algoritmo consente al metodo di gestire centinaia di effetti
Valore pratico: Le due applicazioni empiriche mostrano che la direzione e l'ampiezza della correzione della distorsione sono difficili da prevedere, sottolineando la rilevanza dei metodi statistici formali
Assunzione di pre-specificazione: Il metodo assume che l'intero insieme di ipotesi testate sia noto, non può gestire risultati non significativi nascosti
Complessità computazionale: Sebbene sia tempo polinomiale, per m molto grandi potrebbe ancora affrontare sfide computazionali
Assunzioni del modello: Richiede normalità asintotica e matrice di covarianza coerentemente stimabile
Complessità computazionale: Sebbene sia tempo polinomiale, O(m³logm) potrebbe comunque essere un collo di bottiglia per problemi su larga scala
Limitazioni delle assunzioni: L'assunzione di normalità e la struttura di covarianza nota potrebbero non essere soddisfatte nelle applicazioni pratiche
Guida sulla definizione dell'evento di selezione: Sono necessarie più linee guida sulla scelta tra diversi eventi di selezione
L'articolo cita la letteratura chiave nel campo dell'inferenza selettiva, incluso il metodo poliedrico di Lee et al. (2016), il principio di inferenza condizionale selettiva di Fithian et al. (2017) e le procedure di test multipli di Romano e Wolf (2005). Queste citazioni riflettono la profondità e l'ampiezza dell'articolo nel campo.