2025-11-25T22:55:18.828107

Inference on effect size after multiple hypothesis testing

Dzemski, Okui, Wang

Significant treatment effects are often emphasized when interpreting and summarizing empirical findings in studies that estimate multiple, possibly many, treatment effects. Under this kind of selective reporting, conventional treatment effect estimates may be biased and their corresponding confidence intervals may undercover the true effect sizes. We propose new estimators and confidence intervals that provide valid inferences on the effect sizes of the significant effects after multiple hypothesis testing. Our methods are based on the principle of selective conditional inference and complement a wide range of tests, including step-up tests and bootstrap-based step-down tests. Our approach is scalable, allowing us to study an application with over 370 estimated effects. We justify our procedure for asymptotically normal treatment effect estimators. We provide two empirical examples that demonstrate bias correction and confidence interval adjustments for significant effects. The magnitude and direction of the bias correction depend on the correlation structure of the estimated effects and whether the interpretation of the significant effects depends on the (in)significance of other effects.

academic

Inferenza sulla dimensione dell'effetto dopo test di ipotesi multipli

Informazioni di base

ID articolo: 2503.22369
Titolo: Inference on effect size after multiple hypothesis testing
Autori: Andreas Dzemski (University of Gothenburg), Ryo Okui (University of Tokyo), Wenjie Wang (Nanyang Technological University)
Classificazione: econ.EM math.ST stat.TH
Data di pubblicazione: 14 ottobre 2025
Link articolo: https://arxiv.org/abs/2503.22369

Riassunto

Negli studi che stimano molteplici effetti di trattamento, gli effetti di trattamento statisticamente significativi tendono ad essere enfatizzati nell'interpretazione e nella sintesi dei risultati empirici. Sotto questa segnalazione selettiva, le stime tradizionali degli effetti di trattamento possono essere distorte e gli intervalli di confidenza corrispondenti potrebbero non fornire una copertura adeguata della vera dimensione dell'effetto. Questo articolo propone nuovi stimatori e intervalli di confidenza per fornire un'inferenza valida sulla dimensione dell'effetto per gli effetti significativi dopo test di ipotesi multipli. Il metodo si basa sui principi dell'inferenza condizionale selettiva e si applica a un'ampia gamma di procedure di test, inclusi test step-up e test step-down basati su bootstrap. Il metodo è scalabile e può essere applicato a studi con più di 370 effetti stimati. Gli autori provano la validità della procedura per stimatori di effetti di trattamento asintoticamente normali e forniscono due esempi empirici per dimostrare la correzione della distorsione e l'aggiustamento degli intervalli di confidenza per gli effetti significativi.

Contesto di ricerca e motivazione

Importanza del problema

Nella ricerca empirica in economia, medicina, psicologia e altri campi, i ricercatori devono frequentemente stimare molteplici effetti di trattamento. Questi effetti possono derivare da diverse variabili di risultato, tipi di intervento o sottogruppi di popolazione. Attraverso procedure di test di ipotesi multipli, i ricercatori classificano questi effetti come statisticamente significativi o non significativi, concentrando quindi l'attenzione sull'importanza pratica degli effetti significativi.

Limitazioni dei metodi esistenti

Quando i ricercatori limitano l'attenzione agli effetti significativi, le stime dell'ampiezza di questi effetti sono influenzate da distorsione di selezione, il che invalida i metodi tradizionali di inferenza statistica. Ciò si manifesta specificamente come:

Distorsione di selezione: Gli effetti significativi tendono ad essere selezionati positivamente (la "maledizione del vincitore"), con ampiezze sovrastimate
Copertura insufficiente degli intervalli di confidenza: Gli intervalli di confidenza tradizionali non forniscono una copertura statistica valida
Mancanza di correzione della distorsione: I metodi esistenti mancano di stime imparziali per gli effetti dopo la selezione

Motivazione della ricerca

L'articolo sostiene che evitare la sintesi e l'interpretazione selettiva non risolve il problema, ma trasferisce semplicemente l'onere della sintesi dei risultati ai lettori, che rimangono comunque di fronte a problemi di inferenza selettiva. Pertanto, è necessario sviluppare metodi statistici specializzati per affrontare i problemi di inferenza dopo test di ipotesi multipli.

Contributi principali

Propone un nuovo metodo basato sull'inferenza condizionale selettiva: Fornisce stime puntuali valide e intervalli di confidenza per la dimensione dell'effetto degli effetti significativi dopo test di ipotesi multipli
Sviluppa algoritmi computazionali efficienti: Propone un algoritmo con complessità temporale O(m³logm), che consente al metodo di estendersi ad applicazioni con centinaia di effetti
Stabilisce la teoria asintotica: Prova la validità asintotica coerente della procedura per stimatori di effetti di trattamento asintoticamente normali
Fornisce un'ampia applicabilità: Il metodo si applica a varie procedure di test multipli, inclusi test step-down e step-up
Dimostra il valore pratico: Verifica l'efficacia e l'utilità pratica del metodo attraverso due applicazioni empiriche

Spiegazione dettagliata del metodo

Definizione del compito

Dati m parametri di effetto di trattamento θ = (θ₁, ..., θₘ)' e i loro stimatori θ̂, dopo aver determinato l'insieme degli effetti significativi Ŝ attraverso test di ipotesi multipli, condurre un'inferenza imparziale sulla vera dimensione dell'effetto degli effetti significativi.

Quadro metodologico principale

1. Configurazione di base

Assumere θ̂ ~ N(θ, V), dove V è la matrice di covarianza nota
Statistica t: X = diag⁻¹/²(v)θ̂, dove v sono gli elementi diagonali di V
Gli effetti significativi sono determinati attraverso procedure step-down o step-up: l'effetto h è significativo quando |Xₕ| ≥ x̄ₕ

2. Metodo di inferenza condizionale

Per un effetto significativo s ∈ S, decomporre X come:

X = Ω•,sXs + Z⁽ˢ⁾

dove Z⁽ˢ⁾ = X - Ω•,sXs è indipendente da Xs.

L'innovazione chiave risiede nella funzione di distribuzione condizionale:

Fs(xs | z, θs, S) = ∫{ξ∈ℝ:ξ+V⁻¹/²s,sθs∈Xs(z,S)} 1{ξ + V⁻¹/²s,sθs ≤ xs} dΦ(ξ) / ∫{ξ∈ℝ:ξ+V⁻¹/²s,sθs∈Xs(z,S)} dΦ(ξ)

3. Stimatori e intervalli di confidenza

Stimatore imparziale condizionale della mediana: θ̃ᵘᵇₛ = θ̃ₛ⁽⁰·⁵⁾, dove θ̃ₛ⁽ᵖ⁾ soddisfa Fs(Xs | Z⁽ˢ⁾, θ̃ₛ⁽ᵖ⁾, S) = p
Intervallo di confidenza condizionale: θ̃ₛ⁽¹⁻α/²⁾, θ̃ₛ⁽α/²⁾

Punti di innovazione tecnica

1. Progettazione di algoritmi efficienti

I metodi tradizionali richiedono il calcolo diretto dell'evento di selezione complesso X(S). Questo articolo evita tale calcolo attraverso le seguenti innovazioni:

Algoritmo 2: Calcolo del supporto condizionale

(A) Trovare tutti i punti di intersezione delle funzioni lineari xz,h(xs) per identificare gli intervalli I
(B) Per ogni intervallo I:
    i. Trovare la permutazione ordinata σ*I
    ii. Calcolare i limiti dell'intervallo ℓ(I) e u(I)
(C) Restituire ∪I I ∩ [ℓ(I), u(I)]

2. Trattamento unificato di procedure di test multipli

Il metodo supporta varie procedure di test:

Procedure step-down: Bonferroni, Holm, Romano-Wolf, ecc.
Procedure step-up: Benjamini-Hochberg, Benjamini-Yekutieli, ecc.

3. Definizione flessibile dell'evento di selezione

Fornisce due principali eventi di selezione:

Ŝ = S: Completamente condizionato al modello di significatività osservato
Ŝ ⊇ S: Condizionato solo al fatto che l'effetto specifico sia risultato significativo

Configurazione sperimentale

Simulazione Monte Carlo

Configurazione dei dati

Numero di effetti: m = 5
Parametri veri: θ = (0.05, 0.03, 0.01, 0, 0)'
Dimensione del campione: n ∈ {100, 300, 500, 700, 900}
Correlazione: ρ = 0.5
Procedura di test: Holm step-down, FWER = 10%

Due progetti

Progetto normale: Yᵢ ~ distribuzione normale multivariata
Progetto chi-quadrato: Yᵢₖ = (U²ᵢₖ-1)/√2 + θₖ, dove Uᵢ ~ normale multivariata

Applicazioni empiriche

Applicazione 1: Studio sulle donazioni di beneficenza

Fonte dei dati: Esperimento di donazione abbinata di Karlan e List (2007)
Numero di effetti: Effetti di trattamento su 4 variabili di risultato
Procedure di test: Bonferroni, Holm, Romano-Wolf (RW2005)

Applicazione 2: Prestazioni di fondi comuni

Fonte dei dati: Database CRSP di fondi comuni, gennaio 2000 - aprile 2024
Numero di effetti: Stime di alpha per 371 fondi
Modello: Modello a cinque fattori di Fama-French
Procedure di test: Holm (controllo FWER) e Benjamini-Yekutieli (controllo FDR)

Risultati sperimentali

Risultati della simulazione Monte Carlo

Prestazioni di copertura

Intervalli di confidenza condizionali: Si avvicinano al tasso di copertura nominale del 90% in tutti i progetti e dimensioni di campione
Intervalli di confidenza tradizionali: Copertura gravemente insufficiente, particolarmente quando la frequenza di selezione è bassa
Intervalli di Bonferroni: Raggiungono la copertura nominale con campioni grandi ma sono eccessivamente conservativi

Confronto della lunghezza dell'intervallo

Gli intervalli condizionali sono più ampi degli intervalli tradizionali, ma significativamente più corti degli intervalli di Bonferroni, mostrando guadagni di efficienza.

Effetto di correzione della distorsione

Lo stimatore imparziale condizionale della mediana riduce la distorsione condizionale della stima tradizionale (come 0.084 nel progetto normale con n=100) a -0.015.

Risultati delle applicazioni empiriche

Applicazione sulla donazione di beneficenza

Risultati principali:

Tasso di risposta e importo della donazione con abbinamento incluso sono significativi in tutte e tre le procedure
La direzione e l'ampiezza della correzione della distorsione dipendono dalla struttura di correlazione
Per "importo della donazione con abbinamento incluso", si verifica una correzione verso l'alto nei test di Holm e Bonferroni, correlata al fatto che "importo della donazione senza abbinamento incluso" altamente correlato non è significativo

Applicazione sui fondi comuni

Risultati chiave:

Identificati 5 fondi con alpha positivo significativo tra 371 fondi
Lo stimatore imparziale condizionale della mediana è leggermente inferiore alla stima incondizionata
Gli intervalli di confidenza condizionali sono 12-36% più stretti degli intervalli incondizionati
Per 4 dei 5 fondi, il limite inferiore dell'intervallo di confidenza condizionale congiunto supera 0.135, indicando una sovraperformance economicamente significativa

Lavori correlati

Letteratura sull'inferenza selettiva

L'articolo fa parte della letteratura in rapida evoluzione sull'inferenza selettiva, con ricerche correlate che includono:

Metodi di inferenza condizionale: Lee et al. (2016), Fithian et al. (2017)
Metodi di inferenza incondizionata: Benjamini e Yekutieli (2005), Berk et al. (2013)

Distinzioni dai metodi esistenti

vs. metodi incondizionati:
- I metodi condizionali controllano l'errore statistico dato il significato osservato
- I metodi incondizionati mediato l'errore statistico su diversi contesti
- I metodi condizionali forniscono stime puntuali con correzione della distorsione
vs. inferenza simultanea:
- L'inferenza condizionale può produrre intervalli di confidenza più stretti
- I vantaggi di potenza dei metodi incondizionati non sono coerenti

Risultati teorici

Teoremi principali

Teorema 1 (Imparzialità della mediana)

P(θ̃ᵘᵇₛ ≥ θₓ | Ŝ = S) = P(θ̃ᵘᵇₛ ≤ θₛ | Ŝ = S) = 0.5

Teorema 2 (Validità dell'insieme di confidenza)

P(θₛ ∈ CCIα(θₛ | S) | Ŝ = S) = 1 - α

Teoremi 5-6 (Proprietà asintotiche)

Sotto l'Assunzione 1, si stabiliscono l'imparzialità asintotica della mediana dello stimatore e la validità asintotica dell'intervallo di confidenza.

Risultati di convergenza

Il Teorema 4 fornisce condizioni sufficienti per la convergenza dell'intervallo di confidenza condizionale all'intervallo incondizionato, con i due metodi che tendono a coincidere quando l'effetto è "altamente significativo".

Conclusioni e discussione

Conclusioni principali

Validità del metodo: Il metodo di inferenza condizionale proposto funziona bene in campioni finiti, catturando la distorsione di selezione anche in contesti non gaussiani
Fattibilità computazionale: La complessità temporale polinomiale dell'algoritmo consente al metodo di gestire centinaia di effetti
Valore pratico: Le due applicazioni empiriche mostrano che la direzione e l'ampiezza della correzione della distorsione sono difficili da prevedere, sottolineando la rilevanza dei metodi statistici formali

Limitazioni

Assunzione di pre-specificazione: Il metodo assume che l'intero insieme di ipotesi testate sia noto, non può gestire risultati non significativi nascosti
Complessità computazionale: Sebbene sia tempo polinomiale, per m molto grandi potrebbe ancora affrontare sfide computazionali
Assunzioni del modello: Richiede normalità asintotica e matrice di covarianza coerentemente stimabile

Direzioni future

Procedure di inferenza condizionale alternative: Esplorare metodi come data carving e randomized response
Studio delle proprietà di potenza: Investigare le caratteristiche di potenza della procedura
Estensioni non parametriche: Rilassare l'assunzione di normalità

Valutazione approfondita

Punti di forza

Contributo teorico: Fornisce un quadro teorico rigoroso per l'inferenza dopo test di ipotesi multipli
Innovazione metodologica: L'algoritmo efficiente rende il metodo operativamente pratico
Ampia applicabilità: Supporta varie procedure di test multipli ed eventi di selezione
Verifica empirica: Valida adeguatamente l'efficacia del metodo attraverso simulazioni e applicazioni reali
Chiarezza della scrittura: La struttura dell'articolo è chiara con dettagli tecnici completi

Carenze

Complessità computazionale: Sebbene sia tempo polinomiale, O(m³logm) potrebbe comunque essere un collo di bottiglia per problemi su larga scala
Limitazioni delle assunzioni: L'assunzione di normalità e la struttura di covarianza nota potrebbero non essere soddisfatte nelle applicazioni pratiche
Guida sulla definizione dell'evento di selezione: Sono necessarie più linee guida sulla scelta tra diversi eventi di selezione

Impatto

Valore accademico: Fornisce un contributo importante alla letteratura sull'inferenza selettiva, particolarmente nel contesto dei test multipli
Valore pratico: Il metodo si applica direttamente alla ricerca empirica in economia, medicina e altri campi
Riproducibilità: La descrizione dettagliata dell'algoritmo e i risultati teorici completi garantiscono una buona riproducibilità

Scenari di applicazione

Il metodo è particolarmente adatto ai seguenti scenari:

Studi con molteplici effetti di trattamento: Prove controllate randomizzate che devono stimare simultaneamente molteplici effetti di intervento
Analisi di sottogruppi: Valutazione degli effetti di trattamento in molteplici sottogruppi di popolazione
Molteplici variabili di risultato: Valutazione dell'impatto di un singolo intervento su molteplici variabili di risultato
Applicazioni finanziarie: Valutazione della prestazione del portafoglio, analisi dei fattori di rischio, ecc.

Bibliografia

L'articolo cita la letteratura chiave nel campo dell'inferenza selettiva, incluso il metodo poliedrico di Lee et al. (2016), il principio di inferenza condizionale selettiva di Fithian et al. (2017) e le procedure di test multipli di Romano e Wolf (2005). Queste citazioni riflettono la profondità e l'ampiezza dell'articolo nel campo.