Inference on effect size after multiple hypothesis testing
Dzemski, Okui, Wang
Significant treatment effects are often emphasized when interpreting and summarizing empirical findings in studies that estimate multiple, possibly many, treatment effects. Under this kind of selective reporting, conventional treatment effect estimates may be biased and their corresponding confidence intervals may undercover the true effect sizes. We propose new estimators and confidence intervals that provide valid inferences on the effect sizes of the significant effects after multiple hypothesis testing. Our methods are based on the principle of selective conditional inference and complement a wide range of tests, including step-up tests and bootstrap-based step-down tests. Our approach is scalable, allowing us to study an application with over 370 estimated effects. We justify our procedure for asymptotically normal treatment effect estimators. We provide two empirical examples that demonstrate bias correction and confidence interval adjustments for significant effects. The magnitude and direction of the bias correction depend on the correlation structure of the estimated effects and whether the interpretation of the significant effects depends on the (in)significance of other effects.
academic
Inferenz über Effektgröße nach multiplem Hypothesentesten
In Studien zur Schätzung mehrerer Behandlungseffekte werden signifikante Behandlungseffekte häufig bei der Interpretation und Zusammenfassung empirischer Ergebnisse hervorgehoben. Unter dieser selektiven Berichterstattung können traditionelle Schätzungen von Behandlungseffekten verzerrt sein, und die entsprechenden Konfidenzintervalle können die wahre Effektgröße möglicherweise nicht angemessen abdecken. Dieses Paper präsentiert neue Schätzer und Konfidenzintervalle, die eine gültige Inferenz über die Effektgröße signifikanter Effekte nach multiplem Hypothesentesten ermöglichen. Die Methode basiert auf dem Prinzip der selektiven bedingten Inferenz und ist auf ein breites Spektrum von Testverfahren anwendbar, einschließlich Step-up-Tests und Bootstrap-basierter Step-down-Tests. Die Methode ist skalierbar und kann auf Anwendungen mit über 370 geschätzten Effekten angewendet werden. Die Autoren beweisen die Gültigkeit des Verfahrens für asymptotisch normale Behandlungseffektschätzer und präsentieren zwei empirische Beispiele, die die Verzerrungskorrektur und Konfidenzintervall-Anpassung signifikanter Effekte demonstrieren.
In empirischen Studien in der Ökonomie, Medizin, Psychologie und anderen Bereichen müssen Forscher häufig mehrere Behandlungseffekte schätzen. Diese Effekte können aus verschiedenen Ergebnisvariablen, Interventionstypen oder Bevölkerungsuntergruppen stammen. Durch multiple Hypothesentestverfahren klassifizieren Forscher diese Effekte als statistisch signifikant oder nicht signifikant und konzentrieren sich dann auf die praktische Bedeutung signifikanter Effekte.
Wenn Forscher ihre Aufmerksamkeit auf signifikante Effekte beschränken, werden die Schätzungen dieser Effekte durch Selektionsverzerrung beeinflusst, was traditionelle statistische Inferenzmethoden ungültig macht. Dies äußert sich konkret als:
Selektionsverzerrung: Signifikante Effekte werden häufig positiv selektiert („Winner's Curse"), ihre Größe wird überschätzt
Unzureichende Konfidenzintervall-Abdeckung: Traditionelle Konfidenzintervalle können keine gültige statistische Abdeckung bieten
Fehlende Verzerrungskorrektur: Bestehende Methoden ermangeln unverzerrter Schätzungen für Effektgrößen nach der Selektion
Das Paper argumentiert, dass die Vermeidung selektiver Zusammenfassung und Interpretation das Problem nicht löst, sondern nur die Belastung der Zusammenfassung der Ergebnisse auf die Leser verlagert, die sich immer noch mit selektiven Inferenzproblemen konfrontiert sehen. Daher ist es notwendig, spezialisierte statistische Methoden zur Behandlung von Inferenzproblemen nach multiplem Hypothesentesten zu entwickeln.
Entwicklung einer neuen Methode basierend auf bedingter selektiver Inferenz: Bereitstellung gültiger Punktschätzungen und Konfidenzintervalle für Effektgrößen signifikanter Effekte nach multiplem Hypothesentesten
Entwicklung effizienter Rechenalgorithmen: Präsentation eines Algorithmus mit O(m³logm) Zeitkomplexität, der die Methode auf Anwendungen mit Hunderten von Effekten skalierbar macht
Etablierung asymptotischer Theorie: Beweis der konsistenten asymptotischen Gültigkeit des Verfahrens unter asymptotisch normalen Behandlungseffektschätzern
Breite Anwendbarkeit: Die Methode ist auf verschiedene multiple Testverfahren anwendbar, einschließlich Step-down- und Step-up-Tests
Demonstration praktischen Wertes: Validierung der Effektivität und Praktikabilität der Methode durch zwei empirische Anwendungen
Gegeben m Behandlungseffektparameter θ = (θ₁, ..., θₘ)' und ihre Schätzer θ̂, nach Bestimmung der Menge signifikanter Effekte Ŝ durch multiples Hypothesentesten, unverzerrte Inferenz über die wahren Effektgrößen signifikanter Effekte durchführen.
Traditionelle Methoden erfordern direkte Berechnung komplexer Selektionsereignisse X(S). Dieses Paper vermeidet diese Berechnung durch folgende Innovationen:
Algorithmus 2: Berechnung der bedingten Unterstützung
(A) Finde alle Schnittpunkte der linearen Funktionen xz,h(xs), um Intervalle I zu finden
(B) Für jedes Intervall I:
i. Finde die Sortierungspermutation σ*I
ii. Berechne Intervallgrenzen ℓ(I) und u(I)
(C) Gebe ∪I I ∩ [ℓ(I), u(I)] zurück
Die bedingte Median-unverzerrte Schätzung reduziert die bedingte Verzerrung der traditionellen Schätzung (z.B. 0.084 im Normalverteilungs-Design bei n=100) auf -0.015.
Antwortquote und Spendenbetrag mit Matching sind unter allen drei Verfahren signifikant
Die Richtung und Größe der Verzerrungskorrektur hängen von der Korrelationsstruktur ab
Für „Spendenbetrag mit Matching" tritt eine Aufwärtskorrektur unter Holm- und Bonferroni-Tests auf, was mit dem nicht signifikanten, hochkorrelierten „Spendenbetrag ohne Matching" zusammenhängt
Satz 4 gibt hinreichende Bedingungen an, unter denen bedingte Konfidenzintervalle gegen unbedingte Konfidenzintervalle konvergieren. Wenn Effekte „hochgradig signifikant" sind, tendieren die beiden Methoden zusammen.
Methodische Gültigkeit: Die vorgeschlagene bedingte Inferenzmethode zeigt gute Leistung in endlichen Stichproben und erfasst Selektionsverzerrung auch in nicht-Gaußschen Einstellungen
Rechnerische Machbarkeit: Die polynomiale Zeitkomplexität des Algorithmus ermöglicht es der Methode, Hunderte von Effekten zu verarbeiten
Praktischer Wert: Zwei empirische Anwendungen zeigen, dass die Richtung und Größe der Verzerrungskorrektur schwer vorherzusagen sind, was die Relevanz formaler statistischer Methoden unterstreicht
Vorabspezifikation-Annahme: Die Methode setzt voraus, dass die vollständige Menge der getesteten Hypothesen bekannt ist und kann nicht mit versteckten nicht signifikanten Ergebnissen umgehen
Rechenkomplexität: Obwohl polynomiale Zeit, kann O(m³logm) für sehr große m immer noch ein Engpass sein
Modellannahmen: Normalitätsannahme und konsistent schätzbare Kovarianzmatrix können in praktischen Anwendungen möglicherweise nicht erfüllt sein
Das Paper zitiert Schlüsselliteratur im Bereich der selektiven Inferenz, einschließlich der Polyeder-Methode von Lee et al. (2016), des Prinzips der bedingten selektiven Inferenz von Fithian et al. (2017) und der multiplen Testverfahren von Romano and Wolf (2005). Diese Zitate spiegeln die Tiefe und Breite des Papers in diesem Bereich wider.