2025-11-25T22:55:18.828107

Inference on effect size after multiple hypothesis testing

Dzemski, Okui, Wang
Significant treatment effects are often emphasized when interpreting and summarizing empirical findings in studies that estimate multiple, possibly many, treatment effects. Under this kind of selective reporting, conventional treatment effect estimates may be biased and their corresponding confidence intervals may undercover the true effect sizes. We propose new estimators and confidence intervals that provide valid inferences on the effect sizes of the significant effects after multiple hypothesis testing. Our methods are based on the principle of selective conditional inference and complement a wide range of tests, including step-up tests and bootstrap-based step-down tests. Our approach is scalable, allowing us to study an application with over 370 estimated effects. We justify our procedure for asymptotically normal treatment effect estimators. We provide two empirical examples that demonstrate bias correction and confidence interval adjustments for significant effects. The magnitude and direction of the bias correction depend on the correlation structure of the estimated effects and whether the interpretation of the significant effects depends on the (in)significance of other effects.
academic

Inferenz über Effektgröße nach multiplem Hypothesentesten

Grundinformationen

  • Paper-ID: 2503.22369
  • Titel: Inference on effect size after multiple hypothesis testing
  • Autoren: Andreas Dzemski (Universität Göteborg), Ryo Okui (Universität Tokio), Wenjie Wang (Nanyang Technological University)
  • Klassifizierung: econ.EM math.ST stat.TH
  • Veröffentlichungsdatum: 14. Oktober 2025
  • Paper-Link: https://arxiv.org/abs/2503.22369

Zusammenfassung

In Studien zur Schätzung mehrerer Behandlungseffekte werden signifikante Behandlungseffekte häufig bei der Interpretation und Zusammenfassung empirischer Ergebnisse hervorgehoben. Unter dieser selektiven Berichterstattung können traditionelle Schätzungen von Behandlungseffekten verzerrt sein, und die entsprechenden Konfidenzintervalle können die wahre Effektgröße möglicherweise nicht angemessen abdecken. Dieses Paper präsentiert neue Schätzer und Konfidenzintervalle, die eine gültige Inferenz über die Effektgröße signifikanter Effekte nach multiplem Hypothesentesten ermöglichen. Die Methode basiert auf dem Prinzip der selektiven bedingten Inferenz und ist auf ein breites Spektrum von Testverfahren anwendbar, einschließlich Step-up-Tests und Bootstrap-basierter Step-down-Tests. Die Methode ist skalierbar und kann auf Anwendungen mit über 370 geschätzten Effekten angewendet werden. Die Autoren beweisen die Gültigkeit des Verfahrens für asymptotisch normale Behandlungseffektschätzer und präsentieren zwei empirische Beispiele, die die Verzerrungskorrektur und Konfidenzintervall-Anpassung signifikanter Effekte demonstrieren.

Forschungshintergrund und Motivation

Bedeutung des Problems

In empirischen Studien in der Ökonomie, Medizin, Psychologie und anderen Bereichen müssen Forscher häufig mehrere Behandlungseffekte schätzen. Diese Effekte können aus verschiedenen Ergebnisvariablen, Interventionstypen oder Bevölkerungsuntergruppen stammen. Durch multiple Hypothesentestverfahren klassifizieren Forscher diese Effekte als statistisch signifikant oder nicht signifikant und konzentrieren sich dann auf die praktische Bedeutung signifikanter Effekte.

Einschränkungen bestehender Methoden

Wenn Forscher ihre Aufmerksamkeit auf signifikante Effekte beschränken, werden die Schätzungen dieser Effekte durch Selektionsverzerrung beeinflusst, was traditionelle statistische Inferenzmethoden ungültig macht. Dies äußert sich konkret als:

  1. Selektionsverzerrung: Signifikante Effekte werden häufig positiv selektiert („Winner's Curse"), ihre Größe wird überschätzt
  2. Unzureichende Konfidenzintervall-Abdeckung: Traditionelle Konfidenzintervalle können keine gültige statistische Abdeckung bieten
  3. Fehlende Verzerrungskorrektur: Bestehende Methoden ermangeln unverzerrter Schätzungen für Effektgrößen nach der Selektion

Forschungsmotivation

Das Paper argumentiert, dass die Vermeidung selektiver Zusammenfassung und Interpretation das Problem nicht löst, sondern nur die Belastung der Zusammenfassung der Ergebnisse auf die Leser verlagert, die sich immer noch mit selektiven Inferenzproblemen konfrontiert sehen. Daher ist es notwendig, spezialisierte statistische Methoden zur Behandlung von Inferenzproblemen nach multiplem Hypothesentesten zu entwickeln.

Kernbeiträge

  1. Entwicklung einer neuen Methode basierend auf bedingter selektiver Inferenz: Bereitstellung gültiger Punktschätzungen und Konfidenzintervalle für Effektgrößen signifikanter Effekte nach multiplem Hypothesentesten
  2. Entwicklung effizienter Rechenalgorithmen: Präsentation eines Algorithmus mit O(m³logm) Zeitkomplexität, der die Methode auf Anwendungen mit Hunderten von Effekten skalierbar macht
  3. Etablierung asymptotischer Theorie: Beweis der konsistenten asymptotischen Gültigkeit des Verfahrens unter asymptotisch normalen Behandlungseffektschätzern
  4. Breite Anwendbarkeit: Die Methode ist auf verschiedene multiple Testverfahren anwendbar, einschließlich Step-down- und Step-up-Tests
  5. Demonstration praktischen Wertes: Validierung der Effektivität und Praktikabilität der Methode durch zwei empirische Anwendungen

Methodische Details

Aufgabendefinition

Gegeben m Behandlungseffektparameter θ = (θ₁, ..., θₘ)' und ihre Schätzer θ̂, nach Bestimmung der Menge signifikanter Effekte Ŝ durch multiples Hypothesentesten, unverzerrte Inferenz über die wahren Effektgrößen signifikanter Effekte durchführen.

Kern-Methodisches Rahmenwerk

1. Grundlegende Einstellung

  • Annahme: θ̂ ~ N(θ, V), wobei V eine bekannte Kovarianzmatrix ist
  • t-Statistik: X = diag⁻¹/²(v)θ̂, wobei v die Diagonalelemente von V sind
  • Signifikante Effekte werden durch Step-down- oder Step-up-Verfahren bestimmt: Effekt h ist signifikant, wenn |Xₕ| ≥ x̄ₕ

2. Bedingte Inferenzmethode

Für signifikanten Effekt s ∈ S, zerlegen Sie X als:

X = Ω•,sXs + Z⁽ˢ⁾

wobei Z⁽ˢ⁾ = X - Ω•,sXs unabhängig von Xs ist.

Die Schlüsselinnovation liegt in der bedingten Verteilungsfunktion:

Fs(xs | z, θs, S) = ∫{ξ∈ℝ:ξ+V⁻¹/²s,sθs∈Xs(z,S)} 1{ξ + V⁻¹/²s,sθs ≤ xs} dΦ(ξ) / ∫{ξ∈ℝ:ξ+V⁻¹/²s,sθs∈Xs(z,S)} dΦ(ξ)

3. Schätzer und Konfidenzintervalle

  • Bedingte Median-unverzerrte Schätzung: θ̃ᵘᵇₛ = θ̃ₛ⁽⁰·⁵⁾, wobei θ̃ₛ⁽ᵖ⁾ erfüllt Fs(Xs | Z⁽ˢ⁾, θ̃ₛ⁽ᵖ⁾, S) = p
  • Bedingte Konfidenzintervalle: θ̃ₛ⁽¹⁻α/²⁾, θ̃ₛ⁽α/²⁾

Technische Innovationen

1. Effiziente Algorithmusgestaltung

Traditionelle Methoden erfordern direkte Berechnung komplexer Selektionsereignisse X(S). Dieses Paper vermeidet diese Berechnung durch folgende Innovationen:

Algorithmus 2: Berechnung der bedingten Unterstützung

(A) Finde alle Schnittpunkte der linearen Funktionen xz,h(xs), um Intervalle I zu finden
(B) Für jedes Intervall I:
    i. Finde die Sortierungspermutation σ*I
    ii. Berechne Intervallgrenzen ℓ(I) und u(I)
(C) Gebe ∪I I ∩ [ℓ(I), u(I)] zurück

2. Einheitliche Behandlung multipler Testverfahren

Die Methode unterstützt verschiedene Testverfahren:

  • Step-down-Verfahren: Bonferroni, Holm, Romano-Wolf usw.
  • Step-up-Verfahren: Benjamini-Hochberg, Benjamini-Yekutieli usw.

3. Flexible Definition von Selektionsereignissen

Bereitstellung zweier Haupttypen von Selektionsereignissen:

  • Ŝ = S: Vollständig bedingt auf das beobachtete Signifikanzmuster
  • Ŝ ⊇ S: Nur bedingt darauf, dass ein bestimmter Effekt als signifikant befunden wird

Experimentelle Einstellung

Monte-Carlo-Simulation

Dateneinstellung

  • Anzahl der Effekte: m = 5
  • Wahre Parameter: θ = (0.05, 0.03, 0.01, 0, 0)'
  • Stichprobengröße: n ∈ {100, 300, 500, 700, 900}
  • Korrelation: ρ = 0.5
  • Testverfahren: Holm Step-down, FWER = 10%

Zwei Designs

  1. Normalverteilungs-Design: Yᵢ ~ multivariate Normalverteilung
  2. Chi-Quadrat-Design: Yᵢₖ = (U²ᵢₖ-1)/√2 + θₖ, wobei Uᵢ ~ multivariate Normalverteilung

Empirische Anwendungen

Anwendung 1: Wohltätigkeitsspenden-Forschung

  • Datenquelle: Karlan and List (2007) Matching-Gift-Experiment
  • Anzahl der Effekte: 4 Behandlungseffekte für Ergebnisvariablen
  • Testverfahren: Bonferroni, Holm, Romano-Wolf (RW2005)

Anwendung 2: Investmentfonds-Performance

  • Datenquelle: CRSP Investmentfonds-Datenbank, Januar 2000 – April 2024
  • Anzahl der Effekte: 371 Alpha-Schätzungen für Fonds
  • Modell: Fama-French Fünf-Faktor-Modell
  • Testverfahren: Holm (FWER-Kontrolle) und Benjamini-Yekutieli (FDR-Kontrolle)

Experimentelle Ergebnisse

Monte-Carlo-Simulationsergebnisse

Abdeckungsleistung

  • Bedingte Konfidenzintervalle: Nähern sich in allen Designs und Stichprobengrößen der nominalen 90%-Abdeckungsrate an
  • Traditionelle Konfidenzintervalle: Zeigen schwerwiegende Unterabdeckung, besonders bei niedriger Selektionshäufigkeit
  • Bonferroni-Intervalle: Erreichen nominale Abdeckungsrate bei großen Stichproben, sind aber übermäßig konservativ

Vergleich der Intervallänge

Bedingte Intervalle sind breiter als traditionelle Intervalle, aber deutlich kürzer als Bonferroni-Intervalle, was Effizienzgewinne zeigt.

Verzerrungskorrektureffekt

Die bedingte Median-unverzerrte Schätzung reduziert die bedingte Verzerrung der traditionellen Schätzung (z.B. 0.084 im Normalverteilungs-Design bei n=100) auf -0.015.

Empirische Anwendungsergebnisse

Wohltätigkeitsspenden-Anwendung

Hauptergebnisse:

  • Antwortquote und Spendenbetrag mit Matching sind unter allen drei Verfahren signifikant
  • Die Richtung und Größe der Verzerrungskorrektur hängen von der Korrelationsstruktur ab
  • Für „Spendenbetrag mit Matching" tritt eine Aufwärtskorrektur unter Holm- und Bonferroni-Tests auf, was mit dem nicht signifikanten, hochkorrelierten „Spendenbetrag ohne Matching" zusammenhängt

Investmentfonds-Anwendung

Schlüsselergebnisse:

  • Unter 371 Fonds werden 5 Fonds mit signifikantem positivem Alpha identifiziert
  • Die bedingte Median-unverzerrte Schätzung ist leicht kleiner als die unbedingte Schätzung
  • Bedingte Konfidenzintervalle sind 12-36% kürzer als unbedingte Intervalle
  • Bei 4 der 5 Fonds übersteigt die untere Grenze des gemeinsamen bedingten Konfidenzintervalls 0.135, was wirtschaftlich bedeutsame Überrenditen anzeigt

Verwandte Arbeiten

Literatur zur selektiven Inferenz

Das Paper gehört zur schnell wachsenden Literatur zur selektiven Inferenz, verwandte Forschungen umfassen:

  • Bedingte Inferenzmethoden: Lee et al. (2016), Fithian et al. (2017)
  • Unbedingte Inferenzmethoden: Benjamini and Yekutieli (2005), Berk et al. (2013)

Unterschiede zu bestehenden Methoden

  1. vs. Unbedingte Methoden:
    • Bedingte Methoden kontrollieren statistische Fehler unter gegebener beobachteter Signifikanz
    • Unbedingte Methoden mitteln statistische Fehler über verschiedene Kontexte
    • Bedingte Methoden bieten Verzerrungskorrektur-Punktschätzungen
  2. vs. Simultane Inferenz:
    • Bedingte Inferenz kann engere Konfidenzintervalle erzeugen
    • Leistungsvorteil unbedingter Methoden ist nicht konsistent

Theoretische Ergebnisse

Hauptsätze

Satz 1 (Median-Unverzerrtheit)

P(θ̃ᵘᵇₛ ≥ θₓ | Ŝ = S) = P(θ̃ᵘᵇₛ ≤ θₛ | Ŝ = S) = 0.5

Satz 2 (Gültigkeit der Konfidenzmengen)

P(θₛ ∈ CCIα(θₛ | S) | Ŝ = S) = 1 - α

Sätze 5-6 (Asymptotische Eigenschaften)

Unter Annahme 1 werden asymptotische Median-Unverzerrtheit des Schätzers und asymptotische Gültigkeit des Konfidenzintervalls etabliert.

Konvergenzergebnisse

Satz 4 gibt hinreichende Bedingungen an, unter denen bedingte Konfidenzintervalle gegen unbedingte Konfidenzintervalle konvergieren. Wenn Effekte „hochgradig signifikant" sind, tendieren die beiden Methoden zusammen.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Methodische Gültigkeit: Die vorgeschlagene bedingte Inferenzmethode zeigt gute Leistung in endlichen Stichproben und erfasst Selektionsverzerrung auch in nicht-Gaußschen Einstellungen
  2. Rechnerische Machbarkeit: Die polynomiale Zeitkomplexität des Algorithmus ermöglicht es der Methode, Hunderte von Effekten zu verarbeiten
  3. Praktischer Wert: Zwei empirische Anwendungen zeigen, dass die Richtung und Größe der Verzerrungskorrektur schwer vorherzusagen sind, was die Relevanz formaler statistischer Methoden unterstreicht

Einschränkungen

  1. Vorabspezifikation-Annahme: Die Methode setzt voraus, dass die vollständige Menge der getesteten Hypothesen bekannt ist und kann nicht mit versteckten nicht signifikanten Ergebnissen umgehen
  2. Rechenkomplexität: Obwohl polynomiale Zeit, kann O(m³logm) für sehr große m immer noch ein Engpass sein
  3. Modellannahmen: Normalitätsannahme und konsistent schätzbare Kovarianzmatrix können in praktischen Anwendungen möglicherweise nicht erfüllt sein

Zukünftige Richtungen

  1. Alternative bedingte Inferenzverfahren: Erkundung von Data-Carving- und randomisierten Response-Methoden
  2. Leistungseigenschaften-Forschung: Untersuchung der Leistungseigenschaften des Verfahrens
  3. Nichtparametrische Erweiterungen: Lockerung der Normalitätsannahme

Tiefgreifende Bewertung

Stärken

  1. Theoretischer Beitrag: Bereitstellung eines strengen theoretischen Rahmens für Inferenz nach multiplem Hypothesentesten
  2. Methodische Innovation: Effiziente Algorithmen machen die Methode praktisch anwendbar
  3. Breite Anwendbarkeit: Unterstützung verschiedener multipler Testverfahren und Selektionsereignisse
  4. Empirische Validierung: Umfassende Validierung der Methodeneffektivität durch Simulationen und praktische Anwendungen
  5. Klare Darstellung: Klare Papierstruktur mit detaillierten technischen Details

Mängel

  1. Rechenkomplexität: Obwohl polynomiale Zeit, kann O(m³logm) für übergroße Probleme immer noch ein Engpass sein
  2. Annahmebeschränkungen: Normalitätsannahme und bekannte Kovarianzstruktur können in praktischen Anwendungen möglicherweise nicht erfüllt sein
  3. Selektionsereignis-Definition: Auswahlkriterien für verschiedene Selektionsereignisse benötigen mehr Anleitung

Auswirkungen

  1. Akademischer Wert: Wichtiger Beitrag zur Literatur zur selektiven Inferenz, besonders im Kontext multiplen Testens
  2. Praktischer Wert: Methode ist direkt auf empirische Forschung in Ökonomie, Medizin und anderen Bereichen anwendbar
  3. Reproduzierbarkeit: Detaillierte Algorithmusbeschreibung und vollständige theoretische Ergebnisse ermöglichen gute Reproduzierbarkeit

Anwendungsszenarien

Diese Methode ist besonders geeignet für folgende Szenarien:

  1. Mehrere Behandlungseffekt-Studien: Randomisierte kontrollierte Versuche, die mehrere Interventionseffekte gleichzeitig schätzen müssen
  2. Subgruppenanalyse: Bewertung von Behandlungseffekten in mehreren Bevölkerungsuntergruppen
  3. Mehrere Ergebnisvariablen: Bewertung der Auswirkungen einer einzelnen Intervention auf mehrere Ergebnisvariablen
  4. Finanzanwendungen: Bewertung der Portfolioleistung, Risikoanalyse usw.

Literaturverzeichnis

Das Paper zitiert Schlüsselliteratur im Bereich der selektiven Inferenz, einschließlich der Polyeder-Methode von Lee et al. (2016), des Prinzips der bedingten selektiven Inferenz von Fithian et al. (2017) und der multiplen Testverfahren von Romano and Wolf (2005). Diese Zitate spiegeln die Tiefe und Breite des Papers in diesem Bereich wider.