Directional replicability addresses the question of whether an effect studied across $n$ independent studies is present with the same direction in at least $r$ of them, for $r \geq 2$. When the expected direction of the effect is not specified in advance, the state of the art recommends assessing replicability separately by combining one-sided $p$-values for both directions (left and right), and then doubling the smaller of the two resulting combined $p$-values to account for multiple testing. In this work, we show that this multiplicative correction is not always necessary, and give conditions under which it can be safely omitted.
- Papier-ID: 2510.11273
- Titel: Directional replicability: when can the factor of two be omitted
- Autoren: Vera Djordjilović (Universität Venedig), Tamar Sofer (Harvard Medical School), Jonathan M. Dreyfuss (Harvard Medical School)
- Klassifizierung: stat.ME (Statistische Methoden)
- Veröffentlichungsdatum: 13. Oktober 2025 (arXiv-Preprint)
- Papierlink: https://arxiv.org/abs/2510.11273
Die Forschung zur direktionalen Replikabilität untersucht die Frage, ob eine bestimmte Effektrichtung in mindestens r von n unabhängigen Studien konsistent vorhanden ist (r ≥ 2). Wenn die erwartete Effektrichtung nicht vorab spezifiziert ist, empfiehlt die gängige Praxis, die einseitigen p-Werte für beide Richtungen separat zu kombinieren und dann den kleineren der beiden kombinierten p-Werte mit 2 zu multiplizieren, um die Mehrfachtestung zu korrigieren. Diese Studie zeigt, dass diese multiplikative Korrektur nicht immer notwendig ist, und gibt Bedingungen an, unter denen diese Korrektur sicher weggelassen werden kann.
- Zu lösende Probleme: Statistische Testverfahren zur Bewertung der Konsistenz der Effektrichtung über mehrere unabhängige Studien hinweg, insbesondere wann die traditionelle Faktor-2-Korrektur weggelassen werden kann.
- Bedeutung des Problems:
- Geringe Replikierbarkeit wissenschaftlicher Erkenntnisse ist in Medizin, Wirtschaft, Psychologie und anderen Bereichen weit verbreitet
- Formale statistische Methoden zur Bewertung der Replikierbarkeit von Forschungsergebnissen sind erforderlich
- Direktionale Replikabilität ist strenger als die bloße Beobachtung eines Effekts und erfordert Konsistenz der Effektrichtung
- Einschränkungen bestehender Methoden:
- Die Standardmethode multipliziert den kleineren kombinierten p-Wert immer mit 2 zur Korrektur der Mehrfachtestung
- Diese Korrektur kann übermäßig konservativ sein und die Teststärke verringern
- Forschungsmotivation: Durch theoretische Analyse bestimmen, wann die Faktor-2-Korrektur sicher weggelassen werden kann, um die statistische Teststärke zu erhöhen.
- Theoretische Ergebnisse: Nachweis, dass die Faktor-2-Korrektur bei Verwendung der Bonferroni-Methode zur p-Wert-Kombination sicher weggelassen werden kann, wenn r > (n+1)/2
- Konstruktion von Gegenbeispielen: Demonstration durch Gegenbeispiele, dass die Korrektur für kleinere r-Werte notwendig ist
- Grenzbedingungen: Klare Bestimmung der kritischen Bedingungen, wann Korrektur erforderlich ist und wann nicht
- Praktische Anleitung: Bereitstellung von datengesteuerten Verfahren zur Auswahl des r-Wertes
- Erweiterte Diskussion: Erörterung möglicher Erweiterungen der Ergebnisse auf andere Kombinationsfunktionen
Sei θ = (θ₁, ..., θₙ) ∈ ℝⁿ der Vektor der wahren Effektgrößen in n Studien. Definieren Sie:
- n₊ = |{i : θᵢ > 0}|: Anzahl der positiven Effekte
- n₋ = |{i : θᵢ < 0}|: Anzahl der negativen Effekte
Nullhypothese der r-von-n direktionalen Replikabilität:
H_{r/n} : n₊ < r ∧ n₋ < r
Entsprechende Alternativhypothese:
K_{r/n} : n₊ ≥ r ∨ n₋ ≥ r
- Grundlegende Einstellung:
- Annahme unabhängiger Normalverteilungsschätzer: Tᵢ ~ N(θᵢ, 1)
- Einseitige p-Werte: pᵢ = 1 - Φ(Tᵢ), qᵢ = Φ(Tᵢ) = 1 - pᵢ
- Bonferroni-Teilkombinations-p-Werte:
- Positive Richtung: p⁺_{r/n} = (n - r + 1)p₍ᵣ₎
- Negative Richtung: p⁻_{r/n} = (n - r + 1)p₍ₙ₋ᵣ₊₁₎
- Traditionelle Methode:
p_{r/n} = 2min{p⁻{r/n}, p⁺{r/n}}
Hauptsatz (Theorem 1):
Wenn (n+1)/2 < r ≤ n, dann ist p_{r/n} = min{p⁻{r/n}, p⁺{r/n}} ein gültiger p-Wert für H_{r/n}.
Schlüsselbeweise:
- Wenn 2r > n + 1, dann T₍ᵣ₎ ≥ T₍ₙ₋ᵣ₊₁₎, was zu disjunkten Ereignissen bei Fehler vom Typ I führt
- Die Wahrscheinlichkeit des Fehlers vom Typ I kann ausgedrückt werden als: c(θ) = Pr_θ(X ≥ r) + Pr_θ(Y ≥ r)
- Durch Analyse der partiellen Ableitungen wird nachgewiesen, dass c(θ) an der Grenze sein Maximum erreicht
- Das Maximum entspricht genau α, ohne dass zusätzliche Korrektur erforderlich ist
- Einstellung von n = 20 Studien
- Betrachtung von zwei Parameterkonfigurationen:
- "Konsistenz": θ⁺ = (∞,...,∞,0,...,0) (erste r-1 positiv unendlich)
- "Inkonsistenz": θ* = (∞,...,∞,-∞,...,-∞,0,...,0) (r-1 positiv unendlich und r-1 negativ unendlich)
- Fehlerwahrscheinlichkeit vom Typ I: c(θ)
- Nominales Signifikanzniveau α = 0,1
Numerische Ergebnisse in Abbildung 1:
- Für r ∈ {2,...,7}: Der Fehler vom Typ I unter Inkonsistenzkonfiguration übersteigt die Konsistenzkonfiguration und übersteigt α
- Für r ∈ {8,9,10}: Der Fehler vom Typ I unter beiden Konfigurationen liegt unter α
- Wenn r > 10, wird die Bedingung r > (n+1)/2 erfüllt, zurück zur Einstellung von Theorem 1
Proposition 1: Für n = 3, r = 2 ist p_{r/n} trotz Nichterfüllung der Bedingung von Theorem 1 ein gültiger p-Wert.
Beweishauptpunkte:
- Durch Analyse der partiellen Ableitungen wird nachgewiesen, dass die Funktion c(θ) im zulässigen Bereich keine stationären Punkte hat
- Durch Grenzwertanalyse wird nachgewiesen, dass das Supremum gleich α ist
- Hinreichende, aber nicht notwendige Bedingung: Die von Theorem 1 angegebene Bedingung r > (n+1)/2 ist hinreichend, aber nicht notwendig
- Übergangszonen: Es gibt eine Übergangszonen, in der die Korrektur möglicherweise nicht erforderlich ist, aber eine spezifische Analyse erforderlich ist
- Kontrolle des Fehlers vom Typ III: Das vorgeschlagene Verfahren kann den Fehler vom Typ III kontrollieren und ermöglicht nachträgliche Inferenz der Effektrichtung
- Statistische Methoden zur Replikierbarkeit: Übersicht von Bogomolov and Heller (2023)
- Teilweise konjunktive Hypothesentests: Allgemeines Verfahren von Benjamini and Heller (2008)
- Tests multivariater Normalverteilungsmittelwerte: Verwandte Ergebnisse von Sasabuchi (1980) und Berger (1989)
- p-Wert-Kombinationsmethoden: Arbeiten von Owen (2009), Wang et al. (2022) und anderen
- Wenn r > (n+1)/2, kann die Faktor-2-Korrektur sicher weggelassen werden
- Für kleinere r-Werte ist die Korrektur normalerweise erforderlich
- Es gibt Grenzfälle, die eine spezifische Analyse erfordern
- Ergebnisse konzentrieren sich hauptsächlich auf die Bonferroni-Kombinationsmethode
- Annahme der Unabhängigkeit zwischen Studien und Normalverteilung der Effektschätzungen
- Erweiterung auf andere Kombinationsfunktionen erfordert weitere Forschung
- Erweiterung auf Šidák-, Simes-, Fisher- und andere Kombinationsfunktionen
- Anwendung bei mehrfachen Hypothesentests
- Verallgemeinerung auf nicht-normale Verteilungen
- Theoretische Strenge: Vollständige mathematische Beweise und Gegenbeispiele
- Praktischer Wert: Klare Richtlinien für die statistische Praxis
- Klare Darstellung: Logische Struktur und präzise mathematische Formulierung
- Wichtiges Problem: Adressiert praktische Anforderungen in der Replikabilitätsforschung
- Begrenzte Anwendbarkeit: Hauptsächlich auf Bonferroni-Methode und Normalverteilungsannahmen beschränkt
- Grenzfälle: Unvollständige Behandlung von kritischen Bereichen
- Praktische Anleitung: Mangel an Validierung mit mehr realen Daten
- Theoretischer Beitrag: Neue theoretische Ergebnisse für die Replikabilitätsstatistik
- Praktischer Wert: Kann die Teststärke statistischer Tests erhöhen
- Erweiterbarkeit: Grundlage für die Entwicklung verwandter Methoden
- Metaanalysen und systematische Übersichten
- Multizentrische klinische Studien
- Laborübergreifende Forschungsvalidierung
- Großangelegte genetische Assoziationsstudien
- Benjamini, Y. and Heller, R. (2008). Screening for partial conjunction hypotheses. Biometrics.
- Bogomolov, M. and Heller, R. (2023). Replicability across multiple studies. Statistical Science.
- Owen, A. B. (2009). Karl Pearson's meta-analysis revisited. Annals of Statistics.
- Sasabuchi, S. (1980). A test of a multivariate normal mean with composite hypotheses. Biometrika.
Dieses Papier leistet einen wichtigen theoretischen Beitrag zur Replikabilitätsstatistik, indem es durch strenge mathematische Analyse bestimmt, wann die traditionelle konservative Korrektur weggelassen werden kann, um die Teststärke zu erhöhen. Trotz einiger Einschränkungen hat es sowohl theoretischen als auch praktischen Wert.