2025-11-23T05:46:16.390387

Directional replicability: when can the factor of two be omitted

DjordjiloviÄ, Sofer, Dreyfuss

Directional replicability addresses the question of whether an effect studied across $n$ independent studies is present with the same direction in at least $r$ of them, for $r \geq 2$. When the expected direction of the effect is not specified in advance, the state of the art recommends assessing replicability separately by combining one-sided $p$-values for both directions (left and right), and then doubling the smaller of the two resulting combined $p$-values to account for multiple testing. In this work, we show that this multiplicative correction is not always necessary, and give conditions under which it can be safely omitted.

academic

Direktionale Replikabilität: wann kann der Faktor zwei weggelassen werden

Grundinformationen

Papier-ID: 2510.11273
Titel: Directional replicability: when can the factor of two be omitted
Autoren: Vera Djordjilović (Universität Venedig), Tamar Sofer (Harvard Medical School), Jonathan M. Dreyfuss (Harvard Medical School)
Klassifizierung: stat.ME (Statistische Methoden)
Veröffentlichungsdatum: 13. Oktober 2025 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2510.11273

Zusammenfassung

Die Forschung zur direktionalen Replikabilität untersucht die Frage, ob eine bestimmte Effektrichtung in mindestens r von n unabhängigen Studien konsistent vorhanden ist (r ≥ 2). Wenn die erwartete Effektrichtung nicht vorab spezifiziert ist, empfiehlt die gängige Praxis, die einseitigen p-Werte für beide Richtungen separat zu kombinieren und dann den kleineren der beiden kombinierten p-Werte mit 2 zu multiplizieren, um die Mehrfachtestung zu korrigieren. Diese Studie zeigt, dass diese multiplikative Korrektur nicht immer notwendig ist, und gibt Bedingungen an, unter denen diese Korrektur sicher weggelassen werden kann.

Forschungshintergrund und Motivation

Zu lösende Probleme: Statistische Testverfahren zur Bewertung der Konsistenz der Effektrichtung über mehrere unabhängige Studien hinweg, insbesondere wann die traditionelle Faktor-2-Korrektur weggelassen werden kann.
Bedeutung des Problems:
- Geringe Replikierbarkeit wissenschaftlicher Erkenntnisse ist in Medizin, Wirtschaft, Psychologie und anderen Bereichen weit verbreitet
- Formale statistische Methoden zur Bewertung der Replikierbarkeit von Forschungsergebnissen sind erforderlich
- Direktionale Replikabilität ist strenger als die bloße Beobachtung eines Effekts und erfordert Konsistenz der Effektrichtung
Einschränkungen bestehender Methoden:
- Die Standardmethode multipliziert den kleineren kombinierten p-Wert immer mit 2 zur Korrektur der Mehrfachtestung
- Diese Korrektur kann übermäßig konservativ sein und die Teststärke verringern
Forschungsmotivation: Durch theoretische Analyse bestimmen, wann die Faktor-2-Korrektur sicher weggelassen werden kann, um die statistische Teststärke zu erhöhen.

Kernbeiträge

Theoretische Ergebnisse: Nachweis, dass die Faktor-2-Korrektur bei Verwendung der Bonferroni-Methode zur p-Wert-Kombination sicher weggelassen werden kann, wenn r > (n+1)/2
Konstruktion von Gegenbeispielen: Demonstration durch Gegenbeispiele, dass die Korrektur für kleinere r-Werte notwendig ist
Grenzbedingungen: Klare Bestimmung der kritischen Bedingungen, wann Korrektur erforderlich ist und wann nicht
Praktische Anleitung: Bereitstellung von datengesteuerten Verfahren zur Auswahl des r-Wertes
Erweiterte Diskussion: Erörterung möglicher Erweiterungen der Ergebnisse auf andere Kombinationsfunktionen

Methodische Details

Aufgabendefinition

Sei θ = (θ₁, ..., θₙ) ∈ ℝⁿ der Vektor der wahren Effektgrößen in n Studien. Definieren Sie:

n₊ = |{i : θᵢ > 0}|: Anzahl der positiven Effekte
n₋ = |{i : θᵢ < 0}|: Anzahl der negativen Effekte

Nullhypothese der r-von-n direktionalen Replikabilität: H_{r/n} : n₊ < r ∧ n₋ < r

Entsprechende Alternativhypothese: K_{r/n} : n₊ ≥ r ∨ n₋ ≥ r

Modellarchitektur

Grundlegende Einstellung:
- Annahme unabhängiger Normalverteilungsschätzer: Tᵢ ~ N(θᵢ, 1)
- Einseitige p-Werte: pᵢ = 1 - Φ(Tᵢ), qᵢ = Φ(Tᵢ) = 1 - pᵢ
Bonferroni-Teilkombinations-p-Werte:
- Positive Richtung: p⁺_{r/n} = (n - r + 1)p₍ᵣ₎
- Negative Richtung: p⁻_{r/n} = (n - r + 1)p₍ₙ₋ᵣ₊₁₎
Traditionelle Methode: p_{r/n} = 2min{p⁻{r/n}, p⁺{r/n}}

Technische Innovationen

Hauptsatz (Theorem 1): Wenn (n+1)/2 < r ≤ n, dann ist p_{r/n} = min{p⁻{r/n}, p⁺{r/n}} ein gültiger p-Wert für H_{r/n}.

Schlüsselbeweise:

Wenn 2r > n + 1, dann T₍ᵣ₎ ≥ T₍ₙ₋ᵣ₊₁₎, was zu disjunkten Ereignissen bei Fehler vom Typ I führt
Die Wahrscheinlichkeit des Fehlers vom Typ I kann ausgedrückt werden als: c(θ) = Pr_θ(X ≥ r) + Pr_θ(Y ≥ r)
Durch Analyse der partiellen Ableitungen wird nachgewiesen, dass c(θ) an der Grenze sein Maximum erreicht
Das Maximum entspricht genau α, ohne dass zusätzliche Korrektur erforderlich ist

Experimentelle Einrichtung

Numerische Verifikation

Einstellung von n = 20 Studien
Betrachtung von zwei Parameterkonfigurationen:
- "Konsistenz": θ⁺ = (∞,...,∞,0,...,0) (erste r-1 positiv unendlich)
- "Inkonsistenz": θ* = (∞,...,∞,-∞,...,-∞,0,...,0) (r-1 positiv unendlich und r-1 negativ unendlich)

Bewertungsmetriken

Fehlerwahrscheinlichkeit vom Typ I: c(θ)
Nominales Signifikanzniveau α = 0,1

Experimentelle Ergebnisse

Hauptergebnisse

Numerische Ergebnisse in Abbildung 1:

Für r ∈ {2,...,7}: Der Fehler vom Typ I unter Inkonsistenzkonfiguration übersteigt die Konsistenzkonfiguration und übersteigt α
Für r ∈ {8,9,10}: Der Fehler vom Typ I unter beiden Konfigurationen liegt unter α
Wenn r > 10, wird die Bedingung r > (n+1)/2 erfüllt, zurück zur Einstellung von Theorem 1

Analyse von Spezialfällen

Proposition 1: Für n = 3, r = 2 ist p_{r/n} trotz Nichterfüllung der Bedingung von Theorem 1 ein gültiger p-Wert.

Beweishauptpunkte:

Durch Analyse der partiellen Ableitungen wird nachgewiesen, dass die Funktion c(θ) im zulässigen Bereich keine stationären Punkte hat
Durch Grenzwertanalyse wird nachgewiesen, dass das Supremum gleich α ist

Experimentelle Erkenntnisse

Hinreichende, aber nicht notwendige Bedingung: Die von Theorem 1 angegebene Bedingung r > (n+1)/2 ist hinreichend, aber nicht notwendig
Übergangszonen: Es gibt eine Übergangszonen, in der die Korrektur möglicherweise nicht erforderlich ist, aber eine spezifische Analyse erforderlich ist
Kontrolle des Fehlers vom Typ III: Das vorgeschlagene Verfahren kann den Fehler vom Typ III kontrollieren und ermöglicht nachträgliche Inferenz der Effektrichtung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Wenn r > (n+1)/2, kann die Faktor-2-Korrektur sicher weggelassen werden
Für kleinere r-Werte ist die Korrektur normalerweise erforderlich
Es gibt Grenzfälle, die eine spezifische Analyse erfordern

Einschränkungen

Ergebnisse konzentrieren sich hauptsächlich auf die Bonferroni-Kombinationsmethode
Annahme der Unabhängigkeit zwischen Studien und Normalverteilung der Effektschätzungen
Erweiterung auf andere Kombinationsfunktionen erfordert weitere Forschung

Zukünftige Richtungen

Erweiterung auf Šidák-, Simes-, Fisher- und andere Kombinationsfunktionen
Anwendung bei mehrfachen Hypothesentests
Verallgemeinerung auf nicht-normale Verteilungen

Tiefgreifende Bewertung

Stärken

Theoretische Strenge: Vollständige mathematische Beweise und Gegenbeispiele
Praktischer Wert: Klare Richtlinien für die statistische Praxis
Klare Darstellung: Logische Struktur und präzise mathematische Formulierung
Wichtiges Problem: Adressiert praktische Anforderungen in der Replikabilitätsforschung

Schwächen

Begrenzte Anwendbarkeit: Hauptsächlich auf Bonferroni-Methode und Normalverteilungsannahmen beschränkt
Grenzfälle: Unvollständige Behandlung von kritischen Bereichen
Praktische Anleitung: Mangel an Validierung mit mehr realen Daten

Auswirkungen

Theoretischer Beitrag: Neue theoretische Ergebnisse für die Replikabilitätsstatistik
Praktischer Wert: Kann die Teststärke statistischer Tests erhöhen
Erweiterbarkeit: Grundlage für die Entwicklung verwandter Methoden

Anwendungsszenarien

Metaanalysen und systematische Übersichten
Multizentrische klinische Studien
Laborübergreifende Forschungsvalidierung
Großangelegte genetische Assoziationsstudien

Literaturverzeichnis

Benjamini, Y. and Heller, R. (2008). Screening for partial conjunction hypotheses. Biometrics.
Bogomolov, M. and Heller, R. (2023). Replicability across multiple studies. Statistical Science.
Owen, A. B. (2009). Karl Pearson's meta-analysis revisited. Annals of Statistics.
Sasabuchi, S. (1980). A test of a multivariate normal mean with composite hypotheses. Biometrika.

Dieses Papier leistet einen wichtigen theoretischen Beitrag zur Replikabilitätsstatistik, indem es durch strenge mathematische Analyse bestimmt, wann die traditionelle konservative Korrektur weggelassen werden kann, um die Teststärke zu erhöhen. Trotz einiger Einschränkungen hat es sowohl theoretischen als auch praktischen Wert.