2025-11-23T05:46:16.390387

Directional replicability: when can the factor of two be omitted

Djordjilović, Sofer, Dreyfuss
Directional replicability addresses the question of whether an effect studied across $n$ independent studies is present with the same direction in at least $r$ of them, for $r \geq 2$. When the expected direction of the effect is not specified in advance, the state of the art recommends assessing replicability separately by combining one-sided $p$-values for both directions (left and right), and then doubling the smaller of the two resulting combined $p$-values to account for multiple testing. In this work, we show that this multiplicative correction is not always necessary, and give conditions under which it can be safely omitted.
academic

Direktionale Replikabilität: wann kann der Faktor zwei weggelassen werden

Grundinformationen

  • Papier-ID: 2510.11273
  • Titel: Directional replicability: when can the factor of two be omitted
  • Autoren: Vera Djordjilović (Universität Venedig), Tamar Sofer (Harvard Medical School), Jonathan M. Dreyfuss (Harvard Medical School)
  • Klassifizierung: stat.ME (Statistische Methoden)
  • Veröffentlichungsdatum: 13. Oktober 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2510.11273

Zusammenfassung

Die Forschung zur direktionalen Replikabilität untersucht die Frage, ob eine bestimmte Effektrichtung in mindestens r von n unabhängigen Studien konsistent vorhanden ist (r ≥ 2). Wenn die erwartete Effektrichtung nicht vorab spezifiziert ist, empfiehlt die gängige Praxis, die einseitigen p-Werte für beide Richtungen separat zu kombinieren und dann den kleineren der beiden kombinierten p-Werte mit 2 zu multiplizieren, um die Mehrfachtestung zu korrigieren. Diese Studie zeigt, dass diese multiplikative Korrektur nicht immer notwendig ist, und gibt Bedingungen an, unter denen diese Korrektur sicher weggelassen werden kann.

Forschungshintergrund und Motivation

  1. Zu lösende Probleme: Statistische Testverfahren zur Bewertung der Konsistenz der Effektrichtung über mehrere unabhängige Studien hinweg, insbesondere wann die traditionelle Faktor-2-Korrektur weggelassen werden kann.
  2. Bedeutung des Problems:
    • Geringe Replikierbarkeit wissenschaftlicher Erkenntnisse ist in Medizin, Wirtschaft, Psychologie und anderen Bereichen weit verbreitet
    • Formale statistische Methoden zur Bewertung der Replikierbarkeit von Forschungsergebnissen sind erforderlich
    • Direktionale Replikabilität ist strenger als die bloße Beobachtung eines Effekts und erfordert Konsistenz der Effektrichtung
  3. Einschränkungen bestehender Methoden:
    • Die Standardmethode multipliziert den kleineren kombinierten p-Wert immer mit 2 zur Korrektur der Mehrfachtestung
    • Diese Korrektur kann übermäßig konservativ sein und die Teststärke verringern
  4. Forschungsmotivation: Durch theoretische Analyse bestimmen, wann die Faktor-2-Korrektur sicher weggelassen werden kann, um die statistische Teststärke zu erhöhen.

Kernbeiträge

  1. Theoretische Ergebnisse: Nachweis, dass die Faktor-2-Korrektur bei Verwendung der Bonferroni-Methode zur p-Wert-Kombination sicher weggelassen werden kann, wenn r > (n+1)/2
  2. Konstruktion von Gegenbeispielen: Demonstration durch Gegenbeispiele, dass die Korrektur für kleinere r-Werte notwendig ist
  3. Grenzbedingungen: Klare Bestimmung der kritischen Bedingungen, wann Korrektur erforderlich ist und wann nicht
  4. Praktische Anleitung: Bereitstellung von datengesteuerten Verfahren zur Auswahl des r-Wertes
  5. Erweiterte Diskussion: Erörterung möglicher Erweiterungen der Ergebnisse auf andere Kombinationsfunktionen

Methodische Details

Aufgabendefinition

Sei θ = (θ₁, ..., θₙ) ∈ ℝⁿ der Vektor der wahren Effektgrößen in n Studien. Definieren Sie:

  • n₊ = |{i : θᵢ > 0}|: Anzahl der positiven Effekte
  • n₋ = |{i : θᵢ < 0}|: Anzahl der negativen Effekte

Nullhypothese der r-von-n direktionalen Replikabilität: H_{r/n} : n₊ < r ∧ n₋ < r

Entsprechende Alternativhypothese: K_{r/n} : n₊ ≥ r ∨ n₋ ≥ r

Modellarchitektur

  1. Grundlegende Einstellung:
    • Annahme unabhängiger Normalverteilungsschätzer: Tᵢ ~ N(θᵢ, 1)
    • Einseitige p-Werte: pᵢ = 1 - Φ(Tᵢ), qᵢ = Φ(Tᵢ) = 1 - pᵢ
  2. Bonferroni-Teilkombinations-p-Werte:
    • Positive Richtung: p⁺_{r/n} = (n - r + 1)p₍ᵣ₎
    • Negative Richtung: p⁻_{r/n} = (n - r + 1)p₍ₙ₋ᵣ₊₁₎
  3. Traditionelle Methode: p_{r/n} = 2min{p⁻{r/n}, p⁺{r/n}}

Technische Innovationen

Hauptsatz (Theorem 1): Wenn (n+1)/2 < r ≤ n, dann ist p_{r/n} = min{p⁻{r/n}, p⁺{r/n}} ein gültiger p-Wert für H_{r/n}.

Schlüsselbeweise:

  1. Wenn 2r > n + 1, dann T₍ᵣ₎ ≥ T₍ₙ₋ᵣ₊₁₎, was zu disjunkten Ereignissen bei Fehler vom Typ I führt
  2. Die Wahrscheinlichkeit des Fehlers vom Typ I kann ausgedrückt werden als: c(θ) = Pr_θ(X ≥ r) + Pr_θ(Y ≥ r)
  3. Durch Analyse der partiellen Ableitungen wird nachgewiesen, dass c(θ) an der Grenze sein Maximum erreicht
  4. Das Maximum entspricht genau α, ohne dass zusätzliche Korrektur erforderlich ist

Experimentelle Einrichtung

Numerische Verifikation

  • Einstellung von n = 20 Studien
  • Betrachtung von zwei Parameterkonfigurationen:
    • "Konsistenz": θ⁺ = (∞,...,∞,0,...,0) (erste r-1 positiv unendlich)
    • "Inkonsistenz": θ* = (∞,...,∞,-∞,...,-∞,0,...,0) (r-1 positiv unendlich und r-1 negativ unendlich)

Bewertungsmetriken

  • Fehlerwahrscheinlichkeit vom Typ I: c(θ)
  • Nominales Signifikanzniveau α = 0,1

Experimentelle Ergebnisse

Hauptergebnisse

Numerische Ergebnisse in Abbildung 1:

  • Für r ∈ {2,...,7}: Der Fehler vom Typ I unter Inkonsistenzkonfiguration übersteigt die Konsistenzkonfiguration und übersteigt α
  • Für r ∈ {8,9,10}: Der Fehler vom Typ I unter beiden Konfigurationen liegt unter α
  • Wenn r > 10, wird die Bedingung r > (n+1)/2 erfüllt, zurück zur Einstellung von Theorem 1

Analyse von Spezialfällen

Proposition 1: Für n = 3, r = 2 ist p_{r/n} trotz Nichterfüllung der Bedingung von Theorem 1 ein gültiger p-Wert.

Beweishauptpunkte:

  • Durch Analyse der partiellen Ableitungen wird nachgewiesen, dass die Funktion c(θ) im zulässigen Bereich keine stationären Punkte hat
  • Durch Grenzwertanalyse wird nachgewiesen, dass das Supremum gleich α ist

Experimentelle Erkenntnisse

  1. Hinreichende, aber nicht notwendige Bedingung: Die von Theorem 1 angegebene Bedingung r > (n+1)/2 ist hinreichend, aber nicht notwendig
  2. Übergangszonen: Es gibt eine Übergangszonen, in der die Korrektur möglicherweise nicht erforderlich ist, aber eine spezifische Analyse erforderlich ist
  3. Kontrolle des Fehlers vom Typ III: Das vorgeschlagene Verfahren kann den Fehler vom Typ III kontrollieren und ermöglicht nachträgliche Inferenz der Effektrichtung

Verwandte Arbeiten

  1. Statistische Methoden zur Replikierbarkeit: Übersicht von Bogomolov and Heller (2023)
  2. Teilweise konjunktive Hypothesentests: Allgemeines Verfahren von Benjamini and Heller (2008)
  3. Tests multivariater Normalverteilungsmittelwerte: Verwandte Ergebnisse von Sasabuchi (1980) und Berger (1989)
  4. p-Wert-Kombinationsmethoden: Arbeiten von Owen (2009), Wang et al. (2022) und anderen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Wenn r > (n+1)/2, kann die Faktor-2-Korrektur sicher weggelassen werden
  2. Für kleinere r-Werte ist die Korrektur normalerweise erforderlich
  3. Es gibt Grenzfälle, die eine spezifische Analyse erfordern

Einschränkungen

  1. Ergebnisse konzentrieren sich hauptsächlich auf die Bonferroni-Kombinationsmethode
  2. Annahme der Unabhängigkeit zwischen Studien und Normalverteilung der Effektschätzungen
  3. Erweiterung auf andere Kombinationsfunktionen erfordert weitere Forschung

Zukünftige Richtungen

  1. Erweiterung auf Šidák-, Simes-, Fisher- und andere Kombinationsfunktionen
  2. Anwendung bei mehrfachen Hypothesentests
  3. Verallgemeinerung auf nicht-normale Verteilungen

Tiefgreifende Bewertung

Stärken

  1. Theoretische Strenge: Vollständige mathematische Beweise und Gegenbeispiele
  2. Praktischer Wert: Klare Richtlinien für die statistische Praxis
  3. Klare Darstellung: Logische Struktur und präzise mathematische Formulierung
  4. Wichtiges Problem: Adressiert praktische Anforderungen in der Replikabilitätsforschung

Schwächen

  1. Begrenzte Anwendbarkeit: Hauptsächlich auf Bonferroni-Methode und Normalverteilungsannahmen beschränkt
  2. Grenzfälle: Unvollständige Behandlung von kritischen Bereichen
  3. Praktische Anleitung: Mangel an Validierung mit mehr realen Daten

Auswirkungen

  1. Theoretischer Beitrag: Neue theoretische Ergebnisse für die Replikabilitätsstatistik
  2. Praktischer Wert: Kann die Teststärke statistischer Tests erhöhen
  3. Erweiterbarkeit: Grundlage für die Entwicklung verwandter Methoden

Anwendungsszenarien

  • Metaanalysen und systematische Übersichten
  • Multizentrische klinische Studien
  • Laborübergreifende Forschungsvalidierung
  • Großangelegte genetische Assoziationsstudien

Literaturverzeichnis

  1. Benjamini, Y. and Heller, R. (2008). Screening for partial conjunction hypotheses. Biometrics.
  2. Bogomolov, M. and Heller, R. (2023). Replicability across multiple studies. Statistical Science.
  3. Owen, A. B. (2009). Karl Pearson's meta-analysis revisited. Annals of Statistics.
  4. Sasabuchi, S. (1980). A test of a multivariate normal mean with composite hypotheses. Biometrika.

Dieses Papier leistet einen wichtigen theoretischen Beitrag zur Replikabilitätsstatistik, indem es durch strenge mathematische Analyse bestimmt, wann die traditionelle konservative Korrektur weggelassen werden kann, um die Teststärke zu erhöhen. Trotz einiger Einschränkungen hat es sowohl theoretischen als auch praktischen Wert.