2025-11-23T05:46:16.390387

Directional replicability: when can the factor of two be omitted

Djordjilović, Sofer, Dreyfuss
Directional replicability addresses the question of whether an effect studied across $n$ independent studies is present with the same direction in at least $r$ of them, for $r \geq 2$. When the expected direction of the effect is not specified in advance, the state of the art recommends assessing replicability separately by combining one-sided $p$-values for both directions (left and right), and then doubling the smaller of the two resulting combined $p$-values to account for multiple testing. In this work, we show that this multiplicative correction is not always necessary, and give conditions under which it can be safely omitted.
academic

Replicabilidad direccional: cuándo se puede omitir el factor de dos

Información Básica

  • ID del artículo: 2510.11273
  • Título: Replicabilidad direccional: cuándo se puede omitir el factor de dos
  • Autores: Vera Djordjilović (Universidad de Venecia), Tamar Sofer (Escuela de Medicina de Harvard), Jonathan M. Dreyfuss (Escuela de Medicina de Harvard)
  • Clasificación: stat.ME (Metodología Estadística)
  • Fecha de publicación: 13 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del artículo: https://arxiv.org/abs/2510.11273

Resumen

La replicabilidad direccional estudia si un efecto existe en la misma dirección en al menos r de n estudios independientes (r ≥ 2). Cuando la dirección esperada del efecto no se especifica previamente, la técnica actual recomienda evaluar la replicabilidad combinando valores p unilaterales para ambas direcciones por separado, y luego multiplicar el menor de los dos valores p combinados por 2 para corregir por pruebas múltiples. Este estudio demuestra que esta corrección multiplicativa no siempre es necesaria y proporciona las condiciones bajo las cuales se puede omitir de forma segura.

Antecedentes de la Investigación y Motivación

  1. Problema a resolver: Prueba estadística para evaluar la consistencia de la dirección del efecto en múltiples estudios independientes, particularmente cuándo se puede omitir la corrección tradicional del factor 2.
  2. Importancia del problema:
    • Baja replicabilidad de descubrimientos científicos prevalente en medicina, economía, psicología y otros campos
    • Necesidad de métodos estadísticos formales para evaluar la replicabilidad de resultados de investigación
    • La replicabilidad direccional es más rigurosa que simplemente observar la existencia de un efecto, requiriendo consistencia en la dirección del efecto
  3. Limitaciones de métodos existentes:
    • El método estándar siempre multiplica por 2 el valor p combinado más pequeño para corrección por pruebas múltiples
    • Esta corrección puede ser excesivamente conservadora, reduciendo la potencia de la prueba
  4. Motivación de la investigación: Mediante análisis teórico, determinar cuándo se puede omitir de forma segura la corrección del factor 2, mejorando así la potencia de la prueba estadística.

Contribuciones Principales

  1. Resultados teóricos: Demostración de que cuando r > (n+1)/2, el uso del método de Bonferroni para combinar valores p permite omitir de forma segura la corrección del factor 2
  2. Construcción de contraejemplos: Para valores más pequeños de r, se demuestra mediante contraejemplos que el factor de corrección es necesario
  3. Condiciones límite: Clarificación de las condiciones críticas que requieren y no requieren corrección
  4. Orientación práctica: Provisión de procedimientos para seleccionar adaptativamente el valor de r a partir de datos
  5. Discusión extendida: Exploración de posibles extensiones de resultados a otras funciones de combinación

Detalles de la Metodología

Definición de la Tarea

Sea θ = (θ₁, ..., θₙ) ∈ ℝⁿ el vector de magnitudes de efecto verdaderas en n estudios. Se define:

  • n₊ = |{i : θᵢ > 0}|: número de efectos positivos
  • n₋ = |{i : θᵢ < 0}|: número de efectos negativos

Hipótesis nula de replicabilidad direccional r de n: H_{r/n} : n₊ < r ∧ n₋ < r

Hipótesis alternativa correspondiente: K_{r/n} : n₊ ≥ r ∨ n₋ ≥ r

Arquitectura del Modelo

  1. Configuración básica:
    • Se asumen estimadores normales independientes: Tᵢ ~ N(θᵢ, 1)
    • Valores p unilaterales: pᵢ = 1 - Φ(Tᵢ), qᵢ = Φ(Tᵢ) = 1 - pᵢ
  2. Valores p parcialmente combinados de Bonferroni:
    • Dirección positiva: p⁺_{r/n} = (n - r + 1)p₍ᵣ₎
    • Dirección negativa: p⁻_{r/n} = (n - r + 1)p₍ₙ₋ᵣ₊₁₎
  3. Método tradicional: p_{r/n} = 2min{p⁻{r/n}, p⁺{r/n}}

Puntos de Innovación Técnica

Teorema Principal (Teorema 1): Cuando (n+1)/2 < r ≤ n, p_{r/n} = min{p⁻{r/n}, p⁺{r/n}} es un valor p válido para H_{r/n}.

Estrategia clave de demostración:

  1. Cuando 2r > n + 1, T₍ᵣ₎ ≥ T₍ₙ₋ᵣ₊₁₎, lo que resulta en eventos de error Tipo I disjuntos
  2. La probabilidad de error Tipo I se puede expresar como: c(θ) = Pr_θ(X ≥ r) + Pr_θ(Y ≥ r)
  3. Mediante análisis de derivadas parciales se demuestra que c(θ) alcanza su máximo en la frontera
  4. El máximo es exactamente igual a α, sin necesidad de corrección adicional

Configuración Experimental

Verificación Numérica

  • Configuración de n = 20 estudios
  • Consideración de dos configuraciones de parámetros:
    • "Consistencia": θ⁺ = (∞,...,∞,0,...,0) (primeros r-1 infinito positivo)
    • "Inconsistencia": θ* = (∞,...,∞,-∞,...,-∞,0,...,0) (r-1 infinito positivo y r-1 infinito negativo)

Métricas de Evaluación

  • Probabilidad de error Tipo I: c(θ)
  • Nivel de significancia nominal: α = 0.1

Resultados Experimentales

Resultados Principales

Resultados numéricos mostrados en la Figura 1:

  • Para r ∈ {2,...,7}: la probabilidad de error Tipo I bajo la configuración de inconsistencia excede la de consistencia y supera α
  • Para r ∈ {8,9,10}: la probabilidad de error Tipo I bajo ambas configuraciones está por debajo de α
  • Cuando r > 10, se satisface la condición r > (n+1)/2, retornando a la configuración del Teorema 1

Análisis de Casos Especiales

Proposición 1: Para el caso n = 3, r = 2, aunque no se satisface la condición del Teorema 1, p_{r/n} sigue siendo un valor p válido.

Puntos clave de la demostración:

  • Mediante análisis de derivadas parciales se demuestra que la función c(θ) no tiene puntos críticos en el dominio factible
  • Mediante análisis de límites se demuestra que el supremo es igual a α

Hallazgos Experimentales

  1. Condición suficiente pero no necesaria: La condición r > (n+1)/2 proporcionada por el Teorema 1 es suficiente pero no necesaria
  2. Región de transición: Existe una zona de transición donde la corrección puede no ser necesaria pero requiere análisis específico
  3. Control de error Tipo III: El procedimiento propuesto puede controlar el error Tipo III, permitiendo inferencia post hoc sobre la dirección del efecto

Trabajo Relacionado

  1. Métodos estadísticos de replicabilidad: Revisión de Bogomolov y Heller (2023)
  2. Prueba de hipótesis de conjunción parcial: Procedimiento general de Benjamini y Heller (2008)
  3. Pruebas de medias normales multivariadas: Resultados relacionados de Sasabuchi (1980) y Berger (1989)
  4. Métodos de combinación de valores p: Trabajos de Owen (2009), Wang et al. (2022) y otros

Conclusiones y Discusión

Conclusiones Principales

  1. Cuando r > (n+1)/2, se puede omitir de forma segura la corrección del factor 2
  2. Para valores más pequeños de r, la corrección generalmente es necesaria
  3. Existen casos límite que requieren análisis específico

Limitaciones

  1. Los resultados se centran principalmente en el método de combinación de Bonferroni
  2. Se asume independencia entre estudios y distribución normal de estimaciones de efectos
  3. La extensión a otras funciones de combinación requiere investigación adicional

Direcciones Futuras

  1. Extensión a otras funciones de combinación: Šidák, Simes, Fisher, etc.
  2. Aplicaciones en pruebas de hipótesis múltiples
  3. Generalización a casos de distribución no normal

Evaluación Profunda

Fortalezas

  1. Rigor teórico: Proporciona demostraciones matemáticas completas y contraejemplos
  2. Valor práctico: Ofrece principios directores claros para la práctica estadística
  3. Claridad de escritura: Estructura lógica clara y expresión matemática precisa
  4. Importancia del problema: Aborda necesidades prácticas en investigación de replicabilidad

Debilidades

  1. Alcance limitado de aplicabilidad: Se aplica principalmente al método de Bonferroni y supuestos normales
  2. Casos límite: El tratamiento de la región crítica no es suficientemente completo
  3. Orientación para aplicación práctica: Carece de validación con más datos reales

Impacto

  1. Contribución teórica: Proporciona nuevos resultados teóricos para la estadística de replicabilidad
  2. Valor práctico: Puede mejorar la potencia de las pruebas estadísticas
  3. Extensibilidad: Sienta las bases para el desarrollo de métodos relacionados

Escenarios de Aplicación

  • Metaanálisis y revisiones sistemáticas
  • Ensayos clínicos multicéntricos
  • Verificación de investigación entre laboratorios
  • Estudios de asociación genética a gran escala

Referencias

  1. Benjamini, Y. and Heller, R. (2008). Screening for partial conjunction hypotheses. Biometrics.
  2. Bogomolov, M. and Heller, R. (2023). Replicability across multiple studies. Statistical Science.
  3. Owen, A. B. (2009). Karl Pearson's meta-analysis revisited. Annals of Statistics.
  4. Sasabuchi, S. (1980). A test of a multivariate normal mean with composite hypotheses. Biometrika.

Este artículo proporciona una contribución teórica importante a la estadística de replicabilidad, determinando mediante análisis matemático riguroso cuándo se puede omitir la corrección conservadora tradicional, mejorando así la potencia de las pruebas estadísticas. Aunque presenta algunas limitaciones, su valor teórico e importancia práctica son significativos.