Directional replicability addresses the question of whether an effect studied across $n$ independent studies is present with the same direction in at least $r$ of them, for $r \geq 2$. When the expected direction of the effect is not specified in advance, the state of the art recommends assessing replicability separately by combining one-sided $p$-values for both directions (left and right), and then doubling the smaller of the two resulting combined $p$-values to account for multiple testing. In this work, we show that this multiplicative correction is not always necessary, and give conditions under which it can be safely omitted.
- ID del artículo: 2510.11273
- Título: Replicabilidad direccional: cuándo se puede omitir el factor de dos
- Autores: Vera Djordjilović (Universidad de Venecia), Tamar Sofer (Escuela de Medicina de Harvard), Jonathan M. Dreyfuss (Escuela de Medicina de Harvard)
- Clasificación: stat.ME (Metodología Estadística)
- Fecha de publicación: 13 de octubre de 2025 (preimpresión en arXiv)
- Enlace del artículo: https://arxiv.org/abs/2510.11273
La replicabilidad direccional estudia si un efecto existe en la misma dirección en al menos r de n estudios independientes (r ≥ 2). Cuando la dirección esperada del efecto no se especifica previamente, la técnica actual recomienda evaluar la replicabilidad combinando valores p unilaterales para ambas direcciones por separado, y luego multiplicar el menor de los dos valores p combinados por 2 para corregir por pruebas múltiples. Este estudio demuestra que esta corrección multiplicativa no siempre es necesaria y proporciona las condiciones bajo las cuales se puede omitir de forma segura.
- Problema a resolver: Prueba estadística para evaluar la consistencia de la dirección del efecto en múltiples estudios independientes, particularmente cuándo se puede omitir la corrección tradicional del factor 2.
- Importancia del problema:
- Baja replicabilidad de descubrimientos científicos prevalente en medicina, economía, psicología y otros campos
- Necesidad de métodos estadísticos formales para evaluar la replicabilidad de resultados de investigación
- La replicabilidad direccional es más rigurosa que simplemente observar la existencia de un efecto, requiriendo consistencia en la dirección del efecto
- Limitaciones de métodos existentes:
- El método estándar siempre multiplica por 2 el valor p combinado más pequeño para corrección por pruebas múltiples
- Esta corrección puede ser excesivamente conservadora, reduciendo la potencia de la prueba
- Motivación de la investigación: Mediante análisis teórico, determinar cuándo se puede omitir de forma segura la corrección del factor 2, mejorando así la potencia de la prueba estadística.
- Resultados teóricos: Demostración de que cuando r > (n+1)/2, el uso del método de Bonferroni para combinar valores p permite omitir de forma segura la corrección del factor 2
- Construcción de contraejemplos: Para valores más pequeños de r, se demuestra mediante contraejemplos que el factor de corrección es necesario
- Condiciones límite: Clarificación de las condiciones críticas que requieren y no requieren corrección
- Orientación práctica: Provisión de procedimientos para seleccionar adaptativamente el valor de r a partir de datos
- Discusión extendida: Exploración de posibles extensiones de resultados a otras funciones de combinación
Sea θ = (θ₁, ..., θₙ) ∈ ℝⁿ el vector de magnitudes de efecto verdaderas en n estudios. Se define:
- n₊ = |{i : θᵢ > 0}|: número de efectos positivos
- n₋ = |{i : θᵢ < 0}|: número de efectos negativos
Hipótesis nula de replicabilidad direccional r de n:
H_{r/n} : n₊ < r ∧ n₋ < r
Hipótesis alternativa correspondiente:
K_{r/n} : n₊ ≥ r ∨ n₋ ≥ r
- Configuración básica:
- Se asumen estimadores normales independientes: Tᵢ ~ N(θᵢ, 1)
- Valores p unilaterales: pᵢ = 1 - Φ(Tᵢ), qᵢ = Φ(Tᵢ) = 1 - pᵢ
- Valores p parcialmente combinados de Bonferroni:
- Dirección positiva: p⁺_{r/n} = (n - r + 1)p₍ᵣ₎
- Dirección negativa: p⁻_{r/n} = (n - r + 1)p₍ₙ₋ᵣ₊₁₎
- Método tradicional:
p_{r/n} = 2min{p⁻{r/n}, p⁺{r/n}}
Teorema Principal (Teorema 1):
Cuando (n+1)/2 < r ≤ n, p_{r/n} = min{p⁻{r/n}, p⁺{r/n}} es un valor p válido para H_{r/n}.
Estrategia clave de demostración:
- Cuando 2r > n + 1, T₍ᵣ₎ ≥ T₍ₙ₋ᵣ₊₁₎, lo que resulta en eventos de error Tipo I disjuntos
- La probabilidad de error Tipo I se puede expresar como: c(θ) = Pr_θ(X ≥ r) + Pr_θ(Y ≥ r)
- Mediante análisis de derivadas parciales se demuestra que c(θ) alcanza su máximo en la frontera
- El máximo es exactamente igual a α, sin necesidad de corrección adicional
- Configuración de n = 20 estudios
- Consideración de dos configuraciones de parámetros:
- "Consistencia": θ⁺ = (∞,...,∞,0,...,0) (primeros r-1 infinito positivo)
- "Inconsistencia": θ* = (∞,...,∞,-∞,...,-∞,0,...,0) (r-1 infinito positivo y r-1 infinito negativo)
- Probabilidad de error Tipo I: c(θ)
- Nivel de significancia nominal: α = 0.1
Resultados numéricos mostrados en la Figura 1:
- Para r ∈ {2,...,7}: la probabilidad de error Tipo I bajo la configuración de inconsistencia excede la de consistencia y supera α
- Para r ∈ {8,9,10}: la probabilidad de error Tipo I bajo ambas configuraciones está por debajo de α
- Cuando r > 10, se satisface la condición r > (n+1)/2, retornando a la configuración del Teorema 1
Proposición 1: Para el caso n = 3, r = 2, aunque no se satisface la condición del Teorema 1, p_{r/n} sigue siendo un valor p válido.
Puntos clave de la demostración:
- Mediante análisis de derivadas parciales se demuestra que la función c(θ) no tiene puntos críticos en el dominio factible
- Mediante análisis de límites se demuestra que el supremo es igual a α
- Condición suficiente pero no necesaria: La condición r > (n+1)/2 proporcionada por el Teorema 1 es suficiente pero no necesaria
- Región de transición: Existe una zona de transición donde la corrección puede no ser necesaria pero requiere análisis específico
- Control de error Tipo III: El procedimiento propuesto puede controlar el error Tipo III, permitiendo inferencia post hoc sobre la dirección del efecto
- Métodos estadísticos de replicabilidad: Revisión de Bogomolov y Heller (2023)
- Prueba de hipótesis de conjunción parcial: Procedimiento general de Benjamini y Heller (2008)
- Pruebas de medias normales multivariadas: Resultados relacionados de Sasabuchi (1980) y Berger (1989)
- Métodos de combinación de valores p: Trabajos de Owen (2009), Wang et al. (2022) y otros
- Cuando r > (n+1)/2, se puede omitir de forma segura la corrección del factor 2
- Para valores más pequeños de r, la corrección generalmente es necesaria
- Existen casos límite que requieren análisis específico
- Los resultados se centran principalmente en el método de combinación de Bonferroni
- Se asume independencia entre estudios y distribución normal de estimaciones de efectos
- La extensión a otras funciones de combinación requiere investigación adicional
- Extensión a otras funciones de combinación: Šidák, Simes, Fisher, etc.
- Aplicaciones en pruebas de hipótesis múltiples
- Generalización a casos de distribución no normal
- Rigor teórico: Proporciona demostraciones matemáticas completas y contraejemplos
- Valor práctico: Ofrece principios directores claros para la práctica estadística
- Claridad de escritura: Estructura lógica clara y expresión matemática precisa
- Importancia del problema: Aborda necesidades prácticas en investigación de replicabilidad
- Alcance limitado de aplicabilidad: Se aplica principalmente al método de Bonferroni y supuestos normales
- Casos límite: El tratamiento de la región crítica no es suficientemente completo
- Orientación para aplicación práctica: Carece de validación con más datos reales
- Contribución teórica: Proporciona nuevos resultados teóricos para la estadística de replicabilidad
- Valor práctico: Puede mejorar la potencia de las pruebas estadísticas
- Extensibilidad: Sienta las bases para el desarrollo de métodos relacionados
- Metaanálisis y revisiones sistemáticas
- Ensayos clínicos multicéntricos
- Verificación de investigación entre laboratorios
- Estudios de asociación genética a gran escala
- Benjamini, Y. and Heller, R. (2008). Screening for partial conjunction hypotheses. Biometrics.
- Bogomolov, M. and Heller, R. (2023). Replicability across multiple studies. Statistical Science.
- Owen, A. B. (2009). Karl Pearson's meta-analysis revisited. Annals of Statistics.
- Sasabuchi, S. (1980). A test of a multivariate normal mean with composite hypotheses. Biometrika.
Este artículo proporciona una contribución teórica importante a la estadística de replicabilidad, determinando mediante análisis matemático riguroso cuándo se puede omitir la corrección conservadora tradicional, mejorando así la potencia de las pruebas estadísticas. Aunque presenta algunas limitaciones, su valor teórico e importancia práctica son significativos.