2025-11-23T05:46:16.390387

Directional replicability: when can the factor of two be omitted

DjordjiloviÄ, Sofer, Dreyfuss

Directional replicability addresses the question of whether an effect studied across $n$ independent studies is present with the same direction in at least $r$ of them, for $r \geq 2$. When the expected direction of the effect is not specified in advance, the state of the art recommends assessing replicability separately by combining one-sided $p$-values for both directions (left and right), and then doubling the smaller of the two resulting combined $p$-values to account for multiple testing. In this work, we show that this multiplicative correction is not always necessary, and give conditions under which it can be safely omitted.

academic

Replicabilidad direccional: cuándo se puede omitir el factor de dos

Información Básica

ID del artículo: 2510.11273
Título: Replicabilidad direccional: cuándo se puede omitir el factor de dos
Autores: Vera Djordjilović (Universidad de Venecia), Tamar Sofer (Escuela de Medicina de Harvard), Jonathan M. Dreyfuss (Escuela de Medicina de Harvard)
Clasificación: stat.ME (Metodología Estadística)
Fecha de publicación: 13 de octubre de 2025 (preimpresión en arXiv)
Enlace del artículo: https://arxiv.org/abs/2510.11273

Resumen

La replicabilidad direccional estudia si un efecto existe en la misma dirección en al menos r de n estudios independientes (r ≥ 2). Cuando la dirección esperada del efecto no se especifica previamente, la técnica actual recomienda evaluar la replicabilidad combinando valores p unilaterales para ambas direcciones por separado, y luego multiplicar el menor de los dos valores p combinados por 2 para corregir por pruebas múltiples. Este estudio demuestra que esta corrección multiplicativa no siempre es necesaria y proporciona las condiciones bajo las cuales se puede omitir de forma segura.

Antecedentes de la Investigación y Motivación

Problema a resolver: Prueba estadística para evaluar la consistencia de la dirección del efecto en múltiples estudios independientes, particularmente cuándo se puede omitir la corrección tradicional del factor 2.
Importancia del problema:
- Baja replicabilidad de descubrimientos científicos prevalente en medicina, economía, psicología y otros campos
- Necesidad de métodos estadísticos formales para evaluar la replicabilidad de resultados de investigación
- La replicabilidad direccional es más rigurosa que simplemente observar la existencia de un efecto, requiriendo consistencia en la dirección del efecto
Limitaciones de métodos existentes:
- El método estándar siempre multiplica por 2 el valor p combinado más pequeño para corrección por pruebas múltiples
- Esta corrección puede ser excesivamente conservadora, reduciendo la potencia de la prueba
Motivación de la investigación: Mediante análisis teórico, determinar cuándo se puede omitir de forma segura la corrección del factor 2, mejorando así la potencia de la prueba estadística.

Contribuciones Principales

Resultados teóricos: Demostración de que cuando r > (n+1)/2, el uso del método de Bonferroni para combinar valores p permite omitir de forma segura la corrección del factor 2
Construcción de contraejemplos: Para valores más pequeños de r, se demuestra mediante contraejemplos que el factor de corrección es necesario
Condiciones límite: Clarificación de las condiciones críticas que requieren y no requieren corrección
Orientación práctica: Provisión de procedimientos para seleccionar adaptativamente el valor de r a partir de datos
Discusión extendida: Exploración de posibles extensiones de resultados a otras funciones de combinación

Detalles de la Metodología

Definición de la Tarea

Sea θ = (θ₁, ..., θₙ) ∈ ℝⁿ el vector de magnitudes de efecto verdaderas en n estudios. Se define:

n₊ = |{i : θᵢ > 0}|: número de efectos positivos
n₋ = |{i : θᵢ < 0}|: número de efectos negativos

Hipótesis nula de replicabilidad direccional r de n: H_{r/n} : n₊ < r ∧ n₋ < r

Hipótesis alternativa correspondiente: K_{r/n} : n₊ ≥ r ∨ n₋ ≥ r

Arquitectura del Modelo

Configuración básica:
- Se asumen estimadores normales independientes: Tᵢ ~ N(θᵢ, 1)
- Valores p unilaterales: pᵢ = 1 - Φ(Tᵢ), qᵢ = Φ(Tᵢ) = 1 - pᵢ
Valores p parcialmente combinados de Bonferroni:
- Dirección positiva: p⁺_{r/n} = (n - r + 1)p₍ᵣ₎
- Dirección negativa: p⁻_{r/n} = (n - r + 1)p₍ₙ₋ᵣ₊₁₎
Método tradicional: p_{r/n} = 2min{p⁻{r/n}, p⁺{r/n}}

Puntos de Innovación Técnica

Teorema Principal (Teorema 1): Cuando (n+1)/2 < r ≤ n, p_{r/n} = min{p⁻{r/n}, p⁺{r/n}} es un valor p válido para H_{r/n}.

Estrategia clave de demostración:

Cuando 2r > n + 1, T₍ᵣ₎ ≥ T₍ₙ₋ᵣ₊₁₎, lo que resulta en eventos de error Tipo I disjuntos
La probabilidad de error Tipo I se puede expresar como: c(θ) = Pr_θ(X ≥ r) + Pr_θ(Y ≥ r)
Mediante análisis de derivadas parciales se demuestra que c(θ) alcanza su máximo en la frontera
El máximo es exactamente igual a α, sin necesidad de corrección adicional

Configuración Experimental

Verificación Numérica

Configuración de n = 20 estudios
Consideración de dos configuraciones de parámetros:
- "Consistencia": θ⁺ = (∞,...,∞,0,...,0) (primeros r-1 infinito positivo)
- "Inconsistencia": θ* = (∞,...,∞,-∞,...,-∞,0,...,0) (r-1 infinito positivo y r-1 infinito negativo)

Métricas de Evaluación

Probabilidad de error Tipo I: c(θ)
Nivel de significancia nominal: α = 0.1

Resultados Experimentales

Resultados Principales

Resultados numéricos mostrados en la Figura 1:

Para r ∈ {2,...,7}: la probabilidad de error Tipo I bajo la configuración de inconsistencia excede la de consistencia y supera α
Para r ∈ {8,9,10}: la probabilidad de error Tipo I bajo ambas configuraciones está por debajo de α
Cuando r > 10, se satisface la condición r > (n+1)/2, retornando a la configuración del Teorema 1

Análisis de Casos Especiales

Proposición 1: Para el caso n = 3, r = 2, aunque no se satisface la condición del Teorema 1, p_{r/n} sigue siendo un valor p válido.

Puntos clave de la demostración:

Mediante análisis de derivadas parciales se demuestra que la función c(θ) no tiene puntos críticos en el dominio factible
Mediante análisis de límites se demuestra que el supremo es igual a α

Hallazgos Experimentales

Condición suficiente pero no necesaria: La condición r > (n+1)/2 proporcionada por el Teorema 1 es suficiente pero no necesaria
Región de transición: Existe una zona de transición donde la corrección puede no ser necesaria pero requiere análisis específico
Control de error Tipo III: El procedimiento propuesto puede controlar el error Tipo III, permitiendo inferencia post hoc sobre la dirección del efecto

Trabajo Relacionado

Métodos estadísticos de replicabilidad: Revisión de Bogomolov y Heller (2023)
Prueba de hipótesis de conjunción parcial: Procedimiento general de Benjamini y Heller (2008)
Pruebas de medias normales multivariadas: Resultados relacionados de Sasabuchi (1980) y Berger (1989)
Métodos de combinación de valores p: Trabajos de Owen (2009), Wang et al. (2022) y otros

Conclusiones y Discusión

Conclusiones Principales

Cuando r > (n+1)/2, se puede omitir de forma segura la corrección del factor 2
Para valores más pequeños de r, la corrección generalmente es necesaria
Existen casos límite que requieren análisis específico

Limitaciones

Los resultados se centran principalmente en el método de combinación de Bonferroni
Se asume independencia entre estudios y distribución normal de estimaciones de efectos
La extensión a otras funciones de combinación requiere investigación adicional

Direcciones Futuras

Extensión a otras funciones de combinación: Šidák, Simes, Fisher, etc.
Aplicaciones en pruebas de hipótesis múltiples
Generalización a casos de distribución no normal

Evaluación Profunda

Fortalezas

Rigor teórico: Proporciona demostraciones matemáticas completas y contraejemplos
Valor práctico: Ofrece principios directores claros para la práctica estadística
Claridad de escritura: Estructura lógica clara y expresión matemática precisa
Importancia del problema: Aborda necesidades prácticas en investigación de replicabilidad

Debilidades

Alcance limitado de aplicabilidad: Se aplica principalmente al método de Bonferroni y supuestos normales
Casos límite: El tratamiento de la región crítica no es suficientemente completo
Orientación para aplicación práctica: Carece de validación con más datos reales

Impacto

Contribución teórica: Proporciona nuevos resultados teóricos para la estadística de replicabilidad
Valor práctico: Puede mejorar la potencia de las pruebas estadísticas
Extensibilidad: Sienta las bases para el desarrollo de métodos relacionados

Escenarios de Aplicación

Metaanálisis y revisiones sistemáticas
Ensayos clínicos multicéntricos
Verificación de investigación entre laboratorios
Estudios de asociación genética a gran escala

Referencias

Benjamini, Y. and Heller, R. (2008). Screening for partial conjunction hypotheses. Biometrics.
Bogomolov, M. and Heller, R. (2023). Replicability across multiple studies. Statistical Science.
Owen, A. B. (2009). Karl Pearson's meta-analysis revisited. Annals of Statistics.
Sasabuchi, S. (1980). A test of a multivariate normal mean with composite hypotheses. Biometrika.

Este artículo proporciona una contribución teórica importante a la estadística de replicabilidad, determinando mediante análisis matemático riguroso cuándo se puede omitir la corrección conservadora tradicional, mejorando así la potencia de las pruebas estadísticas. Aunque presenta algunas limitaciones, su valor teórico e importancia práctica son significativos.