2025-11-14T03:28:11.408670

Statistical methods: Basic concepts, interpretations, and cautions

Greenland

The study of associations and their causal explanations is a central research activity whose methodology varies tremendously across fields. Even within specialized subfields, comparisons across textbooks and journals reveals that the basics are subject to considerable variation and controversy. This variation is often obscured by the singular viewpoints presented within textbooks and journal guidelines, which may be deceptively written as if the norms they adopt are unchallenged. Furthermore, human limitations and the vastness within fields imply that no one can have expertise across all subfields and that interpretations will be severely constrained by the limitations of studies of human populations. The present chapter outlines an approach to statistical methods that attempts to recognize these problems from the start, rather than assume they are absent as in the claims of 'statistical significance' and 'confidence' ordinarily attached to statistical tests and interval estimates. It does so by grounding models and statistics in data description, and treating inferences from them as speculations based on assumptions that cannot be fully validated or checked using the analysis data.

academic

Métodos estadísticos: Conceptos básicos, interpretaciones y precauciones

Información Básica

ID del artículo: 2508.10168
Título: Statistical methods: Basic concepts, interpretations, and cautions
Autor: Sander Greenland (Profesor Emérito de Epidemiología y Estadística, UCLA)
Clasificación: stat.ME math.ST stat.TH
Fecha de publicación: 25 de agosto de 2025
Naturaleza del artículo: Capítulo de la tercera edición del Manual de Epidemiología
Enlace del artículo: https://arxiv.org/abs/2508.10168

Resumen

Este artículo aborda los problemas de aplicación de métodos estadísticos en estudios de asociación e interpretación causal, señalando que existen enormes diferencias metodológicas entre disciplinas, e incluso variaciones y controversias considerables dentro de subdisciplinas especializadas. Los métodos estadísticos tradicionales asumen condiciones ideales (como muestreo puramente aleatorio, experimentos completamente aleatorizados), pero en investigaciones poblacionales reales estos supuestos frecuentemente no se cumplen. El autor propone un nuevo marco interpretativo para métodos estadísticos, considerando la inferencia estadística como conjetura basada en supuestos que no pueden verificarse completamente, en lugar de conclusiones determinísticas, evitando así el mal uso de conceptos como "significancia estadística" e "intervalo de confianza".

Antecedentes de investigación y motivación

Contexto del problema

Divergencias metodológicas graves: Existen diferencias significativas y controversias entre disciplinas, libros de texto y revistas respecto a conceptos estadísticos fundamentales
Idealización de condiciones de supuestos: Los métodos estadísticos tradicionales asumen condiciones ideales de muestreo aleatorio o asignación aleatoria, pero en investigaciones reales estas condiciones son difíciles de satisfacer
Malinterpretaciones generalizadas: Encuestas muestran que la mayoría de usuarios no pueden definir o interpretar correctamente valores p, pruebas de significancia e intervalos de confianza
Problema de exceso de confianza: Los resultados estadísticos frecuentemente se malinterpretan como respuestas determinísticas, en lugar de conjeturas basadas en supuestos

Motivación de la investigación

Proporcionar un marco interpretativo de métodos estadísticos más realista y cauteloso
Reducir el exceso de confianza y malinterpretaciones en la inferencia estadística
Reposicionar los métodos estadísticos como herramientas de descripción de datos, no como árbitros autoritarios de la inferencia científica
Enfatizar la importancia de la verificación de supuestos y la evaluación de incertidumbre

Contribuciones principales

Redefinición de la inferencia estadística: Reinterpretación del valor p como medida de compatibilidad entre datos y modelo de supuestos, no como probabilidad del supuesto
Introducción del concepto de intervalo de compatibilidad: Sustitución del término "intervalo de confianza" por "intervalo de compatibilidad" para evitar el concepto engañoso de "confianza"
Introducción del valor S (sorpresa): Uso del valor de sorpresa binario (-log₂(p)) como medida de información, proporcionando una interpretación más intuitiva del valor p
Énfasis en la dependencia de supuestos: Exposición sistemática de la sensibilidad de resultados estadísticos a supuestos auxiliares e incertidumbre
Integración de múltiples metodologías: Promoción de métodos frecuentistas y bayesianos como perspectivas diferentes para síntesis de evidencia

Detalle de métodos

Marco teórico central

1. Redefinición de modelo

Definición tradicional: El modelo generalmente se refiere a una ecuación que expresa la relación funcional entre variables medidas y otras variables
Definición en este artículo: El modelo M es el conjunto completo de supuestos sobre el comportamiento del proceso generador de datos, incluyendo la hipótesis objetivo H y supuestos auxiliares A

2. Interpretación de compatibilidad del valor p

Definición tradicional del valor p:

p = Pr(T ≥ t | H, A)

donde T es el estadístico de diferencia, t es el valor observado, H es la hipótesis objetivo, y A son los supuestos auxiliares.

Reinterpretación: El valor p representa el grado de compatibilidad entre datos y modelo, con rango de 0 (completamente incompatible) a 1 (completamente compatible).

3. Valor S (valor de sorpresa)

S = -log₂(p)

El valor S se expresa en unidades de bits de información, proporcionando una interpretación más intuitiva:

S = 4.6 representa un grado de sorpresa equivalente a obtener cinco caras consecutivas al lanzar una moneda
S = 0 representa ausencia de información; valores S mayores indican mayor incompatibilidad

4. Intervalo de compatibilidad

Para un nivel de significancia α, el intervalo de compatibilidad contiene todos los valores de parámetros que satisfacen p > α, evitando la interpretación engañosa del concepto de "confianza".

Puntos de innovación técnica

Transformación semántica: Transición del lenguaje decisional al lenguaje descriptivo
Perspectiva de teoría de la información: Introducción de conceptos de teoría de la información para cuantificar evidencia estadística
Transparencia de supuestos: Distinción clara entre hipótesis objetivo y supuestos auxiliares
Integración de múltiples métodos: Consideración de diferentes escuelas estadísticas como perspectivas complementarias

Configuración experimental

Estudio de caso hipotético

El autor utiliza un conjunto de datos hipotético sobre la relación entre uso de cannabis y salud mental para demostración de métodos:

Estructura de datos:

Tamaño de muestra: 600 personas (480 no usuarios, 120 usuarios de cannabis)
Variable de resultado: Diagnóstico de enfermedad mental (dicotómica)
Asociación observada: Tasa de diagnóstico en usuarios 8.3%, en no usuarios 3.3%

Resultados de cálculo:

Diferencia de riesgo (RD) = 0.050 (5%)
Razón de riesgo (RR) = 2.5
Razón de probabilidades (OR) = 2.6
χ² de Pearson = 5.79
Valor p aproximado = 0.016, valor p exacto = 0.041

Indicadores de evaluación

Medida de compatibilidad: Valor p como indicador de compatibilidad entre datos e hipótesis
Contenido de información: Valor S cuantifica la cantidad de información de evidencia estadística
Estimación por intervalos: Intervalo de compatibilidad proporciona estimación de rango de parámetros
Comparación de hipótesis: Comparación de función de valor p para diferentes valores de hipótesis

Resultados experimentales

Hallazgos principales

1. Análisis de función de valor p

Valor p exacto para H₀: OR = 1 es 0.041 (S = 4.6 bits)
Valor p exacto para H₁: OR = 2 es 0.644 (S = 0.6 bits)
Intervalo de compatibilidad del 95%: 1.04, 6.36

2. Comparación de interpretaciones

Interpretación tradicional: OR = 1 es "rechazado" al nivel α = 0.05, resultado es "estadísticamente significativo" Interpretación del nuevo marco:

OR = 1 tiene compatibilidad relativamente baja con datos (p = 0.041)
OR = 2 tiene alta compatibilidad con datos (p = 0.644)
OR = 6 es más compatible con datos que OR = 1 (p = 0.070 > 0.041)

3. Comparación de métodos

Método	Valor p	Valor S	Interpretación
χ² de Pearson	0.016	5.97	Método aproximado
Exacto de Fisher	0.041	4.61	Método exacto
Aproximación de Wald	Desviación grande	-	Impreciso con datos escasos

Análisis de caso

A través del caso de uso de cannabis, el autor demuestra:

Dependencia de supuestos: Los resultados dependen fuertemente de supuestos auxiliares (como muestreo aleatorio, ausencia de interferencia, etc.)
Factores de confusión: Edad, antecedentes médicos, uso de otros medicamentos, etc., pueden confundir la asociación verdadera
Error de medición: Impacto de la precisión de autorreporte de uso y precisión diagnóstica
Sesgo de selección: La selectividad en participación en encuestas puede afectar la generalización de resultados

Trabajo relacionado

Desarrollo histórico

Origen del valor p: Se remonta a principios del siglo XVIII; Pearson (1900) y Fisher (1934) sentaron las bases teóricas
Concepto de significancia: El concepto de "significancia estadística" apareció en la década de 1880
Historial de controversia: Crítica temprana de Boring (1919), señalamiento de malinterpretaciones por Pearson (1906)

Crítica contemporánea

El autor cita abundante literatura reciente que respalda la reforma estadística:

Amrhein et al. (2019): Llamado a "jubilar" la significancia estadística
McShane et al. (2019, 2024): Promoción de ir más allá de decisiones binarias
Wasserstein et al. (2019): Declaración de posición de la ASA sobre valores p

Metodologías relacionadas

Métodos bayesianos: Proporcionan declaraciones de probabilidad de parámetros, pero dependen de distribuciones previas
Inferencia causal: Marco moderno de inferencia causal de Pearl, Hernán & Robins
Comparaciones múltiples: Ajuste de Bonferroni y métodos alternativos
Estadística robusta: Métodos computacionalmente intensivos como Bootstrap

Conclusiones y discusión

Conclusiones principales

Limitaciones de métodos estadísticos: Los métodos tradicionales se basan en supuestos estrictos que frecuentemente se violan en aplicaciones reales
Importancia del lenguaje: Términos como "significancia" e "intervalo de confianza" causan malinterpretaciones sistemáticas
Cautela en inferencia: Los resultados estadísticos deben considerarse como conjeturas basadas en supuestos, no conclusiones determinísticas
Integración de métodos: Diferentes métodos estadísticos deben utilizarse como herramientas complementarias

Recomendaciones prácticas

Mejora en reportes:
- Proporcionar función de valor p en lugar de un único valor p
- Usar intervalos de compatibilidad en lugar de intervalos de confianza
- Enumerar explícitamente supuestos clave
Marco de interpretación:
- Evitar lenguaje binario de "aceptación/rechazo"
- Enfatizar la dependencia de resultados de supuestos
- Considerar significancia práctica además de significancia estadística
Selección de métodos:
- Usar métodos exactos en lugar de aproximaciones para muestras grandes
- Realizar análisis de sensibilidad
- Integrar múltiples fuentes de evidencia

Limitaciones

Curva de aprendizaje: El nuevo marco requiere reforma fundamental de la educación estadística
Complejidad computacional: Algunos métodos recomendados son computacionalmente más complejos
Resistencia editorial: Las prácticas de publicación existentes pueden obstaculizar la adopción
Desafíos de comunicación: Es más difícil explicar a profesionales no estadísticos

Direcciones futuras

Reforma educativa: La enseñanza de estadística necesita reforma desde conceptos fundamentales
Desarrollo de software: Se necesita software estadístico que apoye el nuevo marco interpretativo
Establecimiento de estándares: Actualización de estándares de revistas académicas y organismos reguladores
Colaboración interdisciplinaria: Promoción de colaboración entre estadísticos y expertos de dominio

Evaluación profunda

Ventajas

Profundidad teórica: Proporciona reflexión filosófica profunda sobre inferencia estadística
Fortaleza práctica: Ofrece recomendaciones específicas de métodos e interpretación
Evidencia suficiente: Cita abundante literatura que respalda los puntos de vista
Claridad de escritura: Explica conceptos complejos de manera clara con ejemplos vívidos

Innovación técnica

Introducción del valor S: Innovación en interpretación de valor p desde perspectiva de teoría de la información
Marco de compatibilidad: Reforma sistemática de terminología y conceptos
Integración de múltiples métodos: Unificación de perspectivas de diferentes escuelas estadísticas
Estratificación de supuestos: Distinción clara entre hipótesis objetivo y supuestos auxiliares

Deficiencias

Desafíos de implementación: La reforma de la práctica estadística existente enfrenta resistencia considerable
Carga computacional: Algunos métodos recomendados aumentan la complejidad computacional
Dificultades de transición: La coexistencia de marcos antiguo y nuevo puede causar confusión
Dificultad de difusión: Requiere inversión significativa en educación y capacitación

Evaluación de impacto

Impacto académico

Cambio de paradigma: Potencial para impulsar cambio fundamental en conceptos básicos de estadística
Impacto interdisciplinario: Afectaría todas las disciplinas que utilizan métodos estadísticos
Innovación educativa: Impulsaría reforma fundamental de la educación estadística

Valor práctico

Reducción de malinterpretaciones: Ayuda a reducir malinterpretaciones de resultados estadísticos
Mejora de calidad: Promueve inferencia científica más cautelosa y precisa
Mejora de políticas: Mejora la calidad de decisiones basadas en evidencia estadística

Escenarios de aplicación

Investigación científica: Todos los campos de investigación basados en inferencia estadística
Investigación médica: Ensayos clínicos e investigación epidemiológica
Ciencias sociales: Investigación empírica en psicología, economía, etc.
Decisiones regulatorias: Aprobación de medicamentos, evaluación de políticas, etc.

Referencias bibliográficas

Este artículo cita abundante literatura importante, incluyendo:

Literatura clásica:

Pearson, K. (1900). Fundamentos teóricos tempranos de pruebas estadísticas
Fisher, R.A. (1934). Fundación de teoría moderna de inferencia estadística
Neyman, J. (1977). Teoría estadística frecuentista

Crítica moderna:

Amrhein, V., et al. (2019). Movimiento para jubilar significancia estadística
Wasserstein, R.L., et al. (2019). Declaración de la ASA sobre valores p
McShane, B.B., et al. (2019, 2024). Más allá de decisiones estadísticas binarias

Desarrollo metodológico:

Pearl, J. (2009). Teoría de inferencia causal
Hernán, M.A., Robins, J.M. (2025). Métodos epidemiológicos modernos
Gelman, A., et al. (2013). Análisis de datos bayesianos

Resumen: Este es un artículo de metodología estadística con importante significado teórico y práctico. El autor, con profunda experiencia en estadística y aplicaciones abundantes, critica sistemáticamente los problemas del marco tradicional de inferencia estadística y propone una alternativa más cautelosa y realista. Aunque su implementación enfrenta desafíos, sus ideas tienen valor importante para mejorar la calidad de la investigación científica.