2025-11-14T03:28:11.408670

Statistical methods: Basic concepts, interpretations, and cautions

Greenland
The study of associations and their causal explanations is a central research activity whose methodology varies tremendously across fields. Even within specialized subfields, comparisons across textbooks and journals reveals that the basics are subject to considerable variation and controversy. This variation is often obscured by the singular viewpoints presented within textbooks and journal guidelines, which may be deceptively written as if the norms they adopt are unchallenged. Furthermore, human limitations and the vastness within fields imply that no one can have expertise across all subfields and that interpretations will be severely constrained by the limitations of studies of human populations. The present chapter outlines an approach to statistical methods that attempts to recognize these problems from the start, rather than assume they are absent as in the claims of 'statistical significance' and 'confidence' ordinarily attached to statistical tests and interval estimates. It does so by grounding models and statistics in data description, and treating inferences from them as speculations based on assumptions that cannot be fully validated or checked using the analysis data.
academic

Métodos estadísticos: Conceptos básicos, interpretaciones y precauciones

Información Básica

  • ID del artículo: 2508.10168
  • Título: Statistical methods: Basic concepts, interpretations, and cautions
  • Autor: Sander Greenland (Profesor Emérito de Epidemiología y Estadística, UCLA)
  • Clasificación: stat.ME math.ST stat.TH
  • Fecha de publicación: 25 de agosto de 2025
  • Naturaleza del artículo: Capítulo de la tercera edición del Manual de Epidemiología
  • Enlace del artículo: https://arxiv.org/abs/2508.10168

Resumen

Este artículo aborda los problemas de aplicación de métodos estadísticos en estudios de asociación e interpretación causal, señalando que existen enormes diferencias metodológicas entre disciplinas, e incluso variaciones y controversias considerables dentro de subdisciplinas especializadas. Los métodos estadísticos tradicionales asumen condiciones ideales (como muestreo puramente aleatorio, experimentos completamente aleatorizados), pero en investigaciones poblacionales reales estos supuestos frecuentemente no se cumplen. El autor propone un nuevo marco interpretativo para métodos estadísticos, considerando la inferencia estadística como conjetura basada en supuestos que no pueden verificarse completamente, en lugar de conclusiones determinísticas, evitando así el mal uso de conceptos como "significancia estadística" e "intervalo de confianza".

Antecedentes de investigación y motivación

Contexto del problema

  1. Divergencias metodológicas graves: Existen diferencias significativas y controversias entre disciplinas, libros de texto y revistas respecto a conceptos estadísticos fundamentales
  2. Idealización de condiciones de supuestos: Los métodos estadísticos tradicionales asumen condiciones ideales de muestreo aleatorio o asignación aleatoria, pero en investigaciones reales estas condiciones son difíciles de satisfacer
  3. Malinterpretaciones generalizadas: Encuestas muestran que la mayoría de usuarios no pueden definir o interpretar correctamente valores p, pruebas de significancia e intervalos de confianza
  4. Problema de exceso de confianza: Los resultados estadísticos frecuentemente se malinterpretan como respuestas determinísticas, en lugar de conjeturas basadas en supuestos

Motivación de la investigación

  • Proporcionar un marco interpretativo de métodos estadísticos más realista y cauteloso
  • Reducir el exceso de confianza y malinterpretaciones en la inferencia estadística
  • Reposicionar los métodos estadísticos como herramientas de descripción de datos, no como árbitros autoritarios de la inferencia científica
  • Enfatizar la importancia de la verificación de supuestos y la evaluación de incertidumbre

Contribuciones principales

  1. Redefinición de la inferencia estadística: Reinterpretación del valor p como medida de compatibilidad entre datos y modelo de supuestos, no como probabilidad del supuesto
  2. Introducción del concepto de intervalo de compatibilidad: Sustitución del término "intervalo de confianza" por "intervalo de compatibilidad" para evitar el concepto engañoso de "confianza"
  3. Introducción del valor S (sorpresa): Uso del valor de sorpresa binario (-log₂(p)) como medida de información, proporcionando una interpretación más intuitiva del valor p
  4. Énfasis en la dependencia de supuestos: Exposición sistemática de la sensibilidad de resultados estadísticos a supuestos auxiliares e incertidumbre
  5. Integración de múltiples metodologías: Promoción de métodos frecuentistas y bayesianos como perspectivas diferentes para síntesis de evidencia

Detalle de métodos

Marco teórico central

1. Redefinición de modelo

  • Definición tradicional: El modelo generalmente se refiere a una ecuación que expresa la relación funcional entre variables medidas y otras variables
  • Definición en este artículo: El modelo M es el conjunto completo de supuestos sobre el comportamiento del proceso generador de datos, incluyendo la hipótesis objetivo H y supuestos auxiliares A

2. Interpretación de compatibilidad del valor p

Definición tradicional del valor p:

p = Pr(T ≥ t | H, A)

donde T es el estadístico de diferencia, t es el valor observado, H es la hipótesis objetivo, y A son los supuestos auxiliares.

Reinterpretación: El valor p representa el grado de compatibilidad entre datos y modelo, con rango de 0 (completamente incompatible) a 1 (completamente compatible).

3. Valor S (valor de sorpresa)

S = -log₂(p)

El valor S se expresa en unidades de bits de información, proporcionando una interpretación más intuitiva:

  • S = 4.6 representa un grado de sorpresa equivalente a obtener cinco caras consecutivas al lanzar una moneda
  • S = 0 representa ausencia de información; valores S mayores indican mayor incompatibilidad

4. Intervalo de compatibilidad

Para un nivel de significancia α, el intervalo de compatibilidad contiene todos los valores de parámetros que satisfacen p > α, evitando la interpretación engañosa del concepto de "confianza".

Puntos de innovación técnica

  1. Transformación semántica: Transición del lenguaje decisional al lenguaje descriptivo
  2. Perspectiva de teoría de la información: Introducción de conceptos de teoría de la información para cuantificar evidencia estadística
  3. Transparencia de supuestos: Distinción clara entre hipótesis objetivo y supuestos auxiliares
  4. Integración de múltiples métodos: Consideración de diferentes escuelas estadísticas como perspectivas complementarias

Configuración experimental

Estudio de caso hipotético

El autor utiliza un conjunto de datos hipotético sobre la relación entre uso de cannabis y salud mental para demostración de métodos:

Estructura de datos:

  • Tamaño de muestra: 600 personas (480 no usuarios, 120 usuarios de cannabis)
  • Variable de resultado: Diagnóstico de enfermedad mental (dicotómica)
  • Asociación observada: Tasa de diagnóstico en usuarios 8.3%, en no usuarios 3.3%

Resultados de cálculo:

  • Diferencia de riesgo (RD) = 0.050 (5%)
  • Razón de riesgo (RR) = 2.5
  • Razón de probabilidades (OR) = 2.6
  • χ² de Pearson = 5.79
  • Valor p aproximado = 0.016, valor p exacto = 0.041

Indicadores de evaluación

  1. Medida de compatibilidad: Valor p como indicador de compatibilidad entre datos e hipótesis
  2. Contenido de información: Valor S cuantifica la cantidad de información de evidencia estadística
  3. Estimación por intervalos: Intervalo de compatibilidad proporciona estimación de rango de parámetros
  4. Comparación de hipótesis: Comparación de función de valor p para diferentes valores de hipótesis

Resultados experimentales

Hallazgos principales

1. Análisis de función de valor p

  • Valor p exacto para H₀: OR = 1 es 0.041 (S = 4.6 bits)
  • Valor p exacto para H₁: OR = 2 es 0.644 (S = 0.6 bits)
  • Intervalo de compatibilidad del 95%: 1.04, 6.36

2. Comparación de interpretaciones

Interpretación tradicional: OR = 1 es "rechazado" al nivel α = 0.05, resultado es "estadísticamente significativo" Interpretación del nuevo marco:

  • OR = 1 tiene compatibilidad relativamente baja con datos (p = 0.041)
  • OR = 2 tiene alta compatibilidad con datos (p = 0.644)
  • OR = 6 es más compatible con datos que OR = 1 (p = 0.070 > 0.041)

3. Comparación de métodos

MétodoValor pValor SInterpretación
χ² de Pearson0.0165.97Método aproximado
Exacto de Fisher0.0414.61Método exacto
Aproximación de WaldDesviación grande-Impreciso con datos escasos

Análisis de caso

A través del caso de uso de cannabis, el autor demuestra:

  1. Dependencia de supuestos: Los resultados dependen fuertemente de supuestos auxiliares (como muestreo aleatorio, ausencia de interferencia, etc.)
  2. Factores de confusión: Edad, antecedentes médicos, uso de otros medicamentos, etc., pueden confundir la asociación verdadera
  3. Error de medición: Impacto de la precisión de autorreporte de uso y precisión diagnóstica
  4. Sesgo de selección: La selectividad en participación en encuestas puede afectar la generalización de resultados

Trabajo relacionado

Desarrollo histórico

  • Origen del valor p: Se remonta a principios del siglo XVIII; Pearson (1900) y Fisher (1934) sentaron las bases teóricas
  • Concepto de significancia: El concepto de "significancia estadística" apareció en la década de 1880
  • Historial de controversia: Crítica temprana de Boring (1919), señalamiento de malinterpretaciones por Pearson (1906)

Crítica contemporánea

El autor cita abundante literatura reciente que respalda la reforma estadística:

  • Amrhein et al. (2019): Llamado a "jubilar" la significancia estadística
  • McShane et al. (2019, 2024): Promoción de ir más allá de decisiones binarias
  • Wasserstein et al. (2019): Declaración de posición de la ASA sobre valores p

Metodologías relacionadas

  1. Métodos bayesianos: Proporcionan declaraciones de probabilidad de parámetros, pero dependen de distribuciones previas
  2. Inferencia causal: Marco moderno de inferencia causal de Pearl, Hernán & Robins
  3. Comparaciones múltiples: Ajuste de Bonferroni y métodos alternativos
  4. Estadística robusta: Métodos computacionalmente intensivos como Bootstrap

Conclusiones y discusión

Conclusiones principales

  1. Limitaciones de métodos estadísticos: Los métodos tradicionales se basan en supuestos estrictos que frecuentemente se violan en aplicaciones reales
  2. Importancia del lenguaje: Términos como "significancia" e "intervalo de confianza" causan malinterpretaciones sistemáticas
  3. Cautela en inferencia: Los resultados estadísticos deben considerarse como conjeturas basadas en supuestos, no conclusiones determinísticas
  4. Integración de métodos: Diferentes métodos estadísticos deben utilizarse como herramientas complementarias

Recomendaciones prácticas

  1. Mejora en reportes:
    • Proporcionar función de valor p en lugar de un único valor p
    • Usar intervalos de compatibilidad en lugar de intervalos de confianza
    • Enumerar explícitamente supuestos clave
  2. Marco de interpretación:
    • Evitar lenguaje binario de "aceptación/rechazo"
    • Enfatizar la dependencia de resultados de supuestos
    • Considerar significancia práctica además de significancia estadística
  3. Selección de métodos:
    • Usar métodos exactos en lugar de aproximaciones para muestras grandes
    • Realizar análisis de sensibilidad
    • Integrar múltiples fuentes de evidencia

Limitaciones

  1. Curva de aprendizaje: El nuevo marco requiere reforma fundamental de la educación estadística
  2. Complejidad computacional: Algunos métodos recomendados son computacionalmente más complejos
  3. Resistencia editorial: Las prácticas de publicación existentes pueden obstaculizar la adopción
  4. Desafíos de comunicación: Es más difícil explicar a profesionales no estadísticos

Direcciones futuras

  1. Reforma educativa: La enseñanza de estadística necesita reforma desde conceptos fundamentales
  2. Desarrollo de software: Se necesita software estadístico que apoye el nuevo marco interpretativo
  3. Establecimiento de estándares: Actualización de estándares de revistas académicas y organismos reguladores
  4. Colaboración interdisciplinaria: Promoción de colaboración entre estadísticos y expertos de dominio

Evaluación profunda

Ventajas

  1. Profundidad teórica: Proporciona reflexión filosófica profunda sobre inferencia estadística
  2. Fortaleza práctica: Ofrece recomendaciones específicas de métodos e interpretación
  3. Evidencia suficiente: Cita abundante literatura que respalda los puntos de vista
  4. Claridad de escritura: Explica conceptos complejos de manera clara con ejemplos vívidos

Innovación técnica

  1. Introducción del valor S: Innovación en interpretación de valor p desde perspectiva de teoría de la información
  2. Marco de compatibilidad: Reforma sistemática de terminología y conceptos
  3. Integración de múltiples métodos: Unificación de perspectivas de diferentes escuelas estadísticas
  4. Estratificación de supuestos: Distinción clara entre hipótesis objetivo y supuestos auxiliares

Deficiencias

  1. Desafíos de implementación: La reforma de la práctica estadística existente enfrenta resistencia considerable
  2. Carga computacional: Algunos métodos recomendados aumentan la complejidad computacional
  3. Dificultades de transición: La coexistencia de marcos antiguo y nuevo puede causar confusión
  4. Dificultad de difusión: Requiere inversión significativa en educación y capacitación

Evaluación de impacto

Impacto académico

  • Cambio de paradigma: Potencial para impulsar cambio fundamental en conceptos básicos de estadística
  • Impacto interdisciplinario: Afectaría todas las disciplinas que utilizan métodos estadísticos
  • Innovación educativa: Impulsaría reforma fundamental de la educación estadística

Valor práctico

  • Reducción de malinterpretaciones: Ayuda a reducir malinterpretaciones de resultados estadísticos
  • Mejora de calidad: Promueve inferencia científica más cautelosa y precisa
  • Mejora de políticas: Mejora la calidad de decisiones basadas en evidencia estadística

Escenarios de aplicación

  1. Investigación científica: Todos los campos de investigación basados en inferencia estadística
  2. Investigación médica: Ensayos clínicos e investigación epidemiológica
  3. Ciencias sociales: Investigación empírica en psicología, economía, etc.
  4. Decisiones regulatorias: Aprobación de medicamentos, evaluación de políticas, etc.

Referencias bibliográficas

Este artículo cita abundante literatura importante, incluyendo:

Literatura clásica:

  • Pearson, K. (1900). Fundamentos teóricos tempranos de pruebas estadísticas
  • Fisher, R.A. (1934). Fundación de teoría moderna de inferencia estadística
  • Neyman, J. (1977). Teoría estadística frecuentista

Crítica moderna:

  • Amrhein, V., et al. (2019). Movimiento para jubilar significancia estadística
  • Wasserstein, R.L., et al. (2019). Declaración de la ASA sobre valores p
  • McShane, B.B., et al. (2019, 2024). Más allá de decisiones estadísticas binarias

Desarrollo metodológico:

  • Pearl, J. (2009). Teoría de inferencia causal
  • Hernán, M.A., Robins, J.M. (2025). Métodos epidemiológicos modernos
  • Gelman, A., et al. (2013). Análisis de datos bayesianos

Resumen: Este es un artículo de metodología estadística con importante significado teórico y práctico. El autor, con profunda experiencia en estadística y aplicaciones abundantes, critica sistemáticamente los problemas del marco tradicional de inferencia estadística y propone una alternativa más cautelosa y realista. Aunque su implementación enfrenta desafíos, sus ideas tienen valor importante para mejorar la calidad de la investigación científica.