2025-11-14T03:28:11.408670

Statistical methods: Basic concepts, interpretations, and cautions

Greenland

The study of associations and their causal explanations is a central research activity whose methodology varies tremendously across fields. Even within specialized subfields, comparisons across textbooks and journals reveals that the basics are subject to considerable variation and controversy. This variation is often obscured by the singular viewpoints presented within textbooks and journal guidelines, which may be deceptively written as if the norms they adopt are unchallenged. Furthermore, human limitations and the vastness within fields imply that no one can have expertise across all subfields and that interpretations will be severely constrained by the limitations of studies of human populations. The present chapter outlines an approach to statistical methods that attempts to recognize these problems from the start, rather than assume they are absent as in the claims of 'statistical significance' and 'confidence' ordinarily attached to statistical tests and interval estimates. It does so by grounding models and statistics in data description, and treating inferences from them as speculations based on assumptions that cannot be fully validated or checked using the analysis data.

academic

Statistical methods: Basic concepts, interpretations, and cautions

基本信息

论文ID: 2508.10168
标题: Statistical methods: Basic concepts, interpretations, and cautions
作者: Sander Greenland (UCLA流行病学与统计学系荣誉教授)
分类: stat.ME math.ST stat.TH
发表时间: 2025年8月25日
论文性质: 《流行病学手册》第三版章节
论文链接: https://arxiv.org/abs/2508.10168

摘要

本文针对统计方法在关联性研究和因果解释中的应用问题，指出不同领域间方法论存在巨大差异，即使在专业子领域内也存在相当大的变化和争议。传统统计方法假设理想条件（如纯随机抽样、完全随机化实验），但在实际人群研究中这些假设往往无法满足。作者提出了一种新的统计方法解释框架，将统计推断视为基于无法完全验证假设的推测，而非确定性结论，从而避免"统计显著性"和"置信"概念的误用。

研究背景与动机

问题背景

方法论分歧严重：不同领域、教科书和期刊对统计基础概念存在显著差异和争议
假设条件理想化：传统统计方法假设理想的随机抽样或随机分配条件，但实际研究中这些条件很难满足
误解普遍存在：调查显示大多数用户无法正确定义或解释P值、显著性检验和置信区间
过度自信问题：统计结果常被误解为确定性答案，而非基于假设的推测

研究动机

提供更现实和谨慎的统计方法解释框架
减少统计推断中的过度自信和误解
将统计方法重新定位为数据描述工具，而非科学推断的权威裁判
强调假设验证和不确定性评估的重要性

核心贡献

重新定义统计推断：将P值重新解释为数据与假设模型的兼容性度量，而非假设的概率
提出兼容性区间概念：用"兼容性区间"(compatibility interval)替代"置信区间"，避免误导性的"置信"概念
引入S值(surprisal)：使用二进制惊奇值(-log₂(p))作为信息度量，提供更直观的P值解释
强调假设依赖性：系统阐述统计结果对辅助假设的敏感性和不确定性
整合多种方法论：提倡将频率派和贝叶斯方法作为不同视角进行证据综合

方法详解

核心理论框架

1. 模型重新定义

传统定义：模型通常指一个方程，表示测量变量与其他变量的函数关系
本文定义：模型M是关于数据生成过程行为的全套假设，包括目标假设H和辅助假设A

2. P值的兼容性解释

传统P值定义：

p = Pr(T ≥ t | H, A)

其中T是差异统计量，t是观察值，H是目标假设，A是辅助假设。

重新解释：P值表示数据与模型的兼容性程度，范围从0（完全不兼容）到1（完全兼容）。

3. S值（惊奇值）

S = -log₂(p)

S值以信息位(bits)为单位，提供更直观的解释：

S = 4.6表示相当于在5次抛硬币中全部为正面的惊奇程度
S = 0表示无信息，S值越大表示越不兼容

4. 兼容性区间

对于显著性水平α，兼容性区间包含所有满足p > α的参数值，避免了"置信"概念的误导。

技术创新点

语义转换：从决策性语言转向描述性语言
信息论视角：引入信息论概念量化统计证据
假设透明化：明确区分目标假设和辅助假设
多方法整合：将不同统计学派视为互补视角

实验设置

假想案例研究

作者使用大麻使用与精神健康关系的假想数据集进行方法演示：

数据结构：

样本量：600人（480人未使用，120人使用大麻）
结果变量：精神疾病诊断（二分类）
观察到的关联：使用者诊断率8.3%，非使用者3.3%

计算结果：

风险差异(RD) = 0.050 (5%)
风险比(RR) = 2.5
比值比(OR) = 2.6
Pearson χ² = 5.79
近似P值 = 0.016，精确P值 = 0.041

评价指标

兼容性度量：P值作为数据与假设的兼容性指标
信息含量：S值量化统计证据的信息量
区间估计：兼容性区间提供参数范围估计
假设比较：不同假设值的P值函数比较

实验结果

主要发现

1. P值函数分析

H₀: OR = 1的精确P值 = 0.041 (S = 4.6 bits)
H₁: OR = 2的精确P值 = 0.644 (S = 0.6 bits)
95%兼容性区间：1.04, 6.36

2. 解释对比

传统解释：OR = 1在α = 0.05水平下被"拒绝"，结果"统计显著" 新框架解释：

OR = 1与数据的兼容性较低（p = 0.041）
OR = 2与数据高度兼容（p = 0.644）
OR = 6比OR = 1更兼容数据（p = 0.070 > 0.041）

3. 方法比较

方法	P值	S值	解释
Pearson χ²	0.016	5.97	近似方法
Fisher精确	0.041	4.61	精确方法
Wald近似	偏差较大	-	稀疏数据下不准确

案例分析

通过大麻使用案例，作者展示了：

假设依赖性：结果严重依赖于辅助假设（如随机抽样、无干扰等）
混淆因素：年龄、既往病史、其他药物使用等可能混淆真实关联
测量误差：自报使用情况和诊断准确性的影响
选择偏倚：参与调查的选择性可能影响结果推广

相关工作

历史发展

P值起源：可追溯到18世纪早期，Pearson (1900)和Fisher (1934)奠定理论基础
显著性概念：1880年代出现"统计显著"概念
争议历史：Boring (1919)早期批评，Pearson (1906)指出误解问题

当代批评

作者引用大量近期文献支持统计改革：

Amrhein et al. (2019): 呼吁"退休"统计显著性
McShane et al. (2019, 2024): 倡导超越二分决策
Wasserstein et al. (2019): ASA关于P值的立场声明

相关方法论

贝叶斯方法：提供参数概率陈述，但依赖先验分布
因果推断：Pearl, Hernán & Robins等的现代因果推断框架
多重比较：Bonferroni调整及其替代方法
稳健统计：Bootstrap等计算密集方法

结论与讨论

主要结论

统计方法局限性：传统方法基于严格假设，实际应用中常被违反
语言重要性："显著性"和"置信"等术语造成系统性误解
推断谨慎性：统计结果应视为基于假设的推测，而非确定性结论
方法整合：不同统计方法应作为互补工具使用

实践建议

报告改进：
- 提供P值函数而非单一P值
- 使用兼容性区间替代置信区间
- 明确列出关键假设
解释框架：
- 避免"接受/拒绝"二分语言
- 强调结果的假设依赖性
- 考虑实践显著性而非仅统计显著性
方法选择：
- 使用精确方法而非大样本近似
- 进行敏感性分析
- 整合多种证据来源

局限性

学习曲线：新框架需要统计教育的根本改革
计算复杂性：某些建议方法计算更复杂
期刊阻力：现有出版惯例可能阻碍采纳
沟通挑战：向非统计专业人员解释更困难

未来方向

教育改革：统计教学需要从基础概念开始改革
软件开发：需要支持新解释框架的统计软件
标准制定：学术期刊和监管机构标准更新
跨学科合作：促进统计学家与领域专家的合作

深度评价

优点

理论深度：提供了统计推断的深刻哲学反思
实用性强：给出具体的方法和解释建议
证据充分：引用大量文献支持观点
写作清晰：复杂概念解释清楚，例子生动

技术创新

S值引入：信息论视角的P值解释创新
兼容性框架：系统性的术语和概念改革
多方法整合：统一不同统计学派的视角
假设分层：明确区分目标假设和辅助假设

不足之处

实施挑战：改革现有统计实践面临巨大阻力
计算负担：某些建议方法增加计算复杂性
过渡困难：新旧框架并存可能造成混乱
普及难度：需要大规模的教育和培训投入

影响力评估

学术影响

范式转换：可能推动统计学基础概念的重大变革
跨学科影响：影响所有使用统计方法的学科
教育革新：推动统计教育的根本改革

实践价值

减少误解：有助于减少统计结果的误读
提高质量：促进更谨慎和准确的科学推断
政策制定：改善基于统计证据的决策质量

适用场景

科学研究：所有基于统计推断的研究领域
医学研究：临床试验和流行病学研究
社会科学：心理学、经济学等经验研究
监管决策：药物审批、政策评估等

参考文献

本文引用了大量重要参考文献，包括：

经典文献：

Pearson, K. (1900). 统计检验的早期理论基础
Fisher, R.A. (1934). 现代统计推断理论奠基
Neyman, J. (1977). 频率派统计理论

现代批评：

Amrhein, V., et al. (2019). 统计显著性退休运动
Wasserstein, R.L., et al. (2019). ASA关于P值的声明
McShane, B.B., et al. (2019, 2024). 超越二分统计决策

方法论发展：

Pearl, J. (2009). 因果推断理论
Hernán, M.A., Robins, J.M. (2025). 现代流行病学方法
Gelman, A., et al. (2013). 贝叶斯数据分析

总结：这是一篇具有重要理论和实践意义的统计方法论文章，作者以其深厚的统计学造诣和丰富的应用经验，系统性地批判了传统统计推断框架的问题，并提出了更加谨慎和现实的替代方案。虽然实施面临挑战，但其理念对于提高科学研究质量具有重要价值。