Robert Cousins has posted a comment on my manuscript on ``Confidence intervals for the Poisson distribution''. His key point is that one should not include in the likelihood non-physical parameter values, even for frequency statistics. This is my response, in which I contend that it can be useful to do so when discussing such descriptive statistics.
- 论文ID: 2510.25162
- 标题: Response to Comment from Robert Cousins on Confidence intervals for the Poisson distribution
- 作者: Frank C. Porter (California Institute of Technology)
- 分类: physics.data-an (物理数据分析)
- 发表时间: 2025年11月3日 (v2版本)
- 论文链接: https://arxiv.org/abs/2510.25162
这是一篇针对Robert Cousins评论的回应文章。核心争议在于:在频率统计框架下,似然函数是否应该包含非物理参数值(如负信号强度)。Cousins认为不应该包含,而Porter主张在讨论描述性统计时,这样做是有用的。
在泊松分布的置信区间构建中,当观测值n小于已知背景b时,信号强度参数θ = n - b会出现负值。这引发了一个根本性问题:在频率统计框架下,似然函数是否应该在物理上不可能的参数区域(θ < 0)中定义?
- 理论层面:涉及频率统计与贝叶斯统计的本质区别,关系到统计推断的基础理论
- 实践层面:在高能物理实验中,背景涨落导致的负信号估计值经常出现,如何正确报告这类测量结果是实际问题
- 方法论层面:影响充分统计量的定义和最大似然估计的应用
- Cousins观点:似然函数应该在非物理区域视为未定义,因为物理模型在该区域不存在
- Porter观点:在描述测量结果时,允许似然函数延伸到非物理区域是有用的,这不违背物理约束
传统统计教材对此问题大多保持沉默,缺乏明确的指导原则。这导致实践中的混淆,甚至有人因此误认为频率统计方法是"错误的"。
- 明确了频率统计的描述性本质:强调频率统计提供的是对测量的描述,而非对参数的信念陈述
- 论证了在非物理区域定义似然函数的合理性:通过充分统计量的概念证明θ̂ = n - b比max(n - b, 0)包含更多信息
- 澄清了描述性统计与推断性统计的关系:描述性统计可以为推断提供信息,但本身不构成度-of-belief陈述
- 提供了实用的方法论指导:支持在实验中报告负的信号估计值(如θ̂ = -2 ± 1)
考虑从泊松分布采样随机变量N = 0, 1, 2, ...,其均值μ等于信号强度θ ≥ 0与已知背景b (≥ 0)之和:
f(n;θ,b)=n!μne−μ=n!(θ+b)ne−θ−b
其中n是N的可能取值。
Porter定义的似然函数为:
L(θ;n)=n!μne−μ=n!(θ+b)ne−θ−b
关键点:这个函数在数学上对任意μ ≥ 0都有定义,即使θ = μ - b < 0。
Porter的核心论证基于充分统计量的概念:
- N - b是θ的充分统计量:包含了数据中关于θ的所有信息
- max(N - b, 0)不是充分统计量:当强制估计值为非负时,丢失了信息
- 因此:θ̂ = n - b作为描述性统计量比截断版本更具信息性
Porter坚持的立场是:
- 频率统计结果是描述性的:描述测量本身,而非参数的真实值
- 不应被解释为度-of-belief陈述:概率陈述仅指长期频率性质
- 可为推断提供信息:观察到θ̂ = -2时,可以推断(以度-of-belief意义)θ"可能"很小
在贝叶斯框架下,没有争议:
- 先验分布自然地将参数限制在物理区域
- 非物理区域的信念为零
- 物理约束通过先验而非似然函数实现
区分"采样分布"与"似然函数的定义域":
- 采样分布始终假设θ ≥ 0(物理约束)
- 似然函数作为数学对象可以在更大范围定义
- 这种区分允许在不违背物理模型的前提下使用全部数学工具
Porter提出,如果统计权威禁止在非物理区域定义"似然",可以称之为"descriptionhood"(描述度)和"maximum descriptionhood"(最大描述度),强调其作为描述工具的本质。
这种方法在不同分布中保持一致:
- 泊松分布:θ̂ = n - b可以为负
- 正态分布:类似考虑在参考文献4中讨论
- 保持了统计方法的普遍性和一致性
Porter引用Kendall等人的经典著作(Volume 2A, sections 26.58-26.78),特别是第26.69节的陈述:
"频率方法未能提供关于假设可信度的陈述几乎是公理性的,因为频率主义者不愿接受任何没有频率解释的概率概念。"
这里的"概率₁"指度-of-belief概率。
Porter指出,将频率统计误解为推断性陈述导致了大量混淆:
典型案例:2015年,心理学期刊Basic and Applied Social Psychology的编辑声称p值"无效"并禁止使用,这正是混淆频率统计性质的后果。
虽然Porter强调频率统计是描述性的,但承认:
- 当测量得到θ̂ = n - b时,合理推断θ"更可能"接近θ̂
- 这种推断已进入度-of-belief领域
- 观察到负的θ̂时,推断θ"可能"很小(但不为负)
虽然文中没有具体实验结果,但背景来自高能物理:
- 寻找稀有信号(如新粒子)
- 已知背景事例数b
- 观测总事例数n
- 需要估计信号强度θ
当背景涨落导致n < b时:
- 传统做法可能:报告θ̂ = 0或不报告
- Porter主张:报告θ̂ = n - b(负值),配合置信区间
- 优势:保留了充分统计量的全部信息
Porter认为完全可以报告:
"测量结果为θ̂ = -2 ± 1,尽管已知θ > 0"
这样的报告:
- 完整描述了测量
- 允许读者推断θ可能接近零
- 不声称θ实际为负
- Shao (2003):Mathematical Statistics教材中有支持Cousins观点的例子,但出现在贝叶斯内容较多的章节,未详细阐述上下文
- Kendall等 (1999):Kendall's Advanced Theory of Statistics认识到各种估计方法的问题和争议,其观点与Porter的立场一致
- Narsky & Porter (2014):在正态分布情况下讨论了类似问题
- 频率统计与贝叶斯统计的哲学争论有长期历史
- 关于似然函数定义域的问题,统计教材往往回避
- 实践中的混淆导致对统计方法的误解和误用
- 在频率统计框架下,允许似然函数在非物理参数区域定义是有用且合理的
- 这不违背物理模型:采样分布始终假设物理约束
- 充分统计量的考虑支持这种做法:N - b比max(N - b, 0)包含更多信息
- 频率统计应被视为描述性的:提供测量描述而非参数信念
- 承认自己的立场可能比历史先例更极端
- 但认为这种立场有助于保持概念清晰
- 在贝叶斯框架下没有分歧,争议仅限于频率统计的解释
这种方法论:
- 允许更完整地报告实验结果
- 避免信息损失
- 保持统计方法的一致性
- 有助于后续的贝叶斯分析或meta分析
文中未明确提出,但隐含的方向包括:
- 进一步澄清频率统计与贝叶斯统计的关系
- 在实验物理中推广合理的统计报告实践
- 教育统计用户避免常见误解
- 概念清晰:
- 明确区分描述性统计与推断性统计
- 清楚界定频率统计的性质和局限
- 充分统计量的论证有说服力
- 实用导向:
- 针对实际实验中的真实问题
- 提供可操作的方法论指导
- 避免信息损失
- 理论基础扎实:
- 引用经典统计文献支持观点
- 充分统计量的数学论证严谨
- 与贝叶斯方法的对比恰当
- 写作清晰:
- 可能的哲学争议:
- 关于似然函数"应该"如何定义的问题本质上有哲学成分
- 不同统计学派可能有不可调和的分歧
- Porter承认可能无法达成一致
- 实践中的潜在混淆:
- 允许负值估计可能被非专业人员误解
- 需要额外的解释和教育
- 在某些应用领域可能引起困惑
- 经验证据有限:
- 主要是概念性和理论性论证
- 缺少实际数据分析的案例
- 未展示在具体实验中的应用效果
- 对Cousins观点的讨论不够深入:
- 主要陈述自己的立场
- 对反对意见的具体论证回应较少
- 可能未充分理解对方的深层关切
积极方面:
- 为高能物理和相关领域的统计实践提供理论支持
- 有助于澄清频率统计的性质
- 可能影响实验结果的报告规范
局限性:
- 可能仅在特定领域(如粒子物理)产生直接影响
- 统计学界可能继续存在分歧
- 需要配合教育和推广才能改变实践
- 这是理论/方法论文章,不涉及实验可复现性
- 概念和论证清晰,易于理解和应用
- 数学推导简单直接
最适合的场景:
- 高能物理实验:信号搜索、背景估计
- 低计数率实验:泊松统计占主导
- 需要报告充分统计量的场合:完整信息传递重要
不太适合的场景:
- 面向公众的科学传播:负信号强度可能引起误解
- 监管决策环境:可能需要更保守的报告方式
- 不熟悉统计的受众:需要额外解释
Porter的核心贡献在于:
- 明确了频率统计中"描述"与"推断"的界限
- 为在非物理区域定义似然函数提供了充分统计量的理论支持
- 提供了实用的报告指南:允许报告负的参数估计值
- 澄清了与贝叶斯方法的关系:在后者框架下无争议
这是一篇重要的方法论文章,虽然不会终结争议,但为统计实践提供了有价值的视角。
1 Robert D. Cousins. Comment on Frank Porter, "Confidence intervals for the Poisson distribution", 2025. arXiv:2509.17339
2 Frank C. Porter. Confidence intervals for the Poisson distribution, 2025. arXiv:2509.02852
3 Jun Shao. Mathematical Statistics, 2nd edition. Springer-Verlag, 2003
4 I. Narsky and F. C. Porter. Statistical analysis techniques in particle physics, 2014
5 Alan Stuart et al. Kendall's Advanced Theory of Statistics, Volume 2A, 1999
6 David Trafimow and Michael Marks. Editorial. Basic and Applied Social Psychology, 37(1):1–2, 2015
总体评价:这是一篇概念清晰、论证有力的方法论文章,针对统计实践中的实际问题提供了有价值的视角。虽然可能无法说服所有人,但其基于充分统计量的论证和对频率统计性质的清晰阐述,为实验物理学家提供了重要的指导。文章的主要价值在于澄清概念和提供实用方法论,而非解决一个有确定答案的技术问题。