2025-11-28T22:22:19.391257

Criterion for the resemblance between the mother and the model distribution

Sheena
If the probability distribution model aims to approximate the hidden mother distribution, it is imperative to establish a useful criterion for the resemblance between the mother and the model distributions. This study proposes a criterion that measures the Hellinger distance between discretized (quantized) samples from both distributions. Unlike information criteria such as AIC, this criterion does not require the probability density function of the model distribution, which cannot be explicitly obtained for a complicated model such as a deep learning machine. Second, it can draw a positive conclusion (i.e., both distributions are sufficiently close) under a given threshold, whereas a statistical hypothesis test, such as the Kolmogorov-Smirnov test, cannot genuinely lead to a positive conclusion when the hypothesis is accepted. In this study, we establish a reasonable threshold for the criterion deduced from the Bayes error rate and also present the asymptotic bias of the estimator of the criterion. From these results, a reasonable and easy-to-use criterion is established that can be directly calculated from the two sets of samples from both distributions.
academic

Criterion for the resemblance between the mother and the model distribution

基本信息

  • 论文ID: 2212.03397
  • 标题: Criterion for the resemblance between the mother and the model distribution
  • 作者: Yo Sheena (Faculty of Data Science, Shiga University, Japan; Visiting Professor of the Institute of Statistical Mathematics, Japan)
  • 分类: math.ST stat.TH
  • 发表时间: November 13, 2025 (arXiv v3)
  • 论文链接: https://arxiv.org/abs/2212.03397

摘要

本文研究了概率分布模型与真实数据分布(母分布)之间相似度的度量问题。提出了一种基于离散化样本Hellinger距离的准则,该准则不需要模型分布的显式概率密度函数,因此适用于深度学习等复杂模型。与传统的假设检验(如Kolmogorov-Smirnov检验)不同,该准则能够在给定阈值下得出"两分布足够接近"的积极结论。研究建立了基于Bayes错误率推导的合理阈值,并给出了准则估计量的渐近偏差分析。

研究背景与动机

1. 核心问题

当概率分布模型旨在近似未知的真实数据分布(母分布)时,如何建立有效的相似度度量准则是一个基本问题。这在生成模型(如深度生成模型、贝叶斯模型)的评估中尤为重要。

2. 问题的重要性

  • 模型评估需求:在机器学习和统计建模中,需要判断生成的模型是否充分近似真实数据分布
  • 实践意义:判断训练是否充分、参数模型是否合适、样本量是否足够等实际问题
  • 理论价值:为分布相似度提供可解释的定量标准

3. 现有方法的局限性

Kullback-Leibler散度与信息准则(如AIC)

  • 需要模型分布的显式概率密度函数gm(x)
  • 对于复杂模型(如深度神经网络、贝叶斯模型)难以获得显式形式
  • 虽然可用于模型比较,但数值本身缺乏统计意义,无法用于模型评估

统计假设检验(如K-S检验)

  • 拒绝原假设时只能得出"两分布不同"的结论,但可能实际上仍很相似
  • 大样本时容易因检测到微小差异而拒绝假设
  • 接受假设时无法得出"两分布足够接近"的积极结论
  • p值提供的信息不直接反映分布接近程度

4. 研究动机

提出一种能够:

  • 直接从样本计算,不需要显式密度函数
  • 给出"足够接近"的积极结论
  • 具有可解释阈值的相似度准则

核心贡献

  1. 提出了基于离散化Hellinger距离的两样本准则:通过对两个分布的样本进行离散化(量化),在多项分布层面比较Hellinger距离
  2. 建立了与Bayes错误率的理论联系(定理1):证明了f-散度与Bayes错误率之间的关系,使得散度值具有实际可解释性
  3. 推导了合理的阈值标准:基于Bayes错误率推导出Hellinger距离的阈值δ* = 8ϵ²,其中ϵ对应于错误率偏离随机猜测的程度
  4. 提出了移动区域离散化方法:相比固定区域方法,在n⁻²阶具有更优的渐近效率(定理2和3)
  5. 给出了估计量的渐近偏差分析(定理4):证明了估计量EDm⁽¹⁾ : m⁽²⁾的上界为EDm̂⁽¹⁾ : m̂⁽²⁾ + √(8p'/n₂) + o(n₁⁻¹) + o(n₂⁻¹/²)
  6. 建立了实用的模型拟合准则
    D[m̂⁽¹⁾ : m̂⁽²⁾] + p'/(2n₁) + √(8p'/n₂) < 8ϵ²
    

方法详解

任务定义

给定两个样本集:

  • 母分布观测数据:X⁽¹⁾ = {X₁⁽¹⁾, ..., Xₙ₁⁽¹⁾}
  • 模型生成样本:X⁽²⁾ = {X₁⁽²⁾, ..., Xₙ₂⁽²⁾}

目标:建立准则判断母分布和模型分布是否足够接近。

方法架构

1. f-散度与Bayes错误率的关系

对于两个概率密度函数g₁(x)和g₂(x),f-散度定义为:

Df[g₁(x) | g₂(x)] = ∫ g₁(x)f(g₂(x)/g₁(x))dµ(x)

Bayes错误率为:

Er[g₁(x)|g₂(x)] = (1/2)∫ min(g₁(x), g₂(x))dµ

定理1建立了关键联系:如果Dfg₁(x) | g₂(x) < δ,则Erg₁(x) | g₂(x) ≥ α(δ),其中α(δ)是δ的函数。

对于Hellinger距离(f(x) = 2(1-√x)²),近似有:

α(δ) ≈ (1 - √(δ/2))/2

设定阈值为Bayes错误率1/2 - ϵ(接近随机猜测),得到:

δ* = 8ϵ²

2. 离散化方法

固定区域方法:预先设定区域划分Iᵢ,独立于样本。

移动区域方法(本文推荐):基于样本X⁽²⁾的分位数动态确定区域。

对于标量情况(k=1):

  • 选择分位点λᵢ = i/(p+1), i = 1,...,p
  • 使用X⁽²⁾的顺序统计量确定区间端点:ξ̂ᵢ = X₍ñᵢ₎⁽²⁾,其中ñᵢ = ⌊n₂λᵢ⌋
  • 定义移动区间Iᵢ = (ξ̂ᵢ, ξ̂ᵢ₊₁)

对于向量情况(k≥2):

  • 采用递归分割方法
  • 第i步沿第i个坐标使用顺序统计量分割
  • 分割深度为l(≤k)

3. 多项分布构建

基于移动区域Aj(l),构建两个多项分布:

m⁽¹⁾ = {m_j(l)⁽¹⁾}, m_j(l)⁽¹⁾ = P(X ∈ Aj(l)|母分布)
m⁽²⁾ = {m_j(l)⁽²⁾}, m_j(l)⁽²⁾ = P(X ∈ Aj(l)|模型分布)

估计量为:

m̂⁽¹⁾ = {m̂_j(l)⁽¹⁾}, m̂_j(l)⁽¹⁾ = #{X⁽¹⁾ | X⁽¹⁾ ∈ Aj(l)}/n₁
m̂⁽²⁾ = {m̂_j(l)⁽²⁾}, m̂_j(l)⁽²⁾ = 1/(p'_j(l-1) + 1)

4. Hellinger距离计算

Hellinger距离定义为:

D[m⁽¹⁾ : m⁽²⁾] = 2∑_j(l) (√m_j(l)⁽¹⁾ - √m_j(l)⁽²⁾)²

估计量为:

D[m̂⁽¹⁾ : m̂⁽²⁾] = 2∑_j(l) (√m̂_j(l)⁽¹⁾ - √m̂_j(l)⁽²⁾)²

技术创新点

  1. 理论创新
    • 建立了f-散度与Bayes错误率的一般性关系(定理1),为散度值提供了分类错误的直观解释
    • 证明了移动区域方法在单样本问题中的渐近优越性(定理2、3)
  2. 方法创新
    • 使用移动区域方法而非固定区域,提高估计效率
    • 选择Hellinger距离避免零估计问题(当-1 < α < 1时不发散)
    • 使用模型样本X⁽²⁾构建区域(因为通常n₂ >> n₁)
  3. 偏差分析
    • 定理4给出了估计量的渐近偏差上界
    • n₂的影响是n₂⁻¹/²阶,n₁的影响是n₁⁻¹阶
    • 这解释了为何需要相对较大的n₂
  4. 实用准则
    • 提供了包含偏差修正的完整准则(公式40)
    • 阈值8ϵ²具有明确的统计意义(对应Bayes错误率)

实验设置

数据集

案例1:多元正态分布

  • 母分布:X⁽¹⁾ᵢ ~ N(α, Iₖ + βV),其中Vᵢⱼ = 0.95|ⁱ⁻ʲ|
  • 模型分布:X⁽²⁾ᵢ ~ N(0, Iₖ)(标准正态)
  • 参数设置
    • 维度k = 3,分割深度l = 3
    • 每个变量分割数p = pⱼ₍₁₎ = pⱼ₍₂₎ = 3
    • 总区域数p' = (3+1)³ - 1 = 63
    • 相似度参数(α, β) = (0,0), (0.01,0.01), (0.1,0.1), (1,1)
    • 样本量n₁ ∈ {10³, 10⁴, 10⁵, 10⁶, 10⁷},n₂ = 10⁷

高维情况

  • k = 10,p = pⱼ₍₁₎ = ... = pⱼ₍₉₎ = 3
  • 由于全深度分割需要p' = (3+1)¹⁰ - 1 > 10⁶,采用l = 2
  • 考察所有变量两两配对的二维边缘分布

案例2:贝叶斯模型

  • 数据集:UCI电厂数据集(9568个样本)
  • 模型:正态回归模型 y = β₁ + ∑ᵢ₌₂⁵ βᵢxᵢ + ϵ
  • 先验分布
    • β₁ ~ Cauchy(0, 10)
    • βᵢ ~ Cauchy(0, 2.5), i = 2,...,5
    • σ ~ t(5, 5, 1)
  • MCMC样本:4000个β后验样本
  • 预测值样本:n₂ = 4000 × 9568 ≈ 3.827×10⁷
  • 真实值样本:n₁ = 9568
  • 区域数:p' = 10

评价指标

  1. Hellinger距离:Dm̂⁽¹⁾ : m̂⁽²⁾
  2. 完整准则值(公式40左侧):Dm̂⁽¹⁾ : m̂⁽²⁾ + p'/(2n₁) + √(8p'/n₂)
  3. 阈值:8ϵ²(ϵ = 0.05时为0.02,ϵ = 0.01时为0.0008)
  4. 对比方法:Kolmogorov-Smirnov检验的p值

实现细节

  • 偏差修正项:p'/(2n₁) + √(8p'/n₂)
  • 移动区域方法使用等质量分割(λᵢ = i/(p+1))
  • 对于高维情况,采用降维策略(二维边缘分布)

实验结果

主要结果

案例1:三维正态分布(k=3, l=3, p'=63, n₂=10⁷)

(α, β)n₁=10⁷n₁=10⁶n₁=10⁵n₁=10⁴
(0, 0)0.007110.007170.007730.0136
(0.01, 0.01)0.007350.007410.007970.0137
(0.1, 0.1)0.02770.02770.02900.0349
(1, 1)0.6990.6980.7070.707

关键发现

  1. (α, β) = (0, 0)和(0.01, 0.01):准则值 < 0.02(ϵ=0.05的阈值),结论为足够接近
  2. (α, β) = (0.1, 0.1):准则值约0.028-0.035 > 0.02,但 < 0.08(ϵ=0.1的阈值),在宽松标准下接近
  3. (α, β) = (1, 1):准则值约0.7 >> 0.02,明显不接近
  4. 样本量影响:n₁从10⁴增至10⁷,准则值从0.0136降至0.00711(α=β=0情况)

高维情况(k=10, l=2, 二维边缘分布)

对于(α, β) = (0.1, 0.1):

  • n₁=10³, n₂=10⁷:所有45个变量配对的准则值在0.023-0.038之间,均 > 0.02,无法得出接近结论
  • n₁=10⁴, n₂=10⁷:所有配对的准则值在0.015-0.019之间,均 < 0.02,结论为足够接近

这验证了样本量需求,特别是n₁需要达到10⁴量级。

案例分析

贝叶斯回归模型

实验结果:

  • Hellinger距离:Dm̂⁽¹⁾ : m̂⁽²⁾ ≈ 0.0113
  • 偏差修正项:p'/(2n₁) + √(8p'/n₂) ≈ 0.0020
  • 完整准则值:≈ 0.0133
  • 对应的ϵ:求解8ϵ² = 0.0133得ϵ ≈ 0.04
  • 对应Bayes错误率:0.5 - 0.04 = 0.46

K-S检验对比

  • p值 = 7.587×10⁻⁸,在极低显著性水平下拒绝原假设
  • 但本文准则表明在Bayes错误率0.46的标准下,分布足够接近

直方图分析(图2):

  • ŷ和y的分布形态相似
  • 支持"足够接近"的结论

这个案例展示了:

  1. K-S检验给出"拒绝"结论,但实际分布已相当接近
  2. 本文准则能给出"足够接近"的积极结论,更符合实际需求
  3. 阈值的可解释性(Bayes错误率0.46接近随机猜测的0.5)

实验发现

  1. 方法有效性:准则能够正确区分不同相似度的分布对
  2. 样本量需求
    • n₂的影响是n₂⁻¹/²阶,需要相对较大(实验中10⁷)
    • n₁的影响是n₁⁻¹阶,10⁴通常足够
    • 这与理论分析(定理4)一致
  3. 维度影响
    • 高维情况下,全深度分割需要指数级样本量
    • 二维边缘分布策略是实用的折中方案
  4. 与假设检验的对比
    • K-S检验在大样本下过于敏感
    • 本文准则提供可解释的"足够接近"判断
  5. 阈值的合理性
    • ϵ = 0.05(对应阈值0.02)是合理的标准选择
    • 可根据应用需求调整(如ϵ = 0.1对应0.08)

相关工作

1. 两样本比较方法

Richardson and Weiss (2018)

  • 最接近本文的方法
  • 采用固定区域方法
  • 使用二项分布集合而非多项分布
  • 最终使用z检验评估

Johnson and Dasu (1998)

  • 将高维数据分为分类和连续变量
  • 使用多重检验判断相似性

2. K-S检验的扩展

Press and Teukolsky (1988):二维K-S检验

Hagen et al. (2020):高维K-S距离

Loudin and Miettinen (2003)

  • 将高维分布压缩为一维
  • 使用一维K-S检验

3. 核方法

Gretton et al. (2007)

  • 应用再生核Hilbert空间理论
  • 通过函数相似性度量分布相似性
  • 但最终仍采用传统假设检验

4. 生成模型评估

Theis et al. (2015)

  • 评估概率图像生成模型
  • 指出不同评估方法可能导致完全不同的结论

Borji (2018)

  • 全面综述生成对抗网络的评估指标
  • 部分方法适用于两样本问题

本文的优势

  1. 不需要显式密度函数:适用于复杂模型(深度学习、贝叶斯模型)
  2. 积极结论:能判断"足够接近",而非仅"不同"
  3. 可解释阈值:基于Bayes错误率,具有统计意义
  4. 理论保证:提供渐近偏差分析和效率比较
  5. 实用性:直接从样本计算,易于实现

结论与讨论

主要结论

  1. 理论贡献
    • 建立了f-散度与Bayes错误率的一般关系(定理1)
    • 证明了移动区域方法的渐近优越性(定理2、3)
    • 给出了两样本问题估计量的偏差上界(定理4)
  2. 方法贡献
    • 提出基于离散化Hellinger距离的实用准则
    • 阈值δ* = 8ϵ²具有明确的统计解释
    • 完整准则包含偏差修正,可直接应用
  3. 实验验证
    • 多元正态分布实验验证了方法的有效性和样本量需求
    • 贝叶斯模型案例展示了实际应用价值
    • 与K-S检验对比显示了"积极结论"的优势

局限性

  1. 样本量需求
    • n₂需要相对较大(n₂⁻¹/²阶影响)
    • 虽然模型样本通常易获得,但仍有计算成本
  2. 维度诅咒
    • 高维情况下全深度分割不可行
    • 需要降维策略(如二维边缘分布)
    • 可能丢失高维依赖结构信息
  3. 区域划分
    • 移动区域方法的理论优越性仅在标量情况(k=1)完全证明
    • 高维情况(k≥2)的n⁻²阶优越性未证明
  4. 阈值选择
    • ϵ的选择(0.05或0.01)仍有主观性
    • 虽然基于Bayes错误率,但不同应用可能需要不同标准
  5. 分布假设
    • 方法适用于连续分布
    • 对于混合型(离散+连续)分布需要调整

未来方向

  1. 高维理论:完善k≥2情况下移动区域方法的渐近理论
  2. 自适应区域划分
    • 根据数据特征自适应选择分割数p和深度l
    • 非均匀分割策略
  3. 多样本扩展:推广到多个分布的同时比较
  4. 计算优化
    • 大规模数据的高效实现
    • 并行计算策略
  5. 其他散度
    • 研究其他f-散度(如χ²散度)的性质
    • 比较不同散度的适用场景

深度评价

优点

  1. 理论严谨性
    • 定理1建立的f-散度与Bayes错误率关系具有普适性和深刻性
    • 渐近分析(定理2-4)数学推导完整,证明详细
    • 理论结果为实践提供了坚实基础
  2. 方法创新性
    • 核心创新:将Bayes错误率引入散度阈值设定,使抽象的散度值具有分类准确率的直观解释
    • 移动区域方法相比固定区域的优越性有理论支撑
    • 选择Hellinger距离避免技术问题(零估计)体现了实用考虑
  3. 实用价值
    • 准则(40)形式简洁,易于计算和应用
    • 不需要显式密度函数,适用于黑盒模型(深度学习)
    • 提供"积极结论",满足实际需求
  4. 实验充分性
    • 多元正态分布实验系统考察了不同相似度和样本量
    • 贝叶斯模型案例展示了实际应用场景
    • 与K-S检验的对比有说服力
  5. 写作清晰度
    • 结构清晰,逻辑连贯
    • 数学符号定义明确
    • 图表(如图1、表1-6)有效支持论述

不足

  1. 高维情况的理论不完整
    • 定理3只给出了n⁻¹阶结果,n⁻²阶项未明确
    • 移动区域方法在k≥2时的优越性未严格证明
    • 这限制了理论的完备性
  2. 实验设计的局限
    • 案例1仅考虑正态分布,分布类型单一
    • 缺乏与其他两样本方法(如MMD)的系统比较
    • 高维实验仅到k=10,更高维情况未探索
  3. 方法的适用性限制
    • 对于离散分布或混合分布的处理未讨论
    • 区域数p'和深度l的选择缺乏系统指导
    • 样本量需求(特别是n₂)可能在某些场景下仍然较高
  4. 阈值的主观性
    • ϵ的选择(0.05, 0.01)虽有Bayes错误率解释,但仍需用户决定
    • 不同应用领域的合理阈值可能差异很大
    • 缺乏针对特定应用的阈值选择指导
  5. 计算复杂度分析缺失
    • 未讨论算法的时间和空间复杂度
    • 大规模数据的可扩展性未明确
  6. 定理1的近似
    • α(δ)的计算涉及复杂优化(方程9-10)
    • 实际使用了Taylor展开近似(图1周围)
    • 近似误差的量化分析不充分

影响力

  1. 对领域的贡献
    • 为分布相似度评估提供了新的理论视角(Bayes错误率联系)
    • 推动了离散化方法在统计推断中的应用
    • 为生成模型评估提供了实用工具
  2. 实用价值
    • 高实用性:适用于深度生成模型(GANs, VAEs)、贝叶斯模型等无显式密度的场景
    • 可用于模型选择、训练监控、数据质量评估
    • 代码实现相对简单
  3. 可复现性
    • 方法描述详细,算法步骤清晰
    • 实验设置明确(样本量、参数等)
    • 理论推导完整(证明在附录)
    • 建议:提供开源代码将大幅提升可复现性
  4. 潜在应用领域
    • 机器学习:生成模型评估、域适应
    • 统计学:拟合优度检验、模型诊断
    • 数据科学:数据质量监控、A/B测试
    • 科学计算:模拟验证、不确定性量化

适用场景

最适合的场景

  1. 复杂生成模型评估:深度神经网络生成模型(GANs, VAEs, 扩散模型)
  2. 贝叶斯后验评估:MCMC样本与真实分布的比较
  3. 大样本可用:模型可生成大量样本(n₂ >> n₁)
  4. 需要积极结论:判断"是否足够好"而非"是否不同"
  5. 连续分布:方法设计针对连续型随机向量

不太适合的场景

  1. 小样本:n₁和n₂都较小时偏差修正项可能较大
  2. 极高维:维度k >> 10时需要特殊处理(降维)
  3. 离散分布:需要方法调整
  4. 需要精确p值:本方法提供阈值判断而非p值
  5. 实时在线评估:计算成本可能较高

与其他方法的比较

  • vs. K-S检验:本方法提供积极结论和可解释阈值
  • vs. AIC/BIC:本方法不需要显式密度函数
  • vs. MMD(最大均值差异):本方法有明确的统计解释(Bayes错误率)
  • vs. FID(Fréchet Inception Distance):本方法不依赖特定特征提取器

参考文献

本文引用的关键文献包括:

  1. Amari (2016): Information Geometry and Its Applications - f-散度的信息几何理论基础
  2. Csiszár (1975): f-散度的奠基性工作
  3. Gretton et al. (2007): 核方法在两样本检验中的应用
  4. Richardson and Weiss (2018): 最接近本文的方法,采用固定区域
  5. Sheena (2018): 作者前期工作,证明了标量情况移动区域方法的优越性
  6. Theis et al. (2015): 生成模型评估方法的比较研究
  7. Borji (2018): GANs评估指标的全面综述

总体评价:这是一篇理论严谨、方法实用的优秀论文。核心创新在于将Bayes错误率引入散度阈值设定,使抽象的统计量具有直观的分类解释。方法特别适合评估无显式密度函数的复杂模型,填补了该领域的重要空白。主要局限是高维情况的理论不完整和实验覆盖面有限,但不影响其学术价值和实用性。建议读者在应用时注意样本量需求(特别是n₂)和维度限制,必要时采用降维策略。