2025-11-10T02:47:56.247933

Strong consistency of pseudo-likelihood parameter estimator for univariate Gaussian mixture models

Lember, Kangro, Kuljus
We consider a new method for estimating the parameters of univariate Gaussian mixture models. The method relies on a nonparametric density estimator $\hat{f}_n$ (typically a kernel estimator). For every set of Gaussian mixture components, $\hat{f}_n$ is used to find the best set of mixture weights. That set is obtained by minimizing the $L_2$ distance between $\hat{f}_n$ and the Gaussian mixture density with the given component parameters. The densities together with the obtained weights are then plugged in to the likelihood function, resulting in the so-called pseudo-likelihood function. The final parameter estimators are the parameter values that maximize the pseudo-likelihood function together with the corresponding weights. The advantages of the pseudo-likelihood over the full likelihood are: 1) its arguments are the means and variances only, mixture weights are also functions of the means and variances; 2) unlike the likelihood function, it is always bounded above. Thus, the maximizer of the pseudo-likelihood function -- referred to as the pseudo-likelihood estimator -- always exists. In this article, we prove that the pseudo-likelihood estimator is strongly consistent.
academic

Strong consistency of pseudo-likelihood parameter estimator for univariate Gaussian mixture models

基本信息

  • 论文ID: 2510.14482
  • 标题: Strong consistency of pseudo-likelihood parameter estimator for univariate Gaussian mixture models
  • 作者: Jüri Lember, Raul Kangro, Kristi Kuljus (爱沙尼亚塔尔图大学数学与统计学院)
  • 分类: math.ST stat.TH
  • 发表时间: 2025年10月16日
  • 论文链接: https://arxiv.org/abs/2510.14482

摘要

本文提出了一种估计单变量高斯混合模型参数的新方法。该方法基于非参数密度估计器 f^n\hat{f}_n(通常为核估计器)。对于每组给定的高斯混合分量参数,通过最小化 f^n\hat{f}_n 与高斯混合密度之间的 L2L_2 距离来寻找最优的混合权重。然后将获得的权重与密度一起代入似然函数,形成所谓的伪似然函数。最终的参数估计器是使伪似然函数最大化的参数值及其对应权重。相比于完整似然,伪似然的优势在于:1)其参数仅为均值和方差,混合权重也是均值和方差的函数;2)与似然函数不同,它总是有界的。因此,伪似然函数的最大化器——伪似然估计器总是存在的。本文证明了伪似然估计器的强一致性。

研究背景与动机

问题背景

  1. 高斯混合模型的似然无界性问题:高斯混合模型的似然函数是无界的,这是一个众所周知的问题。当某些分量的方差趋向于零时,似然函数可能趋向于无穷大。
  2. 现有解决方案的局限性
    • 限制参数空间
    • 使用筛子方法
    • 惩罚最大似然估计
    • 贝叶斯方法
    • 轮廓似然等

    这些方法通常需要对方差施加限制或惩罚项。
  3. 研究动机
    • 提供一种不需要对参数施加任何限制的方法
    • 保持与标准最大似然估计的相似性
    • 确保估计器的存在性和一致性

为什么重要

  • 高斯混合模型在统计学和机器学习中应用广泛
  • 无界似然问题阻碍了标准MLE的应用
  • 需要理论上可靠且实际可行的估计方法

核心贡献

  1. 提出伪似然方法:一种新的参数估计方法,通过 L2L_2 距离最小化确定混合权重,然后构造伪似然函数。
  2. 证明强一致性:在i.i.d.样本假设下,证明了伪似然估计器的强一致性:θ^na.s.θ\hat{\theta}_n \xrightarrow{a.s.} \theta^*vn(θ^n)a.s.wv_n(\hat{\theta}_n) \xrightarrow{a.s.} w^*
  3. 无参数限制:方法不需要对方差施加下界限制或其他约束条件。
  4. 理论框架:建立了处理无界均值、消失或无界方差情况的完整理论框架。

方法详解

任务定义

给定来自 kk 分量单变量高斯混合分布的i.i.d.观测 Y1,,YnY_1, \ldots, Y_n,目标是估计:

  • 分量参数:θi=(μi,σi)\theta_i = (\mu_i, \sigma_i)i=1,,ki = 1, \ldots, k
  • 混合权重:wi>0w_i > 0i=1kwi=1\sum_{i=1}^k w_i = 1

真实密度为:f()=i=1kwig(θi,)f(\cdot) = \sum_{i=1}^k w_i^* g(\theta_i^*, \cdot)

模型架构

第一步:权重估计

对于给定的参数 θ=(θ1,,θk)\theta = (\theta_1, \ldots, \theta_k),通过最小化 L2L_2 距离确定权重:

vn(θ):=arginfwSkf^n()i=1kwig(θi,)v_n(\theta) := \arg \inf_{w \in S_k} \|\hat{f}_n(\cdot) - \sum_{i=1}^k w_i g(\theta_i, \cdot)\|

其中 SkS_k(k1)(k-1) 维单纯形,f^n\hat{f}_n 是非参数密度估计器。

第二步:伪似然构造

将获得的权重代入似然函数:

Ln(θ):=t=1n(i=1kvn,i(θ)g(θi,Yt))L_n(\theta) := \prod_{t=1}^n \left( \sum_{i=1}^k v_{n,i}(\theta) g(\theta_i, Y_t) \right)

对数伪似然函数: n(θ):=1nt=1nln(vn(θ)g(θ,Yt))\ell_n(\theta) := \frac{1}{n} \sum_{t=1}^n \ln\left( v_n(\theta)g(\theta, Y_t) \right)

第三步:参数估计

伪似然估计器定义为: θ^n 满足 n(θ^n)supθΘon(θ)ϵn\hat{\theta}_n \text{ 满足 } \ell_n(\hat{\theta}_n) \geq \sup_{\theta \in \Theta_o} \ell_n(\theta) - \epsilon_n

其中 ϵn0\epsilon_n \searrow 0

技术创新点

  1. 两步估计策略
    • 第一步用 L2L_2 距离估计权重
    • 第二步用似然方法估计分量参数
    • 这种组合确保了目标函数的有界性
  2. 权重的唯一性:虽然权重 vn(θ)v_n(\theta) 可能不唯一,但密度 vn(θ)g(θ,)v_n(\theta)g(\theta, \cdot) 是唯一的(引理2.1)。
  3. 参数空间的处理:通过等价类概念处理参数的不可识别性(如排列不变性)。

理论分析

主要定理

定理2.1(强一致性):假设 f^na.s.f\hat{f}_n \xrightarrow{a.s.} f(在 L2L_2 意义下)且 C<\exists C < \infty 使得 P(f^n<C eventually)=1P(\|\hat{f}_n\|_\infty < C \text{ eventually}) = 1,则:

θ^na.s.θ,vn(θ^n)a.s.w,vn(θ^n)g(θ^n,)a.s.f()\hat{\theta}_n \xrightarrow{a.s.} \theta^*, \quad v_n(\hat{\theta}_n) \xrightarrow{a.s.} w^*, \quad v_n(\hat{\theta}_n)g(\hat{\theta}_n, \cdot) \xrightarrow{a.s.} f(\cdot)

证明策略

1. 参数空间的紧化

命题3.1:证明存在常数 0<u<U<0 < u < U < \inftyN<N < \infty,使得对足够大的 nn,至少存在一个分量 i(n)i(n) 满足: μi(n)n<N,uσi(n)nU|\mu_{i(n)}^n| < N, \quad u \leq \sigma_{i(n)}^n \leq U

这确保了 θ^n\hat{\theta}_n 最终属于有界参数空间 Θo(u,U,N)\Theta_o(u,U,N)

2. 强大数定律的推广

引理4.1:推广了强大数定律以处理依赖于样本的随机函数序列 hnh_n

3. 一致收敛性

命题6.1:建立了准则函数的一致收敛性: supθΘo(u,U,N)n(θ)(θ)a.s.0\sup_{\theta \in \Theta_o(u,U,N)} |\ell_n(\theta) - \ell(\theta)| \xrightarrow{a.s.} 0

4. 极限情况的处理

命题5.1:处理参数趋向边界的情况(零方差、无穷方差、无穷均值)。

技术难点

  1. 无界参数:需要处理均值趋向无穷、方差趋向零或无穷的情况。
  2. 权重的随机性:权重 vn(θ)v_n(\theta) 依赖于随机的 f^n\hat{f}_n,标准强大数定律不能直接应用。
  3. 一致收敛:需要在整个参数空间上建立一致收敛,而不仅是点态收敛。

相关工作

现有方法对比

  1. 限制方差的MLE
    • Chen (2017):假设所有分量方差相等
    • Tanaka & Takemura (2006):要求标准差有下界 exp[nd]\exp[-n^d]
    • Tanaka (2009):对方差比值施加惩罚
  2. 距离基估计
    • 完全基于距离最小化估计整个混合模型
    • 本文仅对权重使用距离方法,对分量参数使用似然方法
  3. 双平滑似然
    • Seo & Lindsay (2010, 2013):对经验测度和指定分布都进行平滑
    • 计算复杂度高,需要蒙特卡罗估计

本文优势

  1. 理论保证:提供强一致性证明
  2. 计算效率:可用标准优化工具求解
  3. 无参数限制:不需要对方差施加约束
  4. 保持似然特性:尽可能接近标准MLE的性质

扩展性讨论

超越i.i.d.情况

论文讨论了方法在更一般设定下的适用性:

  1. 隐马尔可夫模型:当 X1,X2,X_1, X_2, \ldots 是平稳遍历过程,YtXt=iN(θi)Y_t|X_t = i \sim N(\theta_i)
  2. 一般潜变量模型:只要满足遍历性条件

实际应用

  • 信号去噪(DUDE方法的推广)
  • 隐马尔可夫模型的发射参数估计
  • 一般的潜变量模型

结论与讨论

主要结论

  1. 伪似然估计器在温和条件下强一致收敛到真实参数
  2. 方法避免了传统MLE的无界性问题
  3. 不需要对参数施加人为限制

局限性

  1. 核估计器要求:需要 f^na.s.f\hat{f}_n \xrightarrow{a.s.} ff^n\|\hat{f}_n\|_\infty 有界
  2. 带宽选择:核估计器的带宽必须足够慢地趋向零
  3. 计算复杂度:对于一般的 kk,权重优化问题没有闭式解

未来方向

  1. 渐近正态性的建立
  2. 多变量情况的推广
  3. 更一般依赖结构下的一致性
  4. 有限样本性质的研究

深度评价

优点

  1. 理论严谨:提供了完整的强一致性证明,处理了各种技术难点
  2. 方法创新:巧妙结合距离方法和似然方法,解决了经典问题
  3. 实用价值:方法计算可行,无需参数约束
  4. 写作清晰:论文结构合理,证明思路清楚

不足

  1. 假设条件:对核估计器的收敛性要求较强
  2. 计算效率:权重优化问题可能计算复杂
  3. 有限样本性质:缺乏有限样本下的性质分析
  4. 实验验证:论文主要是理论分析,缺乏数值实验

影响力

  1. 学术贡献:为高斯混合模型估计提供了新的理论框架
  2. 实用价值:解决了实际应用中的重要问题
  3. 方法论意义:展示了组合不同准则函数的有效性

适用场景

  • 高斯混合模型参数估计,特别是分量数较多的情况
  • 需要避免参数约束的应用场景
  • 隐马尔可夫模型的发射参数估计
  • 信号处理和模式识别中的密度估计

参考文献

论文引用了21篇重要文献,涵盖了:

  • 混合模型的经典理论(Teicher, 1963)
  • MLE一致性理论(Chen, 2017; van der Vaart, 2000)
  • 核密度估计理论(Silverman, 1978)
  • 距离基估计方法(Cutler & Cordero-Brana, 1996)
  • 相关的伪似然方法(Kangro et al., 2025)

这些文献为本文的理论发展提供了坚实基础。