We consider a new method for estimating the parameters of univariate Gaussian mixture models. The method relies on a nonparametric density estimator $\hat{f}_n$ (typically a kernel estimator). For every set of Gaussian mixture components, $\hat{f}_n$ is used to find the best set of mixture weights. That set is obtained by minimizing the $L_2$ distance between $\hat{f}_n$ and the Gaussian mixture density with the given component parameters. The densities together with the obtained weights are then plugged in to the likelihood function, resulting in the so-called pseudo-likelihood function. The final parameter estimators are the parameter values that maximize the pseudo-likelihood function together with the corresponding weights. The advantages of the pseudo-likelihood over the full likelihood are: 1) its arguments are the means and variances only, mixture weights are also functions of the means and variances; 2) unlike the likelihood function, it is always bounded above. Thus, the maximizer of the pseudo-likelihood function -- referred to as the pseudo-likelihood estimator -- always exists. In this article, we prove that the pseudo-likelihood estimator is strongly consistent.
论文ID : 2510.14482标题 : Strong consistency of pseudo-likelihood parameter estimator for univariate Gaussian mixture models作者 : Jüri Lember, Raul Kangro, Kristi Kuljus (爱沙尼亚塔尔图大学数学与统计学院)分类 : math.ST stat.TH发表时间 : 2025年10月16日论文链接 : https://arxiv.org/abs/2510.14482 本文提出了一种估计单变量高斯混合模型参数的新方法。该方法基于非参数密度估计器 f ^ n \hat{f}_n f ^ n (通常为核估计器)。对于每组给定的高斯混合分量参数,通过最小化 f ^ n \hat{f}_n f ^ n 与高斯混合密度之间的 L 2 L_2 L 2 距离来寻找最优的混合权重。然后将获得的权重与密度一起代入似然函数,形成所谓的伪似然函数。最终的参数估计器是使伪似然函数最大化的参数值及其对应权重。相比于完整似然,伪似然的优势在于:1)其参数仅为均值和方差,混合权重也是均值和方差的函数;2)与似然函数不同,它总是有界的。因此,伪似然函数的最大化器——伪似然估计器总是存在的。本文证明了伪似然估计器的强一致性。
高斯混合模型的似然无界性问题 :高斯混合模型的似然函数是无界的,这是一个众所周知的问题。当某些分量的方差趋向于零时,似然函数可能趋向于无穷大。现有解决方案的局限性 :限制参数空间 使用筛子方法 惩罚最大似然估计 贝叶斯方法 轮廓似然等 这些方法通常需要对方差施加限制或惩罚项。研究动机 :提供一种不需要对参数施加任何限制的方法 保持与标准最大似然估计的相似性 确保估计器的存在性和一致性 高斯混合模型在统计学和机器学习中应用广泛 无界似然问题阻碍了标准MLE的应用 需要理论上可靠且实际可行的估计方法 提出伪似然方法 :一种新的参数估计方法,通过 L 2 L_2 L 2 距离最小化确定混合权重,然后构造伪似然函数。证明强一致性 :在i.i.d.样本假设下,证明了伪似然估计器的强一致性:θ ^ n → a . s . θ ∗ \hat{\theta}_n \xrightarrow{a.s.} \theta^* θ ^ n a . s . θ ∗ 和 v n ( θ ^ n ) → a . s . w ∗ v_n(\hat{\theta}_n) \xrightarrow{a.s.} w^* v n ( θ ^ n ) a . s . w ∗ 。无参数限制 :方法不需要对方差施加下界限制或其他约束条件。理论框架 :建立了处理无界均值、消失或无界方差情况的完整理论框架。给定来自 k k k 分量单变量高斯混合分布的i.i.d.观测 Y 1 , … , Y n Y_1, \ldots, Y_n Y 1 , … , Y n ,目标是估计:
分量参数:θ i = ( μ i , σ i ) \theta_i = (\mu_i, \sigma_i) θ i = ( μ i , σ i ) ,i = 1 , … , k i = 1, \ldots, k i = 1 , … , k 混合权重:w i > 0 w_i > 0 w i > 0 ,∑ i = 1 k w i = 1 \sum_{i=1}^k w_i = 1 ∑ i = 1 k w i = 1 真实密度为:f ( ⋅ ) = ∑ i = 1 k w i ∗ g ( θ i ∗ , ⋅ ) f(\cdot) = \sum_{i=1}^k w_i^* g(\theta_i^*, \cdot) f ( ⋅ ) = ∑ i = 1 k w i ∗ g ( θ i ∗ , ⋅ )
对于给定的参数 θ = ( θ 1 , … , θ k ) \theta = (\theta_1, \ldots, \theta_k) θ = ( θ 1 , … , θ k ) ,通过最小化 L 2 L_2 L 2 距离确定权重:
v n ( θ ) : = arg inf w ∈ S k ∥ f ^ n ( ⋅ ) − ∑ i = 1 k w i g ( θ i , ⋅ ) ∥ v_n(\theta) := \arg \inf_{w \in S_k} \|\hat{f}_n(\cdot) - \sum_{i=1}^k w_i g(\theta_i, \cdot)\| v n ( θ ) := arg inf w ∈ S k ∥ f ^ n ( ⋅ ) − ∑ i = 1 k w i g ( θ i , ⋅ ) ∥
其中 S k S_k S k 是 ( k − 1 ) (k-1) ( k − 1 ) 维单纯形,f ^ n \hat{f}_n f ^ n 是非参数密度估计器。
将获得的权重代入似然函数:
L n ( θ ) : = ∏ t = 1 n ( ∑ i = 1 k v n , i ( θ ) g ( θ i , Y t ) ) L_n(\theta) := \prod_{t=1}^n \left( \sum_{i=1}^k v_{n,i}(\theta) g(\theta_i, Y_t) \right) L n ( θ ) := ∏ t = 1 n ( ∑ i = 1 k v n , i ( θ ) g ( θ i , Y t ) )
对数伪似然函数:
ℓ n ( θ ) : = 1 n ∑ t = 1 n ln ( v n ( θ ) g ( θ , Y t ) ) \ell_n(\theta) := \frac{1}{n} \sum_{t=1}^n \ln\left( v_n(\theta)g(\theta, Y_t) \right) ℓ n ( θ ) := n 1 ∑ t = 1 n ln ( v n ( θ ) g ( θ , Y t ) )
伪似然估计器定义为:
θ ^ n 满足 ℓ n ( θ ^ n ) ≥ sup θ ∈ Θ o ℓ n ( θ ) − ϵ n \hat{\theta}_n \text{ 满足 } \ell_n(\hat{\theta}_n) \geq \sup_{\theta \in \Theta_o} \ell_n(\theta) - \epsilon_n θ ^ n 满足 ℓ n ( θ ^ n ) ≥ sup θ ∈ Θ o ℓ n ( θ ) − ϵ n
其中 ϵ n ↘ 0 \epsilon_n \searrow 0 ϵ n ↘ 0 。
两步估计策略 :第一步用 L 2 L_2 L 2 距离估计权重 第二步用似然方法估计分量参数 这种组合确保了目标函数的有界性 权重的唯一性 :虽然权重 v n ( θ ) v_n(\theta) v n ( θ ) 可能不唯一,但密度 v n ( θ ) g ( θ , ⋅ ) v_n(\theta)g(\theta, \cdot) v n ( θ ) g ( θ , ⋅ ) 是唯一的(引理2.1)。参数空间的处理 :通过等价类概念处理参数的不可识别性(如排列不变性)。定理2.1(强一致性) :假设 f ^ n → a . s . f \hat{f}_n \xrightarrow{a.s.} f f ^ n a . s . f (在 L 2 L_2 L 2 意义下)且 ∃ C < ∞ \exists C < \infty ∃ C < ∞ 使得 P ( ∥ f ^ n ∥ ∞ < C eventually ) = 1 P(\|\hat{f}_n\|_\infty < C \text{ eventually}) = 1 P ( ∥ f ^ n ∥ ∞ < C eventually ) = 1 ,则:
θ ^ n → a . s . θ ∗ , v n ( θ ^ n ) → a . s . w ∗ , v n ( θ ^ n ) g ( θ ^ n , ⋅ ) → a . s . f ( ⋅ ) \hat{\theta}_n \xrightarrow{a.s.} \theta^*, \quad v_n(\hat{\theta}_n) \xrightarrow{a.s.} w^*, \quad v_n(\hat{\theta}_n)g(\hat{\theta}_n, \cdot) \xrightarrow{a.s.} f(\cdot) θ ^ n a . s . θ ∗ , v n ( θ ^ n ) a . s . w ∗ , v n ( θ ^ n ) g ( θ ^ n , ⋅ ) a . s . f ( ⋅ )
命题3.1 :证明存在常数 0 < u < U < ∞ 0 < u < U < \infty 0 < u < U < ∞ 和 N < ∞ N < \infty N < ∞ ,使得对足够大的 n n n ,至少存在一个分量 i ( n ) i(n) i ( n ) 满足:
∣ μ i ( n ) n ∣ < N , u ≤ σ i ( n ) n ≤ U |\mu_{i(n)}^n| < N, \quad u \leq \sigma_{i(n)}^n \leq U ∣ μ i ( n ) n ∣ < N , u ≤ σ i ( n ) n ≤ U
这确保了 θ ^ n \hat{\theta}_n θ ^ n 最终属于有界参数空间 Θ o ( u , U , N ) \Theta_o(u,U,N) Θ o ( u , U , N ) 。
引理4.1 :推广了强大数定律以处理依赖于样本的随机函数序列 h n h_n h n 。
命题6.1 :建立了准则函数的一致收敛性:
sup θ ∈ Θ o ( u , U , N ) ∣ ℓ n ( θ ) − ℓ ( θ ) ∣ → a . s . 0 \sup_{\theta \in \Theta_o(u,U,N)} |\ell_n(\theta) - \ell(\theta)| \xrightarrow{a.s.} 0 sup θ ∈ Θ o ( u , U , N ) ∣ ℓ n ( θ ) − ℓ ( θ ) ∣ a . s . 0
命题5.1 :处理参数趋向边界的情况(零方差、无穷方差、无穷均值)。
无界参数 :需要处理均值趋向无穷、方差趋向零或无穷的情况。权重的随机性 :权重 v n ( θ ) v_n(\theta) v n ( θ ) 依赖于随机的 f ^ n \hat{f}_n f ^ n ,标准强大数定律不能直接应用。一致收敛 :需要在整个参数空间上建立一致收敛,而不仅是点态收敛。限制方差的MLE :Chen (2017):假设所有分量方差相等 Tanaka & Takemura (2006):要求标准差有下界 exp [ − n d ] \exp[-n^d] exp [ − n d ] Tanaka (2009):对方差比值施加惩罚 距离基估计 :完全基于距离最小化估计整个混合模型 本文仅对权重使用距离方法,对分量参数使用似然方法 双平滑似然 :Seo & Lindsay (2010, 2013):对经验测度和指定分布都进行平滑 计算复杂度高,需要蒙特卡罗估计 理论保证 :提供强一致性证明计算效率 :可用标准优化工具求解无参数限制 :不需要对方差施加约束保持似然特性 :尽可能接近标准MLE的性质论文讨论了方法在更一般设定下的适用性:
隐马尔可夫模型 :当 X 1 , X 2 , … X_1, X_2, \ldots X 1 , X 2 , … 是平稳遍历过程,Y t ∣ X t = i ∼ N ( θ i ) Y_t|X_t = i \sim N(\theta_i) Y t ∣ X t = i ∼ N ( θ i ) 一般潜变量模型 :只要满足遍历性条件信号去噪(DUDE方法的推广) 隐马尔可夫模型的发射参数估计 一般的潜变量模型 伪似然估计器在温和条件下强一致收敛到真实参数 方法避免了传统MLE的无界性问题 不需要对参数施加人为限制 核估计器要求 :需要 f ^ n → a . s . f \hat{f}_n \xrightarrow{a.s.} f f ^ n a . s . f 且 ∥ f ^ n ∥ ∞ \|\hat{f}_n\|_\infty ∥ f ^ n ∥ ∞ 有界带宽选择 :核估计器的带宽必须足够慢地趋向零计算复杂度 :对于一般的 k k k ,权重优化问题没有闭式解渐近正态性的建立 多变量情况的推广 更一般依赖结构下的一致性 有限样本性质的研究 理论严谨 :提供了完整的强一致性证明,处理了各种技术难点方法创新 :巧妙结合距离方法和似然方法,解决了经典问题实用价值 :方法计算可行,无需参数约束写作清晰 :论文结构合理,证明思路清楚假设条件 :对核估计器的收敛性要求较强计算效率 :权重优化问题可能计算复杂有限样本性质 :缺乏有限样本下的性质分析实验验证 :论文主要是理论分析,缺乏数值实验学术贡献 :为高斯混合模型估计提供了新的理论框架实用价值 :解决了实际应用中的重要问题方法论意义 :展示了组合不同准则函数的有效性高斯混合模型参数估计,特别是分量数较多的情况 需要避免参数约束的应用场景 隐马尔可夫模型的发射参数估计 信号处理和模式识别中的密度估计 论文引用了21篇重要文献,涵盖了:
混合模型的经典理论(Teicher, 1963) MLE一致性理论(Chen, 2017; van der Vaart, 2000) 核密度估计理论(Silverman, 1978) 距离基估计方法(Cutler & Cordero-Brana, 1996) 相关的伪似然方法(Kangro et al., 2025) 这些文献为本文的理论发展提供了坚实基础。