2025-11-22T01:28:15.129039

EM Approaches to Nonparametric Estimation for Mixture of Linear Regressions

Welbaum, Qiao
In a mixture of linear regression model, the regression coefficients are treated as random vectors that may follow either a continuous or discrete distribution. We propose two Expectation-Maximization (EM) algorithms to estimate this prior distribution. The first algorithm solves a kernelized version of the nonparametric maximum likelihood estimation (NPMLE). This method not only recovers continuous prior distributions but also accurately estimates the number of clusters when the prior is discrete. The second algorithm, designed to approximate the NPMLE, targets prior distributions with a density. It also performs well for discrete priors when combined with a post-processing step. We study the convergence properties of both algorithms and demonstrate their effectiveness through simulations and applications to real datasets.
academic

EM Approaches to Nonparametric Estimation for Mixture of Linear Regressions

基本信息

  • 论文ID: 2510.14890
  • 标题: EM Approaches to Nonparametric Estimation for Mixture of Linear Regressions
  • 作者: Andrew Welbaum, Wanli Qiao (George Mason University)
  • 分类: stat.ME stat.ML
  • 发表时间: October 17, 2025 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.14890

摘要

在混合线性回归模型中,回归系数被视为可能遵循连续或离散分布的随机向量。本文提出两种期望最大化(EM)算法来估计这种先验分布。第一种算法求解非参数最大似然估计(NPMLE)的核化版本,不仅能恢复连续先验分布,还能在先验为离散时准确估计聚类数量。第二种算法旨在近似NPMLE,针对具有密度的先验分布。结合后处理步骤,它在离散先验上也表现良好。研究了两种算法的收敛性质,并通过仿真和真实数据集应用证明了其有效性。

研究背景与动机

问题定义

混合线性回归模型扩展了多元线性回归,允许系数向量具有连续或离散的先验分布。该模型在响应变量和协变量可能具有个性化或聚类线性关系时有广泛应用,包括市场细分、医学研究、教育研究以及各种工业和经济研究。

模型设置

考虑n个独立观测(x1,y1),,(xn,yn)Rd×R(x_1, y_1), \ldots, (x_n, y_n) \in \mathbb{R}^d \times \mathbb{R},由以下模型生成: yi=xiTβi+σziy_i = x_i^T \beta_i + \sigma z_i 其中β1,,βniidG\beta_1, \ldots, \beta_n \stackrel{iid}{\sim} G^*z1,,zniidN(0,1)z_1, \ldots, z_n \stackrel{iid}{\sim} N(0,1)σ>0\sigma > 0已知,GG^*Rd\mathbb{R}^d上的未知概率分布。

研究动机

  1. 现有方法局限性:传统EM算法需要预先知道组件数量K,而基于NPMLE的方法(如Jiang and Guntuboyina 2025)虽然理论上一致,但实践中往往无法准确检测真实组件数量
  2. 实际需求:需要既能处理连续分布又能自动检测离散分布组件数的方法
  3. 聚类应用:当GG^*离散时,需要根据估计结果对观测点进行聚类

核心贡献

  1. 提出EM-NPMLE算法:针对具有密度的先验分布,收敛到NPMLE
  2. 提出EM-NPKMLE算法:通过核密度估计的约束优化,能自动检测离散分布的组件数量
  3. 理论保证:证明了两种算法的收敛性质
  4. 后处理策略:提出mean shift和SCMS后处理方法处理特殊结构
  5. 实用性验证:在仿真和真实数据上验证了方法的有效性

方法详解

任务定义

给定观测数据{(xi,yi)}i=1n\{(x_i, y_i)\}_{i=1}^n,目标是估计未知先验分布GG^*,进而:

  1. 对连续分布进行非参数估计
  2. 对离散分布自动确定组件数量并估计参数
  3. 基于估计结果进行聚类

EM-NPMLE算法(方法1)

适用场景GG^*具有密度函数gg^*

算法流程

  1. E步:计算后验密度 fi(t+1)(β)=ϕσ(yixiTβ)g(t)(β)Rdϕσ(yixiTβ)g(t)(β)dβf_i^{(t+1)}(\beta) = \frac{\phi_\sigma(y_i - x_i^T\beta)g^{(t)}(\beta)}{\int_{\mathbb{R}^d} \phi_\sigma(y_i - x_i^T\beta)g^{(t)}(\beta)d\beta}
  2. M步:更新密度估计 g(t+1)=1ni=1nfi(t+1)g^{(t+1)} = \frac{1}{n}\sum_{i=1}^n f_i^{(t+1)}

理论性质

  • 定理2.1:在适当条件下,G(t)G^{(t)}弱收敛到唯一的NPMLE G^\hat{G}

EM-NPKMLE算法(方法2)

核心思想:将优化限制在核密度估计集合Gkde\mathcal{G}_{kde}上: Gkde={1nhd=1nv(β~2h2):β~1,,β~nRd}\mathcal{G}_{kde} = \left\{\frac{1}{nh^d}\sum_{\ell=1}^n v\left(\frac{\|\cdot - \tilde{\beta}_\ell\|^2}{h^2}\right) : \tilde{\beta}_1, \ldots, \tilde{\beta}_n \in \mathbb{R}^d\right\}

算法结构:双重循环EM算法

  • 外循环:EM迭代更新分布
  • 内循环:梯度上升优化核密度估计参数

关键更新公式ν(r+1)=ξ(ν(r);β(t),x,y)=A(ν(r);β(t),x,y)C(ν(r),β(t),x,y)\nu_\ell^{(r+1)} = \xi(\nu_\ell^{(r)}; \beta^{(t)}, x, y) = \frac{A(\nu_\ell^{(r)}; \beta^{(t)}, x, y)}{C(\nu_\ell^{(r)}, \beta^{(t)}, x, y)}

其中AACC由梯度计算确定。

技术创新点

  1. 自适应步长:梯度上升使用自适应步长1/C(ν(r),β(t),x,y)1/C(\nu_\ell^{(r)}, \beta^{(t)}, x, y),无需手动调参
  2. 带宽选择:基于最大平滑原理的带宽选择策略,避免虚假模态
  3. 后处理灵活性:针对不同先验结构设计相应的后处理方法

实验设置

仿真数据

仿真1:三组件离散分布

  • 组件:y=3xy = 3-x, y=1+1.5xy = 1+1.5x, y=1+0.5xy = -1+0.5x
  • 权重:(0.3, 0.3, 0.4)
  • 噪声:σ=0.5\sigma = 0.5
  • 样本量:500到10,000

仿真2:连续分布

  • 两个同心圆上的均匀分布:12×Uniform{B(1)}+12×Uniform{B(2)}\frac{1}{2} \times \text{Uniform}\{B(1)\} + \frac{1}{2} \times \text{Uniform}\{B(2)\}

评价指标

  1. 调整兰德指数(ARI):聚类质量
  2. 组件检测准确率:正确识别真实组件数的比例
  3. Wasserstein-2距离:分布估计质量
  4. 偏差和标准差:参数估计精度

对比方法

  1. CGM方法:Jiang and Guntuboyina (2025)的条件梯度方法
  2. EM-NPMLE + Mean Shift:后处理版本
  3. Oracle方法:已知真实分布的理论上界

实现细节

  • 核函数:高斯核
  • 带宽:基于最大平滑原理选择
  • 初始化:均匀分布或EM-NPMLE输出
  • 收敛标准:L2L_2距离小于预设阈值

实验结果

主要结果

仿真1结果(样本量10,000):

  • EM-NPKMLE:ARI=0.651,组件检测率=99.5%,W-2距离=0.288
  • EM-NPMLE+Mean Shift:ARI=0.662,组件检测率=100%,W-2距离=0.265
  • CGM:ARI=0.596,组件检测率=0%,平均组件数=7.57

关键发现

  1. EM-NPKMLE和EM-NPMLE+Mean Shift都能一致估计真实组件数
  2. CGM方法系统性地高估组件数量
  3. 随样本量增加,所有估计都趋向真值

参数估计精度

对于三个组件的系数估计(n=10,000):

  • 组件1:真值(3,-1),估计(-0.112, 0.004)±(0.011, 0.010)
  • 组件2:真值(1,1.5),估计(-0.115, 0.013)±(0.018, 0.012)
  • 组件3:真值(-1,0.5),估计(0.113, 0.027)±(0.013, 0.010)

计算效率对比

GEM-NPKMLE(单次内循环)相比完整EM-NPKMLE:

  • 时间:15.4分钟 vs 115.9分钟(n=5000)
  • 性能:基本相当(大样本时)

真实数据应用

CO2-GDP数据

  • 检测到2个主要组件,权重0.484和0.358
  • 系数:(0.022, 0.179)和(-0.070, 0.343)
  • 与CGM方法的主要组件一致

音乐音调感知数据

  • 检测到2个组件,符合音乐理论预期
  • 组件对应y=xy=xy=2y=2的理论预测

相关工作

NPMLE相关研究

  • 经典工作:Kiefer and Wolfowitz (1956)首次描述混合模型的NPMLE
  • 近期进展:Jiang and Zhang (2009), Koenker and Mizera (2014), Jiang and Guntuboyina (2025)等

EM算法发展

  • 现代EM:Dempster et al. (1977)形式化
  • 混合回归:DeSarbo and Cron (1988)扩展到聚类线性回归
  • 组件数估计:传统方法基于AIC、BIC等信息准则

本文优势

  1. 无需预设组件数:相比传统EM算法
  2. 准确组件检测:相比现有NPMLE方法
  3. 统一框架:同时处理连续和离散分布

结论与讨论

主要结论

  1. EM-NPKMLE算法能够自动检测离散分布的真实组件数,避免了传统方法的过估计问题
  2. 收敛保证:两种算法都具有理论收敛保证
  3. 实用性强:在仿真和真实数据上都表现出良好性能
  4. 计算效率:GEM变种提供了效率和精度的良好平衡

局限性

  1. 带宽选择:需要合适的带宽选择策略,当前方法可能不是最优
  2. 局部最优:梯度上升可能陷入局部最优解
  3. 高维挑战:在高维情况下的表现需要进一步研究
  4. 分布判断:实践中难以预先判断分布是连续还是离散

未来方向

  1. 自适应带宽:开发针对不同迭代或维度的自适应带宽
  2. 理论分析:深入研究EM-NPKMLE的理论性质
  3. 扩展应用:推广到一般混合分布模型
  4. 计算优化:进一步提高算法的计算效率

深度评价

优点

  1. 方法创新性强:核密度估计约束的NPMLE是新颖的思路
  2. 实用价值高:解决了组件数自动检测的实际问题
  3. 理论基础扎实:提供了收敛性证明
  4. 实验充分:包含仿真和真实数据验证
  5. 写作清晰:算法描述详细,数学推导严谨

不足

  1. 带宽依赖:算法性能对带宽选择较为敏感
  2. 计算复杂度:双重循环结构计算成本较高
  3. 高维扩展性:缺乏高维情况下的系统研究
  4. 比较有限:主要与CGM方法比较,缺乏更多baseline

影响力

  1. 理论贡献:为混合回归的非参数估计提供了新思路
  2. 实践价值:在聚类和分布估计领域有直接应用
  3. 可复现性:算法描述详细,便于复现
  4. 扩展性:框架可扩展到其他混合模型

适用场景

  1. 市场细分:不同消费群体的行为模式分析
  2. 医学研究:患者亚群的治疗反应分析
  3. 经济研究:不同发展路径的经济增长模式
  4. 机器学习:聚类回归和半监督学习

参考文献

  1. Jiang, H. and Guntuboyina, A. (2025). A nonparametric maximum likelihood approach to mixture of regression.
  2. Dempster, A. P., Laird, N. M., and Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm.
  3. Kiefer, J. and Wolfowitz, J. (1956). Consistency of the maximum likelihood estimator in the presence of infinitely many incidental parameters.
  4. Leisch, F. (2004). FlexMix: A general framework for finite mixture models and latent class regression in R.

总体评价:这是一篇高质量的统计方法学论文,提出了创新的EM算法解决混合线性回归中的重要问题。方法具有坚实的理论基础和良好的实践表现,为相关领域提供了有价值的工具。尽管存在一些局限性,但其贡献显著,具有较好的学术和应用价值。