We propose a new method based on sparse optimal discriminant clustering (SODC), incorporating a penalty term into the scoring matrix based on convex clustering. With the addition of this penalty term, it is expected to improve the accuracy of cluster identification by pulling points within the same cluster closer together and points from different clusters further apart. When the estimation results are visualized, the clustering structure can be depicted more clearly. Moreover, we develop a novel algorithm to derive the updated formula of this scoring matrix using a majorizing function. The scoring matrix is updated using the alternating direction method of multipliers (ADMM), which is often employed to calculate the parameters of the objective function in the convex clustering. In the proposed method, as in the conventional SODC, the scoring matrix is subject to an orthogonal constraint. Therefore, it is necessary to satisfy the orthogonal constraint on the scoring matrix while maintaining the clustering structure. Using a majorizing function, we adress the challenge of enforcing both orthogonal constraint and the clustering structure within the scoring matrix. We demonstrate numerical simulations and an application to real data to assess the performance of the proposed method.
- 论文ID: 2501.10147
- 标题: Regularized Sparse Optimal Discriminant Clustering
- 作者: Mayu Hiraishi, Kensuke Tanioka, Hiroshi Yadohisa (同志社大学)
- 分类: stat.ME (统计方法)
- 发表时间: 2025年10月15日
- 论文链接: https://arxiv.org/abs/2501.10147
本文提出了一种基于稀疏最优判别聚类(SODC)的新方法,将基于凸聚类的惩罚项纳入评分矩阵。通过添加该惩罚项,期望通过将同一聚类内的点拉近、不同聚类间的点推远来提高聚类识别的准确性。当估计结果可视化时,聚类结构能够更清晰地描绘出来。此外,作者开发了一种新颖的算法,使用主化函数推导该评分矩阵的更新公式。评分矩阵使用交替方向乘数法(ADMM)进行更新,该方法常用于计算凸聚类目标函数的参数。
维度缩减聚类在解释大型复杂数据特征方面被广泛使用,它估计一个低维空间来识别聚类,在保持高维数据重要特征的同时实现高效处理。现有的最优判别聚类(ODC)和稀疏最优判别聚类(SODC)方法虽然比主成分分析更清晰地描述聚类,但存在以下问题:
- 评分矩阵结构问题: SODC中的评分矩阵没有保持与LDA中最优评分相同的识别聚类结构
- 缺乏独立聚类信息矩阵: ODC和SODC不包含包含聚类信息的独立矩阵,可能影响聚类估计的准确性
- 可视化效果不佳: SODC在数据降维到低维空间并可视化结果时,可能无法产生良好分离的聚类结构
为了解决上述问题,作者提出在SODC中添加基于凸聚类的惩罚项,使评分矩阵提供比传统SODC更清晰的聚类结构,通过将来自同一聚类的数据点拉近、将来自不同聚类的数据点分开。
- 提出RSODC方法: 在SODC基础上添加基于凸聚类的正则化项,改善聚类识别准确性
- 开发新算法: 使用主化函数推导评分矩阵的更新公式,同时满足正交约束和聚类结构要求
- ADMM优化框架: 采用交替方向乘数法更新评分矩阵,有效处理复杂约束条件
- 理论和实证验证: 通过数值仿真和真实数据应用验证方法的有效性
给定数据矩阵 X∈Rn×p,目标是在低维空间中识别 k 个聚类,同时进行变量选择和维度缩减。
RSODC的优化问题定义为:
minB,Y†21∥Y†−HnXB∥F2+η2∥B∥F2+η1∑j=1p∥βj∥2+γ∑i<jαi,j∥yi†−yj†∥2
约束条件:Y†⊤Y†=Ik−1 且 Y†⊤1=0
其中:
- 前三项与SODC相同
- 第四项是基于凸聚类的惩罚项,鼓励相似样本更接近
- αi,j是权重,计算为:αi,j=ιδi,jexp(−τ∥xi−xj∥22)
为应用ADMM算法,将问题重写为:
minB,Y,V,Λ21∥Y−HnXB∥F2+η2∥B∥F2+η1∑j=1p∥βj∥2+γ∑l∈εαl∥vl∥2
约束条件:
- yi−yj=vl
- Y⊤Y=Ik−1
- Y⊤1=0
关键创新是使用主化函数处理评分矩阵更新中的二次项。对于二次形式 tr(Y⊤CY),构造主化函数:
tr(Y⊤CY)≤2ω−2tr(Y⊤(ωI−C)Q)−tr(Q⊤CQ)
其中 ω 是 C=2ρ∑l∈εglgl⊤ 的最大特征值。
通过主化函数,将Y的更新转化为正交Procrustes问题:
minY∥Y−D∥F2,s.t. Y⊤Y=I
解为 Y←LR⊤,其中 D=LΣR⊤ 是奇异值分解。
- 仿真数据:
- 样本数 n=60,96,156
- 变量数 p=20,50,80,100
- 聚类数 k=3,4
- 信息变量数 q=2
- 真实数据: 乳腺癌蛋白质组学数据(breast TCGA)
- 150个样本,142个蛋白质
- 3个癌症亚型:Basal, Her2, LumA
- 选择10个信息变量和70个非信息变量
- 调整兰德指数(ARI): 评估聚类准确性
- 方差比: 聚类内方差与聚类间方差的比值
- 敏感性和特异性: 评估变量选择效果
- 稀疏最优判别聚类(SODC)
- 串联聚类(Tandem clustering)
- 缩减k-means(Reduced k-means)
- 因子k-means(Factorial k-means)
- t-SNE
- 参数选择:交叉验证基于kappa系数
- η2=0,τ=0.1,δ=25
- 收敛阈值:ϵ>0
在所有仿真设置中,RSODC在ARI指标上均优于对比方法:
- k=3时: RSODC在几乎所有模式下都表现最佳
- k=4时: RSODC性能优于所有对比方法
- 稳定性: 随着p增加,RSODC保持稳定,而SODC变得不稳定
- 聚类质量: 随着聚类中心距离ϑ增大,RSODC的ARI值增加更明显
在乳腺癌数据上的结果:
| 方法 | ARI(XB^) | ARI(Y^) | 方差比(XB^) | 方差比(Y^) |
|---|
| RSODC | 0.406 | 0.441 | 3.038 | 3.056 |
| SODC | 0.401 | 0.363 | 2.909 | 2.660 |
- 权重参数: 当τ=0和δ=0.01时ARI最高
- 调优参数: η1,γ,ρ的不同组合对结果影响较小
- 聚类数选择: 使用gap统计量能有效确定真实聚类数
RSODC的计算时间比SODC长,特别是当n较大时,但提供了更好的聚类质量。
可视化结果显示,RSODC能够:
- 将同一聚类内的点聚集得更紧密
- 将不同聚类间的点分离得更远
- 提供更清晰的聚类边界
- 最优判别聚类(ODC): Zhang和Dai(2009)基于Fisher线性判别分析的最优评分
- 稀疏ODC(SODC): Wang等(2016)在ODC基础上添加组套索惩罚
- 凸聚类: Pelckmans等(2005)、Hocking等(2011)使用凸优化实现稳定聚类
相比现有方法,RSODC的主要优势:
- 在降维空间而非原始空间近似模型
- 使用主化函数同时处理正交约束和聚类结构
- 提供更清晰的聚类可视化效果
- RSODC通过添加凸聚类惩罚项显著改善了聚类识别准确性
- 主化函数方法有效解决了正交约束与聚类结构的同时满足问题
- 实验验证了方法在仿真和真实数据上的有效性
- 计算复杂度: 比SODC需要更多计算时间
- 参数选择: 交叉验证计算成本高昂
- 权重计算: 在原始空间计算权重可能不是最优的
- 数据分布假设: 隐式假设误差服从正态分布
- 开发更高效的参数选择方法
- 在低维空间计算权重
- 推导信息准则减少交叉验证成本
- 考虑非正态分布的扩展
- 方法创新性强: 巧妙结合凸聚类和稀疏判别分析
- 理论基础扎实: 主化函数方法理论严谨
- 实验充分: 包含5个仿真实验和真实数据验证
- 算法设计精巧: ADMM框架处理复杂约束条件
- 计算效率: 相比SODC计算成本显著增加
- 参数敏感性: 多个超参数需要调优
- 适用范围: 主要适用于小规模聚类问题
- 理论分析: 缺乏收敛性和复杂度的理论分析
- 学术贡献: 为维度缩减聚类提供新思路
- 实用价值: 适用于需要清晰聚类可视化的场景
- 可复现性: 算法描述详细,易于实现
- 高维数据的聚类分析
- 需要变量选择的聚类任务
- 要求清晰可视化的探索性数据分析
- 生物信息学和基因组学数据分析
主要参考文献包括:
- Zhang & Dai (2009): 最优判别聚类的原始工作
- Wang et al. (2016): 稀疏最优判别聚类
- Chi & Lange (2015): 凸聚类的ADMM算法
- Hunter & Lange (2004): MM算法和主化函数
总体评价: 这是一篇高质量的统计方法论文,提出的RSODC方法在理论上有创新,实验验证充分。虽然计算复杂度较高,但在聚类质量和可视化效果方面有显著改进,对维度缩减聚类领域有重要贡献。