The Fréchet mean is an important statistical summary and measure of centrality of data; it has been defined and studied for persistent homology captured by persistence diagrams. However, the complicated geometry of the space of persistence diagrams implies that the Fréchet mean for a given set of persistence diagrams is not necessarily unique, which prohibits theoretical guarantees for empirical means with respect to population means. In this paper, we derive a variance expression for a set of persistence diagrams exhibiting a multi-matching between the persistence points known as a grouping. Moreover, we propose a condition for groupings, which we refer to as flatness; we prove that sets of persistence diagrams that exhibit flat groupings give rise to unique Fréchet means. We derive a finite sample convergence result for general groupings, which results in convergence for Fréchet means if the groupings are flat. We then interpret flat groupings in a recently-proposed general framework of Fréchet means in Alexandrov geometry. Finally, we show that for manifold-valued data, the persistence diagrams can be truncated to construct flat groupings.
- 论文ID: 2207.03943
- 标题: A Geometric Condition for Uniqueness of Fréchet Means of Persistence Diagrams
- 作者: Yueqi Cao, Anthea Monod (Imperial College London)
- 分类: math.MG (Metric Geometry), stat.ME (Statistics - Methodology)
- 发表时间: 2022年7月 (arXiv预印本,2025年1月更新至v3版本)
- 论文链接: https://arxiv.org/abs/2207.03943
Fréchet均值是数据的重要统计摘要和中心性度量,已被定义并研究用于持续同调中的持续图。然而,持续图空间的复杂几何结构意味着给定持续图集合的Fréchet均值不一定唯一,这阻碍了经验均值相对于总体均值的理论保证。本文推导了表现出称为分组(grouping)的持续点间多匹配的持续图集合的方差表达式。此外,提出了分组的一个条件,称为平坦性(flatness);证明了表现出平坦分组的持续图集合产生唯一的Fréchet均值。推导了一般分组的有限样本收敛结果,当分组是平坦的时候可得到Fréchet均值的收敛性。然后在最近提出的Alexandrov几何中Fréchet均值的一般框架中解释平坦分组。最后,展示了对于流形值数据,可以通过截断持续图来构造平坦分组。
- 持续同调的统计分析需求:持续同调作为拓扑数据分析的重要方法,其主要输出是持续图。随着该方法在各科学领域的广泛应用,对持续图的统计性质研究成为核心问题。
- Fréchet均值的重要性:Fréchet均值是将通常的算术均值推广到一般度量空间的重要统计量,在持续图空间中已被定义和研究,是衡量持续图集合中心性的关键工具。
- 唯一性问题的挑战:由于持续图空间(S2,W2)具有非负曲率的复杂几何结构,Fréchet均值通常不唯一,这严重限制了理论分析和实际应用。
- 缺乏唯一性条件:现有研究假设Fréchet均值唯一性来建立收敛结果,但缺乏判断何时唯一的条件。
- 理论保证不足:无法对从真实数据计算的经验Fréchet均值提供理论保证。
- 计算复杂性:由于非唯一性,现有算法可能收敛到局部最优解。
本文旨在通过几何分析找到保证Fréchet均值唯一性的条件,从而为持续图的统计分析提供坚实的理论基础,并建立相应的收敛理论。
- 提出平坦分组概念:定义了持续图集合的"平坦分组"(flat grouping)几何条件,这是保证Fréchet均值唯一性的充分条件。
- 推导方差表达式:为一般分组推导了精确的方差表达式(定理8),揭示了对角线对方差贡献的影响。
- 证明唯一性定理:证明了具有平坦分组的持续图集合具有唯一的Fréchet均值(定理10)。
- 建立收敛理论:推导了一般分组的有限样本收敛率(定理11),特别地,为平坦分组的Fréchet均值提供了收敛保证。
- Alexandrov几何解释:在Alexandrov空间理论框架下重新解释平坦分组,提供了几何直觉和理论洞察。
- 实际应用方法:展示了通过截断持续图可以构造平坦分组,为流形数据的持续同调近似提供了实用方法。
给定持续图集合{D1,…,DL},研究其Fréchet均值的唯一性条件。Fréchet函数定义为:
F(D)=L1∑i=1LW22(D,Di)
其中W2是2-Wasserstein距离。
定义4:分组G是一个K×L的形式矩阵,其元素是来自D1,…,DL的非对角点和对角线∂Ω的副本。每行称为一个选择(selection)。
分组本质上是持续图间点的多匹配表示,推广了两个持续图间的双射匹配概念。
定理8:对于分组G,其方差为:
V(G)=L21∑i=1K∑1≤w<ℓ≤L∥Giw−Giℓ∥2+∑i=1KL2siL−si(∑1≤w<ℓ≤si∥(Gjwi)⊤−(Gjℓi)⊤∥2)
其中si是第i行中非对角点的数量。第一项反映点间距离贡献,第二项体现对角线的特殊作用。
定义9:分组G是平坦的,如果存在λ>0使得:
- (i) 每个非平凡选择的直径有界:∥Giw−Giℓ∥<λ
- (ii) 不同选择间距离有下界:∥Giw−Gjℓ∥>λ (对不同的i,j)
- (iii) 非对角点远离对角线:∥Giw−∂Ω∥>λ
平坦分组条件巧妙地平衡了三个几何约束:
- 聚类内紧致性(条件i)
- 聚类间分离性(条件ii)
- 远离边界性(条件iii)
这种设计确保了最优匹配的唯一性。
通过将持续图点分解为平行和垂直对角线的分量,精确计算了包含对角线影响的方差表达式,这是技术上的重要突破。
利用非负曲率Alexandrov空间的几何性质,特别是Hilbert子锥和拥抱函数(hugging function)的概念,为平坦分组提供了深层几何解释。
- 圆形数据:半径0.5的圆,1000个均匀采样点
- 环面数据:外半径0.8、内半径0.3的环面,10000个均匀采样点
采用bootstrap方法:
- 从原数据集X中抽取B个子样本集X1,…,XB
- 计算每个子样本的持续图D[Xi]
- 通过截断构造平坦分组
- 计算截断持续图的Fréchet均值作为D[X]的近似
基于流形的分离常数λ(M),设定截断阈值21λ(M),移除距对角线过近的点,确保剩余点形成平坦分组。
- 原始1维持续图包含1个主要非对角点(0.0227,0.8754)和4个近对角线点
- 50个子样本(每个600点),截断阈值0.2
- Fréchet均值:(0.0395,0.8582),很好地近似了真实持续图
- 原始1维持续图包含2个主要非对角点(0.0382,0.5220)和(0.0326,0.8884),以及478个近对角线点
- 20个子样本(每个4000点),截断阈值0.3
- Fréchet均值:(0.0597,0.5222)和(0.0537,0.8887),准确保持了环面的拓扑特征
- 截断有效性:通过适当截断可以成功构造平坦分组
- 近似质量:截断后的Fréchet均值能够很好地近似原始持续图的主要拓扑特征
- 计算稳定性:平坦分组保证了Fréchet均值的唯一性,避免了算法收敛到不同局部最优解的问题
- Fréchet均值理论:Mileyko等(2011)首次定义持续图的Fréchet均值,Turner等(2014)建立了假设唯一性下的收敛结果
- 计算算法:Turner等(2014)提出贪心算法,Lacombe等(2018)开发了基于最优传输的算法
- 概率化方法:Munch等(2015)引入概率Fréchet均值处理时变持续图
- 一般理论:Le Gouic等(2022)建立了Alexandrov空间中经验Fréchet均值的一般收敛理论
- 应用实例:该理论已成功应用于高斯分布重心、模板变形模型等多个领域
- 几何性质:Turner等(2014)证明了(S2,W2)是非负曲率的Alexandrov空间
相比现有工作,本文首次提供了持续图Fréchet均值唯一性的几何条件,填补了理论空白,并在Alexandrov几何框架下提供了新的理解。
- 理论贡献:平坦分组为持续图Fréchet均值的唯一性提供了可验证的几何条件
- 收敛理论:建立了包含方差界的有限样本收敛率E[W22(Dˉ,D∗)]≤σ2/B
- 实用方法:截断技术为实际应用提供了构造平坦分组的可行途径
- 条件限制性:平坦分组条件相对严格,可能不适用于所有持续图集合
- 截断损失:截断过程可能丢失重要的拓扑信息
- 参数选择:截断阈值的选择需要先验知识或启发式方法
- 自适应截断:开发基于统计置信区间的自适应截断方法,平衡信号保持与平坦性构造
- 中位数研究:将理论扩展到持续图的Fréchet中位数,需要研究(S1,W1)空间的几何性质
- 广义c-Fréchet均值:研究更一般的c-Fréchet均值理论在持续图空间的应用
- 理论创新性:首次为持续图Fréchet均值唯一性问题提供了完整的几何解决方案
- 数学严谨性:证明完整严密,方差表达式推导详细,几何直觉清晰
- 实用价值:截断方法为大规模数据的持续同调分析提供了理论支撑的近似算法
- 跨学科整合:成功结合了拓扑数据分析、度量几何和统计学的理论工具
- 适用范围限制:平坦分组条件较为严格,实际数据中可能难以满足
- 截断策略简化:当前的截断方法相对粗糙,可能需要更精细的信号保持策略
- 计算复杂度:文中未详细分析平坦性验证和截断参数选择的计算复杂度
- 理论影响:为持续同调统计理论奠定了重要基础,预期将推动相关理论发展
- 应用前景:为大规模拓扑数据分析提供了理论保证的方法,具有广泛应用潜力
- 方法论贡献:几何条件与统计性质结合的研究范式可推广到其他度量空间
- 流形学习:适用于从流形采样数据的拓扑特征提取和分析
- 时序拓扑分析:可用于时变拓扑结构的统计建模
- 大规模拓扑计算:为计算资源有限情况下的持续同调近似提供理论指导
- Turner, K., Mileyko, Y., Mukherjee, S., & Harer, J. (2014). Fréchet means for distributions of persistence diagrams. Discrete & Computational Geometry, 52(1), 44-70.
- Le Gouic, T., Paris, Q., Rigollet, P., & Stromme, A. J. (2022). Fast convergence of empirical barycenters in alexandrov spaces and the wasserstein space. Journal of the European Mathematical Society, 25(6), 2229-2250.
- Mileyko, Y., Mukherjee, S., & Harer, J. (2011). Probability measures on the space of persistence diagrams. Inverse Problems, 27(12), 124007.
- Munch, E., Turner, K., Bendich, P., Mukherjee, S., Mattingly, J., & Harer, J. (2015). Probabilistic Fréchet means for time varying persistence diagrams. Electronic Journal of Statistics, 9(1), 1173-1204.
注:本论文为拓扑数据分析和度量几何交叉领域的重要理论贡献,为持续同调的统计应用提供了坚实的数学基础。其提出的平坦分组概念和相应的理论框架预期将对该领域产生深远影响。