2025-11-24T10:13:17.215092

A Geometric Condition for Uniqueness of Fréchet Means of Persistence Diagrams

Cao, Monod
The Fréchet mean is an important statistical summary and measure of centrality of data; it has been defined and studied for persistent homology captured by persistence diagrams. However, the complicated geometry of the space of persistence diagrams implies that the Fréchet mean for a given set of persistence diagrams is not necessarily unique, which prohibits theoretical guarantees for empirical means with respect to population means. In this paper, we derive a variance expression for a set of persistence diagrams exhibiting a multi-matching between the persistence points known as a grouping. Moreover, we propose a condition for groupings, which we refer to as flatness; we prove that sets of persistence diagrams that exhibit flat groupings give rise to unique Fréchet means. We derive a finite sample convergence result for general groupings, which results in convergence for Fréchet means if the groupings are flat. We then interpret flat groupings in a recently-proposed general framework of Fréchet means in Alexandrov geometry. Finally, we show that for manifold-valued data, the persistence diagrams can be truncated to construct flat groupings.
academic

Une Condition Géométrique pour l'Unicité des Moyennes de Fréchet des Diagrammes de Persistance

Informations Fondamentales

  • Identifiant de l'article : 2207.03943
  • Titre : A Geometric Condition for Uniqueness of Fréchet Means of Persistence Diagrams
  • Auteurs : Yueqi Cao, Anthea Monod (Imperial College London)
  • Classification : math.MG (Géométrie Métrique), stat.ME (Statistiques - Méthodologie)
  • Date de publication : Juillet 2022 (prépublication arXiv, mise à jour v3 en janvier 2025)
  • Lien de l'article : https://arxiv.org/abs/2207.03943

Résumé

La moyenne de Fréchet est un résumé statistique important des données et une mesure de centralité qui a été définie et étudiée pour les diagrammes de persistance en cohomologie persistante. Cependant, la structure géométrique complexe de l'espace des diagrammes de persistance implique que la moyenne de Fréchet d'un ensemble donné de diagrammes de persistance n'est pas nécessairement unique, ce qui entrave les garanties théoriques de la moyenne empirique par rapport à la moyenne de la population. Cet article dérive une expression de variance pour les ensembles de diagrammes de persistance présentant des appariements multiples entre points de persistance appelés regroupements (grouping). De plus, une condition sur les regroupements, appelée platitude (flatness), est proposée ; il est prouvé que les ensembles de diagrammes de persistance présentant des regroupements plats produisent une moyenne de Fréchet unique. Des résultats de convergence en échantillon fini pour les regroupements généraux sont dérivés, donnant lieu à la convergence de la moyenne de Fréchet lorsque le regroupement est plat. La platitude des regroupements est ensuite interprétée dans le cadre général récemment proposé pour les moyennes de Fréchet en géométrie d'Alexandrov. Enfin, il est montré que pour les données à valeurs dans une variété, on peut construire des regroupements plats en tronquant les diagrammes de persistance.

Contexte de Recherche et Motivation

Contexte du Problème

  1. Besoin d'analyse statistique de la cohomologie persistante : La cohomologie persistante, en tant que méthode importante de l'analyse topologique de données, produit principalement des diagrammes de persistance. Avec l'application généralisée de cette méthode dans divers domaines scientifiques, l'étude des propriétés statistiques des diagrammes de persistance est devenue une question centrale.
  2. Importance de la moyenne de Fréchet : La moyenne de Fréchet est une généralisation importante de la moyenne arithmétique usuelle aux espaces métriques généraux et a été définie et étudiée dans l'espace des diagrammes de persistance, servant d'outil clé pour mesurer la centralité d'un ensemble de diagrammes de persistance.
  3. Défi du problème d'unicité : En raison de la structure géométrique complexe de l'espace des diagrammes de persistance (S2,W2)(S_2, W_2) avec courbure non négative, la moyenne de Fréchet n'est généralement pas unique, ce qui limite sévèrement l'analyse théorique et les applications pratiques.

Limitations des Méthodes Existantes

  1. Absence de conditions d'unicité : Les recherches existantes supposent l'unicité de la moyenne de Fréchet pour établir des résultats de convergence, mais manquent de conditions pour déterminer quand l'unicité est garantie.
  2. Garanties théoriques insuffisantes : Impossibilité de fournir des garanties théoriques pour la moyenne de Fréchet empirique calculée à partir de données réelles.
  3. Complexité computationnelle : En raison de la non-unicité, les algorithmes existants peuvent converger vers des solutions locales sous-optimales.

Motivation de la Recherche

Cet article vise à trouver des conditions garantissant l'unicité de la moyenne de Fréchet par analyse géométrique, fournissant ainsi une base théorique solide pour l'analyse statistique des diagrammes de persistance et établissant la théorie de convergence correspondante.

Contributions Principales

  1. Introduction du concept de regroupement plat : Définition d'une condition géométrique de « regroupement plat » (flat grouping) pour les ensembles de diagrammes de persistance, qui est une condition suffisante pour garantir l'unicité de la moyenne de Fréchet.
  2. Dérivation d'expressions de variance : Dérivation d'une expression de variance exacte pour les regroupements généraux (Théorème 8), révélant l'impact de la diagonale sur la contribution à la variance.
  3. Preuve du théorème d'unicité : Preuve que les ensembles de diagrammes de persistance avec regroupements plats possèdent une moyenne de Fréchet unique (Théorème 10).
  4. Établissement de la théorie de convergence : Dérivation des taux de convergence en échantillon fini pour les regroupements généraux (Théorème 11), fournissant en particulier des garanties de convergence pour la moyenne de Fréchet des regroupements plats.
  5. Interprétation en géométrie d'Alexandrov : Réinterprétation des regroupements plats dans le cadre théorique des espaces d'Alexandrov, fournissant une intuition géométrique et des perspectives théoriques.
  6. Méthode d'application pratique : Démonstration que des regroupements plats peuvent être construits en tronquant les diagrammes de persistance, fournissant une méthode pratique pour l'approximation de la cohomologie persistante des données de variétés.

Détail des Méthodes

Définition de la Tâche

Étant donné un ensemble de diagrammes de persistance {D1,,DL}\{D_1, \ldots, D_L\}, étudier les conditions d'unicité de leur moyenne de Fréchet. La fonction de Fréchet est définie comme : F(D)=1Li=1LW22(D,Di)F(D) = \frac{1}{L}\sum_{i=1}^L W_2^2(D, D_i)W2W_2 est la distance 2-Wasserstein.

Concepts Fondamentaux

1. Regroupement (Grouping)

Définition 4 : Un regroupement GG est une matrice formelle de dimension K×LK \times L dont les éléments sont des copies de points non-diagonaux provenant de D1,,DLD_1, \ldots, D_L et de la diagonale Ω\partial\Omega. Chaque ligne est appelée une sélection (selection).

Un regroupement est essentiellement une représentation d'appariements multiples entre points de diagrammes de persistance, généralisant le concept d'appariement bijectif entre deux diagrammes de persistance.

2. Expression de Variance

Théorème 8 : Pour un regroupement GG, sa variance est : V(G)=1L2i=1K1w<LGiwGi2+i=1KLsiL2si(1w<si(Gjwi)(Gji)2)V(G) = \frac{1}{L^2}\sum_{i=1}^K \sum_{1≤w<ℓ≤L} \|G_i^w - G_i^ℓ\|^2 + \sum_{i=1}^K \frac{L-s_i}{L^2s_i}\left(\sum_{1≤w<ℓ≤s_i} \|(G_{j_w}^i)^⊤ - (G_{j_ℓ}^i)^⊤\|^2\right)

sis_i est le nombre de points non-diagonaux dans la ii-ème ligne. Le premier terme reflète la contribution des distances entre points, et le second terme illustre le rôle particulier de la diagonale.

3. Regroupement Plat

Définition 9 : Un regroupement GG est plat s'il existe λ>0λ > 0 tel que :

  • (i) Le diamètre de chaque sélection non triviale est borné : GiwGi<λ\|G_i^w - G_i^ℓ\| < λ
  • (ii) La distance entre sélections différentes est minorée : GiwGj>λ\|G_i^w - G_j^ℓ\| > λ (pour i,ji,j différents)
  • (iii) Les points non-diagonaux sont éloignés de la diagonale : GiwΩ>λ\|G_i^w - \partial\Omega\| > λ

Points d'Innovation Technique

1. Conception de la Condition Géométrique

La condition de regroupement plat équilibre astucieusement trois contraintes géométriques :

  • Compacité intra-cluster (condition i)
  • Séparation inter-cluster (condition ii)
  • Éloignement de la frontière (condition iii)

Cette conception garantit l'unicité de l'appariement optimal.

2. Technique de Décomposition de Variance

Par décomposition des points du diagramme de persistance en composantes parallèles et perpendiculaires à la diagonale, une expression de variance exacte incluant l'effet de la diagonale est calculée, ce qui représente une avancée technique importante.

3. Application de la Géométrie d'Alexandrov

L'utilisation des propriétés géométriques des espaces d'Alexandrov à courbure non négative, en particulier les concepts de cônes de Hilbert et de fonctions d'étreinte (hugging function), fournit une interprétation géométrique profonde des regroupements plats.

Configuration Expérimentale

Ensembles de Données

  1. Données circulaires : Cercle de rayon 0,5 avec 1000 points échantillonnés uniformément
  2. Données toroïdales : Tore avec rayon externe 0,8 et rayon interne 0,3, avec 10000 points échantillonnés uniformément

Conception Expérimentale

Utilisation de la méthode bootstrap :

  • Extraction de BB sous-ensembles d'échantillons X1,,XBX_1, \ldots, X_B de l'ensemble de données original XX
  • Calcul du diagramme de persistance D[Xi]D[X_i] pour chaque sous-ensemble
  • Construction d'un regroupement plat par troncature
  • Calcul de la moyenne de Fréchet des diagrammes tronqués comme approximation de D[X]D[X]

Stratégie de Troncature

Basée sur la constante de séparation de la variété λ(M)λ(M), le seuil de troncature est fixé à 12λ(M)\frac{1}{2}λ(M), supprimant les points trop proches de la diagonale pour assurer que les points restants forment un regroupement plat.

Résultats Expérimentaux

Résultats Principaux

Expérience Circulaire

  • Le diagramme de persistance 1D original contient 1 point non-diagonal principal (0.0227,0.8754)(0.0227, 0.8754) et 4 points proches de la diagonale
  • 50 sous-ensembles (chacun avec 600 points), seuil de troncature 0,2
  • Moyenne de Fréchet : (0.0395,0.8582)(0.0395, 0.8582), approximant bien le diagramme de persistance réel

Expérience Toroïdale

  • Le diagramme de persistance 1D original contient 2 points non-diagonaux principaux (0.0382,0.5220)(0.0382, 0.5220) et (0.0326,0.8884)(0.0326, 0.8884), ainsi que 478 points proches de la diagonale
  • 20 sous-ensembles (chacun avec 4000 points), seuil de troncature 0,3
  • Moyenne de Fréchet : (0.0597,0.5222)(0.0597, 0.5222) et (0.0537,0.8887)(0.0537, 0.8887), préservant précisément les caractéristiques topologiques du tore

Découvertes Expérimentales

  1. Efficacité de la troncature : La troncature appropriée peut construire avec succès des regroupements plats
  2. Qualité de l'approximation : La moyenne de Fréchet après troncature approxime bien les caractéristiques topologiques principales du diagramme de persistance original
  3. Stabilité computationnelle : Le regroupement plat garantit l'unicité de la moyenne de Fréchet, évitant la convergence de l'algorithme vers différentes solutions locales sous-optimales

Travaux Connexes

Statistiques de la Cohomologie Persistante

  1. Théorie de la moyenne de Fréchet : Mileyko et al. (2011) ont d'abord défini la moyenne de Fréchet des diagrammes de persistance, Turner et al. (2014) ont établi des résultats de convergence sous l'hypothèse d'unicité
  2. Algorithmes computationnels : Turner et al. (2014) ont proposé un algorithme glouton, Lacombe et al. (2018) ont développé des algorithmes basés sur le transport optimal
  3. Approches probabilistes : Munch et al. (2015) ont introduit la moyenne de Fréchet probabiliste pour traiter les diagrammes de persistance variant dans le temps

Géométrie d'Alexandrov

  1. Théorie générale : Le Gouic et al. (2022) ont établi une théorie générale de convergence des moyennes de Fréchet empiriques dans les espaces d'Alexandrov
  2. Exemples d'application : Cette théorie a été appliquée avec succès à plusieurs domaines, notamment les barycentres de distributions gaussiennes et les modèles de déformation de modèles
  3. Propriétés géométriques : Turner et al. (2014) ont prouvé que (S2,W2)(S_2, W_2) est un espace d'Alexandrov à courbure non négative

Contribution de cet Article

Par rapport aux travaux existants, cet article fournit pour la première fois une condition géométrique pour l'unicité de la moyenne de Fréchet des diagrammes de persistance, comblant un vide théorique et fournissant une nouvelle compréhension dans le cadre de la géométrie d'Alexandrov.

Conclusion et Discussion

Conclusions Principales

  1. Contribution théorique : Le regroupement plat fournit une condition géométrique vérifiable pour l'unicité de la moyenne de Fréchet des diagrammes de persistance
  2. Théorie de convergence : Établissement d'un taux de convergence en échantillon fini incluant une borne de variance E[W22(Dˉ,D)]σ2/BE[W_2^2(\bar{D}, D^*)] ≤ σ^2/B
  3. Méthode pratique : La technique de troncature fournit un moyen viable de construire des regroupements plats pour les applications pratiques

Limitations

  1. Restrictivité de la condition : La condition de regroupement plat est relativement stricte et peut ne pas s'appliquer à tous les ensembles de diagrammes de persistance
  2. Perte de troncature : Le processus de troncature peut perdre des informations topologiques importantes
  3. Sélection de paramètres : Le choix du seuil de troncature nécessite des connaissances préalables ou des méthodes heuristiques

Directions Futures

  1. Troncature adaptative : Développement de méthodes de troncature adaptative basées sur des intervalles de confiance statistiques, équilibrant la préservation du signal et la construction de platitude
  2. Recherche sur la médiane : Extension de la théorie à la médiane de Fréchet des diagrammes de persistance, nécessitant l'étude des propriétés géométriques de l'espace (S1,W1)(S_1, W_1)
  3. Moyenne de Fréchet généralisée c : Étude de l'application de la théorie générale de la moyenne de Fréchet c aux espaces de diagrammes de persistance

Évaluation Approfondie

Points Forts

  1. Innovation théorique : Première solution géométrique complète au problème d'unicité de la moyenne de Fréchet des diagrammes de persistance
  2. Rigueur mathématique : Preuves complètes et rigoureuses, dérivation détaillée des expressions de variance, intuition géométrique claire
  3. Valeur pratique : La méthode de troncature fournit un algorithme d'approximation théoriquement fondé pour l'analyse de la cohomologie persistante de données à grande échelle
  4. Intégration interdisciplinaire : Combinaison réussie des outils théoriques de l'analyse topologique de données, de la géométrie métrique et de la statistique

Insuffisances

  1. Limitation de la portée d'application : La condition de regroupement plat est relativement stricte et peut être difficile à satisfaire dans les données réelles
  2. Simplification de la stratégie de troncature : La méthode de troncature actuelle est relativement grossière et peut nécessiter une stratégie de préservation du signal plus fine
  3. Complexité computationnelle : L'article n'analyse pas en détail la complexité computationnelle de la vérification de la platitude et de la sélection des paramètres de troncature

Impact

  1. Impact théorique : Établissement d'une base importante pour la théorie statistique de la cohomologie persistante, devant stimuler le développement de théories connexes
  2. Perspectives d'application : Fournit une méthode théoriquement garantie pour l'analyse topologique de données à grande échelle, avec un large potentiel d'application
  3. Contribution méthodologique : Le paradigme de recherche combinant conditions géométriques et propriétés statistiques peut être généralisé à d'autres espaces métriques

Scénarios d'Application

  1. Apprentissage de variétés : Applicable à l'extraction et l'analyse de caractéristiques topologiques de données échantillonnées à partir de variétés
  2. Analyse topologique de séries temporelles : Peut être utilisé pour la modélisation statistique de structures topologiques variant dans le temps
  3. Calcul topologique à grande échelle : Fournit des directives théoriques pour l'approximation de la cohomologie persistante dans les cas de ressources computationnelles limitées

Références

  1. Turner, K., Mileyko, Y., Mukherjee, S., & Harer, J. (2014). Fréchet means for distributions of persistence diagrams. Discrete & Computational Geometry, 52(1), 44-70.
  2. Le Gouic, T., Paris, Q., Rigollet, P., & Stromme, A. J. (2022). Fast convergence of empirical barycenters in alexandrov spaces and the wasserstein space. Journal of the European Mathematical Society, 25(6), 2229-2250.
  3. Mileyko, Y., Mukherjee, S., & Harer, J. (2011). Probability measures on the space of persistence diagrams. Inverse Problems, 27(12), 124007.
  4. Munch, E., Turner, K., Bendich, P., Mukherjee, S., Mattingly, J., & Harer, J. (2015). Probabilistic Fréchet means for time varying persistence diagrams. Electronic Journal of Statistics, 9(1), 1173-1204.

Note : Cet article constitue une contribution théorique importante dans le domaine interdisciplinaire de l'analyse topologique de données et de la géométrie métrique, fournissant une base mathématique solide pour les applications statistiques de la cohomologie persistante. Le concept de regroupement plat proposé et le cadre théorique correspondant devraient avoir un impact profond sur ce domaine.