2025-11-24T10:13:17.215092

A Geometric Condition for Uniqueness of Fréchet Means of Persistence Diagrams

Cao, Monod
The Fréchet mean is an important statistical summary and measure of centrality of data; it has been defined and studied for persistent homology captured by persistence diagrams. However, the complicated geometry of the space of persistence diagrams implies that the Fréchet mean for a given set of persistence diagrams is not necessarily unique, which prohibits theoretical guarantees for empirical means with respect to population means. In this paper, we derive a variance expression for a set of persistence diagrams exhibiting a multi-matching between the persistence points known as a grouping. Moreover, we propose a condition for groupings, which we refer to as flatness; we prove that sets of persistence diagrams that exhibit flat groupings give rise to unique Fréchet means. We derive a finite sample convergence result for general groupings, which results in convergence for Fréchet means if the groupings are flat. We then interpret flat groupings in a recently-proposed general framework of Fréchet means in Alexandrov geometry. Finally, we show that for manifold-valued data, the persistence diagrams can be truncated to construct flat groupings.
academic

Una Condición Geométrica para la Unicidad de las Medias de Fréchet de Diagramas de Persistencia

Información Básica

  • ID del Artículo: 2207.03943
  • Título: Una Condición Geométrica para la Unicidad de las Medias de Fréchet de Diagramas de Persistencia
  • Autores: Yueqi Cao, Anthea Monod (Imperial College London)
  • Clasificación: math.MG (Geometría Métrica), stat.ME (Estadística - Metodología)
  • Fecha de Publicación: Julio de 2022 (preimpresión en arXiv, actualizado a v3 en enero de 2025)
  • Enlace del Artículo: https://arxiv.org/abs/2207.03943

Resumen

La media de Fréchet es un resumen estadístico importante de los datos y una medida de centralidad que ha sido definida e investigada para diagramas de persistencia en cohomología persistente. Sin embargo, la compleja estructura geométrica del espacio de diagramas de persistencia implica que la media de Fréchet de un conjunto dado de diagramas de persistencia no es necesariamente única, lo que obstaculiza las garantías teóricas de la media empírica respecto a la media poblacional. Este artículo deriva expresiones de varianza para conjuntos de diagramas de persistencia que exhiben emparejamientos múltiples entre puntos de persistencia denominados agrupamientos (grouping). Además, se propone una condición sobre agrupamientos llamada planitud (flatness); se demuestra que los conjuntos de diagramas de persistencia que exhiben agrupamientos planos producen una media de Fréchet única. Se derivan resultados de convergencia en muestras finitas para agrupamientos generales, obteniéndose convergencia de la media de Fréchet cuando el agrupamiento es plano. Posteriormente, se interpreta el agrupamiento plano dentro del marco general recientemente propuesto para medias de Fréchet en geometría de Alexandrov. Finalmente, se demuestra que para datos con valores en variedades, es posible construir agrupamientos planos mediante truncamiento de diagramas de persistencia.

Antecedentes de Investigación y Motivación

Contexto del Problema

  1. Necesidad de análisis estadístico de cohomología persistente: La cohomología persistente como método importante del análisis topológico de datos tiene como salida principal los diagramas de persistencia. Con la aplicación generalizada de este método en diversos campos científicos, el estudio de las propiedades estadísticas de los diagramas de persistencia se ha convertido en un problema central.
  2. Importancia de la media de Fréchet: La media de Fréchet es una cantidad estadística importante que generaliza la media aritmética usual a espacios métricos generales. Ha sido definida e investigada en el espacio de diagramas de persistencia y es una herramienta clave para medir la centralidad en conjuntos de diagramas de persistencia.
  3. Desafío del problema de unicidad: Debido a la compleja estructura geométrica del espacio de diagramas de persistencia (S2,W2)(S_2, W_2) con curvatura no negativa, la media de Fréchet típicamente no es única, lo que limita severamente el análisis teórico y las aplicaciones prácticas.

Limitaciones de los Métodos Existentes

  1. Falta de condiciones de unicidad: La investigación existente asume la unicidad de la media de Fréchet para establecer resultados de convergencia, pero carece de condiciones para determinar cuándo es única.
  2. Garantías teóricas insuficientes: No es posible proporcionar garantías teóricas para la media de Fréchet empírica calculada a partir de datos reales.
  3. Complejidad computacional: Debido a la no unicidad, los algoritmos existentes pueden converger a soluciones óptimas locales.

Motivación de la Investigación

Este artículo tiene como objetivo encontrar condiciones que garanticen la unicidad de la media de Fréchet mediante análisis geométrico, proporcionando así una base teórica sólida para el análisis estadístico de diagramas de persistencia y estableciendo la teoría de convergencia correspondiente.

Contribuciones Principales

  1. Propuesta del concepto de agrupamiento plano: Se define la condición geométrica de "agrupamiento plano" (flat grouping) para conjuntos de diagramas de persistencia, que es una condición suficiente para garantizar la unicidad de la media de Fréchet.
  2. Derivación de expresiones de varianza: Se derivan expresiones de varianza exactas para agrupamientos generales (Teorema 8), revelando el impacto de la contribución de la diagonal a la varianza.
  3. Demostración del teorema de unicidad: Se demuestra que los conjuntos de diagramas de persistencia con agrupamiento plano poseen una media de Fréchet única (Teorema 10).
  4. Establecimiento de teoría de convergencia: Se derivan tasas de convergencia en muestras finitas para agrupamientos generales (Teorema 11), proporcionando en particular garantías de convergencia para la media de Fréchet de agrupamientos planos.
  5. Interpretación en geometría de Alexandrov: Se reinterpreta el agrupamiento plano dentro del marco de la teoría de espacios de Alexandrov, proporcionando intuición geométrica e ideas teóricas.
  6. Método de aplicación práctica: Se demuestra que mediante el truncamiento de diagramas de persistencia es posible construir agrupamientos planos, proporcionando un método práctico para la aproximación de cohomología persistente de datos en variedades.

Explicación Detallada de Métodos

Definición de la Tarea

Dado un conjunto de diagramas de persistencia {D1,,DL}\{D_1, \ldots, D_L\}, se estudian las condiciones de unicidad de su media de Fréchet. La función de Fréchet se define como: F(D)=1Li=1LW22(D,Di)F(D) = \frac{1}{L}\sum_{i=1}^L W_2^2(D, D_i) donde W2W_2 es la distancia 2-Wasserstein.

Conceptos Principales

1. Agrupamiento (Grouping)

Definición 4: Un agrupamiento GG es una matriz formal de tamaño K×LK \times L cuyos elementos son copias de puntos no diagonales de D1,,DLD_1, \ldots, D_L y de la diagonal Ω\partial\Omega. Cada fila se denomina una selección (selection).

El agrupamiento es esencialmente una representación de emparejamientos múltiples entre puntos de diagramas de persistencia, generalizando el concepto de emparejamiento biyectivo entre dos diagramas de persistencia.

2. Expresión de Varianza

Teorema 8: Para un agrupamiento GG, su varianza es: V(G)=1L2i=1K1w<LGiwGi2+i=1KLsiL2si(1w<si(Gjwi)(Gji)2)V(G) = \frac{1}{L^2}\sum_{i=1}^K \sum_{1≤w<ℓ≤L} \|G_i^w - G_i^ℓ\|^2 + \sum_{i=1}^K \frac{L-s_i}{L^2s_i}\left(\sum_{1≤w<ℓ≤s_i} \|(G_{j_w}^i)^⊤ - (G_{j_ℓ}^i)^⊤\|^2\right)

donde sis_i es el número de puntos no diagonales en la fila ii. El primer término refleja la contribución de distancias entre puntos, y el segundo término refleja el papel especial de la diagonal.

3. Agrupamiento Plano

Definición 9: Un agrupamiento GG es plano si existe λ>0λ > 0 tal que:

  • (i) El diámetro de cada selección no trivial está acotado: GiwGi<λ\|G_i^w - G_i^ℓ\| < λ
  • (ii) La distancia entre selecciones diferentes tiene una cota inferior: GiwGj>λ\|G_i^w - G_j^ℓ\| > λ (para i,ji,j diferentes)
  • (iii) Los puntos no diagonales están alejados de la diagonal: GiwΩ>λ\|G_i^w - \partial\Omega\| > λ

Puntos de Innovación Técnica

1. Diseño de Condiciones Geométricas

La condición de agrupamiento plano equilibra ingeniosamente tres restricciones geométricas:

  • Compacidad intraclúster (condición i)
  • Separabilidad interclúster (condición ii)
  • Alejamiento de la frontera (condición iii)

Este diseño asegura la unicidad del emparejamiento óptimo.

2. Técnica de Descomposición de Varianza

Mediante la descomposición de puntos de diagramas de persistencia en componentes paralelos y perpendiculares a la diagonal, se calcula exactamente la expresión de varianza que incluye el impacto de la diagonal, lo que constituye un avance técnico importante.

3. Aplicación de Geometría de Alexandrov

Se utilizan las propiedades geométricas de espacios de Alexandrov con curvatura no negativa, en particular los conceptos de conos de Hilbert y funciones de abrazo (hugging function), para proporcionar una interpretación geométrica profunda del agrupamiento plano.

Configuración Experimental

Conjuntos de Datos

  1. Datos circulares: Círculo de radio 0.5, 1000 puntos muestreados uniformemente
  2. Datos de toro: Toro con radio exterior 0.8 y radio interior 0.3, 10000 puntos muestreados uniformemente

Diseño Experimental

Se utiliza el método bootstrap:

  • Se extraen BB subconjuntos de muestras X1,,XBX_1, \ldots, X_B del conjunto de datos original XX
  • Se calcula el diagrama de persistencia D[Xi]D[X_i] para cada submuestra
  • Se construye un agrupamiento plano mediante truncamiento
  • Se calcula la media de Fréchet de los diagramas de persistencia truncados como aproximación de D[X]D[X]

Estrategia de Truncamiento

Basándose en la constante de separación de la variedad λ(M)λ(M), se establece el umbral de truncamiento en 12λ(M)\frac{1}{2}λ(M), eliminando puntos demasiado cercanos a la diagonal, asegurando que los puntos restantes formen un agrupamiento plano.

Resultados Experimentales

Resultados Principales

Experimento Circular

  • El diagrama de persistencia 1-dimensional original contiene 1 punto no diagonal principal (0.0227,0.8754)(0.0227, 0.8754) y 4 puntos cercanos a la diagonal
  • 50 submuestras (cada una con 600 puntos), umbral de truncamiento 0.2
  • Media de Fréchet: (0.0395,0.8582)(0.0395, 0.8582), aproxima bien el diagrama de persistencia verdadero

Experimento de Toro

  • El diagrama de persistencia 1-dimensional original contiene 2 puntos no diagonales principales (0.0382,0.5220)(0.0382, 0.5220) y (0.0326,0.8884)(0.0326, 0.8884), así como 478 puntos cercanos a la diagonal
  • 20 submuestras (cada una con 4000 puntos), umbral de truncamiento 0.3
  • Media de Fréchet: (0.0597,0.5222)(0.0597, 0.5222) y (0.0537,0.8887)(0.0537, 0.8887), preserva con precisión las características topológicas del toro

Hallazgos Experimentales

  1. Efectividad del truncamiento: El truncamiento apropiado puede construir exitosamente agrupamientos planos
  2. Calidad de aproximación: La media de Fréchet después del truncamiento aproxima bien las características topológicas principales del diagrama de persistencia original
  3. Estabilidad computacional: El agrupamiento plano garantiza la unicidad de la media de Fréchet, evitando que el algoritmo converja a diferentes soluciones óptimas locales

Trabajo Relacionado

Estadística de Cohomología Persistente

  1. Teoría de media de Fréchet: Mileyko et al. (2011) definieron por primera vez la media de Fréchet de diagramas de persistencia; Turner et al. (2014) establecieron resultados de convergencia bajo el supuesto de unicidad
  2. Algoritmos computacionales: Turner et al. (2014) propusieron un algoritmo codicioso; Lacombe et al. (2018) desarrollaron algoritmos basados en transporte óptimo
  3. Enfoques probabilísticos: Munch et al. (2015) introdujeron la media de Fréchet probabilística para diagramas de persistencia que varían en el tiempo

Geometría de Alexandrov

  1. Teoría general: Le Gouic et al. (2022) establecieron la teoría general de convergencia de medias de Fréchet empíricas en espacios de Alexandrov
  2. Ejemplos de aplicación: Esta teoría se ha aplicado exitosamente a múltiples campos incluyendo baricentros de distribuciones gaussianas y modelos de deformación de plantillas
  3. Propiedades geométricas: Turner et al. (2014) demostraron que (S2,W2)(S_2, W_2) es un espacio de Alexandrov con curvatura no negativa

Contribución de Este Artículo

En comparación con trabajos existentes, este artículo proporciona por primera vez una condición geométrica verificable para la unicidad de la media de Fréchet de diagramas de persistencia, llenando un vacío teórico y proporcionando una nueva comprensión dentro del marco de la geometría de Alexandrov.

Conclusiones y Discusión

Conclusiones Principales

  1. Contribución teórica: El agrupamiento plano proporciona una condición geométrica verificable para la unicidad de la media de Fréchet de diagramas de persistencia
  2. Teoría de convergencia: Se establece una tasa de convergencia en muestras finitas incluyendo cotas de varianza E[W22(Dˉ,D)]σ2/BE[W_2^2(\bar{D}, D^*)] ≤ σ^2/B
  3. Método práctico: La técnica de truncamiento proporciona un camino viable para construir agrupamientos planos en aplicaciones prácticas

Limitaciones

  1. Restrictividad de la condición: La condición de agrupamiento plano es relativamente estricta y puede no aplicarse a todos los conjuntos de diagramas de persistencia
  2. Pérdida por truncamiento: El proceso de truncamiento puede perder información topológica importante
  3. Selección de parámetros: La elección del umbral de truncamiento requiere conocimiento previo o métodos heurísticos

Direcciones Futuras

  1. Truncamiento adaptativo: Desarrollar métodos de truncamiento adaptativo basados en intervalos de confianza estadísticos, equilibrando la preservación de señal y la construcción de planitud
  2. Investigación de medianas: Extender la teoría a la mediana de Fréchet de diagramas de persistencia, requiriendo investigación de las propiedades geométricas del espacio (S1,W1)(S_1, W_1)
  3. Media de Fréchet c-generalizada: Investigar la aplicación de la teoría de media de Fréchet c-generalizada más general en el espacio de diagramas de persistencia

Evaluación Profunda

Fortalezas

  1. Innovación teórica: Proporciona por primera vez una solución geométrica completa para el problema de unicidad de la media de Fréchet de diagramas de persistencia
  2. Rigor matemático: Las demostraciones son completas y rigurosas, la derivación de expresiones de varianza es detallada y la intuición geométrica es clara
  3. Valor práctico: El método de truncamiento proporciona un algoritmo de aproximación teóricamente respaldado para el análisis de cohomología persistente de datos a gran escala
  4. Integración interdisciplinaria: Integra exitosamente herramientas teóricas del análisis topológico de datos, geometría métrica y estadística

Insuficiencias

  1. Limitación del rango de aplicabilidad: La condición de agrupamiento plano es relativamente restrictiva y puede ser difícil de satisfacer en datos reales
  2. Simplificación de la estrategia de truncamiento: El método de truncamiento actual es relativamente tosco y puede requerir estrategias más refinadas de preservación de señal
  3. Complejidad computacional: El artículo no analiza en detalle la complejidad computacional de la verificación de planitud y la selección de parámetros de truncamiento

Impacto

  1. Impacto teórico: Sienta una base importante para la teoría estadística de cohomología persistente, se espera que impulse el desarrollo de teoría relacionada
  2. Perspectivas de aplicación: Proporciona métodos teóricamente garantizados para análisis topológico de datos a gran escala, con amplio potencial de aplicación
  3. Contribución metodológica: El paradigma de investigación que combina condiciones geométricas con propiedades estadísticas puede generalizarse a otros espacios métricos

Escenarios Aplicables

  1. Aprendizaje de variedades: Aplicable a la extracción y análisis de características topológicas de datos muestreados de variedades
  2. Análisis topológico de series temporales: Puede utilizarse para modelado estadístico de estructuras topológicas que varían en el tiempo
  3. Cálculo topológico a gran escala: Proporciona orientación teórica para aproximación de cohomología persistente en situaciones con recursos computacionales limitados

Referencias

  1. Turner, K., Mileyko, Y., Mukherjee, S., & Harer, J. (2014). Fréchet means for distributions of persistence diagrams. Discrete & Computational Geometry, 52(1), 44-70.
  2. Le Gouic, T., Paris, Q., Rigollet, P., & Stromme, A. J. (2022). Fast convergence of empirical barycenters in alexandrov spaces and the wasserstein space. Journal of the European Mathematical Society, 25(6), 2229-2250.
  3. Mileyko, Y., Mukherjee, S., & Harer, J. (2011). Probability measures on the space of persistence diagrams. Inverse Problems, 27(12), 124007.
  4. Munch, E., Turner, K., Bendich, P., Mukherjee, S., Mattingly, J., & Harer, J. (2015). Probabilistic Fréchet means for time varying persistence diagrams. Electronic Journal of Statistics, 9(1), 1173-1204.

Nota: Este artículo es una contribución teórica importante en el campo interdisciplinario del análisis topológico de datos y la geometría métrica, proporcionando una base matemática sólida para las aplicaciones estadísticas de la cohomología persistente. Se espera que el concepto de agrupamiento plano propuesto y el marco teórico correspondiente tengan un impacto profundo en este campo.