The Fréchet mean is an important statistical summary and measure of centrality of data; it has been defined and studied for persistent homology captured by persistence diagrams. However, the complicated geometry of the space of persistence diagrams implies that the Fréchet mean for a given set of persistence diagrams is not necessarily unique, which prohibits theoretical guarantees for empirical means with respect to population means. In this paper, we derive a variance expression for a set of persistence diagrams exhibiting a multi-matching between the persistence points known as a grouping. Moreover, we propose a condition for groupings, which we refer to as flatness; we prove that sets of persistence diagrams that exhibit flat groupings give rise to unique Fréchet means. We derive a finite sample convergence result for general groupings, which results in convergence for Fréchet means if the groupings are flat. We then interpret flat groupings in a recently-proposed general framework of Fréchet means in Alexandrov geometry. Finally, we show that for manifold-valued data, the persistence diagrams can be truncated to construct flat groupings.
- ID del Artículo: 2207.03943
- Título: Una Condición Geométrica para la Unicidad de las Medias de Fréchet de Diagramas de Persistencia
- Autores: Yueqi Cao, Anthea Monod (Imperial College London)
- Clasificación: math.MG (Geometría Métrica), stat.ME (Estadística - Metodología)
- Fecha de Publicación: Julio de 2022 (preimpresión en arXiv, actualizado a v3 en enero de 2025)
- Enlace del Artículo: https://arxiv.org/abs/2207.03943
La media de Fréchet es un resumen estadístico importante de los datos y una medida de centralidad que ha sido definida e investigada para diagramas de persistencia en cohomología persistente. Sin embargo, la compleja estructura geométrica del espacio de diagramas de persistencia implica que la media de Fréchet de un conjunto dado de diagramas de persistencia no es necesariamente única, lo que obstaculiza las garantías teóricas de la media empírica respecto a la media poblacional. Este artículo deriva expresiones de varianza para conjuntos de diagramas de persistencia que exhiben emparejamientos múltiples entre puntos de persistencia denominados agrupamientos (grouping). Además, se propone una condición sobre agrupamientos llamada planitud (flatness); se demuestra que los conjuntos de diagramas de persistencia que exhiben agrupamientos planos producen una media de Fréchet única. Se derivan resultados de convergencia en muestras finitas para agrupamientos generales, obteniéndose convergencia de la media de Fréchet cuando el agrupamiento es plano. Posteriormente, se interpreta el agrupamiento plano dentro del marco general recientemente propuesto para medias de Fréchet en geometría de Alexandrov. Finalmente, se demuestra que para datos con valores en variedades, es posible construir agrupamientos planos mediante truncamiento de diagramas de persistencia.
- Necesidad de análisis estadístico de cohomología persistente: La cohomología persistente como método importante del análisis topológico de datos tiene como salida principal los diagramas de persistencia. Con la aplicación generalizada de este método en diversos campos científicos, el estudio de las propiedades estadísticas de los diagramas de persistencia se ha convertido en un problema central.
- Importancia de la media de Fréchet: La media de Fréchet es una cantidad estadística importante que generaliza la media aritmética usual a espacios métricos generales. Ha sido definida e investigada en el espacio de diagramas de persistencia y es una herramienta clave para medir la centralidad en conjuntos de diagramas de persistencia.
- Desafío del problema de unicidad: Debido a la compleja estructura geométrica del espacio de diagramas de persistencia (S2,W2) con curvatura no negativa, la media de Fréchet típicamente no es única, lo que limita severamente el análisis teórico y las aplicaciones prácticas.
- Falta de condiciones de unicidad: La investigación existente asume la unicidad de la media de Fréchet para establecer resultados de convergencia, pero carece de condiciones para determinar cuándo es única.
- Garantías teóricas insuficientes: No es posible proporcionar garantías teóricas para la media de Fréchet empírica calculada a partir de datos reales.
- Complejidad computacional: Debido a la no unicidad, los algoritmos existentes pueden converger a soluciones óptimas locales.
Este artículo tiene como objetivo encontrar condiciones que garanticen la unicidad de la media de Fréchet mediante análisis geométrico, proporcionando así una base teórica sólida para el análisis estadístico de diagramas de persistencia y estableciendo la teoría de convergencia correspondiente.
- Propuesta del concepto de agrupamiento plano: Se define la condición geométrica de "agrupamiento plano" (flat grouping) para conjuntos de diagramas de persistencia, que es una condición suficiente para garantizar la unicidad de la media de Fréchet.
- Derivación de expresiones de varianza: Se derivan expresiones de varianza exactas para agrupamientos generales (Teorema 8), revelando el impacto de la contribución de la diagonal a la varianza.
- Demostración del teorema de unicidad: Se demuestra que los conjuntos de diagramas de persistencia con agrupamiento plano poseen una media de Fréchet única (Teorema 10).
- Establecimiento de teoría de convergencia: Se derivan tasas de convergencia en muestras finitas para agrupamientos generales (Teorema 11), proporcionando en particular garantías de convergencia para la media de Fréchet de agrupamientos planos.
- Interpretación en geometría de Alexandrov: Se reinterpreta el agrupamiento plano dentro del marco de la teoría de espacios de Alexandrov, proporcionando intuición geométrica e ideas teóricas.
- Método de aplicación práctica: Se demuestra que mediante el truncamiento de diagramas de persistencia es posible construir agrupamientos planos, proporcionando un método práctico para la aproximación de cohomología persistente de datos en variedades.
Dado un conjunto de diagramas de persistencia {D1,…,DL}, se estudian las condiciones de unicidad de su media de Fréchet. La función de Fréchet se define como:
F(D)=L1∑i=1LW22(D,Di)
donde W2 es la distancia 2-Wasserstein.
Definición 4: Un agrupamiento G es una matriz formal de tamaño K×L cuyos elementos son copias de puntos no diagonales de D1,…,DL y de la diagonal ∂Ω. Cada fila se denomina una selección (selection).
El agrupamiento es esencialmente una representación de emparejamientos múltiples entre puntos de diagramas de persistencia, generalizando el concepto de emparejamiento biyectivo entre dos diagramas de persistencia.
Teorema 8: Para un agrupamiento G, su varianza es:
V(G)=L21∑i=1K∑1≤w<ℓ≤L∥Giw−Giℓ∥2+∑i=1KL2siL−si(∑1≤w<ℓ≤si∥(Gjwi)⊤−(Gjℓi)⊤∥2)
donde si es el número de puntos no diagonales en la fila i. El primer término refleja la contribución de distancias entre puntos, y el segundo término refleja el papel especial de la diagonal.
Definición 9: Un agrupamiento G es plano si existe λ>0 tal que:
- (i) El diámetro de cada selección no trivial está acotado: ∥Giw−Giℓ∥<λ
- (ii) La distancia entre selecciones diferentes tiene una cota inferior: ∥Giw−Gjℓ∥>λ (para i,j diferentes)
- (iii) Los puntos no diagonales están alejados de la diagonal: ∥Giw−∂Ω∥>λ
La condición de agrupamiento plano equilibra ingeniosamente tres restricciones geométricas:
- Compacidad intraclúster (condición i)
- Separabilidad interclúster (condición ii)
- Alejamiento de la frontera (condición iii)
Este diseño asegura la unicidad del emparejamiento óptimo.
Mediante la descomposición de puntos de diagramas de persistencia en componentes paralelos y perpendiculares a la diagonal, se calcula exactamente la expresión de varianza que incluye el impacto de la diagonal, lo que constituye un avance técnico importante.
Se utilizan las propiedades geométricas de espacios de Alexandrov con curvatura no negativa, en particular los conceptos de conos de Hilbert y funciones de abrazo (hugging function), para proporcionar una interpretación geométrica profunda del agrupamiento plano.
- Datos circulares: Círculo de radio 0.5, 1000 puntos muestreados uniformemente
- Datos de toro: Toro con radio exterior 0.8 y radio interior 0.3, 10000 puntos muestreados uniformemente
Se utiliza el método bootstrap:
- Se extraen B subconjuntos de muestras X1,…,XB del conjunto de datos original X
- Se calcula el diagrama de persistencia D[Xi] para cada submuestra
- Se construye un agrupamiento plano mediante truncamiento
- Se calcula la media de Fréchet de los diagramas de persistencia truncados como aproximación de D[X]
Basándose en la constante de separación de la variedad λ(M), se establece el umbral de truncamiento en 21λ(M), eliminando puntos demasiado cercanos a la diagonal, asegurando que los puntos restantes formen un agrupamiento plano.
- El diagrama de persistencia 1-dimensional original contiene 1 punto no diagonal principal (0.0227,0.8754) y 4 puntos cercanos a la diagonal
- 50 submuestras (cada una con 600 puntos), umbral de truncamiento 0.2
- Media de Fréchet: (0.0395,0.8582), aproxima bien el diagrama de persistencia verdadero
- El diagrama de persistencia 1-dimensional original contiene 2 puntos no diagonales principales (0.0382,0.5220) y (0.0326,0.8884), así como 478 puntos cercanos a la diagonal
- 20 submuestras (cada una con 4000 puntos), umbral de truncamiento 0.3
- Media de Fréchet: (0.0597,0.5222) y (0.0537,0.8887), preserva con precisión las características topológicas del toro
- Efectividad del truncamiento: El truncamiento apropiado puede construir exitosamente agrupamientos planos
- Calidad de aproximación: La media de Fréchet después del truncamiento aproxima bien las características topológicas principales del diagrama de persistencia original
- Estabilidad computacional: El agrupamiento plano garantiza la unicidad de la media de Fréchet, evitando que el algoritmo converja a diferentes soluciones óptimas locales
- Teoría de media de Fréchet: Mileyko et al. (2011) definieron por primera vez la media de Fréchet de diagramas de persistencia; Turner et al. (2014) establecieron resultados de convergencia bajo el supuesto de unicidad
- Algoritmos computacionales: Turner et al. (2014) propusieron un algoritmo codicioso; Lacombe et al. (2018) desarrollaron algoritmos basados en transporte óptimo
- Enfoques probabilísticos: Munch et al. (2015) introdujeron la media de Fréchet probabilística para diagramas de persistencia que varían en el tiempo
- Teoría general: Le Gouic et al. (2022) establecieron la teoría general de convergencia de medias de Fréchet empíricas en espacios de Alexandrov
- Ejemplos de aplicación: Esta teoría se ha aplicado exitosamente a múltiples campos incluyendo baricentros de distribuciones gaussianas y modelos de deformación de plantillas
- Propiedades geométricas: Turner et al. (2014) demostraron que (S2,W2) es un espacio de Alexandrov con curvatura no negativa
En comparación con trabajos existentes, este artículo proporciona por primera vez una condición geométrica verificable para la unicidad de la media de Fréchet de diagramas de persistencia, llenando un vacío teórico y proporcionando una nueva comprensión dentro del marco de la geometría de Alexandrov.
- Contribución teórica: El agrupamiento plano proporciona una condición geométrica verificable para la unicidad de la media de Fréchet de diagramas de persistencia
- Teoría de convergencia: Se establece una tasa de convergencia en muestras finitas incluyendo cotas de varianza E[W22(Dˉ,D∗)]≤σ2/B
- Método práctico: La técnica de truncamiento proporciona un camino viable para construir agrupamientos planos en aplicaciones prácticas
- Restrictividad de la condición: La condición de agrupamiento plano es relativamente estricta y puede no aplicarse a todos los conjuntos de diagramas de persistencia
- Pérdida por truncamiento: El proceso de truncamiento puede perder información topológica importante
- Selección de parámetros: La elección del umbral de truncamiento requiere conocimiento previo o métodos heurísticos
- Truncamiento adaptativo: Desarrollar métodos de truncamiento adaptativo basados en intervalos de confianza estadísticos, equilibrando la preservación de señal y la construcción de planitud
- Investigación de medianas: Extender la teoría a la mediana de Fréchet de diagramas de persistencia, requiriendo investigación de las propiedades geométricas del espacio (S1,W1)
- Media de Fréchet c-generalizada: Investigar la aplicación de la teoría de media de Fréchet c-generalizada más general en el espacio de diagramas de persistencia
- Innovación teórica: Proporciona por primera vez una solución geométrica completa para el problema de unicidad de la media de Fréchet de diagramas de persistencia
- Rigor matemático: Las demostraciones son completas y rigurosas, la derivación de expresiones de varianza es detallada y la intuición geométrica es clara
- Valor práctico: El método de truncamiento proporciona un algoritmo de aproximación teóricamente respaldado para el análisis de cohomología persistente de datos a gran escala
- Integración interdisciplinaria: Integra exitosamente herramientas teóricas del análisis topológico de datos, geometría métrica y estadística
- Limitación del rango de aplicabilidad: La condición de agrupamiento plano es relativamente restrictiva y puede ser difícil de satisfacer en datos reales
- Simplificación de la estrategia de truncamiento: El método de truncamiento actual es relativamente tosco y puede requerir estrategias más refinadas de preservación de señal
- Complejidad computacional: El artículo no analiza en detalle la complejidad computacional de la verificación de planitud y la selección de parámetros de truncamiento
- Impacto teórico: Sienta una base importante para la teoría estadística de cohomología persistente, se espera que impulse el desarrollo de teoría relacionada
- Perspectivas de aplicación: Proporciona métodos teóricamente garantizados para análisis topológico de datos a gran escala, con amplio potencial de aplicación
- Contribución metodológica: El paradigma de investigación que combina condiciones geométricas con propiedades estadísticas puede generalizarse a otros espacios métricos
- Aprendizaje de variedades: Aplicable a la extracción y análisis de características topológicas de datos muestreados de variedades
- Análisis topológico de series temporales: Puede utilizarse para modelado estadístico de estructuras topológicas que varían en el tiempo
- Cálculo topológico a gran escala: Proporciona orientación teórica para aproximación de cohomología persistente en situaciones con recursos computacionales limitados
- Turner, K., Mileyko, Y., Mukherjee, S., & Harer, J. (2014). Fréchet means for distributions of persistence diagrams. Discrete & Computational Geometry, 52(1), 44-70.
- Le Gouic, T., Paris, Q., Rigollet, P., & Stromme, A. J. (2022). Fast convergence of empirical barycenters in alexandrov spaces and the wasserstein space. Journal of the European Mathematical Society, 25(6), 2229-2250.
- Mileyko, Y., Mukherjee, S., & Harer, J. (2011). Probability measures on the space of persistence diagrams. Inverse Problems, 27(12), 124007.
- Munch, E., Turner, K., Bendich, P., Mukherjee, S., Mattingly, J., & Harer, J. (2015). Probabilistic Fréchet means for time varying persistence diagrams. Electronic Journal of Statistics, 9(1), 1173-1204.
Nota: Este artículo es una contribución teórica importante en el campo interdisciplinario del análisis topológico de datos y la geometría métrica, proporcionando una base matemática sólida para las aplicaciones estadísticas de la cohomología persistente. Se espera que el concepto de agrupamiento plano propuesto y el marco teórico correspondiente tengan un impacto profundo en este campo.