2025-11-24T10:13:17.215092

A Geometric Condition for Uniqueness of Fréchet Means of Persistence Diagrams

Cao, Monod
The Fréchet mean is an important statistical summary and measure of centrality of data; it has been defined and studied for persistent homology captured by persistence diagrams. However, the complicated geometry of the space of persistence diagrams implies that the Fréchet mean for a given set of persistence diagrams is not necessarily unique, which prohibits theoretical guarantees for empirical means with respect to population means. In this paper, we derive a variance expression for a set of persistence diagrams exhibiting a multi-matching between the persistence points known as a grouping. Moreover, we propose a condition for groupings, which we refer to as flatness; we prove that sets of persistence diagrams that exhibit flat groupings give rise to unique Fréchet means. We derive a finite sample convergence result for general groupings, which results in convergence for Fréchet means if the groupings are flat. We then interpret flat groupings in a recently-proposed general framework of Fréchet means in Alexandrov geometry. Finally, we show that for manifold-valued data, the persistence diagrams can be truncated to construct flat groupings.
academic

Геометрическое условие для единственности средних Фреше диаграмм персистентности

Основная информация

  • ID статьи: 2207.03943
  • Название: A Geometric Condition for Uniqueness of Fréchet Means of Persistence Diagrams
  • Авторы: Yueqi Cao, Anthea Monod (Imperial College London)
  • Классификация: math.MG (Метрическая геометрия), stat.ME (Статистика - методология)
  • Дата публикации: июль 2022 г. (препринт arXiv, обновлено до версии 3 в январе 2025 г.)
  • Ссылка на статью: https://arxiv.org/abs/2207.03943

Аннотация

Средние Фреше являются важным статистическим резюме и мерой центральности данных, определённые и изученные для диаграмм персистентности в персистентной гомологии. Однако сложная геометрическая структура пространства диаграмм персистентности означает, что средние Фреше для заданного набора диаграмм персистентности не обязательно единственны, что препятствует теоретическим гарантиям эмпирического среднего относительно среднего совокупности. В данной работе выводится выражение для дисперсии наборов диаграмм персистентности, демонстрирующих множественные сопоставления между точками персистентности, называемые группировкой (grouping). Кроме того, предлагается условие для группировки, называемое плоскостью (flatness); доказывается, что наборы диаграмм персистентности с плоской группировкой порождают единственное среднее Фреше. Выводятся результаты конечной выборки сходимости для общей группировки, с гарантией сходимости среднего Фреше при плоской группировке. Затем плоская группировка интерпретируется в рамках недавно предложенной общей структуры средних Фреше в геометрии Александрова. Наконец, показывается, что для данных со значениями в многообразиях плоская группировка может быть построена путём усечения диаграмм персистентности.

Исследовательский контекст и мотивация

Проблемный контекст

  1. Потребность в статистическом анализе персистентной гомологии: Персистентная гомология как важный метод топологического анализа данных имеет основным выходом диаграммы персистентности. С широким применением этого метода в различных научных областях исследование статистических свойств диаграмм персистентности становится ключевой проблемой.
  2. Значимость средних Фреше: Средние Фреше являются важным обобщением обычного арифметического среднего на общие метрические пространства, определены и изучены в пространстве диаграмм персистентности, являясь ключевым инструментом для измерения центральности набора диаграмм персистентности.
  3. Вызов проблемы единственности: Из-за сложной геометрической структуры пространства диаграмм персистентности (S2,W2)(S_2, W_2) с неотрицательной кривизной средние Фреше обычно не единственны, что серьёзно ограничивает теоретический анализ и практическое применение.

Ограничения существующих методов

  1. Отсутствие условий единственности: Существующие исследования предполагают единственность среднего Фреше для установления результатов сходимости, но не хватает условий для определения, когда оно единственно.
  2. Недостаточные теоретические гарантии: Невозможно предоставить теоретические гарантии для эмпирического среднего Фреше, вычисленного из реальных данных.
  3. Вычислительная сложность: Из-за неединственности существующие алгоритмы могут сходиться к локальным оптимальным решениям.

Исследовательская мотивация

Данная работа направлена на нахождение условий, гарантирующих единственность среднего Фреше, посредством геометрического анализа, обеспечивая таким образом прочную теоретическую основу для статистического анализа диаграмм персистентности и установления соответствующей теории сходимости.

Основные вклады

  1. Введение концепции плоской группировки: Определяется геометрическое условие "плоской группировки" (flat grouping) для наборов диаграмм персистентности, являющееся достаточным условием для гарантии единственности среднего Фреше.
  2. Вывод выражения для дисперсии: Выводится точное выражение для дисперсии (теорема 8) для общей группировки, раскрывающее влияние диагонали на вклад в дисперсию.
  3. Доказательство теоремы единственности: Доказывается, что наборы диаграмм персистентности с плоской группировкой имеют единственное среднее Фреше (теорема 10).
  4. Установление теории сходимости: Выводятся конечные выборочные скорости сходимости для общей группировки (теорема 11), в частности, обеспечивается гарантия сходимости среднего Фреше для плоской группировки.
  5. Интерпретация в геометрии Александрова: Плоская группировка переинтерпретируется в рамках теории пространств Александрова, обеспечивая геометрическую интуицию и теоретические insights.
  6. Практический метод применения: Показывается, как построить плоскую группировку путём усечения диаграмм персистентности, обеспечивая практический метод для приближения персистентной гомологии данных со значениями в многообразиях.

Подробное описание методов

Определение задачи

Для заданного набора диаграмм персистентности {D1,,DL}\{D_1, \ldots, D_L\} исследуется условие единственности среднего Фреше. Функция Фреше определяется как: F(D)=1Li=1LW22(D,Di)F(D) = \frac{1}{L}\sum_{i=1}^L W_2^2(D, D_i) где W2W_2 — расстояние 2-Вассерштейна.

Основные концепции

1. Группировка (Grouping)

Определение 4: Группировка GG — это матрица формата K×LK \times L, элементы которой являются копиями недиагональных точек из D1,,DLD_1, \ldots, D_L и диагонали Ω\partial\Omega. Каждая строка называется выбором (selection).

Группировка по существу представляет множественное сопоставление точек между диаграммами персистентности, обобщая концепцию биективного сопоставления между двумя диаграммами персистентности.

2. Выражение для дисперсии

Теорема 8: Для группировки GG дисперсия равна: V(G)=1L2i=1K1w<LGiwGi2+i=1KLsiL2si(1w<si(Gjwi)(Gji)2)V(G) = \frac{1}{L^2}\sum_{i=1}^K \sum_{1≤w<ℓ≤L} \|G_i^w - G_i^ℓ\|^2 + \sum_{i=1}^K \frac{L-s_i}{L^2s_i}\left(\sum_{1≤w<ℓ≤s_i} \|(G_{j_w}^i)^⊤ - (G_{j_ℓ}^i)^⊤\|^2\right)

где sis_i — количество недиагональных точек в ii-й строке. Первый член отражает вклад расстояний между точками, второй член отражает особую роль диагонали.

3. Плоская группировка

Определение 9: Группировка GG является плоской, если существует λ>0λ > 0 такое, что:

  • (i) диаметр каждого нетривиального выбора ограничен: GiwGi<λ\|G_i^w - G_i^ℓ\| < λ
  • (ii) расстояние между различными выборами имеет нижнюю границу: GiwGj>λ\|G_i^w - G_j^ℓ\| > λ (для различных i,ji,j)
  • (iii) недиагональные точки удалены от диагонали: GiwΩ>λ\|G_i^w - \partial\Omega\| > λ

Технические инновации

1. Конструирование геометрического условия

Условие плоской группировки искусно балансирует три геометрических ограничения:

  • компактность внутри кластера (условие i)
  • разделение между кластерами (условие ii)
  • удаление от границы (условие iii)

Такая конструкция обеспечивает единственность оптимального сопоставления.

2. Техника разложения дисперсии

Путём разложения точек диаграммы персистентности на компоненты, параллельные и перпендикулярные диагонали, точно вычисляется выражение для дисперсии, включающее влияние диагонали — это важный технический прорыв.

3. Применение геометрии Александрова

Используются геометрические свойства пространств Александрова с неотрицательной кривизной, в частности концепции гильбертовых подконусов и функций обхвата (hugging function), обеспечивая глубокую геометрическую интерпретацию плоской группировки.

Экспериментальная установка

Наборы данных

  1. Данные окружности: окружность радиусом 0,5, 1000 равномерно распределённых точек
  2. Данные тора: тор с внешним радиусом 0,8 и внутренним радиусом 0,3, 10000 равномерно распределённых точек

Дизайн эксперимента

Используется метод bootstrap:

  • Извлечение BB подвыборок X1,,XBX_1, \ldots, X_B из исходного набора данных XX
  • Вычисление диаграммы персистентности D[Xi]D[X_i] для каждого подвыборки
  • Построение плоской группировки путём усечения
  • Вычисление среднего Фреше усечённых диаграмм персистентности как приближения D[X]D[X]

Стратегия усечения

На основе константы разделения многообразия λ(M)λ(M) устанавливается порог усечения 12λ(M)\frac{1}{2}λ(M), удаляются точки, находящиеся слишком близко к диагонали, обеспечивая, что оставшиеся точки образуют плоскую группировку.

Результаты экспериментов

Основные результаты

Эксперимент с окружностью

  • Исходная одномерная диаграмма персистентности содержит одну основную недиагональную точку (0.0227,0.8754)(0.0227, 0.8754) и четыре точки, близкие к диагонали
  • 50 подвыборок (по 600 точек каждая), порог усечения 0,2
  • Среднее Фреше: (0.0395,0.8582)(0.0395, 0.8582), хорошо приближает истинную диаграмму персистентности

Эксперимент с тором

  • Исходная одномерная диаграмма персистентности содержит две основные недиагональные точки (0.0382,0.5220)(0.0382, 0.5220) и (0.0326,0.8884)(0.0326, 0.8884), а также 478 точек, близких к диагонали
  • 20 подвыборок (по 4000 точек каждая), порог усечения 0,3
  • Среднее Фреше: (0.0597,0.5222)(0.0597, 0.5222) и (0.0537,0.8887)(0.0537, 0.8887), точно сохраняет топологические характеристики тора

Экспериментальные находки

  1. Эффективность усечения: Путём надлежащего усечения можно успешно построить плоскую группировку
  2. Качество приближения: Среднее Фреше после усечения хорошо приближает основные топологические характеристики исходной диаграммы персистентности
  3. Вычислительная стабильность: Плоская группировка гарантирует единственность среднего Фреше, избегая сходимости алгоритма к различным локальным оптимальным решениям

Связанные работы

Статистика персистентной гомологии

  1. Теория средних Фреше: Mileyko и др. (2011) впервые определили средние Фреше диаграмм персистентности, Turner и др. (2014) установили результаты сходимости при предположении единственности
  2. Вычислительные алгоритмы: Turner и др. (2014) предложили жадный алгоритм, Lacombe и др. (2018) разработали алгоритм на основе оптимального транспорта
  3. Вероятностные методы: Munch и др. (2015) ввели вероятностные средние Фреше для обработки временных диаграмм персистентности

Геометрия Александрова

  1. Общая теория: Le Gouic и др. (2022) установили общую теорию сходимости эмпирических средних Фреше в пространствах Александрова
  2. Примеры применения: Эта теория успешно применена к центроидам гауссовых распределений, моделям деформации шаблонов и другим областям
  3. Геометрические свойства: Turner и др. (2014) доказали, что (S2,W2)(S_2, W_2) является пространством Александрова с неотрицательной кривизной

Вклад данной работы

По сравнению с существующими работами, данная статья впервые предоставляет геометрическое условие для единственности среднего Фреше диаграмм персистентности, заполняя теоретический пробел и обеспечивая новое понимание в рамках геометрии Александрова.

Заключение и обсуждение

Основные выводы

  1. Теоретический вклад: Плоская группировка обеспечивает проверяемое геометрическое условие для единственности среднего Фреше диаграмм персистентности
  2. Теория сходимости: Установлены конечные выборочные скорости сходимости E[W22(Dˉ,D)]σ2/BE[W_2^2(\bar{D}, D^*)] ≤ σ^2/B с границами дисперсии
  3. Практический метод: Техника усечения обеспечивает практически осуществимый способ построения плоской группировки для реальных приложений

Ограничения

  1. Ограничительность условия: Условие плоской группировки относительно строго и может быть неприменимо ко всем наборам диаграмм персистентности
  2. Потеря при усечении: Процесс усечения может привести к потере важной топологической информации
  3. Выбор параметров: Выбор порога усечения требует априорного знания или эвристических методов

Направления будущих исследований

  1. Адаптивное усечение: Разработка методов адаптивного усечения на основе статистических доверительных интервалов, балансирующих сохранение сигнала и построение плоскости
  2. Исследование медиан: Расширение теории на медианы Фреше диаграмм персистентности, требующее исследования геометрических свойств пространства (S1,W1)(S_1, W_1)
  3. Обобщённые c-средние Фреше: Исследование применения более общей теории c-средних Фреше в пространстве диаграмм персистентности

Глубокая оценка

Достоинства

  1. Теоретическая инновативность: Впервые предоставляет полное геометрическое решение проблемы единственности среднего Фреше диаграмм персистентности
  2. Математическая строгость: Доказательства полные и строгие, вывод выражения для дисперсии детальный, геометрическая интуиция ясна
  3. Практическая ценность: Метод усечения обеспечивает теоретически обоснованный приближённый алгоритм для анализа персистентной гомологии больших объёмов данных
  4. Междисциплинарная интеграция: Успешно объединяет теоретические инструменты топологического анализа данных, метрической геометрии и статистики

Недостатки

  1. Ограниченная область применения: Условие плоской группировки относительно строго, в реальных данных может быть сложно удовлетворить
  2. Упрощённая стратегия усечения: Текущий метод усечения относительно грубый, может потребоваться более тонкая стратегия сохранения сигнала
  3. Анализ вычислительной сложности: В работе не детально проанализирована вычислительная сложность проверки плоскости и выбора параметров усечения

Влияние

  1. Теоретическое влияние: Закладывает важную основу для теории статистики персистентной гомологии, ожидается стимулирование развития соответствующих теорий
  2. Перспективы применения: Обеспечивает теоретически обоснованный метод для анализа топологических данных больших объёмов, имеет широкий потенциал применения
  3. Методологический вклад: Парадигма исследования, объединяющая геометрические условия и статистические свойства, может быть обобщена на другие метрические пространства

Применимые сценарии

  1. Обучение многообразиям: Применимо к извлечению и анализу топологических характеристик данных, выборочных из многообразий
  2. Анализ временной топологии: Может использоваться для статистического моделирования временных топологических структур
  3. Крупномасштабные топологические вычисления: Обеспечивает теоретическое руководство для приближения персистентной гомологии в условиях ограниченных вычислительных ресурсов

Библиография

  1. Turner, K., Mileyko, Y., Mukherjee, S., & Harer, J. (2014). Fréchet means for distributions of persistence diagrams. Discrete & Computational Geometry, 52(1), 44-70.
  2. Le Gouic, T., Paris, Q., Rigollet, P., & Stromme, A. J. (2022). Fast convergence of empirical barycenters in alexandrov spaces and the wasserstein space. Journal of the European Mathematical Society, 25(6), 2229-2250.
  3. Mileyko, Y., Mukherjee, S., & Harer, J. (2011). Probability measures on the space of persistence diagrams. Inverse Problems, 27(12), 124007.
  4. Munch, E., Turner, K., Bendich, P., Mukherjee, S., Mattingly, J., & Harer, J. (2015). Probabilistic Fréchet means for time varying persistence diagrams. Electronic Journal of Statistics, 9(1), 1173-1204.

Примечание: Данная статья представляет собой важный теоретический вклад в область пересечения топологического анализа данных и метрической геометрии, обеспечивая прочную математическую основу для статистического применения персистентной гомологии. Предложенные концепция плоской группировки и соответствующая теоретическая структура, как ожидается, окажут глубокое влияние на развитие данной области.