The Fréchet mean is an important statistical summary and measure of centrality of data; it has been defined and studied for persistent homology captured by persistence diagrams. However, the complicated geometry of the space of persistence diagrams implies that the Fréchet mean for a given set of persistence diagrams is not necessarily unique, which prohibits theoretical guarantees for empirical means with respect to population means. In this paper, we derive a variance expression for a set of persistence diagrams exhibiting a multi-matching between the persistence points known as a grouping. Moreover, we propose a condition for groupings, which we refer to as flatness; we prove that sets of persistence diagrams that exhibit flat groupings give rise to unique Fréchet means. We derive a finite sample convergence result for general groupings, which results in convergence for Fréchet means if the groupings are flat. We then interpret flat groupings in a recently-proposed general framework of Fréchet means in Alexandrov geometry. Finally, we show that for manifold-valued data, the persistence diagrams can be truncated to construct flat groupings.
- ID статьи: 2207.03943
- Название: A Geometric Condition for Uniqueness of Fréchet Means of Persistence Diagrams
- Авторы: Yueqi Cao, Anthea Monod (Imperial College London)
- Классификация: math.MG (Метрическая геометрия), stat.ME (Статистика - методология)
- Дата публикации: июль 2022 г. (препринт arXiv, обновлено до версии 3 в январе 2025 г.)
- Ссылка на статью: https://arxiv.org/abs/2207.03943
Средние Фреше являются важным статистическим резюме и мерой центральности данных, определённые и изученные для диаграмм персистентности в персистентной гомологии. Однако сложная геометрическая структура пространства диаграмм персистентности означает, что средние Фреше для заданного набора диаграмм персистентности не обязательно единственны, что препятствует теоретическим гарантиям эмпирического среднего относительно среднего совокупности. В данной работе выводится выражение для дисперсии наборов диаграмм персистентности, демонстрирующих множественные сопоставления между точками персистентности, называемые группировкой (grouping). Кроме того, предлагается условие для группировки, называемое плоскостью (flatness); доказывается, что наборы диаграмм персистентности с плоской группировкой порождают единственное среднее Фреше. Выводятся результаты конечной выборки сходимости для общей группировки, с гарантией сходимости среднего Фреше при плоской группировке. Затем плоская группировка интерпретируется в рамках недавно предложенной общей структуры средних Фреше в геометрии Александрова. Наконец, показывается, что для данных со значениями в многообразиях плоская группировка может быть построена путём усечения диаграмм персистентности.
- Потребность в статистическом анализе персистентной гомологии: Персистентная гомология как важный метод топологического анализа данных имеет основным выходом диаграммы персистентности. С широким применением этого метода в различных научных областях исследование статистических свойств диаграмм персистентности становится ключевой проблемой.
- Значимость средних Фреше: Средние Фреше являются важным обобщением обычного арифметического среднего на общие метрические пространства, определены и изучены в пространстве диаграмм персистентности, являясь ключевым инструментом для измерения центральности набора диаграмм персистентности.
- Вызов проблемы единственности: Из-за сложной геометрической структуры пространства диаграмм персистентности (S2,W2) с неотрицательной кривизной средние Фреше обычно не единственны, что серьёзно ограничивает теоретический анализ и практическое применение.
- Отсутствие условий единственности: Существующие исследования предполагают единственность среднего Фреше для установления результатов сходимости, но не хватает условий для определения, когда оно единственно.
- Недостаточные теоретические гарантии: Невозможно предоставить теоретические гарантии для эмпирического среднего Фреше, вычисленного из реальных данных.
- Вычислительная сложность: Из-за неединственности существующие алгоритмы могут сходиться к локальным оптимальным решениям.
Данная работа направлена на нахождение условий, гарантирующих единственность среднего Фреше, посредством геометрического анализа, обеспечивая таким образом прочную теоретическую основу для статистического анализа диаграмм персистентности и установления соответствующей теории сходимости.
- Введение концепции плоской группировки: Определяется геометрическое условие "плоской группировки" (flat grouping) для наборов диаграмм персистентности, являющееся достаточным условием для гарантии единственности среднего Фреше.
- Вывод выражения для дисперсии: Выводится точное выражение для дисперсии (теорема 8) для общей группировки, раскрывающее влияние диагонали на вклад в дисперсию.
- Доказательство теоремы единственности: Доказывается, что наборы диаграмм персистентности с плоской группировкой имеют единственное среднее Фреше (теорема 10).
- Установление теории сходимости: Выводятся конечные выборочные скорости сходимости для общей группировки (теорема 11), в частности, обеспечивается гарантия сходимости среднего Фреше для плоской группировки.
- Интерпретация в геометрии Александрова: Плоская группировка переинтерпретируется в рамках теории пространств Александрова, обеспечивая геометрическую интуицию и теоретические insights.
- Практический метод применения: Показывается, как построить плоскую группировку путём усечения диаграмм персистентности, обеспечивая практический метод для приближения персистентной гомологии данных со значениями в многообразиях.
Для заданного набора диаграмм персистентности {D1,…,DL} исследуется условие единственности среднего Фреше. Функция Фреше определяется как:
F(D)=L1∑i=1LW22(D,Di)
где W2 — расстояние 2-Вассерштейна.
Определение 4: Группировка G — это матрица формата K×L, элементы которой являются копиями недиагональных точек из D1,…,DL и диагонали ∂Ω. Каждая строка называется выбором (selection).
Группировка по существу представляет множественное сопоставление точек между диаграммами персистентности, обобщая концепцию биективного сопоставления между двумя диаграммами персистентности.
Теорема 8: Для группировки G дисперсия равна:
V(G)=L21∑i=1K∑1≤w<ℓ≤L∥Giw−Giℓ∥2+∑i=1KL2siL−si(∑1≤w<ℓ≤si∥(Gjwi)⊤−(Gjℓi)⊤∥2)
где si — количество недиагональных точек в i-й строке. Первый член отражает вклад расстояний между точками, второй член отражает особую роль диагонали.
Определение 9: Группировка G является плоской, если существует λ>0 такое, что:
- (i) диаметр каждого нетривиального выбора ограничен: ∥Giw−Giℓ∥<λ
- (ii) расстояние между различными выборами имеет нижнюю границу: ∥Giw−Gjℓ∥>λ (для различных i,j)
- (iii) недиагональные точки удалены от диагонали: ∥Giw−∂Ω∥>λ
Условие плоской группировки искусно балансирует три геометрических ограничения:
- компактность внутри кластера (условие i)
- разделение между кластерами (условие ii)
- удаление от границы (условие iii)
Такая конструкция обеспечивает единственность оптимального сопоставления.
Путём разложения точек диаграммы персистентности на компоненты, параллельные и перпендикулярные диагонали, точно вычисляется выражение для дисперсии, включающее влияние диагонали — это важный технический прорыв.
Используются геометрические свойства пространств Александрова с неотрицательной кривизной, в частности концепции гильбертовых подконусов и функций обхвата (hugging function), обеспечивая глубокую геометрическую интерпретацию плоской группировки.
- Данные окружности: окружность радиусом 0,5, 1000 равномерно распределённых точек
- Данные тора: тор с внешним радиусом 0,8 и внутренним радиусом 0,3, 10000 равномерно распределённых точек
Используется метод bootstrap:
- Извлечение B подвыборок X1,…,XB из исходного набора данных X
- Вычисление диаграммы персистентности D[Xi] для каждого подвыборки
- Построение плоской группировки путём усечения
- Вычисление среднего Фреше усечённых диаграмм персистентности как приближения D[X]
На основе константы разделения многообразия λ(M) устанавливается порог усечения 21λ(M), удаляются точки, находящиеся слишком близко к диагонали, обеспечивая, что оставшиеся точки образуют плоскую группировку.
- Исходная одномерная диаграмма персистентности содержит одну основную недиагональную точку (0.0227,0.8754) и четыре точки, близкие к диагонали
- 50 подвыборок (по 600 точек каждая), порог усечения 0,2
- Среднее Фреше: (0.0395,0.8582), хорошо приближает истинную диаграмму персистентности
- Исходная одномерная диаграмма персистентности содержит две основные недиагональные точки (0.0382,0.5220) и (0.0326,0.8884), а также 478 точек, близких к диагонали
- 20 подвыборок (по 4000 точек каждая), порог усечения 0,3
- Среднее Фреше: (0.0597,0.5222) и (0.0537,0.8887), точно сохраняет топологические характеристики тора
- Эффективность усечения: Путём надлежащего усечения можно успешно построить плоскую группировку
- Качество приближения: Среднее Фреше после усечения хорошо приближает основные топологические характеристики исходной диаграммы персистентности
- Вычислительная стабильность: Плоская группировка гарантирует единственность среднего Фреше, избегая сходимости алгоритма к различным локальным оптимальным решениям
- Теория средних Фреше: Mileyko и др. (2011) впервые определили средние Фреше диаграмм персистентности, Turner и др. (2014) установили результаты сходимости при предположении единственности
- Вычислительные алгоритмы: Turner и др. (2014) предложили жадный алгоритм, Lacombe и др. (2018) разработали алгоритм на основе оптимального транспорта
- Вероятностные методы: Munch и др. (2015) ввели вероятностные средние Фреше для обработки временных диаграмм персистентности
- Общая теория: Le Gouic и др. (2022) установили общую теорию сходимости эмпирических средних Фреше в пространствах Александрова
- Примеры применения: Эта теория успешно применена к центроидам гауссовых распределений, моделям деформации шаблонов и другим областям
- Геометрические свойства: Turner и др. (2014) доказали, что (S2,W2) является пространством Александрова с неотрицательной кривизной
По сравнению с существующими работами, данная статья впервые предоставляет геометрическое условие для единственности среднего Фреше диаграмм персистентности, заполняя теоретический пробел и обеспечивая новое понимание в рамках геометрии Александрова.
- Теоретический вклад: Плоская группировка обеспечивает проверяемое геометрическое условие для единственности среднего Фреше диаграмм персистентности
- Теория сходимости: Установлены конечные выборочные скорости сходимости E[W22(Dˉ,D∗)]≤σ2/B с границами дисперсии
- Практический метод: Техника усечения обеспечивает практически осуществимый способ построения плоской группировки для реальных приложений
- Ограничительность условия: Условие плоской группировки относительно строго и может быть неприменимо ко всем наборам диаграмм персистентности
- Потеря при усечении: Процесс усечения может привести к потере важной топологической информации
- Выбор параметров: Выбор порога усечения требует априорного знания или эвристических методов
- Адаптивное усечение: Разработка методов адаптивного усечения на основе статистических доверительных интервалов, балансирующих сохранение сигнала и построение плоскости
- Исследование медиан: Расширение теории на медианы Фреше диаграмм персистентности, требующее исследования геометрических свойств пространства (S1,W1)
- Обобщённые c-средние Фреше: Исследование применения более общей теории c-средних Фреше в пространстве диаграмм персистентности
- Теоретическая инновативность: Впервые предоставляет полное геометрическое решение проблемы единственности среднего Фреше диаграмм персистентности
- Математическая строгость: Доказательства полные и строгие, вывод выражения для дисперсии детальный, геометрическая интуиция ясна
- Практическая ценность: Метод усечения обеспечивает теоретически обоснованный приближённый алгоритм для анализа персистентной гомологии больших объёмов данных
- Междисциплинарная интеграция: Успешно объединяет теоретические инструменты топологического анализа данных, метрической геометрии и статистики
- Ограниченная область применения: Условие плоской группировки относительно строго, в реальных данных может быть сложно удовлетворить
- Упрощённая стратегия усечения: Текущий метод усечения относительно грубый, может потребоваться более тонкая стратегия сохранения сигнала
- Анализ вычислительной сложности: В работе не детально проанализирована вычислительная сложность проверки плоскости и выбора параметров усечения
- Теоретическое влияние: Закладывает важную основу для теории статистики персистентной гомологии, ожидается стимулирование развития соответствующих теорий
- Перспективы применения: Обеспечивает теоретически обоснованный метод для анализа топологических данных больших объёмов, имеет широкий потенциал применения
- Методологический вклад: Парадигма исследования, объединяющая геометрические условия и статистические свойства, может быть обобщена на другие метрические пространства
- Обучение многообразиям: Применимо к извлечению и анализу топологических характеристик данных, выборочных из многообразий
- Анализ временной топологии: Может использоваться для статистического моделирования временных топологических структур
- Крупномасштабные топологические вычисления: Обеспечивает теоретическое руководство для приближения персистентной гомологии в условиях ограниченных вычислительных ресурсов
- Turner, K., Mileyko, Y., Mukherjee, S., & Harer, J. (2014). Fréchet means for distributions of persistence diagrams. Discrete & Computational Geometry, 52(1), 44-70.
- Le Gouic, T., Paris, Q., Rigollet, P., & Stromme, A. J. (2022). Fast convergence of empirical barycenters in alexandrov spaces and the wasserstein space. Journal of the European Mathematical Society, 25(6), 2229-2250.
- Mileyko, Y., Mukherjee, S., & Harer, J. (2011). Probability measures on the space of persistence diagrams. Inverse Problems, 27(12), 124007.
- Munch, E., Turner, K., Bendich, P., Mukherjee, S., Mattingly, J., & Harer, J. (2015). Probabilistic Fréchet means for time varying persistence diagrams. Electronic Journal of Statistics, 9(1), 1173-1204.
Примечание: Данная статья представляет собой важный теоретический вклад в область пересечения топологического анализа данных и метрической геометрии, обеспечивая прочную математическую основу для статистического применения персистентной гомологии. Предложенные концепция плоской группировки и соответствующая теоретическая структура, как ожидается, окажут глубокое влияние на развитие данной области.