Given two measures $μ$, $ν$ on Rd that satisfy Carleman's condition, we provide a numerical scheme to approximate as closely as desired the total variation distance between $μ$ and $ν$. It consists of solving a sequence (hierarchy) of convex relaxations whose associated sequence of optimal values converges to the total variation distance, an additional illustration of the versatility of the Moment-SOS hierarchy. Indeed each relaxation in the hierarchy is a semidefinite program whose size increases with the number of involved moments. It has an optimal solution which is a couple of degree-2n pseudo-moments which converge, as n grows, to moments of the Hahn-Jordan decomposition of $μ$-$ν$.
- ID статьи: 2401.01086
- Название: A hierarchy of convex relaxations for the total variation distance
- Автор: Jean B. Lasserre
- Классификация: math.OC (Оптимизация и управление)
- Дата публикации: Январь 2024 г. (arXiv v3: 16 октября 2025 г.)
- Ссылка на статью: https://arxiv.org/abs/2401.01086
В данной работе предложена численная схема для произвольно точного приближения расстояния полной вариации между двумя мерами μ и ν, удовлетворяющими условию Карлемана. Схема основана на решении последовательности (иерархических) задач выпуклой релаксации, последовательность оптимальных значений которых сходится к расстоянию полной вариации, что демонстрирует универсальность иерархии Moment-SOS. Каждая релаксация в иерархии представляет собой задачу полуопределённого программирования (ПОП), размер которой растёт с количеством задействованных моментов. Оптимальные решения — это пара псевдомер степени 2n, которые при возрастании n сходятся к моментам разложения Хана-Жордана для μ-ν.
Численное вычисление расстояния полной вариации (Total Variation, TV) является важной и сложной задачей с широким применением в следующих областях:
- Статистическое тестирование: используется для тестов однородности и независимости
- Распределительно-робастная оптимизация: определение множеств неопределённости
- Наука о данных и машинное обучение: метрики расстояния между мерами
- Проблемы эмпирических оценок: эмпирические оценки на основе случайных выборок часто несостоятельны, особенно для расстояния TV
- Вычислительные трудности: расстояние TV эквивалентно расстоянию Вассерштейна с "плохой" функцией стоимости c(x,y) = 1_{x≠y}, что затрудняет эффективное вычисление
- Чрезмерно большое функциональное пространство: пространство ограниченных измеримых функций в стандартной двойственной формулировке слишком велико для эффективной оценки
- Ограничения на носитель: существующие методы обычно требуют компактного носителя
Существующие работы в основном сосредоточены на получении аналитических верхних и нижних границ для конкретных классов распределений, но отсутствует универсальный численный метод. Данная работа направлена на предоставление практической вычислительной схемы при относительно слабых предположениях.
- Численная вычислительная схема: предложена последовательность релаксаций полуопределённого программирования на основе иерархии Moment-SOS, позволяющая произвольно точно приближать расстояние TV
- Теоретические гарантии: доказана монотонность и сходимость последовательности релаксаций, оптимальные значения сходятся к истинному расстоянию TV снизу
- Обработка некомпактных носителей: метод применим к мерам с некомпактным носителем, требуя только выполнения условия Карлемана
- Точное решение частных случаев: для атомарных мер на вещественной оси при степени релаксации n ≥ maxm₁,m₂ получается точное решение
- Двойственная теория: предоставлена двойственная задача ПОП, раскрывающая, как усилить классическую двойственную формулировку расстояния TV путём ограничения на полиномиальное пространство и добавления штрафных членов
Даны две конечные борелевские меры μ, ν ∈ M(ℝᵈ)₊, требуется вычислить расстояние полной вариации между ними:
∥μ−ν∥TV=supf{∫fdμ−∫fdν:∥f∥∞≤1}
Предположение 2.5:
- Все моменты μ и ν конечны
- μ и ν удовлетворяют условию: ∫exp(c∣xi∣)dμ<∞ для некоторого c > 0 и всех i = 1,...,d
Переформулировка расстояния TV как бесконечномерной ЛП:
τ=infϕ+,ϕ−∈M(Rd)+{ϕ+(1)+ϕ−(1):ϕ+−ϕ−=μ−ν}
Добавление доминирующих ограничений для получения эквивалентной задачи:
ρ=infϕ+,ϕ−∈M(Rd)+{ϕ+(1)+ϕ−(1):ϕ+−ϕ−=μ−ν;ϕ+≤μ;ϕ−≤ν}
Используя лемму 2.2, доминирующие ограничения эквивалентны условиям на матрицы моментов:
ϕ≤μ⇔Mn(ϕ)⪯Mn(μ),∀n∈N
Задача релаксации уровня n:
ρn=minϕ,ψ{ϕ(1)+ψ(1):ϕα−ψα=μα−να,∀α∈N2nd;0⪯Mn(ϕ)⪯Mn(μ);0⪯Mn(ψ)⪯Mn(ν)}
- Ключевая роль доминирующих ограничений: хотя они избыточны в бесконечномерной формулировке, в схеме релаксации они служат чрезвычайно полезным инструментом компактификации
- Искусное использование условия Карлемана: гарантирует единственность меры, делая условия на моменты эквивалентными доминирующим ограничениям
- Естественное появление разложения Хана-Жордана: оптимальные решения сходятся к моментам разложения Хана-Жордана для μ-ν
- Полиномиальное ограничение двойственной задачи: обработка ограничения ‖f‖∞ ≤ 1 путём ограничения на полиномиальное пространство и добавления штрафных членов
- Программное обеспечение: GloptiPoly 3 для полиномиальной оптимизации
- Решатель: SeDuMi 1.03 для полуопределённого программирования
- Платформа: ноутбук HP Elitebook с Ubuntu 24
- Непересекающиеся носители: X = {-1.0, 0.0, 1.0, 2.0}, Y = {-0.7, 0.3, 1.3, 2.3}
- Одна общая точка: X ∩ Y = {-1.0}
- Близкие атомы: тестирование численной устойчивости
- Гауссовы распределения с различными средними и дисперсиями N(m₁,σ₁) и N(m₂,σ₂)
- Количество моментов от 2n = 4 до 2n = 8
- Близость оптимального значения релаксации ρₙ к истинному расстоянию TV
- Скорость сходимости и численная устойчивость
- Время вычисления (все результаты получены за 0.35 секунд)
Для атомарных мер на вещественной оси при n ≥ maxm₁,m₂ получается точное решение:
- Пример 1: μ = δ₀, ν = δₑ, ρ₁ = 2 (точно)
- Пример 2: четыре атома, одна общая точка, ρ₄ = 1.499 ≈ 1.5
- Пример 3: непересекающиеся атомы, ρ₄ = 1.9999 ≈ 2
| (m₁,σ₁) | (m₂,σ₂) | ρ₁ | ρ₂ | ρ₃ | ρ₄ |
|---|
| (0,0.1) | (1,0.1) | 1.9231 | 1.9936 | 1.9991 | 1.9997 |
| (0,0.2) | (1,0.2) | 1.7241 | 1.9049 | 1.9376 | 1.939 |
| (0,0.5) | (1,0.5) | 1.0000 | 1.0000 | 1.1653 | 1.1897 |
- ρ₁ полностью совпадает с аналитической нижней границей из литературы 1
- Значительное улучшение начиная с n=2, ещё лучше при n=3,4
- При малых дисперсиях поведение приближается к взаимно сингулярным мерам (расстояние TV близко к 2)
Теорема 3.1 гарантирует:
- Каждая релаксация имеет оптимальное решение
- ρₙ ↑ ‖μ-ν‖_ монотонно сходится
- Оптимальные решения сходятся к моментам разложения Хана-Жордана
- Эмпирические оценки: оценки расстояния на основе выборок, но оценки расстояния TV часто несостоятельны
- Аналитические границы: верхние и нижние границы для конкретных классов распределений (например, многомерные гауссовы, гауссовы смеси)
- Методы неравенств: неравенство Пинскера, границы через расстояние Хеллингера
- Оптимальный транспорт: специализированные алгоритмы для метрики Канторовича (например, алгоритм Синхорна)
- Универсальность: применима к общим мерам, удовлетворяющим условию Карлемана
- Некомпактные носители: не требует компактного носителя
- Гарантированная сходимость: теоретически гарантированная монотонная сходимость
- Практичность: может обрабатывать как закрытые формы моментов, так и эмпирические моменты
- Предоставлена универсальная численная схема для вычисления расстояния TV
- Достигнуто приближение произвольной точности при относительно слабых предположениях
- Каждая релаксация обеспечивает гарантированную нижнюю границу
- Для дискретных мер возможно получение точного решения
- Чувствительность к размерности: метод чувствителен к размерности, в настоящее время ограничен задачами малой размерности
- Ограничения решателя ПОП: невозможно ожидать решения высокоуровневых релаксаций
- Численная точность: возможны численные проблемы при очень близких атомах
- Требования к размеру выборки: при использовании эмпирических моментов требуется достаточно большой размер выборки
- Предоставление более дешёвых альтернативных нижних границ
- Расширение на задачи высокой размерности
- Улучшение численной устойчивости
- Сравнительные исследования с другими метриками расстояния
- Теоретическая строгость: полные доказательства сходимости и двойственная теория
- Новизна метода: первое применение иерархии Moment-SOS к вычислению расстояния TV
- Практическая ценность: может обрабатывать как закрытые формы, так и выборочные данные
- Гарантии точности: для частных случаев (атомарные меры) возможно получение точного решения
- Вычислительная сложность: вычислительная сложность ПОП ограничивает масштаб применения
- Ограниченность экспериментов: тестирование в основном на низкомерных и простых распределениях
- Недостаточное сравнение с существующими методами: отсутствует систематическое сравнение с другими методами вычисления расстояния TV
- Теоретический вклад: предоставляет новую теоретическую базу для вычисления расстояния TV
- Методологическая ценность: демонстрирует потенциал иерархии Moment-SOS в вычислении вероятностных метрик
- Практическое применение: предоставляет новый инструмент для распределительно-робастной оптимизации и других областей
- Требования точного вычисления: необходимы теоретически гарантированные нижние границы расстояния TV
- Задачи малой размерности: приложения с относительно низкой размерностью
- Специальные распределения: гауссовы, экспоненциальные распределения и их смеси
- Дискретные распределения: меры с конечным носителем
Статья цитирует 28 соответствующих работ, охватывающих несколько областей, включая оптимальный транспорт, теорию моментов, полуопределённое программирование и вероятностные метрики. Особенно серия работ автора по иерархии Moment-SOS 21,24,26 составляет теоретическую основу данной работы.