Given two measures $μ$, $ν$ on Rd that satisfy Carleman's condition, we provide a numerical scheme to approximate as closely as desired the total variation distance between $μ$ and $ν$. It consists of solving a sequence (hierarchy) of convex relaxations whose associated sequence of optimal values converges to the total variation distance, an additional illustration of the versatility of the Moment-SOS hierarchy. Indeed each relaxation in the hierarchy is a semidefinite program whose size increases with the number of involved moments. It has an optimal solution which is a couple of degree-2n pseudo-moments which converge, as n grows, to moments of the Hahn-Jordan decomposition of $μ$-$ν$.
- Paper-ID: 2401.01086
- Titel: A hierarchy of convex relaxations for the total variation distance
- Autor: Jean B. Lasserre
- Klassifizierung: math.OC (Optimierung und Kontrolle)
- Veröffentlichungsdatum: Januar 2024 (arXiv v3: 16. Oktober 2025)
- Paper-Link: https://arxiv.org/abs/2401.01086
In diesem Artikel wird ein numerisches Schema für zwei Maße μ und ν, die die Carleman-Bedingung erfüllen, vorgeschlagen, um die Totalvariationsdistanz zwischen ihnen mit beliebiger Genauigkeit anzunähern. Das Schema löst eine Reihe von (hierarchischen) konvexen Relaxationsproblemen, deren optimale Wertefolge gegen die Totalvariationsdistanz konvergiert, und demonstriert die Vielseitigkeit der Moment-SOS-Hierarchie. Jede Relaxation in der Hierarchie ist ein semidefinites Programm, dessen Größe mit der Anzahl der beteiligten Momente wächst, mit optimalen Lösungen – einem Paar von Pseudomomenten vom Grad 2n, die gegen die Momente der Hahn-Jordan-Zerlegung von μ-ν konvergieren, wenn n wächst.
Die numerische Berechnung der Totalvariations-(TV-)Distanz ist ein wichtiges und herausforderndes Problem mit breiter Anwendung in folgenden Bereichen:
- Statistische Tests: Verwendung in Homogenitäts- und Unabhängigkeitstests
- Distributionsrobuste Optimierung: Definition von Unsicherheitsmengen
- Datenwissenschaft und maschinelles Lernen: Distanzmaße zwischen Maßen
- Probleme mit empirischen Schätzern: Empirische Schätzer basierend auf Zufallsstichproben sind oft inkonsistent, besonders für die TV-Distanz
- Rechnerische Herausforderungen: Die TV-Distanz entspricht der Wasserstein-Distanz mit einer „schlechten" Kostenfunktion c(x,y) = 1_{x≠y}, die schwer effizient zu berechnen ist
- Zu großer Funktionsraum: Der Raum beschränkter messbarer Funktionen in der standardmäßigen Dualformel ist zu groß für effektive Auswertung
- Einschränkungen des Trägers: Bestehende Methoden erfordern typischerweise kompakte Träger
Bestehende Beiträge konzentrieren sich hauptsächlich auf analytische Ober- und Untergrenzen für spezifische Verteilungsklassen, es fehlt jedoch eine universelle numerische Berechnungsmethode. Dieser Artikel zielt darauf ab, ein praktisches Berechnungsschema unter relativ schwachen Annahmen bereitzustellen.
- Numerisches Berechnungsschema: Vorschlag einer Folge von semidefiniten Programmierungsrelaxationen basierend auf der Moment-SOS-Hierarchie, die die TV-Distanz mit beliebiger Genauigkeit annähern kann
- Theoretische Garantien: Beweis der Monotonie und Konvergenz der Relaxationsfolge, wobei die optimalen Werte von unten gegen die wahre TV-Distanz konvergieren
- Behandlung nicht-kompakter Träger: Die Methode ist auf Maße mit nicht-kompaktem Träger anwendbar und erfordert nur die Erfüllung der Carleman-Bedingung
- Exakte Lösung für Spezialfälle: Für Atommasse auf der reellen Achse können exakte Lösungen erhalten werden, wenn der Relaxationsgrad n ≥ maxm₁,m₂
- Dualtheorie: Bereitstellung eines dualen semidefiniten Programms, das offenbart, wie die klassische TV-Distanz-Dualformel durch Einschränkung auf Polynome und Hinzufügen von Strafbegriffen verstärkt wird
Gegeben zwei endliche Borel-Maße μ, ν ∈ M(ℝᵈ)₊, berechne ihre Totalvariationsdistanz:
∥μ−ν∥TV=supf{∫fdμ−∫fdν:∥f∥∞≤1}
Annahme 2.5:
- Alle Momente von μ und ν sind endlich
- μ und ν erfüllen die Bedingung: ∫exp(c∣xi∣)dμ<∞, für ein c > 0 und alle i = 1,...,d
Umformulierung der TV-Distanz als unendlich-dimensionales LP:
τ=infϕ+,ϕ−∈M(Rd)+{ϕ+(1)+ϕ−(1):ϕ+−ϕ−=μ−ν}
Hinzufügen von Dominanzbeschränkungen für ein äquivalentes Problem:
ρ=infϕ+,ϕ−∈M(Rd)+{ϕ+(1)+ϕ−(1):ϕ+−ϕ−=μ−ν;ϕ+≤μ;ϕ−≤ν}
Verwendung von Lemma 2.2, wobei Dominanzbeschränkungen äquivalent zu Momentenmatrixbedingungen sind:
ϕ≤μ⇔Mn(ϕ)⪯Mn(μ),∀n∈N
Das n-te Relaxationsproblem:
ρn=minϕ,ψ{ϕ(1)+ψ(1):ϕα−ψα=μα−να,∀α∈N2nd;0⪯Mn(ϕ)⪯Mn(μ);0⪯Mn(ψ)⪯Mn(ν)}
- Schlüsselrolle der Dominanzbeschränkung: Obwohl in der unendlich-dimensionalen Formulierung redundant, ist sie im Relaxationsschema als Kompaktifizierungswerkzeug äußerst nützlich
- Geschickte Nutzung der Carleman-Bedingung: Gewährleistet die Eindeutigkeit des Maßes, wodurch Momentenbeschränkungen äquivalent zu Dominanzbeschränkungen werden
- Natürliches Auftreten der Hahn-Jordan-Zerlegung: Die optimale Lösung konvergiert gegen die Hahn-Jordan-Zerlegung von μ-ν
- Polynombeschränkung des Dualproblems: Behandlung der Beschränkung ‖f‖∞ ≤ 1 durch Einschränkung auf den Polynomraum und Hinzufügen von Strafbegriffen
- Software: GloptiPoly 3 für Polynomoptimierung
- Solver: SeDuMi 1.03 semidefiniter Programmiersolver
- Plattform: HP Elitebook Ubuntu 24 Notebook
- Disjunkte Träger: X = {-1.0, 0.0, 1.0, 2.0}, Y = {-0.7, 0.3, 1.3, 2.3}
- Ein gemeinsamer Punkt: X ∩ Y = {-1.0}
- Nahe beieinander liegende Atome: Test der numerischen Stabilität
- Normalverteilungen N(m₁,σ₁) und N(m₂,σ₂) mit unterschiedlichen Mittelwerten und Varianzen
- Momentenanzahl von 2n = 4 bis 2n = 8
- Nähe der Relaxationsoptimalwerte ρₙ zur wahren TV-Distanz
- Konvergenzgeschwindigkeit und numerische Stabilität
- Rechenzeit (alle Ergebnisse in weniger als 0,35 Sekunden abgeschlossen)
Für Atommasse auf der reellen Achse werden exakte Lösungen erhalten, wenn n ≥ maxm₁,m₂:
- Beispiel 1: μ = δ₀, ν = δₑ, ρ₁ = 2 (exakt)
- Beispiel 2: Vier Atome, ein gemeinsamer Punkt, ρ₄ = 1.499 ≈ 1.5
- Beispiel 3: Disjunkte Atome, ρ₄ = 1.9999 ≈ 2
| (m₁,σ₁) | (m₂,σ₂) | ρ₁ | ρ₂ | ρ₃ | ρ₄ |
|---|
| (0,0.1) | (1,0.1) | 1.9231 | 1.9936 | 1.9991 | 1.9997 |
| (0,0.2) | (1,0.2) | 1.7241 | 1.9049 | 1.9376 | 1.939 |
| (0,0.5) | (1,0.5) | 1.0000 | 1.0000 | 1.1653 | 1.1897 |
- ρ₁ stimmt vollständig mit analytischen Untergrenzen in der Literatur 1 überein
- Signifikante Verbesserung ab n=2, noch besser bei n=3,4
- Bei kleiner Varianz Verhalten nahe singulär-singulärer Maße (TV-Distanz nahe 2)
Satz 3.1 garantiert:
- Jede Relaxation hat eine optimale Lösung
- ρₙ ↑ ‖μ-ν‖_ konvergiert monoton
- Optimale Lösungen konvergieren gegen Momente der Hahn-Jordan-Zerlegung
- Empirische Schätzer: Distanzschätzung basierend auf Stichproben, aber TV-Distanz-Schätzer sind oft inkonsistent
- Analytische Grenzen: Ober- und Untergrenzen für spezifische Verteilungsklassen (z.B. hochdimensionale Gauß-Verteilungen, Gauß-Mischungen)
- Ungleichungsmethoden: Pinsker-Ungleichung, Hellinger-Distanz-Grenzen
- Optimaler Transport: Spezialisierte Algorithmen für Kantorovich-Metrik (z.B. Sinkhorn-Algorithmus)
- Allgemeingültigkeit: Anwendbar auf allgemeine Maße, die die Carleman-Bedingung erfüllen
- Nicht-kompakte Träger: Erfordert keinen kompakten Träger
- Garantierte Konvergenz: Theoretisch garantierte monotone Konvergenz
- Praktikabilität: Kann sowohl geschlossene als auch empirische Momente verarbeiten
- Bereitstellung eines universellen numerischen Schemas zur Berechnung der TV-Distanz
- Erreichung beliebiger Genauigkeit unter relativ schwachen Annahmen
- Jede Relaxation liefert eine garantierte Untergrenze
- Exakte Lösungen für diskrete Maße erreichbar
- Dimensionsempfindlichkeit: Die Methode ist dimensionsabhängig, derzeit auf kleine Dimensionsprobleme beschränkt
- Einschränkungen des Solvers: Hochgradige Relaxationsprobleme können nicht erwartet werden
- Numerische Genauigkeit: Mögliche numerische Probleme bei sehr nahe beieinander liegenden Atomen
- Stichprobengröße: Ausreichend große Stichproben erforderlich bei Verwendung empirischer Momente
- Bereitstellung kostengünstigerer alternativer Untergrenzen
- Erweiterung auf hochdimensionale Probleme
- Verbesserung der numerischen Stabilität
- Vergleichende Studien mit anderen Distanzmaßen
- Theoretische Strenge: Vollständige Konvergenzbeweise und Dualtheorie
- Methodische Neuheit: Erste Anwendung der Moment-SOS-Hierarchie auf TV-Distanzberechnung
- Praktischer Wert: Kann sowohl geschlossene als auch Stichprobendaten verarbeiten
- Genauigkeitsgarantie: Exakte Lösungen für spezielle Fälle (Atommasse) erreichbar
- Rechenkomplexität: Die Rechenkomplexität des semidefiniten Programms begrenzt die Anwendungsgröße
- Begrenzte Experimente: Hauptsächlich Tests bei niedriger Dimension und einfachen Verteilungen
- Unzureichender Vergleich mit bestehenden Methoden: Fehlende systematische Vergleiche mit anderen TV-Distanz-Berechnungsmethoden
- Theoretischer Beitrag: Neuer theoretischer Rahmen für TV-Distanzberechnung
- Methodologischer Wert: Demonstriert das Potenzial der Moment-SOS-Hierarchie bei der Berechnung von Wahrscheinlichkeitsmaßen
- Praktische Anwendung: Neues Werkzeug für Felder wie distributionsrobuste Optimierung
- Anforderungen an exakte Berechnung: Theoretisch garantierte Untergrenzen der TV-Distanz erforderlich
- Probleme niedriger Dimension: Praktische Anwendungen mit niedriger Dimension
- Spezielle Verteilungen: Gauß-, Exponential- und Mischverteilungen
- Diskrete Verteilungen: Atommasse mit endlichem Träger
Der Artikel zitiert 28 relevante Referenzen, die wichtige Arbeiten in mehreren Bereichen abdecken – optimaler Transport, Momentenprobleme, semidefinite Programmierung und Wahrscheinlichkeitsmaße – insbesondere die Arbeiten des Autors zur Moment-SOS-Hierarchie 21,24,26, die die theoretische Grundlage dieses Artikels bilden.