We address the classical problem of constructing confidence intervals (CIs) for the mean of a distribution, given \(N\) i.i.d. samples, such that the CI contains the true mean with probability at least \(1 - δ\), where \(δ\in (0,1)\). We characterize three distinct learning regimes based on the minimum achievable limiting width of any CI as the sample size \(N_δ \to \infty\) and \(δ\to 0\). In the first regime, where \(N_δ\) grows slower than \(\log(1/δ)\), the limiting width of any CI equals the width of the distribution's support, precluding meaningful inference. In the second regime, where \(N_δ\) scales as \(\log(1/δ)\), we precisely characterize the minimum limiting width, which depends on the scaling constant. In the third regime, where \(N_δ\) grows faster than \(\log(1/δ)\), complete learning is achievable, and the limiting width of the CI collapses to zero, converging to the true mean. We demonstrate that CIs derived from concentration inequalities based on Kullback--Leibler (KL) divergences achieve asymptotically optimal performance, attaining the minimum limiting width in both sufficient and complete learning regimes for distributions in two families: single-parameter exponential and bounded support. Additionally, these results extend to one-sided CIs, with the width notion adjusted appropriately. Finally, we generalize our findings to settings with random per-sample costs, motivated by practical applications such as stochastic simulators and cloud service selection. Instead of a fixed sample size, we consider a cost budget \(C_δ\), identifying analogous learning regimes and characterizing the optimal CI construction policy.
- Paper-ID: 2501.19126
- Titel: Asymptotic optimality theory of confidence intervals of the mean
- Autoren: Vikas Deep (NUS, Singapur), Achal Bassamboo (Kellogg, Northwestern University), Sandeep Juneja (Ashoka University, Indien)
- Klassifizierung: math.ST stat.TH
- Veröffentlichungsdatum: Januar 2025 (arXiv-Preprint)
- Paper-Link: https://arxiv.org/abs/2501.19126
Dieses Paper untersucht das klassische Problem der Konstruktion von Konfidenzintervallen (KI) für den Mittelwert einer Verteilung basierend auf N unabhängig identisch verteilten Stichproben, wobei das KI den wahren Mittelwert mit Wahrscheinlichkeit mindestens 1-δ enthalten soll. Die Autoren charakterisieren drei verschiedene Lernregime basierend auf der minimalen asymptotischen Breite, die von beliebigen KI erreicht werden kann, wenn N_δ→∞ und δ→0: (1) Nicht-Lernregime: Wenn N_δ langsamer als log(1/δ) wächst, ist die Grenzbreite des KI gleich der Breite des Verteilungsträgers; (2) Ausreichendes Lernregime: Wenn N_δ proportional zu log(1/δ) wächst, kann die minimale Grenzbreite, die von Skalierungskonstanten abhängt, präzise charakterisiert werden; (3) Vollständiges Lernregime: Wenn N_δ schneller als log(1/δ) wächst, konvergiert die Grenzbreite des KI gegen Null. Die Autoren beweisen, dass KI, die auf KL-Divergenz-basierten Konzentrationungleichungen konstruiert sind, in beiden ausreichenden und vollständigen Lernregimen asymptotisch optimal sind.
Die Konstruktion von Konfidenzintervallen ist ein grundlegendes Problem der Statistik mit wichtigen Anwendungen in A/B-Tests, Versuchsplanung, Datenanalyse und Simulation. Obwohl verschiedene Konstruktionsmethoden für Konfidenzintervalle existieren, fehlt eine theoretische Charakterisierung von optimalen KI mit minimaler Breite.
- Fehlende Optimalitätstheorie: Obwohl die Literatur verschiedene KI-Konstruktionsmethoden bereitstellt, gibt es keine Ergebnisse, die optimale KI mit minimaler Breite charakterisieren
- Lockere nicht-asymptotische Schranken: Bestehende nicht-asymptotische Schranken (wie Shekhar und Ramdas 2023) sind im asymptotischen Fall locker
- Starke Annahmen: Bestehende Schranken hängen von starken Annahmen ab, dass die KI-Breite durch spezifische Funktionen deterministisch begrenzt wird
Dieses Paper zielt darauf ab, diese theoretische Lücke zu schließen, indem eine Stabilitätsannahme eingeführt wird, um die fundamentalen Grenzen der KI-Breite im asymptotischen Rahmen zu charakterisieren und die Optimalität KL-Divergenz-basierter Methoden zu beweisen.
- Charakterisierung von drei Lernregimen: Basierend auf der relativen Skalierung der Stichprobengröße N_δ relativ zur Genauigkeit 1-δ werden drei verschiedene Regime (Nicht-Lernen, ausreichendes Lernen und vollständiges Lernen) charakterisiert
- Scharfe untere Schranken: Im ausreichenden Lernregime werden scharfe untere Schranken für die Grenzbreite des KI hergeleitet und bewiesen, dass KL-Divergenz-basierte KI-Konstruktionsmethoden diese Schranken erreichen
- Beweis asymptotischer Optimalität: Es wird bewiesen, dass KI-Konstruktionsmethoden basierend auf KL-Divergenz-Konzentrationsgrenzen im untersuchten asymptotischen Rahmen optimal sind
- Erweiterte Ergebnisse: Die Ergebnisse werden auf allgemeinere Einstellungen wie zufällige Stichprobenkosten, einseitige KI und nichtparametrische Verteilungen erweitert
Gegeben N unabhängig identisch verteilte Stichproben X₁,...,X_N aus einer Verteilung ν (mit Mittelwert μ), konstruiere ein Konfidenzintervall μ̂_L^π(N,δ), μ̂_R^π(N,δ), so dass P_ν(μ ∈ μ̂_L^π(N,δ), μ̂_R^π(N,δ)) ≥ 1-δ.
Definition 1 (Stabilität): Für eine gegebene Verteilung ν wird eine Strategie π als stabil bezeichnet, wenn für N_δ→∞ und δ→0 gilt:
- lim_{δ→0} μ̂_L^π(N_δ,δ) →^p μ_L^π(ν)
- lim_{δ→0} μ̂_R^π(N_δ,δ) →^p μ_R^π(ν)
wobei μ_L^π(ν) ≤ μ und μ_R^π(ν) ≥ μ Konstanten sind.
Basierend auf dem Wert k = lim_{δ→0} N_δ/log(1/δ):
Nicht-Lernregime (k→0):
- Grenzbreite des KI = Breite des Verteilungsträgers
- μ_L^π(μ) = μ̲, μ_R^π(μ) = μ̄
Ausreichendes Lernregime (k ∈ (0,∞)):
- Untere Schranke: μ_R^π(μ) - μ_L^π(μ) ≥ μ_R*(μ,k) - μ_L*(μ,k)
- wobei μ_L*(μ,k) < μ und μ_R*(μ,k) > μ eindeutig erfüllen:
d(μ, μ_R*(μ,k)) = d(μ, μ_L*(μ,k)) = 1/k
Vollständiges Lernregime (k→∞):
Für Verteilungen in der einparametrigen Exponentialfamilie S wird definiert:
d(μ, μ̃) = KL(p_{θ(μ)}, p_{θ(μ̃)}) = b(θ(μ̃)) - b(θ(μ)) - b'(θ(μ))(θ(μ̃) - θ(μ))
Diese Funktion besitzt wichtige Eigenschaften wie strikte Quasikonvexität und Stetigkeit.
Basierend auf der Konzentrationungleichung:
P_ν(nd(μ̂_n, μ) ≥ β(δ)) ≤ δ
wobei β(δ) = log(2/δ), wird das KI konstruiert als:
- μ_R^{π₁}(n,δ) = max{q > μ̂_n : nd(μ̂_n, q) ≤ β(δ)}
- μ_L^{π₁}(n,δ) = min{q < μ̂_n : nd(μ̂_n, q) ≤ β(δ)}
- Einführung des Stabilitätskonzepts: Dies ist eine Schlüsselinnovation zur Analyse des asymptotischen Verhaltens der KI-Breite, die es ermöglicht, die Grenzbreite als deterministische Konstante zu behandeln
- Geschickte Anwendung der Datenverarbeitungsungleichung: In Kombination mit der Stabilitätsannahme ermöglicht dies, die Hypotheseneliminierung auf beiden Seiten gleichzeitig zu berücksichtigen
- Beweis der Schärfe: Es wird bewiesen, dass die vorgeschlagenen Schranken scharf sind, d.h. es existieren Methoden, die die Schranken erreichen
- Bernoulli-Verteilung: Mittelwerte 0,6 und 0,9
- Gaußsche Verteilung: N(0,1) mit bekannter Varianz
- Pareto-Verteilung: Skalierungsparameter x_m=1, Formparameter α=3
- Durchschnittliche KI-Breite: Durchschnittliche Konfidenzintervallbreite über 1000 unabhängige Datensätze
- Abdeckungswahrscheinlichkeit: Häufigkeit, mit der das Konfidenzintervall den wahren Mittelwert enthält
- Hoeffding-basiertes KI: Basierend auf Hoeffding-Ungleichung
- Empirical Bernstein (EB) KI: Basierend auf empirischer Bernstein-Ungleichung
- Wettbasiertes abgesichertes KI: Basierend auf Wettmethode
- Shekhar-Ramdas-Schranke: Bestehende theoretische Schranke
- δ = 0,01 (Bernoulli-Experimente), δ = 0,05 (Pareto-Experimente)
- Stichprobengröße: N ∈ {2000, 3000}
- Diskretisierungsparameter: m ∈ {1000, 3000, 5000} (Wettmethode)
Für den Gaußschen Fall ist die asymptotische Schranke dieses Papers 2σ√(2/k), während die Shekhar-Ramdas-Schranke σ√(2/k) beträgt, was einen Verbesserungsfaktor von 2 darstellt.
| N | π₁ | Wetten(m=1000) | Wetten(m=3000) | Wetten(m=5000) | Hoeffding | EB |
|---|
| Mittelwert=0,6 | | | | | | |
| 2000 | 0,0712 | 0,0603 | 0,0596 | 0,0595 | 0,0728 | 0,0898 |
| 3000 | 0,0582 | 0,0592 | 0,0585 | 0,0584 | 0,0594 | 0,0712 |
| Mittelwert=0,9 | | | | | | |
| 2000 | 0,0436 | 0,0378 | 0,0371 | 0,0369 | 0,0728 | 0,0606 |
| 3000 | 0,0356 | 0,0370 | 0,0363 | 0,0361 | 0,0594 | 0,0473 |
| Stichprobengröße | Durchschnittliche KI-Breite |
|---|
| 500 | 0,492 |
| 1000 | 0,355 |
| 2000 | 0,255 |
| 3000 | 0,199 |
- Asymptotischer Vorteil: Die π₁-Methode zeigt hervorragende Leistung bei großen Stichproben, besonders bei N=3000 vergleichbar mit der Wettmethode
- Rechnerische Effizienz: Die π₁-Methode ist rechnerisch effizienter als die Wettmethode
- Theoretische Validierung: Experimentelle Ergebnisse validieren den theoretisch vorhergesagten Verbesserungsfaktor
- Dualität von Hypothesentests und KI: Klassische Theorie konstruiert KI durch Umkehrung von Hypothesentests
- UMP-Tests: In parametrischen Einstellungen existieren gleichmäßig beste Tests, sind aber typischerweise auf spezifische Familien beschränkt (z.B. unverzerrte Tests in Exponentialfamilien)
- Hoeffding- und Bernstein-Ungleichungen: Anwendbar auf Verteilungen mit beschränktem Träger
- Chernoff-Schranken: Anwendbar, wenn obere Schranken für MGF bekannt sind
- Methoden für schwere Schwänze: Verwendung von Markov- und Chebyshev-Ungleichungen
- Waudby-Smith und Ramdas (2024): Umwandlung von KI-Konstruktion in Wettprobleme
- Shekhar und Ramdas (2023): Erste Bereitstellung expliziter Schranken mit verteilungsabhängigen Komplexitätstermen, aber relativ locker
- Vollständige theoretische Charakterisierung: Erstmalige vollständige Charakterisierung der fundamentalen Grenzen der KI-Breite mit Identifizierung von drei verschiedenen Lernregimen
- Optimale Methode: Beweis, dass die KL-Divergenz-basierte KI-Konstruktionsmethode im asymptotischen Sinne optimal ist
- Breite Anwendbarkeit: Ergebnisse gelten für parametrische und nichtparametrische Verteilungsfamilien sowie für Einstellungen mit zufälligen Kosten
- Asymptotische Eigenschaften: Ergebnisse sind hauptsächlich asymptotisch, mit begrenzter Anleitung für endliche Stichproben
- Stabilitätsannahme: Obwohl mild, ist dies eine zusätzliche Annahmebedingung
- Einschränkung auf Verteilungsfamilien: Hauptergebnisse konzentrieren sich auf Exponentialfamilien und Verteilungen mit beschränktem Träger
- Nicht-asymptotische Ergebnisse: Entwicklung verfeinerterer nicht-asymptotischer Theorie
- Andere Statistiken: Erweiterung auf Varianz- und Quantilschätzung
- Mehrdimensionale Verallgemeinerung: Betrachtung von Konfidenzregionen für mehrdimensionale Parameter
- Bedeutender theoretischer Beitrag: Erstmalige Bereitstellung einer vollständigen Theorie der Optimalität von KI-Breiten, Schließung einer wichtigen theoretischen Lücke
- Signifikante technische Innovationen: Die Einführung des Stabilitätskonzepts und die geschickte Anwendung der Datenverarbeitungsungleichung haben methodologischen Wert
- Scharfe Ergebnisse: Nicht nur Schranken bereitgestellt, sondern auch Erreichbarkeit der Schranken bewiesen
- Breite Anwendbarkeit: Erweiterung auf zufällige Kosten, einseitige KI und andere praktisch relevante Einstellungen
- Begrenzte Experimente: Numerische Experimente sind relativ einfach, könnten komplexere reale Datensätze einbeziehen
- Rechnerische Komplexität: Für nichtparametrische Fälle kann die Berechnung von KL_inf relativ komplex sein
- Endliche Stichprobenleistung: Theorie ist asymptotisch, Leistungsgarantien für endliche Stichproben sind nicht stark genug
- Theoretischer Einfluss: Bietet neuen analytischen Rahmen für KI-Theorie, wird voraussichtlich häufig zitiert
- Praktischer Wert: Bietet theoretische Anleitung für die Auswahl von KI-Methoden in praktischen Anwendungen
- Methodologischer Beitrag: Stabilitätsanalysemethode könnte auf andere statistische Inferenzprobleme anwendbar sein
- Großstichproben-Statistik: Besonders geeignet für Anwendungen mit großen Stichprobengrößen
- Online-Experimente: A/B-Tests und andere Szenarien, die zuverlässige Konfidenzintervalle erfordern
- Simulationsstudien: Zufällige Kosteneinstellung besonders geeignet für Simulationsanwendungen
- Maschinelles Lernen: Konstruktion von Konfidenzintervallen bei der Modellleistungsbewertung
Das Paper zitiert wichtige Literatur aus Statistik und maschinellem Lernen, einschließlich:
- Hoeffding (1994): Klassische Arbeiten zu Wahrscheinlichkeitsungleichungen
- Waudby-Smith & Ramdas (2024): Neueste Entwicklungen in Wettmethoden
- Shekhar & Ramdas (2023): Verwandte Schrankenarbeiten
- Kaufmann & Koolen (2021): Beliebig zeitlich gültige Konzentrationungleichungen
Dieses Paper leistet wichtige Beiträge zur Theorie der Konfidenzintervalle. Durch die Einführung eines neuen analytischen Rahmens charakterisiert es vollständig die fundamentalen Grenzen der KI-Breite und beweist die Optimalität der KL-Divergenz-Methode. Obwohl es sich hauptsächlich um theoretische Arbeiten handelt, bietet es wertvolle Anleitung für praktische Anwendungen.