2025-11-13T23:52:10.651598

Asymptotic optimality theory of confidence intervals of the mean

Deep, Bassamboo, Juneja
We address the classical problem of constructing confidence intervals (CIs) for the mean of a distribution, given \(N\) i.i.d. samples, such that the CI contains the true mean with probability at least \(1 - δ\), where \(δ\in (0,1)\). We characterize three distinct learning regimes based on the minimum achievable limiting width of any CI as the sample size \(N_δ \to \infty\) and \(δ\to 0\). In the first regime, where \(N_δ\) grows slower than \(\log(1/δ)\), the limiting width of any CI equals the width of the distribution's support, precluding meaningful inference. In the second regime, where \(N_δ\) scales as \(\log(1/δ)\), we precisely characterize the minimum limiting width, which depends on the scaling constant. In the third regime, where \(N_δ\) grows faster than \(\log(1/δ)\), complete learning is achievable, and the limiting width of the CI collapses to zero, converging to the true mean. We demonstrate that CIs derived from concentration inequalities based on Kullback--Leibler (KL) divergences achieve asymptotically optimal performance, attaining the minimum limiting width in both sufficient and complete learning regimes for distributions in two families: single-parameter exponential and bounded support. Additionally, these results extend to one-sided CIs, with the width notion adjusted appropriately. Finally, we generalize our findings to settings with random per-sample costs, motivated by practical applications such as stochastic simulators and cloud service selection. Instead of a fixed sample size, we consider a cost budget \(C_δ\), identifying analogous learning regimes and characterizing the optimal CI construction policy.
academic

Asymptotische Optimalitätstheorie von Konfidenzintervallen des Mittelwerts

Grundinformationen

  • Paper-ID: 2501.19126
  • Titel: Asymptotic optimality theory of confidence intervals of the mean
  • Autoren: Vikas Deep (NUS, Singapur), Achal Bassamboo (Kellogg, Northwestern University), Sandeep Juneja (Ashoka University, Indien)
  • Klassifizierung: math.ST stat.TH
  • Veröffentlichungsdatum: Januar 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2501.19126

Zusammenfassung

Dieses Paper untersucht das klassische Problem der Konstruktion von Konfidenzintervallen (KI) für den Mittelwert einer Verteilung basierend auf N unabhängig identisch verteilten Stichproben, wobei das KI den wahren Mittelwert mit Wahrscheinlichkeit mindestens 1-δ enthalten soll. Die Autoren charakterisieren drei verschiedene Lernregime basierend auf der minimalen asymptotischen Breite, die von beliebigen KI erreicht werden kann, wenn N_δ→∞ und δ→0: (1) Nicht-Lernregime: Wenn N_δ langsamer als log(1/δ) wächst, ist die Grenzbreite des KI gleich der Breite des Verteilungsträgers; (2) Ausreichendes Lernregime: Wenn N_δ proportional zu log(1/δ) wächst, kann die minimale Grenzbreite, die von Skalierungskonstanten abhängt, präzise charakterisiert werden; (3) Vollständiges Lernregime: Wenn N_δ schneller als log(1/δ) wächst, konvergiert die Grenzbreite des KI gegen Null. Die Autoren beweisen, dass KI, die auf KL-Divergenz-basierten Konzentrationungleichungen konstruiert sind, in beiden ausreichenden und vollständigen Lernregimen asymptotisch optimal sind.

Forschungshintergrund und Motivation

Bedeutung des Problems

Die Konstruktion von Konfidenzintervallen ist ein grundlegendes Problem der Statistik mit wichtigen Anwendungen in A/B-Tests, Versuchsplanung, Datenanalyse und Simulation. Obwohl verschiedene Konstruktionsmethoden für Konfidenzintervalle existieren, fehlt eine theoretische Charakterisierung von optimalen KI mit minimaler Breite.

Einschränkungen bestehender Methoden

  1. Fehlende Optimalitätstheorie: Obwohl die Literatur verschiedene KI-Konstruktionsmethoden bereitstellt, gibt es keine Ergebnisse, die optimale KI mit minimaler Breite charakterisieren
  2. Lockere nicht-asymptotische Schranken: Bestehende nicht-asymptotische Schranken (wie Shekhar und Ramdas 2023) sind im asymptotischen Fall locker
  3. Starke Annahmen: Bestehende Schranken hängen von starken Annahmen ab, dass die KI-Breite durch spezifische Funktionen deterministisch begrenzt wird

Forschungsmotivation

Dieses Paper zielt darauf ab, diese theoretische Lücke zu schließen, indem eine Stabilitätsannahme eingeführt wird, um die fundamentalen Grenzen der KI-Breite im asymptotischen Rahmen zu charakterisieren und die Optimalität KL-Divergenz-basierter Methoden zu beweisen.

Kernbeiträge

  1. Charakterisierung von drei Lernregimen: Basierend auf der relativen Skalierung der Stichprobengröße N_δ relativ zur Genauigkeit 1-δ werden drei verschiedene Regime (Nicht-Lernen, ausreichendes Lernen und vollständiges Lernen) charakterisiert
  2. Scharfe untere Schranken: Im ausreichenden Lernregime werden scharfe untere Schranken für die Grenzbreite des KI hergeleitet und bewiesen, dass KL-Divergenz-basierte KI-Konstruktionsmethoden diese Schranken erreichen
  3. Beweis asymptotischer Optimalität: Es wird bewiesen, dass KI-Konstruktionsmethoden basierend auf KL-Divergenz-Konzentrationsgrenzen im untersuchten asymptotischen Rahmen optimal sind
  4. Erweiterte Ergebnisse: Die Ergebnisse werden auf allgemeinere Einstellungen wie zufällige Stichprobenkosten, einseitige KI und nichtparametrische Verteilungen erweitert

Methodische Details

Aufgabendefinition

Gegeben N unabhängig identisch verteilte Stichproben X₁,...,X_N aus einer Verteilung ν (mit Mittelwert μ), konstruiere ein Konfidenzintervall μ̂_L^π(N,δ), μ̂_R^π(N,δ), so dass P_ν(μ ∈ μ̂_L^π(N,δ), μ̂_R^π(N,δ)) ≥ 1-δ.

Theoretischer Kernrahmen

1. Stabilitätsannahme

Definition 1 (Stabilität): Für eine gegebene Verteilung ν wird eine Strategie π als stabil bezeichnet, wenn für N_δ→∞ und δ→0 gilt:

  • lim_{δ→0} μ̂_L^π(N_δ,δ) →^p μ_L^π(ν)
  • lim_{δ→0} μ̂_R^π(N_δ,δ) →^p μ_R^π(ν)

wobei μ_L^π(ν) ≤ μ und μ_R^π(ν) ≥ μ Konstanten sind.

2. Drei Lernregime

Basierend auf dem Wert k = lim_{δ→0} N_δ/log(1/δ):

Nicht-Lernregime (k→0):

  • Grenzbreite des KI = Breite des Verteilungsträgers
  • μ_L^π(μ) = μ̲, μ_R^π(μ) = μ̄

Ausreichendes Lernregime (k ∈ (0,∞)):

  • Untere Schranke: μ_R^π(μ) - μ_L^π(μ) ≥ μ_R*(μ,k) - μ_L*(μ,k)
  • wobei μ_L*(μ,k) < μ und μ_R*(μ,k) > μ eindeutig erfüllen: d(μ, μ_R*(μ,k)) = d(μ, μ_L*(μ,k)) = 1/k

Vollständiges Lernregime (k→∞):

  • Grenzbreite des KI→0

3. KL-Divergenz-Funktion

Für Verteilungen in der einparametrigen Exponentialfamilie S wird definiert: d(μ, μ̃) = KL(p_{θ(μ)}, p_{θ(μ̃)}) = b(θ(μ̃)) - b(θ(μ)) - b'(θ(μ))(θ(μ̃) - θ(μ))

Diese Funktion besitzt wichtige Eigenschaften wie strikte Quasikonvexität und Stetigkeit.

Optimale KI-Konstruktionsmethode π₁

Basierend auf der Konzentrationungleichung: P_ν(nd(μ̂_n, μ) ≥ β(δ)) ≤ δ

wobei β(δ) = log(2/δ), wird das KI konstruiert als:

  • μ_R^{π₁}(n,δ) = max{q > μ̂_n : nd(μ̂_n, q) ≤ β(δ)}
  • μ_L^{π₁}(n,δ) = min{q < μ̂_n : nd(μ̂_n, q) ≤ β(δ)}

Technische Innovationen

  1. Einführung des Stabilitätskonzepts: Dies ist eine Schlüsselinnovation zur Analyse des asymptotischen Verhaltens der KI-Breite, die es ermöglicht, die Grenzbreite als deterministische Konstante zu behandeln
  2. Geschickte Anwendung der Datenverarbeitungsungleichung: In Kombination mit der Stabilitätsannahme ermöglicht dies, die Hypotheseneliminierung auf beiden Seiten gleichzeitig zu berücksichtigen
  3. Beweis der Schärfe: Es wird bewiesen, dass die vorgeschlagenen Schranken scharf sind, d.h. es existieren Methoden, die die Schranken erreichen

Experimentelle Einrichtung

Datensätze

  • Bernoulli-Verteilung: Mittelwerte 0,6 und 0,9
  • Gaußsche Verteilung: N(0,1) mit bekannter Varianz
  • Pareto-Verteilung: Skalierungsparameter x_m=1, Formparameter α=3

Bewertungsmetriken

  • Durchschnittliche KI-Breite: Durchschnittliche Konfidenzintervallbreite über 1000 unabhängige Datensätze
  • Abdeckungswahrscheinlichkeit: Häufigkeit, mit der das Konfidenzintervall den wahren Mittelwert enthält

Vergleichsmethoden

  1. Hoeffding-basiertes KI: Basierend auf Hoeffding-Ungleichung
  2. Empirical Bernstein (EB) KI: Basierend auf empirischer Bernstein-Ungleichung
  3. Wettbasiertes abgesichertes KI: Basierend auf Wettmethode
  4. Shekhar-Ramdas-Schranke: Bestehende theoretische Schranke

Implementierungsdetails

  • δ = 0,01 (Bernoulli-Experimente), δ = 0,05 (Pareto-Experimente)
  • Stichprobengröße: N ∈ {2000, 3000}
  • Diskretisierungsparameter: m ∈ {1000, 3000, 5000} (Wettmethode)

Experimentelle Ergebnisse

Hauptergebnisse

1. Vergleich theoretischer Schranken

Für den Gaußschen Fall ist die asymptotische Schranke dieses Papers 2σ√(2/k), während die Shekhar-Ramdas-Schranke σ√(2/k) beträgt, was einen Verbesserungsfaktor von 2 darstellt.

2. KI-Breitenvergleich (Bernoulli-Verteilung)

Nπ₁Wetten(m=1000)Wetten(m=3000)Wetten(m=5000)HoeffdingEB
Mittelwert=0,6
20000,07120,06030,05960,05950,07280,0898
30000,05820,05920,05850,05840,05940,0712
Mittelwert=0,9
20000,04360,03780,03710,03690,07280,0606
30000,03560,03700,03630,03610,05940,0473

3. Ergebnisse für Verteilungen mit schweren Schwänzen (Pareto)

StichprobengrößeDurchschnittliche KI-Breite
5000,492
10000,355
20000,255
30000,199

Experimentelle Erkenntnisse

  1. Asymptotischer Vorteil: Die π₁-Methode zeigt hervorragende Leistung bei großen Stichproben, besonders bei N=3000 vergleichbar mit der Wettmethode
  2. Rechnerische Effizienz: Die π₁-Methode ist rechnerisch effizienter als die Wettmethode
  3. Theoretische Validierung: Experimentelle Ergebnisse validieren den theoretisch vorhergesagten Verbesserungsfaktor

Verwandte Arbeiten

Klassische Theorie

  • Dualität von Hypothesentests und KI: Klassische Theorie konstruiert KI durch Umkehrung von Hypothesentests
  • UMP-Tests: In parametrischen Einstellungen existieren gleichmäßig beste Tests, sind aber typischerweise auf spezifische Familien beschränkt (z.B. unverzerrte Tests in Exponentialfamilien)

Konzentrationungleichungs-Methoden

  • Hoeffding- und Bernstein-Ungleichungen: Anwendbar auf Verteilungen mit beschränktem Träger
  • Chernoff-Schranken: Anwendbar, wenn obere Schranken für MGF bekannt sind
  • Methoden für schwere Schwänze: Verwendung von Markov- und Chebyshev-Ungleichungen

Neueste Entwicklungen

  • Waudby-Smith und Ramdas (2024): Umwandlung von KI-Konstruktion in Wettprobleme
  • Shekhar und Ramdas (2023): Erste Bereitstellung expliziter Schranken mit verteilungsabhängigen Komplexitätstermen, aber relativ locker

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Vollständige theoretische Charakterisierung: Erstmalige vollständige Charakterisierung der fundamentalen Grenzen der KI-Breite mit Identifizierung von drei verschiedenen Lernregimen
  2. Optimale Methode: Beweis, dass die KL-Divergenz-basierte KI-Konstruktionsmethode im asymptotischen Sinne optimal ist
  3. Breite Anwendbarkeit: Ergebnisse gelten für parametrische und nichtparametrische Verteilungsfamilien sowie für Einstellungen mit zufälligen Kosten

Einschränkungen

  1. Asymptotische Eigenschaften: Ergebnisse sind hauptsächlich asymptotisch, mit begrenzter Anleitung für endliche Stichproben
  2. Stabilitätsannahme: Obwohl mild, ist dies eine zusätzliche Annahmebedingung
  3. Einschränkung auf Verteilungsfamilien: Hauptergebnisse konzentrieren sich auf Exponentialfamilien und Verteilungen mit beschränktem Träger

Zukünftige Richtungen

  1. Nicht-asymptotische Ergebnisse: Entwicklung verfeinerterer nicht-asymptotischer Theorie
  2. Andere Statistiken: Erweiterung auf Varianz- und Quantilschätzung
  3. Mehrdimensionale Verallgemeinerung: Betrachtung von Konfidenzregionen für mehrdimensionale Parameter

Tiefgreifende Bewertung

Stärken

  1. Bedeutender theoretischer Beitrag: Erstmalige Bereitstellung einer vollständigen Theorie der Optimalität von KI-Breiten, Schließung einer wichtigen theoretischen Lücke
  2. Signifikante technische Innovationen: Die Einführung des Stabilitätskonzepts und die geschickte Anwendung der Datenverarbeitungsungleichung haben methodologischen Wert
  3. Scharfe Ergebnisse: Nicht nur Schranken bereitgestellt, sondern auch Erreichbarkeit der Schranken bewiesen
  4. Breite Anwendbarkeit: Erweiterung auf zufällige Kosten, einseitige KI und andere praktisch relevante Einstellungen

Schwächen

  1. Begrenzte Experimente: Numerische Experimente sind relativ einfach, könnten komplexere reale Datensätze einbeziehen
  2. Rechnerische Komplexität: Für nichtparametrische Fälle kann die Berechnung von KL_inf relativ komplex sein
  3. Endliche Stichprobenleistung: Theorie ist asymptotisch, Leistungsgarantien für endliche Stichproben sind nicht stark genug

Einflussfähigkeit

  1. Theoretischer Einfluss: Bietet neuen analytischen Rahmen für KI-Theorie, wird voraussichtlich häufig zitiert
  2. Praktischer Wert: Bietet theoretische Anleitung für die Auswahl von KI-Methoden in praktischen Anwendungen
  3. Methodologischer Beitrag: Stabilitätsanalysemethode könnte auf andere statistische Inferenzprobleme anwendbar sein

Anwendungsszenarien

  1. Großstichproben-Statistik: Besonders geeignet für Anwendungen mit großen Stichprobengrößen
  2. Online-Experimente: A/B-Tests und andere Szenarien, die zuverlässige Konfidenzintervalle erfordern
  3. Simulationsstudien: Zufällige Kosteneinstellung besonders geeignet für Simulationsanwendungen
  4. Maschinelles Lernen: Konstruktion von Konfidenzintervallen bei der Modellleistungsbewertung

Literaturverzeichnis

Das Paper zitiert wichtige Literatur aus Statistik und maschinellem Lernen, einschließlich:

  • Hoeffding (1994): Klassische Arbeiten zu Wahrscheinlichkeitsungleichungen
  • Waudby-Smith & Ramdas (2024): Neueste Entwicklungen in Wettmethoden
  • Shekhar & Ramdas (2023): Verwandte Schrankenarbeiten
  • Kaufmann & Koolen (2021): Beliebig zeitlich gültige Konzentrationungleichungen

Dieses Paper leistet wichtige Beiträge zur Theorie der Konfidenzintervalle. Durch die Einführung eines neuen analytischen Rahmens charakterisiert es vollständig die fundamentalen Grenzen der KI-Breite und beweist die Optimalität der KL-Divergenz-Methode. Obwohl es sich hauptsächlich um theoretische Arbeiten handelt, bietet es wertvolle Anleitung für praktische Anwendungen.