2025-11-24T22:28:17.253920

Exploration-free Algorithms for Multi-group Mean Estimation

Wei, Zhong, Li
We address the problem of multi-group mean estimation, which seeks to allocate a finite sampling budget across multiple groups to obtain uniformly accurate estimates of their means. Unlike classical multi-armed bandits, whose objective is to minimize regret by identifying and exploiting the best arm, the optimal allocation in this setting requires sampling every group on the order of $Θ(T)$ times. This fundamental distinction makes exploration-free algorithms both natural and effective. Our work makes three contributions. First, we strengthen the existing results on subgaussian variance concentration using the Hanson-Wright inequality and identify a class of strictly subgaussian distributions that yield sharper guarantees. Second, we design exploration-free non-adaptive and adaptive algorithms, and we establish tighter regret bounds than the existing results. Third, we extend the framework to contextual bandit settings, an underexplored direction, and propose algorithms that leverage side information with provable guarantees. Overall, these results position exploration-free allocation as a principled and efficient approach to multi-group mean estimation, with potential applications in experimental design, personalization, and other domains requiring accurate multi-group inference.
academic

Explorations-freie Algorithmen für Multi-Gruppen-Mittelwertschätzung

Grundlegende Informationen

  • Papier-ID: 2510.10374
  • Titel: Exploration-free Algorithms for Multi-group Mean Estimation
  • Autoren: Ziyi Wei (Virginia Tech), Huaiyang Zhong (Virginia Tech), Xiaocheng Li (Imperial College London)
  • Klassifizierung: cs.LG, stat.ML
  • Veröffentlichungsdatum: 12. Oktober 2025
  • Papier-Link: https://arxiv.org/abs/2510.10374

Zusammenfassung

Dieses Papier untersucht das Problem der Multi-Gruppen-Mittelwertschätzung, mit dem Ziel, ein begrenztes Stichprobenbudget auf mehrere Gruppen zu verteilen, um konsistent genaue Schätzungen ihrer Mittelwerte zu erhalten. Im Gegensatz zu klassischen Multi-Armed-Bandit-Problemen (deren Ziel es ist, Bedauern durch Identifizierung und Ausnutzung des optimalen Arms zu minimieren) erfordert die optimale Allokation in dieser Einstellung, dass jede Gruppe Θ(T)-mal abgetastet wird. Dieser grundlegende Unterschied macht explorations-freie Algorithmen sowohl natürlich als auch wirksam. Das Papier leistet drei Hauptbeiträge: Erstens werden bestehende Ergebnisse der Subgaußschen Varianzkonzentration mit der Hanson-Wright-Ungleichung verstärkt und eine Klasse streng subgaußscher Verteilungen identifiziert, die schärfere Garantien liefert; zweitens werden explorations-freie nicht-adaptive und adaptive Algorithmen entworfen, die engere Bedauernsgrenzen als bestehende Ergebnisse etablieren; drittens wird das Framework auf kontextuelle Bandit-Einstellungen erweitert, eine unterentwickelte Richtung, mit Algorithmen, die Hilfsinformationen nutzen, und nachweisbaren Garantien.

Forschungshintergrund und Motivation

Problemdefinition

Das Multi-Gruppen-Mittelwertschätzungsproblem erfordert die Verteilung eines Stichprobenbudgets auf K Gruppen innerhalb eines endlichen Zeithorizonts T, so dass Schätzungen aller Gruppenmittelwerte konsistent genau sind. Konkret hat die k-te Gruppe eine Belohnungsverteilung Pk mit Mittelwert μk und Varianz σk². Das Ziel ist die Minimierung des p-Norm-Ziels:

Rp(n)={σk2nk}k=1KpR_p(n) = \left\|\left\{\frac{\sigma_k^2}{n_k}\right\}_{k=1}^K\right\|_p

wobei nk die Anzahl der Stichproben für die k-te Gruppe ist.

Forschungsmotivation

  1. Praktische Anforderungen: In Meinungsumfragen, Versuchsplanung und personalisierten Empfehlungssystemen ist eine genaue und faire Schätzung mehrerer Gruppen erforderlich, nicht nur die Fokussierung auf die optimale Gruppe.
  2. Theoretische Herausforderungen: Im Gegensatz zu klassischen Multi-Armed-Bandits erfordert die optimale Allokation, dass jeder Arm Θ(T)-mal abgetastet wird, was den klassischen Explorations-Exploitations-Kompromiss überflüssig macht.
  3. Einschränkungen bestehender Methoden: Bestehende UCB-ähnliche Algorithmen führen unnötige Explorations-Kosten ein und nutzen die Struktureigenschaften des Problems nicht vollständig.

Kernbeiträge

  1. Theoretische Verbesserungen: Basierend auf der Hanson-Wright-Ungleichung werden Subgaußsche Varianzkonzentrationsungleichungen verbessert und eine Klasse streng subgaußscher Verteilungen identifiziert, um schärfere theoretische Garantien zu erhalten.
  2. Algorithmentwurf: Es werden zwei explorations-freie Algorithmen vorgeschlagen:
    • Nicht-adaptiver Algorithmus (erfordert Vorwissen über Varianzuntergrenzen)
    • Adaptiver Algorithmus (benötigt kein Vorwissen, verwendet Konfidenzintervalle)
  3. Framework-Erweiterung: Erstmalige Erweiterung der Multi-Gruppen-Mittelwertschätzung auf kontextuelle Bandit-Einstellungen mit entsprechenden Algorithmen und theoretischer Analyse.
  4. Leistungsverbesserung: Im Vergleich zu bestehenden besten Ergebnissen wird ein log T-Faktor aus der Bedauerngrenze entfernt, was engere theoretische Grenzen erreicht.

Methodische Details

Aufgabendefinition

Gegeben sind K Gruppen, wobei jede Gruppe k eine Belohnungsverteilung Pk mit unbekanntem Mittelwert μk und Varianz σk² hat. Innerhalb des Zeithorizonts T wird in jedem Zeitschritt eine Gruppe zum Abtasten ausgewählt, mit dem Ziel, die p-Norm aller Gruppenschätzungsfehler zu minimieren.

Optimale Allokationsschema

Proposition 2.1 gibt die theoretisch optimale Allokation an: nk=σkqj=1KσjqTn_k^* = \frac{\sigma_k^q}{\sum_{j=1}^K \sigma_j^q} \cdot T

wobei q = 2p/(p+1) (wenn p endlich ist) oder q = 2 (wenn p = ∞).

Algorithmus 1: Nicht-adaptive Allokation

Kernidee: Zwei-Phasen-Verfahren

  1. Phase 1: Gleichmäßiges Abtasten jeder Gruppe für τ Runden zur Varianzschätzung
  2. Phase 2: Allokation des verbleibenden Budgets nach optimalem Verhältnis basierend auf geschätzter Varianz

Schlüsselparameter:

  • Anfangslänge: τ=σqσq+(K1)σqT\tau = \frac{\sigma^q}{\sigma^q + (K-1)\underline{\sigma}^q} \cdot T
  • Allokationsgewicht: λk,τ=σ^k,τqj=1Kσ^j,τq\lambda_{k,\tau} = \frac{\hat{\sigma}_{k,\tau}^q}{\sum_{j=1}^K \hat{\sigma}_{j,\tau}^q}

Algorithmus 2: Adaptiver Algorithmus

Verbesserungen: Benötigt kein Vorwissen über Varianzuntergrenzen, passt sich durch Konfidenzintervalle adaptiv an.

Kernmechanismus:

  1. Konfidenzintervall-Konstruktion: Basierend auf verbesserter Varianzkonzentrationsungleichung
  2. Adaptive Stoppzeit: Dynamische Berechnung der Stoppzeit für jede Gruppe
  3. Arm-Eliminierungsstrategie: Ähnlich wie in optimaler Arm-Identifikation

Konfidenzintervalle:

  • LCBk,n=max{σ^k,n2εk,n+,0}LCB_{k,n} = \max\{\hat{\sigma}_{k,n}^2 - \varepsilon_{k,n}^+, 0\}
  • UCBk,n=σ^k,n2+εk,nUCB_{k,n} = \hat{\sigma}_{k,n}^2 + \varepsilon_{k,n}^-

Algorithmus 3: Kontextuelle Erweiterung

Problemeinstellung: Jede Gruppe k ist mit einem Parametervektor βk assoziiert. Bei Beobachtung des Kontexts ct ist die Belohnung: Xk,n=βkTcn+ηk,nX_{k,n} = \beta_k^T c_n + \eta_{k,n}

Zielfunktion: minE[k=1Kβ^k,nkβk2]\min \mathbb{E}\left[\sum_{k=1}^K \|\hat{\beta}_{k,n_k} - \beta_k\|^2\right]

Schlüsselinnovationen:

  • Verwendung von Ridge-Regression-Schätzern
  • Entscheidungs-dann-Beobachtungs-Strategie
  • Beibehaltung der Unabhängigkeit von Kontextvektoren

Experimentelle Einrichtung

Datensätze

  1. Gaußsche Verteilung: K=4 Gruppen, Mittelwerte aus U(-1,1) abgetastet, Varianzen {1, 1.5, 2, 2.5}
  2. Rademacher + Gaußsch: Reproduktion des Versuchsaufbaus von Carpentier et al.
  3. Symmetrische Beta-Verteilung: Validierung der Vorteile streng subgaußscher Eigenschaften
  4. Kontextuelle Einstellung: K∈{5,10,20}, Dimension d=4, Kontexte gleichmäßig aus Hyperwürfel abgetastet

Bewertungsmetriken

  • Empirisches Bedauern: Rp(nπ)Rp(n)R_p(n^{\pi}) - R_p(n^*)
  • Engheit theoretischer Grenzen
  • Konvergenzgeschwindigkeit des Algorithmus

Vergleichsmethoden

  • Allgemeine Subgaußsche (GSG) vs. streng subgaußsche (SSG) Einstellung
  • Bekannte vs. unbekannte Varianzuntergrenzen
  • Leistung bei verschiedenen p-Werten

Experimentelle Ergebnisse

Hauptergebnisse

  1. Engheit theoretischer Grenzen: Theoretische Grenzen in der streng subgaußschen Einstellung sind näher an empirischen Ergebnissen, besonders bei p=∞.
  2. Einfluss der Varianzuntergrenze: Wenn die Varianzuntergrenze unbekannt ist, zeigt die Algorithmusleistung signifikanten Rückgang, wobei dieser Rückgang in GSG- und SSG-Einstellungen zu unterschiedlichen Zeitpunkten auftritt.
  3. Zeitkomplexität: Die Länge der ersten Phase in SSG-Einstellung sinkt erheblich, von σ²-abhängig auf nur log T-abhängige Konstanten.

Spezifische numerische Ergebnisse

  • In Gaußschen Experimenten zeigt der Algorithmus erwartete Leistung, wenn T > 2×10⁴
  • Theoretische Grenzen in SSG-Einstellung sind etwa eine Größenordnung enger als in GSG-Einstellung
  • In kontextuellen Experimenten liegt die Steigung des empirischen Bedauerns nahe -2, konsistent mit theoretischen Vorhersagen

Ablationsstudien

  1. Streng subgaußsch vs. allgemein subgaußsch: Streng subgaußsche Verteilungen bieten bessere Konstantenfaktoren und einfachere Algorithmusimplementierung
  2. Vergleich verschiedener p-Werte: p=∞ bietet engste theoretische Grenzen
  3. Einfluss der Kontextdimension: Mit zunehmender Armanzahl bleibt die Leistung mit stabilen Skalierungsbeziehungen erhalten

Verwandte Arbeiten

Multi-Gruppen-Mittelwertschätzung

  • Antos et al. (2008, 2010): Früheste Untersuchung des aktiven Lernens unter heteroskedastischen Rauschen
  • Carpentier et al. (2011): Vorschlag von UCB-ähnlichen Algorithmen für unbegrenzte Fälle
  • Aznag et al. (2023): Einführung von p-Norm-Zielfunktionen und Etablierung von Untergrenzen

Varianzkonzentrationstheorie

  • Moderne Entwicklung der Hanson-Wright-Ungleichung
  • Identifikation und Eigenschaften streng subgaußscher Verteilungen
  • Verbesserungen empirischer Bernstein-Grenzen

Kontextuelle Bandits

  • Parameterschätzung in linearen Bandits
  • Anwendung der Versuchsplanungstheorie
  • Einschränkungen von UCB-ähnlichen Algorithmen in kontextuellen Einstellungen

Theoretische Analyse

Haupttheoretische Ergebnisse

Theorem 3.1 (Nicht-adaptiver Algorithmus, p=∞): E[Rp(nπ1)Rp(n)]42σ2FAlg1,(λ,σ2)T3/2logT+o(T3/2)\mathbb{E}[R_p(n^{\pi_1}) - R_p(n^*)] \leq 4\sqrt{2}\sigma^2 F_{Alg1,\infty}(\lambda, \sigma^2) T^{-3/2}\sqrt{\log T} + o(T^{-3/2})

Theorem 3.2 (Nicht-adaptiver Algorithmus, p<∞): E[Rp(nπ1)Rp(n)]24σ4FAlg1,p(λ,σ2)T2logT+o(T2)\mathbb{E}[R_p(n^{\pi_1}) - R_p(n^*)] \leq 24\sigma^4 F_{Alg1,p}(\lambda, \sigma^2) T^{-2}\log T + o(T^{-2})

Theorem 4.1 (Adaptiver Algorithmus): Bietet Grenzen gleicher Ordnung, aber mit leicht unterschiedlichen Konstantenfaktoren.

Schlüsselverbesserungen

  1. Varianzkonzentration: Verwendung der Hanson-Wright-Ungleichung verbessert Varianzschätzungs-Konzentrationsungleichungen, entfernt einen log(1/δ)\sqrt{\log(1/\delta)}-Faktor.
  2. Streng subgaußsch: Identifiziert Klasse streng subgaußscher Verteilungen, bei denen der Varianzparameter gleich der wahren Varianz ist, bietet schärfere Grenzen.
  3. Explorations-freier Entwurf: Beweist, dass UCB-ähnliche Exploration in diesem Problem überflüssig ist, da die optimale Lösung selbst Θ(T)-faches Abtasten jedes Arms erfordert.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Explorations-freies Prinzip: Die Struktur des Multi-Gruppen-Mittelwertschätzungsproblems macht explizite Exploration überflüssig, in starkem Kontrast zu klassischen Multi-Armed-Bandits.
  2. Theoretische Verbesserungen: Durch verbesserte Varianzkonzentrationsungleichungen und Identifikation streng subgaußscher Verteilungen werden engere theoretische Grenzen erreicht.
  3. Algorithmentwurf: Vorgeschlagene Algorithmen erreichen optimale asymptotische Leistung bei Beibehaltung von Einfachheit.
  4. Erweiterbarkeit: Erfolgreiche Erweiterung des Frameworks auf kontextuelle Einstellungen eröffnet neue Forschungsrichtungen.

Einschränkungen

  1. Verteilungsannahmen: Algorithmen basieren auf Subgaußschen Annahmen, möglicherweise nicht anwendbar auf Verteilungen mit schweren Schwänzen.
  2. Konstantenfaktoren: Obwohl asymptotisch optimal, können Konstantenfaktoren in kleinen Stichprobenfällen groß sein.
  3. Kontextuelle Einschränkungen: Kontextuelle Erweiterung erfordert Entscheidungs-dann-Beobachtungs-Strategie, begrenzt praktische Flexibilität.

Zukünftige Richtungen

  1. Strukturierte Verteilungen: Untersuchung, wie mehr Verteilungsstrukturinformationen zur weiteren Algorithmusverbesserung genutzt werden können.
  2. Nichtparametrische Erweiterung: Erweiterung der Methode auf nichtparametrische Einstellungen.
  3. Praktische Anwendungen: Validierung der Algorithmusleistung in konkreten Anwendungsbereichen (z.B. A/B-Tests, klinische Studien).

Tiefgreifende Bewertung

Stärken

  1. Signifikante theoretische Beiträge: Substanzielle Verbesserungen sowohl in Varianzkonzentrationstheorie als auch in Algorithmentwurf.
  2. Tiefe Problemeinsicht: Identifikation grundlegender Unterschiede zwischen Multi-Gruppen-Mittelwertschätzung und klassischen Bandit-Problemen.
  3. Eleganter Methodenentwurf: Algorithmen sind einfach, intuitiv und leicht zu verstehen und umzusetzen.
  4. Umfassende experimentelle Validierung: Validierung theoretischer Ergebnisse durch verschiedene Verteilungen und Einstellungen.

Mängel

  1. Begrenzte praktische Validierung: Mangel an großflächiger Validierung auf echten Datensätzen.
  2. Unvollständige Komplexitätsanalyse: Keine detaillierte Analyse der Rechenkomplexität des Algorithmus.
  3. Unzureichende Robustheitsdiskussion: Mangel an Analyse der Leistung bei Verletzung von Verteilungsannahmen.

Auswirkungen

  1. Theoretischer Wert: Bietet neues theoretisches Framework für Multi-Gruppen-Inferenzprobleme.
  2. Praktischer Wert: Direkte Anwendbarkeit in Versuchsplanung, personalisierten Empfehlungssystemen und anderen Bereichen.
  3. Reproduzierbarkeit: Klare Algorithmusbeschreibung und vollständige theoretische Analyse ermöglichen gute Reproduzierbarkeit.

Anwendungsszenarien

  1. A/B-Tests: Szenarien, die faire Vergleiche mehrerer Benutzergruppen erfordern.
  2. Klinische Studien: Wirksamkeitsbewertung mehrerer Behandlungsgruppen.
  3. Marktforschung: Genaue Schätzung von Vorlieben verschiedener Bevölkerungsgruppen.
  4. Empfehlungssysteme: Gewährleistung von Multi-Gruppen-Fairness in personalisierten Empfehlungen.

Referenzen

Dieses Papier zitiert mehrere wichtige verwandte Arbeiten, einschließlich:

  • Aznag et al. (2023): Ein aktives Lern-Framework für Multi-Gruppen-Mittelwertschätzung
  • Carpentier et al. (2011): Upper-Confidence-Bound-Algorithmen für aktives Lernen in Multi-Armed-Bandits
  • Verwandte theoretische Arbeiten zur Hanson-Wright-Ungleichung
  • Klassische Ergebnisse zu Subgaußschen Verteilungen und Varianzkonzentration

Dieses Papier leistet wichtige Beiträge in Theorie und Methodik und bietet neue Perspektiven und effektive Lösungen für das Multi-Gruppen-Mittelwertschätzungsproblem. Der Vorschlag explorations-freier Algorithmen stellt das klassische Explorations-Exploitations-Paradigma in klassischen Multi-Armed-Bandits in Frage und hat bedeutende theoretische und praktische Werte.