Exploration-free Algorithms for Multi-group Mean Estimation
Wei, Zhong, Li
We address the problem of multi-group mean estimation, which seeks to allocate a finite sampling budget across multiple groups to obtain uniformly accurate estimates of their means. Unlike classical multi-armed bandits, whose objective is to minimize regret by identifying and exploiting the best arm, the optimal allocation in this setting requires sampling every group on the order of $Î(T)$ times. This fundamental distinction makes exploration-free algorithms both natural and effective. Our work makes three contributions. First, we strengthen the existing results on subgaussian variance concentration using the Hanson-Wright inequality and identify a class of strictly subgaussian distributions that yield sharper guarantees. Second, we design exploration-free non-adaptive and adaptive algorithms, and we establish tighter regret bounds than the existing results. Third, we extend the framework to contextual bandit settings, an underexplored direction, and propose algorithms that leverage side information with provable guarantees. Overall, these results position exploration-free allocation as a principled and efficient approach to multi-group mean estimation, with potential applications in experimental design, personalization, and other domains requiring accurate multi-group inference.
academic
Explorations-freie Algorithmen für Multi-Gruppen-Mittelwertschätzung
Dieses Papier untersucht das Problem der Multi-Gruppen-Mittelwertschätzung, mit dem Ziel, ein begrenztes Stichprobenbudget auf mehrere Gruppen zu verteilen, um konsistent genaue Schätzungen ihrer Mittelwerte zu erhalten. Im Gegensatz zu klassischen Multi-Armed-Bandit-Problemen (deren Ziel es ist, Bedauern durch Identifizierung und Ausnutzung des optimalen Arms zu minimieren) erfordert die optimale Allokation in dieser Einstellung, dass jede Gruppe Θ(T)-mal abgetastet wird. Dieser grundlegende Unterschied macht explorations-freie Algorithmen sowohl natürlich als auch wirksam. Das Papier leistet drei Hauptbeiträge: Erstens werden bestehende Ergebnisse der Subgaußschen Varianzkonzentration mit der Hanson-Wright-Ungleichung verstärkt und eine Klasse streng subgaußscher Verteilungen identifiziert, die schärfere Garantien liefert; zweitens werden explorations-freie nicht-adaptive und adaptive Algorithmen entworfen, die engere Bedauernsgrenzen als bestehende Ergebnisse etablieren; drittens wird das Framework auf kontextuelle Bandit-Einstellungen erweitert, eine unterentwickelte Richtung, mit Algorithmen, die Hilfsinformationen nutzen, und nachweisbaren Garantien.
Das Multi-Gruppen-Mittelwertschätzungsproblem erfordert die Verteilung eines Stichprobenbudgets auf K Gruppen innerhalb eines endlichen Zeithorizonts T, so dass Schätzungen aller Gruppenmittelwerte konsistent genau sind. Konkret hat die k-te Gruppe eine Belohnungsverteilung Pk mit Mittelwert μk und Varianz σk². Das Ziel ist die Minimierung des p-Norm-Ziels:
Rp(n)={nkσk2}k=1Kp
wobei nk die Anzahl der Stichproben für die k-te Gruppe ist.
Praktische Anforderungen: In Meinungsumfragen, Versuchsplanung und personalisierten Empfehlungssystemen ist eine genaue und faire Schätzung mehrerer Gruppen erforderlich, nicht nur die Fokussierung auf die optimale Gruppe.
Theoretische Herausforderungen: Im Gegensatz zu klassischen Multi-Armed-Bandits erfordert die optimale Allokation, dass jeder Arm Θ(T)-mal abgetastet wird, was den klassischen Explorations-Exploitations-Kompromiss überflüssig macht.
Einschränkungen bestehender Methoden: Bestehende UCB-ähnliche Algorithmen führen unnötige Explorations-Kosten ein und nutzen die Struktureigenschaften des Problems nicht vollständig.
Theoretische Verbesserungen: Basierend auf der Hanson-Wright-Ungleichung werden Subgaußsche Varianzkonzentrationsungleichungen verbessert und eine Klasse streng subgaußscher Verteilungen identifiziert, um schärfere theoretische Garantien zu erhalten.
Algorithmentwurf: Es werden zwei explorations-freie Algorithmen vorgeschlagen:
Nicht-adaptiver Algorithmus (erfordert Vorwissen über Varianzuntergrenzen)
Adaptiver Algorithmus (benötigt kein Vorwissen, verwendet Konfidenzintervalle)
Framework-Erweiterung: Erstmalige Erweiterung der Multi-Gruppen-Mittelwertschätzung auf kontextuelle Bandit-Einstellungen mit entsprechenden Algorithmen und theoretischer Analyse.
Leistungsverbesserung: Im Vergleich zu bestehenden besten Ergebnissen wird ein log T-Faktor aus der Bedauerngrenze entfernt, was engere theoretische Grenzen erreicht.
Gegeben sind K Gruppen, wobei jede Gruppe k eine Belohnungsverteilung Pk mit unbekanntem Mittelwert μk und Varianz σk² hat. Innerhalb des Zeithorizonts T wird in jedem Zeitschritt eine Gruppe zum Abtasten ausgewählt, mit dem Ziel, die p-Norm aller Gruppenschätzungsfehler zu minimieren.
Engheit theoretischer Grenzen: Theoretische Grenzen in der streng subgaußschen Einstellung sind näher an empirischen Ergebnissen, besonders bei p=∞.
Einfluss der Varianzuntergrenze: Wenn die Varianzuntergrenze unbekannt ist, zeigt die Algorithmusleistung signifikanten Rückgang, wobei dieser Rückgang in GSG- und SSG-Einstellungen zu unterschiedlichen Zeitpunkten auftritt.
Zeitkomplexität: Die Länge der ersten Phase in SSG-Einstellung sinkt erheblich, von σ²-abhängig auf nur log T-abhängige Konstanten.
Varianzkonzentration: Verwendung der Hanson-Wright-Ungleichung verbessert Varianzschätzungs-Konzentrationsungleichungen, entfernt einen log(1/δ)-Faktor.
Streng subgaußsch: Identifiziert Klasse streng subgaußscher Verteilungen, bei denen der Varianzparameter gleich der wahren Varianz ist, bietet schärfere Grenzen.
Explorations-freier Entwurf: Beweist, dass UCB-ähnliche Exploration in diesem Problem überflüssig ist, da die optimale Lösung selbst Θ(T)-faches Abtasten jedes Arms erfordert.
Explorations-freies Prinzip: Die Struktur des Multi-Gruppen-Mittelwertschätzungsproblems macht explizite Exploration überflüssig, in starkem Kontrast zu klassischen Multi-Armed-Bandits.
Theoretische Verbesserungen: Durch verbesserte Varianzkonzentrationsungleichungen und Identifikation streng subgaußscher Verteilungen werden engere theoretische Grenzen erreicht.
Algorithmentwurf: Vorgeschlagene Algorithmen erreichen optimale asymptotische Leistung bei Beibehaltung von Einfachheit.
Erweiterbarkeit: Erfolgreiche Erweiterung des Frameworks auf kontextuelle Einstellungen eröffnet neue Forschungsrichtungen.
Dieses Papier zitiert mehrere wichtige verwandte Arbeiten, einschließlich:
Aznag et al. (2023): Ein aktives Lern-Framework für Multi-Gruppen-Mittelwertschätzung
Carpentier et al. (2011): Upper-Confidence-Bound-Algorithmen für aktives Lernen in Multi-Armed-Bandits
Verwandte theoretische Arbeiten zur Hanson-Wright-Ungleichung
Klassische Ergebnisse zu Subgaußschen Verteilungen und Varianzkonzentration
Dieses Papier leistet wichtige Beiträge in Theorie und Methodik und bietet neue Perspektiven und effektive Lösungen für das Multi-Gruppen-Mittelwertschätzungsproblem. Der Vorschlag explorations-freier Algorithmen stellt das klassische Explorations-Exploitations-Paradigma in klassischen Multi-Armed-Bandits in Frage und hat bedeutende theoretische und praktische Werte.