Regret Analysis for Randomized Gaussian Process Upper Confidence Bound
Takeno, Inatsu, Karasuyama
Gaussian process upper confidence bound (GP-UCB) is a theoretically established algorithm for Bayesian optimization (BO), where we assume the objective function $f$ follows a GP. One notable drawback of GP-UCB is that the theoretical confidence parameter $β$ increases along with the iterations and is too large. To alleviate this drawback, this paper analyzes the randomized variant of GP-UCB called improved randomized GP-UCB (IRGP-UCB), which uses the confidence parameter generated from the shifted exponential distribution. We analyze the expected regret and conditional expected regret, where the expectation and the probability are taken respectively with $f$ and noise and with the randomness of the BO algorithm. In both regret analyses, IRGP-UCB achieves a sub-linear regret upper bound without increasing the confidence parameter if the input domain is finite. Furthermore, we show that randomization plays a key role in avoiding an increase in confidence parameter by showing that GP-UCB using a constant confidence parameter can incur linearly growing expected cumulative regret. Finally, we show numerical experiments using synthetic and benchmark functions and real-world emulators.
academic
Regret-Analyse für randomisierte Gaussian Process Upper Confidence Bound
Dieses Papier untersucht theoretische Verbesserungen des GP-UCB-Algorithmus in der Bayesschen Optimierung. Der Hauptmangel des klassischen GP-UCB besteht darin, dass der theoretische Konfidenzparameter β mit der Anzahl der Iterationen wächst (βt ∝ log t), was zu übermäßiger Exploration in praktischen Anwendungen führt. Die Autoren schlagen ein verbessertes randomisiertes GP-UCB (IRGP-UCB) vor, das verschobene Exponentialverteilungen zur Generierung von Konfidenzparametern verwendet. Im Fall endlicher Eingabebereiche erreicht IRGP-UCB eine sublineare Bedauernsobergrenze ohne Erhöhung des Konfidenzparameters. Durch den Nachweis, dass GP-UCB mit konstantem Konfidenzparameter zu linearem Bedauern führt, argumentieren die Autoren für die Notwendigkeit der Randomisierung. Experimente validieren die praktische Wirksamkeit der Methode.
Die Bayessche Optimierung (BO) zielt darauf ab, teure Black-Box-Funktionen mit möglichst wenigen Funktionsbewertungen zu optimieren. GP-UCB ist einer der theoretisch am besten garantierten BO-Algorithmen, weist aber eine erhebliche Theorie-Praxis-Kluft auf:
Problem mit zu großem Konfidenzparameter: Die theoretische Analyse erfordert βt = Θ(log t), was in praktischen Anwendungen zu Folgendem führt:
Zu breite Konfidenzintervalle
Übermäßige Exploration durch den Algorithmus
Langsame Konvergenzgeschwindigkeit
Einschränkungen bestehender Methoden:
RGP-UCB von Berk et al. (2020) verwendet Gammaverteilungs-Randomisierung, aber die Analyse weist technische Probleme auf
Selbst nach Korrektur ist noch ein zeitabhängiges Wachstum von βt erforderlich
Frequentistische Methoden (wie Chowdhury & Gopalan 2017) unterscheiden sich in ihren Annahmen vom Bayesschen Setting
Theoretische Bedeutung: Schließung der Lücke in der Bayesschen Einstellung ohne wachsende Konfidenzparameter
Praktischer Wert: Lösung des Überexplorierungsproblems von GP-UCB in Anwendungen in Materialwissenschaften, automatisiertem maschinellem Lernen und Wirkstoffdesign
Methodologischer Beitrag: Nachweis der Schlüsselrolle der Randomisierung bei der Vermeidung von Parametervergrößerung
Schlüsselungleichung:
Für beliebiges gegebenes Dt-1,
Et[f(x∗)]≤Et[maxx∈Xμt−1(x)+ζt1/2σt−1(x)]
Beweisansatz (innovative Technik):
Ausgehend von Lemma 4.1 (hochwahrscheinliche Grenze für endliche Domäne):
Pt(f(x)≤μt−1(x)+βδ1/2σt−1(x),∀x)≥1−δ
wobei βδ = 2log(|X|/(2δ))
Verwendung der Umkehrfunktion der CDF:
Ft−1(1−δ)≤maxxμt−1(x)+βδ1/2σt−1(x)
Kritischer Schritt: Einsetzen von U ~ Uni(0,1) in δ, Erwartungswertbildung:
EU[Ft−1(1−U)]≤EU[maxxμt−1(x)+βU1/2σt−1(x)]
Inverse-Transform-Sampling-Trick: F_t^{-1}(U) hat die gleiche Verteilung wie f(x*), und:
βU=2log(∣X∣/2)−2log(U)
folgt genau einer verschobenen Exponentialverteilung (da -2log(U) ~ Exp(1/2))
Innovationsbedeutung:
Direkte Begrenzung von Ef(x*), vermeidung traditioneller Methoden mit gemeinsamen Grenzen
Natürliche Ableitung der verschobenen Exponentialverteilung
Keine zeitabhängige Parametervergößerung erforderlich
LSE (Gotovos et al. 2013): Klassifizierung teurer Black-Box-Funktionen.
Randomisierte LSE (Inatsu et al. 2024b): Von diesem Papier inspiriert, vermeidet ebenfalls Parameterwachstum.
Eleganz von Lemma 4.2: Durch inverse Transform-Abtastung wird die verschobene Exponentialverteilung natürlich abgeleitet, vermeidung komplexer gemeinsamer Grenzen traditioneller Methoden
Srinivas et al. (2010): "Gaussian process optimization in the bandit setting: No regret and experimental design" - Original GP-UCB-Papier
Russo & Van Roy (2014): "Learning to optimize via posterior sampling" - Bayessche Analyse von TS
Berk et al. (2020): "Randomised Gaussian process upper confidence bound for Bayesian optimisation" - RGP-UCB
Kandasamy et al. (2018): "Parallelised Bayesian optimisation via Thompson sampling" - MIG-Grenzen für TS
Takeno et al. (2023): Konferenzversion dieses Papiers (ICML 2023)
Liang et al. (2021): "Benchmarking the performance of Bayesian optimization across multiple experimental materials science domains" - Materialdatensätze
Dieses Papier erreicht einen wichtigen Durchbruch in der Bayesschen Optimierungstheorie. Durch eine geschickte inverse Transform-Abtastungs-Technik (Lemma 4.2) wird die verschobene Exponentialverteilung natürlich abgeleitet, was in endlichen Domänen die erste sublineare Bedauernsobergrenze ohne wachsende Konfidenzparameter ermöglicht. Mehrschichtige theoretische Analysen (Erwartete, bedingte Erwartete, hochwahrscheinliche) und Notwendigkeitsbeweis (Satz 4.6) bilden ein vollständiges theoretisches System. Experimentelle Validierung demonstriert Theorie-Praxis-Konsistenz, besonders mit praktischem Wert in Materialwissenschafts-Anwendungen.
Haupteinschränkungen liegen in kontinuierlichen Domänen, die noch Parameterwachstum benötigen, hochwahrscheinliche Grenzen, die das Problem nicht vollständig lösen, sowie niedrigere experimentelle Dimensionen. Trotzdem eröffnet dieses Papier neue Richtungen für GP-UCB-Forschung. Seine Techniken (inverse Transform-Abtastung, Martingal-Analyse) haben methodologischen Wert und werden voraussichtlich nachfolgende Forschung in BO und verwandten Bereichen (wie LSE) beeinflussen. Für endliche Domänen, niedrigdimensionale, teure Bewertungs-Anwendungen ist IRGP-UCB eine der theoretisch am besten garantierten Optionen.