Regret Analysis for Randomized Gaussian Process Upper Confidence Bound
Takeno, Inatsu, Karasuyama
Gaussian process upper confidence bound (GP-UCB) is a theoretically established algorithm for Bayesian optimization (BO), where we assume the objective function $f$ follows a GP. One notable drawback of GP-UCB is that the theoretical confidence parameter $β$ increases along with the iterations and is too large. To alleviate this drawback, this paper analyzes the randomized variant of GP-UCB called improved randomized GP-UCB (IRGP-UCB), which uses the confidence parameter generated from the shifted exponential distribution. We analyze the expected regret and conditional expected regret, where the expectation and the probability are taken respectively with $f$ and noise and with the randomness of the BO algorithm. In both regret analyses, IRGP-UCB achieves a sub-linear regret upper bound without increasing the confidence parameter if the input domain is finite. Furthermore, we show that randomization plays a key role in avoiding an increase in confidence parameter by showing that GP-UCB using a constant confidence parameter can incur linearly growing expected cumulative regret. Finally, we show numerical experiments using synthetic and benchmark functions and real-world emulators.
academic
Análisis de Arrepentimiento para la Cota de Confianza Superior del Proceso Gaussiano Aleatorizado
Este artículo estudia mejoras teóricas del algoritmo GP-UCB en optimización bayesiana. El defecto principal del GP-UCB clásico es que el parámetro de confianza teórico β crece con el número de iteraciones (βt ∝ log t), lo que causa exploración excesiva en aplicaciones prácticas. Los autores proponen el GP-UCB aleatorizado mejorado (IRGP-UCB), que utiliza una distribución exponencial desplazada para generar parámetros de confianza. En dominios de entrada finitos, IRGP-UCB logra una cota de arrepentimiento sublineal sin necesidad de aumentar el parámetro de confianza. Al demostrar que GP-UCB con parámetro de confianza constante produce arrepentimiento lineal, los autores argumentan la necesidad de la aleatorización. Los experimentos validan la efectividad práctica del método.
La optimización bayesiana (BO) tiene como objetivo optimizar funciones de caja negra costosas con el menor número posible de evaluaciones de función. GP-UCB es uno de los algoritmos de BO con las garantías teóricas más fuertes, pero existe una brecha teórico-práctica grave:
Problema del Parámetro de Confianza Excesivo: El análisis teórico requiere βt = Θ(log t), lo que en aplicaciones prácticas causa:
Intervalos de confianza demasiado amplios
Exploración excesiva del algoritmo
Convergencia lenta
Limitaciones de Métodos Existentes:
RGP-UCB propuesto por Berk et al. (2020) utiliza aleatorización con distribución Gamma, pero su análisis tiene problemas técnicos
Incluso después de correcciones, aún requiere que βt crezca con el tiempo
Los métodos frecuentistas (como Chowdhury & Gopalan 2017) tienen supuestos diferentes del marco bayesiano
Significado Teórico: Llena el vacío teórico en el marco bayesiano sin necesidad de parámetros de confianza crecientes
Valor Práctico: Resuelve el problema de exploración excesiva de GP-UCB en aplicaciones en ciencia de materiales, aprendizaje automático automático, diseño de fármacos y otros campos
Contribución Metodológica: Demuestra el papel crucial de la aleatorización en evitar el crecimiento del parámetro de confianza
Desigualdad Clave:
Para cualquier Dt-1 dado,
Et[f(x∗)]≤Et[maxx∈Xμt−1(x)+ζt1/2σt−1(x)]
Estrategia de Prueba (Técnica Innovadora):
Partir del Lema 4.1 (cota de alta probabilidad para dominio finito):
Pt(f(x)≤μt−1(x)+βδ1/2σt−1(x),∀x)≥1−δ
donde βδ = 2log(|X|/(2δ))
Usar la función inversa de la CDF:
Ft−1(1−δ)≤maxxμt−1(x)+βδ1/2σt−1(x)
Paso Clave: Sustituir U ~ Uni(0,1) en δ, tomar esperanza:
EU[Ft−1(1−U)]≤EU[maxxμt−1(x)+βU1/2σt−1(x)]
Técnica de Muestreo por Transformación Inversa: F_t^{-1}(U) tiene la misma distribución que f(x*), y:
βU=2log(∣X∣/2)−2log(U)
sigue exactamente una distribución exponencial desplazada (porque -2log(U) ~ Exp(1/2))
Significado de la Innovación:
Acotar directamente Ef(x*), evitando métodos tradicionales de cotas conjuntas
Derivar naturalmente la distribución exponencial desplazada
LSE (Gotovos et al. 2013): Clasificar función de caja negra costosa.
LSE Aleatorizado (Inatsu et al. 2024b): Inspirado en este artículo, igualmente evita crecimiento de parámetro.
Srinivas et al. (2010): "Gaussian process optimization in the bandit setting: No regret and experimental design" - Artículo original GP-UCB
Russo & Van Roy (2014): "Learning to optimize via posterior sampling" - Análisis bayesiano de TS
Berk et al. (2020): "Randomised Gaussian process upper confidence bound for Bayesian optimisation" - RGP-UCB
Kandasamy et al. (2018): "Parallelised Bayesian optimisation via Thompson sampling" - Cota MIG de TS
Takeno et al. (2023): Versión de conferencia de este artículo (ICML 2023)
Liang et al. (2021): "Benchmarking the performance of Bayesian optimization across multiple experimental materials science domains" - Conjunto de datos de materiales
Este artículo logra avance importante en teoría de optimización bayesiana, mediante técnica ingeniosa de muestreo por transformación inversa (Lema 4.2) derivando naturalmente distribución exponencial desplazada, logrando en dominio finito la primera cota de arrepentimiento sublineal sin parámetro de confianza creciente. Análisis teórico multinivel (esperanza, esperanza condicional, alta probabilidad) y prueba de necesidad (Teorema 4.6) constituyen sistema teórico completo. Validación experimental demuestra consistencia teoría-práctica, especialmente mostrando valor práctico en aplicaciones de ciencia de materiales.
Limitaciones Principales están en que dominio continuo aún requiere crecimiento de parámetro, cota de alta probabilidad no resuelve completamente problema, y experimentos tienen dimensión relativamente baja. A pesar de esto, este artículo abre nueva dirección para investigación GP-UCB, sus técnicas (muestreo por transformación inversa, análisis de martingala) tienen valor metodológico, se espera influencie investigación posterior en BO y campos relacionados (como LSE). Para aplicaciones con dominio finito, baja dimensión, evaluación costosa, IRGP-UCB es una de las opciones con garantía teórica más fuerte.