Regret Analysis for Randomized Gaussian Process Upper Confidence Bound
Takeno, Inatsu, Karasuyama
Gaussian process upper confidence bound (GP-UCB) is a theoretically established algorithm for Bayesian optimization (BO), where we assume the objective function $f$ follows a GP. One notable drawback of GP-UCB is that the theoretical confidence parameter $β$ increases along with the iterations and is too large. To alleviate this drawback, this paper analyzes the randomized variant of GP-UCB called improved randomized GP-UCB (IRGP-UCB), which uses the confidence parameter generated from the shifted exponential distribution. We analyze the expected regret and conditional expected regret, where the expectation and the probability are taken respectively with $f$ and noise and with the randomness of the BO algorithm. In both regret analyses, IRGP-UCB achieves a sub-linear regret upper bound without increasing the confidence parameter if the input domain is finite. Furthermore, we show that randomization plays a key role in avoiding an increase in confidence parameter by showing that GP-UCB using a constant confidence parameter can incur linearly growing expected cumulative regret. Finally, we show numerical experiments using synthetic and benchmark functions and real-world emulators.
academic
تحليل الندم للحد الأعلى الثقة لعملية غاوس العشوائية
تدرس هذه الورقة التحسينات النظرية لخوارزمية GP-UCB في التحسين البايزي. العيب الرئيسي لـ GP-UCB الكلاسيكية هو أن معامل الثقة النظري β ينمو مع عدد التكرارات (βt ∝ log t)، مما يؤدي إلى استكشاف مفرط في التطبيقات العملية. يقترح المؤلفون GP-UCB عشوائي محسّن (IRGP-UCB) يستخدم توزيع أسي مزاح لتوليد معاملات الثقة. في حالة المجال المحدود، يحقق IRGP-UCB حد ندم دون خطي بدون الحاجة إلى زيادة معامل الثقة. من خلال إثبات أن استخدام معامل ثقة ثابت في GP-UCB ينتج عنه ندم خطي، يجادل المؤلفون بضرورة العشوائية. تتحقق التجارب من الفعالية العملية للطريقة.
يهدف التحسين البايزي (BO) إلى تحسين دالة صندوق أسود مكلفة باستخدام أقل عدد ممكن من تقييمات الدالة. GP-UCB هي إحدى خوارزميات BO ذات أقوى الضمانات النظرية، لكنها تعاني من فجوة نظرية-عملية خطيرة:
مشكلة معامل الثقة الكبير جداً:
يتطلب التحليل النظري βt = Θ(log t)
في التطبيقات العملية يؤدي إلى:
فترات ثقة واسعة جداً
استكشاف مفرط من قبل الخوارزمية
سرعة تقارب بطيئة
قيود الطرق الموجودة:
RGP-UCB المقترحة من قبل Berk et al. (2020) تستخدم عشوائية توزيع جاما، لكن تحليلها يحتوي على مشاكل تقنية
حتى بعد التصحيح، لا تزال تتطلب نمو βt مع الوقت
الطرق التكرارية (مثل Chowdhury & Gopalan 2017) لها افتراضات مختلفة عن الإعداد البايزي
الإدخال: المجال X، المعاملات {st}t≥1 و λ، السابق GP μ=0 و k
التهيئة: D₀ = ∅
لـ t = 1, 2, ...:
1. ملاءمة GP إلى Dt-1
2. توليد معامل ثقة عشوائي: ζt ← st + Zt، حيث Zt ~ Exp(λ)
3. اختيار الإدخال: xt ← argmax[μt-1(x) + ζt^(1/2)σt-1(x)]
4. الملاحظة: yt = f(xt) + εt
5. تحديث مجموعة البيانات: Dt ← Dt-1 ∪ (xt, yt)
التصاميم الرئيسية:
التوزيع الأسي المزاح: ζt ~ ShiftedExp(st, λ)، PDF هو p(ζ) = λexp(-λ(ζ-st))، ζ ≥ st
معاملات المجال المحدود: st = 2log(|X|/2)، λ = 1/2
معاملات المجال المستمر: st = 2d log(bdrt²(√log(ad) + √(π/2))) - 2log 2
المتباينة الرئيسية:
لأي Dt-1 معطى،
Et[f(x∗)]≤Et[maxx∈Xμt−1(x)+ζt1/2σt−1(x)]
خطوط إثبات (تقنية مبتكرة):
البدء من اللمة 4.1 (حد احتمالية عالية للمجال المحدود):
Pt(f(x)≤μt−1(x)+βδ1/2σt−1(x),∀x)≥1−δ
حيث βδ = 2log(|X|/(2δ))
استخدام معكوس دالة التوزيع التراكمي:
Ft−1(1−δ)≤maxxμt−1(x)+βδ1/2σt−1(x)
الخطوة الحاسمة: استبدال U ~ Uni(0,1) بـ δ، أخذ التوقع:
EU[Ft−1(1−U)]≤EU[maxxμt−1(x)+βU1/2σt−1(x)]
حيلة أخذ العينات بالتحويل العكسي: F_t^{-1}(U) له نفس التوزيع مثل f(x*)، بينما:
βU=2log(∣X∣/2)−2log(U)
يتبع بالضبط التوزيع الأسي المزاح (لأن -2log(U) ~ Exp(1/2))
الأهمية المبتكرة:
حد مباشر لـ Ef(x*)، تجنب طرق الحد المشترك التقليدية
Srinivas et al. (2010): "Gaussian process optimization in the bandit setting: No regret and experimental design" - الورقة الأصلية لـ GP-UCB
Russo & Van Roy (2014): "Learning to optimize via posterior sampling" - التحليل البايزي لـ TS
Berk et al. (2020): "Randomised Gaussian process upper confidence bound for Bayesian optimisation" - RGP-UCB
Kandasamy et al. (2018): "Parallelised Bayesian optimisation via Thompson sampling" - حد MIG لـ TS
Takeno et al. (2023): نسخة المؤتمر من هذه الورقة (ICML 2023)
Liang et al. (2021): "Benchmarking the performance of Bayesian optimization across multiple experimental materials science domains" - مجموعات بيانات المواد
تحقق هذه الورقة اختراقاً مهماً في نظرية التحسين البايزي، من خلال تقنية أخذ العينات بالتحويل العكسي الماهرة (اللمة 4.2) التي تشتق بشكل طبيعي التوزيع الأسي المزاح، وتحقق أول حد ندم دون خطي بدون الحاجة إلى نمو معامل الثقة في المجالات المحدودة. يشكل التحليل النظري متعدد المستويات (متوقع وشرطي واحتمالية عالية) وإثبات الضرورة (النظرية 4.6) نظاماً نظرياً كاملاً. التحقق التجريبي يثبت اتساق النظرية والعملية، خاصة في تطبيقات علم المواد حيث يظهر قيمة عملية واضحة.
القيود الرئيسية تكمن في أن المجال المستمر لا يزال يحتاج نمو معاملات، والحد الاحتمالي العالي لم يحل المشكلة بالكامل، والتجارب محدودة بأبعاد منخفضة. مع ذلك، تفتح هذه الورقة اتجاهاً جديداً في بحث GP-UCB، وتقنياتها (أخذ العينات بالتحويل العكسي وتحليل مارتينجيل) لها قيمة منهجية، ومن المتوقع أن تؤثر على الأبحاث اللاحقة في BO والمجالات ذات الصلة (مثل LSE). بالنسبة للتطبيقات العملية ذات المجالات المحدودة والأبعاد المنخفضة والتقييمات المكلفة، يعتبر IRGP-UCB أحد أقوى الخيارات من حيث الضمانات النظرية.