Gaussian process upper confidence bound (GP-UCB) is a theoretically established algorithm for Bayesian optimization (BO), where we assume the objective function $f$ follows a GP. One notable drawback of GP-UCB is that the theoretical confidence parameter $β$ increases along with the iterations and is too large. To alleviate this drawback, this paper analyzes the randomized variant of GP-UCB called improved randomized GP-UCB (IRGP-UCB), which uses the confidence parameter generated from the shifted exponential distribution. We analyze the expected regret and conditional expected regret, where the expectation and the probability are taken respectively with $f$ and noise and with the randomness of the BO algorithm. In both regret analyses, IRGP-UCB achieves a sub-linear regret upper bound without increasing the confidence parameter if the input domain is finite. Furthermore, we show that randomization plays a key role in avoiding an increase in confidence parameter by showing that GP-UCB using a constant confidence parameter can incur linearly growing expected cumulative regret. Finally, we show numerical experiments using synthetic and benchmark functions and real-world emulators.
পেপার আইডি : 2409.00979শিরোনাম : র্যান্ডমাইজড গাউসিয়ান প্রসেস আপার কনফিডেন্স বাউন্ডের জন্য অনুশোচনা বিশ্লেষণলেখক : শিওন তাকেনো (নাগোয়া বিশ্ববিদ্যালয়, RIKEN AIP), ইউ ইনাৎসু (নাগোয়া প্রযুক্তি প্রতিষ্ঠান), মাসায়ুকি কারাসুয়ামা (নাগোয়া প্রযুক্তি প্রতিষ্ঠান)শ্রেণীবিভাগ : cs.LG, stat.MLপ্রকাশনার সময় : ২০২৪ সালের সেপ্টেম্বর (arXiv v3: ২০২৫ সালের জুলাই ১৬)পেপার লিঙ্ক : https://arxiv.org/abs/2409.00979v3 এই নিবন্ধটি বেইজিয়ান অপটিমাইজেশনে GP-UCB অ্যালগরিদমের তাত্ত্বিক উন্নতি অধ্যয়ন করে। ক্লাসিক্যাল GP-UCB এর প্রধান ত্রুটি হল তাত্ত্বিক আস্থা পরামিতি β পুনরাবৃত্তির সংখ্যার সাথে বৃদ্ধি পায় (βt ∝ log t), যা বাস্তব প্রয়োগে অত্যধিক অন্বেষণের দিকে পরিচালিত করে। লেখকরা উন্নত র্যান্ডমাইজড GP-UCB (IRGP-UCB) প্রস্তাব করেন, যা স্থানান্তরিত সূচক বিতরণ ব্যবহার করে আস্থা পরামিতি তৈরি করে। সীমিত ইনপুট ডোমেনের ক্ষেত্রে, IRGP-UCB আস্থা পরামিতি বৃদ্ধি ছাড়াই সাব-লিনিয়ার অনুশোচনা সীমানা অর্জন করে। ধ্রুবক আস্থা পরামিতি সহ GP-UCB লিনিয়ার অনুশোচনা উৎপন্ন করে তা প্রমাণ করে, লেখকরা র্যান্ডমাইজেশনের প্রয়োজনীয়তা যুক্তি দেন। পরীক্ষা পদ্ধতির ব্যবহারিক কার্যকারিতা যাচাই করে।
বেইজিয়ান অপটিমাইজেশন (BO) যতটা সম্ভব কম ফাংশন মূল্যায়ন দিয়ে ব্যয়বহুল ব্ল্যাক-বক্স ফাংশন অপটিমাইজ করার লক্ষ্য রাখে। GP-UCB সবচেয়ে শক্তিশালী তাত্ত্বিক গ্যারান্টি সহ BO অ্যালগরিদমগুলির মধ্যে একটি, কিন্তু গুরুতর তাত্ত্বিক-ব্যবহারিক ব্যবধান রয়েছে:
আস্থা পরামিতি অত্যধিক সমস্যা : তাত্ত্বিক বিশ্লেষণের জন্য βt = Θ(log t) প্রয়োজন, যা বাস্তব প্রয়োগে নিয়ে আসে:অত্যধিক প্রশস্ত আস্থা ব্যবধান অ্যালগরিদম অত্যধিক অন্বেষণ ধীর সংমিশ্রণ গতি বিদ্যমান পদ্ধতির সীমাবদ্ধতা :Berk et al. (2020) দ্বারা প্রস্তাবিত RGP-UCB গামা বিতরণ র্যান্ডমাইজেশন ব্যবহার করে, কিন্তু এর বিশ্লেষণে প্রযুক্তিগত সমস্যা রয়েছে সংশোধনের পরেও, βt সময়ের সাথে বৃদ্ধি প্রয়োজন ফ্রিকোয়েন্টিস্ট পদ্ধতি (যেমন Chowdhury & Gopalan 2017) বেইজিয়ান সেটিংয়ের অনুমানের সাথে ভিন্ন তাত্ত্বিক তাৎপর্য : বেইজিয়ান সেটিংয়ে বর্ধনশীল আস্থা পরামিতি ছাড়াই তাত্ত্বিক শূন্যতা পূরণ করাব্যবহারিক মূল্য : উপকরণ বিজ্ঞান, স্বয়ংক্রিয় মেশিন লার্নিং, ওষুধ ডিজাইনে GP-UCB প্রয়োগে অত্যধিক অন্বেষণ সমস্যা সমাধান করাপদ্ধতিগত অবদান : আস্থা পরামিতি বৃদ্ধি এড়াতে র্যান্ডমাইজেশনের গুরুত্বপূর্ণ ভূমিকা প্রমাণ করাপ্রত্যাশিত অনুশোচনা সীমানা (উপপাদ্য 4.1-4.2):সীমিত ডোমেন: BCRT ≤ √(C₁C₂TγT), যেখানে C₂ = 2 + 2log(|X|/2) ধ্রুবক ক্রমাগত ডোমেন: BCRT ≤ π²/6 + √(C₁TγT(2 + sT)), sT = O(d log T) শর্তসাপেক্ষ প্রত্যাশিত অনুশোচনা সীমানা (উপপাদ্য 4.3-4.4):অ্যালগরিদম র্যান্ডমনেসের জন্য শর্তসাপেক্ষ, সমস্যা র্যান্ডমনেসের জন্য প্রত্যাশা উচ্চ সম্ভাবনা 1-δ সহ একই সংমিশ্রণ হার বজায় রাখে নির্ধারক অ্যালগরিদমের সাথে আরও ন্যায্য তুলনা উচ্চ সম্ভাবনা অনুশোচনা সীমানা (উপপাদ্য 4.5, অনুসিদ্ধান্ত 4.1):র্যান্ডমাইজেশন উচ্চ সম্ভাবনা গ্যারান্টি ক্ষতি করে না তা প্রমাণ করে যদিও Eζt বৃদ্ধি প্রয়োজন, তবুও O(√(TγT log(T|X|/δ))) সীমানা অর্জন করা যায় ধ্রুবক আস্থা পরামিতির নিম্ন সীমানা (উপপাদ্য 4.6):প্রতিউদাহরণ নির্মাণ: সাধারণ দুই-বিন্দু ডোমেনে, ধ্রুবক β সহ GP-UCB Ω(T) লিনিয়ার অনুশোচনা উৎপন্ন করে পরামিতি বৃদ্ধি এড়াতে র্যান্ডমাইজেশনের প্রয়োজনীয়তা প্রমাণ করে পরীক্ষামূলক যাচাইকরণ :সিন্থেটিক ফাংশন, বেঞ্চমার্ক ফাংশন এবং প্রকৃত উপকরণ ডেটাসেট IRGP-UCB GP-UCB, RGP-UCB এবং অন্যান্য প্রধান পদ্ধতির চেয়ে উন্নত কর্মক্ষমতা মানক বেইজিয়ান অপটিমাইজেশন সেটিং :
ইনপুট: ডোমেন X ⊂ ℝᵈ, ব্ল্যাক-বক্স ফাংশন f: X → ℝ পর্যবেক্ষণ মডেল: yt = f(xt) + εt, εt ~ N(0, σ²) অনুমান: f ~ GP(0, k), k পরিচিত কার্নেল ফাংশন উদ্দেশ্য: সংগৃহীত অনুশোচনা RT = ∑ᵗ₌₁ᵀf(x*) - f(xt) ন্যূনতম করা অ্যালগরিদম 1: IRGP-UCB
ইনপুট: ডোমেন X, পরামিতি {st}t≥1 এবং λ, GP পূর্ব μ=0 এবং k
আরম্ভ: D₀ = ∅
t = 1, 2, ... এর জন্য:
1. Dt-1 এ GP ফিট করুন
2. র্যান্ডম আস্থা পরামিতি তৈরি করুন: ζt ← st + Zt, যেখানে Zt ~ Exp(λ)
3. ইনপুট নির্বাচন করুন: xt ← argmax[μt-1(x) + ζt^(1/2)σt-1(x)]
4. পর্যবেক্ষণ করুন: yt = f(xt) + εt
5. ডেটাসেট আপডেট করুন: Dt ← Dt-1 ∪ (xt, yt)
মূল ডিজাইন :
স্থানান্তরিত সূচক বিতরণ : ζt ~ ShiftedExp(st, λ), PDF হল p(ζ) = λexp(-λ(ζ-st)), ζ ≥ stসীমিত ডোমেন পরামিতি : st = 2log(|X|/2), λ = 1/2ক্রমাগত ডোমেন পরামিতি : st = 2d log(bdrt²(√log(ad) + √(π/2))) - 2log 2মূল অসমতা :
যেকোনো দেওয়া Dt-1 এর জন্য,
E t [ f ( x ∗ ) ] ≤ E t [ max x ∈ X μ t − 1 ( x ) + ζ t 1 / 2 σ t − 1 ( x ) ] E_t[f(x^*)] \leq E_t\left[\max_{x \in X} \mu_{t-1}(x) + \zeta_t^{1/2}\sigma_{t-1}(x)\right] E t [ f ( x ∗ )] ≤ E t [ max x ∈ X μ t − 1 ( x ) + ζ t 1/2 σ t − 1 ( x ) ]
প্রমাণ কৌশল (উদ্ভাবনী প্রযুক্তি):
লেম্মা 4.1 (সীমিত ডোমেন উচ্চ সম্ভাবনা সীমানা) থেকে শুরু করুন:
P t ( f ( x ) ≤ μ t − 1 ( x ) + β δ 1 / 2 σ t − 1 ( x ) , ∀ x ) ≥ 1 − δ P_t(f(x) \leq \mu_{t-1}(x) + \beta_\delta^{1/2}\sigma_{t-1}(x), \forall x) \geq 1-\delta P t ( f ( x ) ≤ μ t − 1 ( x ) + β δ 1/2 σ t − 1 ( x ) , ∀ x ) ≥ 1 − δ
যেখানে βδ = 2log(|X|/(2δ)) CDF এর বিপরীত ফাংশন ব্যবহার করুন:
F t − 1 ( 1 − δ ) ≤ max x μ t − 1 ( x ) + β δ 1 / 2 σ t − 1 ( x ) F_t^{-1}(1-\delta) \leq \max_x \mu_{t-1}(x) + \beta_\delta^{1/2}\sigma_{t-1}(x) F t − 1 ( 1 − δ ) ≤ max x μ t − 1 ( x ) + β δ 1/2 σ t − 1 ( x ) মূল পদক্ষেপ : δ তে U ~ Uni(0,1) প্রতিস্থাপন করুন, প্রত্যাশা নিন:
E U [ F t − 1 ( 1 − U ) ] ≤ E U [ max x μ t − 1 ( x ) + β U 1 / 2 σ t − 1 ( x ) ] E_U[F_t^{-1}(1-U)] \leq E_U\left[\max_x \mu_{t-1}(x) + \beta_U^{1/2}\sigma_{t-1}(x)\right] E U [ F t − 1 ( 1 − U )] ≤ E U [ max x μ t − 1 ( x ) + β U 1/2 σ t − 1 ( x ) ] বিপরীত রূপান্তর নমুনা কৌশল : F_t^{-1}(U) f(x*) এর সাথে একই বিতরণ, যখন:
β U = 2 log ( ∣ X ∣ / 2 ) − 2 log ( U ) \beta_U = 2\log(|X|/2) - 2\log(U) β U = 2 log ( ∣ X ∣/2 ) − 2 log ( U )
ঠিক স্থানান্তরিত সূচক বিতরণ অনুসরণ করে (-2log(U) ~ Exp(1/2) কারণ)উদ্ভাবনী তাৎপর্য :
সরাসরি Ef(x*) সীমাবদ্ধ করুন, ঐতিহ্যবাহী পদ্ধতির যৌথ সীমানা এড়িয়ে যান স্বাভাবিকভাবে স্থানান্তরিত সূচক বিতরণে পৌঁছান t-নির্ভর পরামিতি বৃদ্ধির প্রয়োজন নেই বিয়োজন কৌশল :
BCR T = ∑ t = 1 T E [ f ( x ∗ ) − f ( x t ) ] \text{BCR}_T = \sum_{t=1}^T E[f(x^*) - f(x_t)] BCR T = ∑ t = 1 T E [ f ( x ∗ ) − f ( x t )] = ∑ t = 1 T E [ f ( x ∗ ) − v t ( x t ) ] + E [ v t ( x t ) − f ( x t ) ] = \sum_{t=1}^T E[f(x^*) - v_t(x_t)] + E[v_t(x_t) - f(x_t)] = ∑ t = 1 T E [ f ( x ∗ ) − v t ( x t )] + E [ v t ( x t ) − f ( x t )]
যেখানে vt(x) = μt-1(x) + ζt^(1/2)σt-1(x)।
মূল পর্যবেক্ষণ :
প্রথম পদ ≤ 0 (লেম্মা 4.2 এবং অ্যালগরিদম নির্বাচন নিয়ম দ্বারা) দ্বিতীয় পদ Cauchy-Schwarz এবং MIG সীমানা ব্যবহার করে সীমাবদ্ধ:
∑ t = 1 T E [ ζ t 1 / 2 σ t − 1 ( x t ) ] ≤ ∑ E [ ζ t ] ⋅ C 1 γ T \sum_{t=1}^T E[\zeta_t^{1/2}\sigma_{t-1}(x_t)] \leq \sqrt{\sum E[\zeta_t]} \cdot \sqrt{C_1\gamma_T} ∑ t = 1 T E [ ζ t 1/2 σ t − 1 ( x t )] ≤ ∑ E [ ζ t ] ⋅ C 1 γ T সীমিত ডোমেন সুবিধা : Eζt = 2 + st ধ্রুবক!
প্রেরণা : প্রত্যাশিত অনুশোচনা অ্যালগরিদম র্যান্ডমনেসের উপর গড়, সম্ভবত পরিবর্তনশীলতা লুকায়।
প্রযুক্তিগত চ্যালেঞ্জ : {ζt}t≥1 এর জন্য শর্তসাপেক্ষ, বিশ্লেষণ প্রয়োজন:
E f , { ϵ t } [ R T ∣ { ζ t } t ≥ 1 ] E_{f,\{\epsilon_t\}}[R_T | \{\zeta_t\}_{t\geq1}] E f , { ϵ t } [ R T ∣ { ζ t } t ≥ 1 ]
উদ্ভাবনী প্রযুক্তি :
মার্টিনগেল পার্থক্য ক্রম নির্মাণ :
A 1 = ∑ t = 1 T { E D t − 1 , ζ t [ v t ( x t ) ∣ { ζ i } i < t ] − E D t − 1 [ v t ( x t ) ∣ { ζ i } i ≤ t ] } A_1 = \sum_{t=1}^T \{E_{D_{t-1},\zeta_t}[v_t(x_t)|\{\zeta_i\}_{i<t}] - E_{D_{t-1}}[v_t(x_t)|\{\zeta_i\}_{i\leq t}]\} A 1 = ∑ t = 1 T { E D t − 1 , ζ t [ v t ( x t ) ∣ { ζ i } i < t ] − E D t − 1 [ v t ( x t ) ∣ { ζ i } i ≤ t ]} শর্তসাপেক্ষ সাব-গাউসিয়ান প্রমাণ (প্রস্তাব B.3):সংজ্ঞা h(a) = Emax_x{μ + √(s + ||a||²₂)σ} প্রমাণ করুন h হল 1-Lipschitz ফাংশন গাউসিয়ান ঘনীভবন অসমতা প্রয়োগ করুন Azuma অসমতা প্রয়োগ (লেম্মা B.1):মার্টিনগেল পার্থক্য সম্পত্তি যাচাই করুন শর্তসাপেক্ষ সাব-গাউসিয়ান যাচাই করুন A1 এর 18T-সাব-গাউসিয়ান সীমানা পান চি-বর্গ বিতরণ লেজ সীমানা (লেম্মা E.4):A2 = ∑ζt^(1/2)σt-1(xt) এ প্রয়োগ করুন কারণ ∑(ζt - st) ~ χ²(T) ফলাফল (উপপাদ্য 4.3): সম্ভাবনা ≥ 1-δ সহ,
E f , ϵ [ R T ∣ { ζ t } ] ≤ 6 T log ( π 2 T 2 / 3 δ ) + C 1 γ T ( ⋯ ) E_{f,\epsilon}[R_T|\{\zeta_t\}] \leq 6\sqrt{T\log(\pi²T²/3\delta)} + \sqrt{C_1\gamma_T(\cdots)} E f , ϵ [ R T ∣ { ζ t }] ≤ 6 T log ( π 2 T 2 /3 δ ) + C 1 γ T ( ⋯ )
O(√(TγT log|X|)) গতি বজায় রাখে।
প্রতিউদাহরণ ডিজাইন (উপপাদ্য 4.6):
ডোমেন: X = {x⁽¹⁾, x⁽²⁾} পূর্ব: f ~ N(0, Σ), Σ = 1, ρ; ρ, 0.99 শব্দ: εt ~ N(0,1) মূল ইভেন্ট :
E T = { f ( x ( 1 ) ) ≥ 2 max { 1 , c } 1 − ρ + 1 , f ( x ( 2 ) ) > f ( x ( 1 ) ) + 1 , ∑ i = 1 t ϵ i / t ≥ − 1 } E_T = \{f(x^{(1)}) \geq \frac{2\max\{1,c\}}{1-\rho}+1, f(x^{(2)}) > f(x^{(1)})+1, \sum_{i=1}^t\epsilon_i/t \geq -1\} E T = { f ( x ( 1 ) ) ≥ 1 − ρ 2 m a x { 1 , c } + 1 , f ( x ( 2 ) ) > f ( x ( 1 ) ) + 1 , ∑ i = 1 t ϵ i / t ≥ − 1 }
প্রমাণ কৌশল :
প্রমাণ করুন Pr(ET) > 0 (লেম্মা D.1: জ্যামিতিক সিরিজ সমষ্টি) ET এর অধীনে, আবেগপূর্ণভাবে প্রমাণ করুন xt = x⁽¹⁾ সব t এর জন্য:
পশ্চাদপদ মধ্যম পার্থক্য: μt(x⁽¹⁾) - μt(x⁽²⁾) ≥ (1-ρ)/2 · t·f(x⁽¹⁾) + ∑εi/t ET শর্ত ব্যবহার করে পার্থক্য ≥ c = β^(1/2) পান কিন্তু x* = x⁽²⁾, তাই প্রতিটি পদক্ষেপ অনুশোচনা ≥ 1 সিদ্ধান্ত : BCRT = Ω(T), ধ্রুবক পরামিতি অপর্যাপ্ত প্রমাণ করে।
1. সিন্থেটিক ফাংশন
উৎপাদন: f ~ GP(0, k), k হল RBF কার্নেল, ℓ=0.1 মাত্রা: d=3 ডোমেন: X = {0, 0.1, ..., 0.9}³, |X|=1000 শব্দ: σ²=10⁻⁴ পরীক্ষা: 10টি ফাংশন × 10টি প্রাথমিক ডেটাসেট = 100 বার 2. বেঞ্চমার্ক ফাংশন
Holder টেবিল (d=2) ট্রে তে ক্রস (d=2) Ackley (d=4) উৎস: https://www.sfu.ca/~ssurjano/optimization.html প্রাথমিক ডেটা: |D₀|=2d পরীক্ষা: 10 বার র্যান্ডম আরম্ভ 3. প্রকৃত উপকরণ ডেটা (Liang et al. 2021)
Perovskite : হ্যালাইড পেরোভস্কাইট পরিবেশগত স্থিতিশীলতা, d=3, |X|=94P3HT/CNT : কার্বন ন্যানোটিউব পলিমার পরিবাহিতা, d=5, |X|=178AgNP : রূপা ন্যানোকণা শোষণ বর্ণালী, d=5, |X|=164প্রাথমিক ডেটা: |D₀|=2 সাধারণ অনুশোচনা (Simple Regret):
r simple = f ( x ∗ ) − max t ≤ T f ( x t ) r_{\text{simple}} = f(x^*) - \max_{t \leq T} f(x_t) r simple = f ( x ∗ ) − max t ≤ T f ( x t )
খুঁজে পাওয়া সেরা পয়েন্ট এবং প্রকৃত সর্বোত্তম পয়েন্টের মধ্যে ব্যবধান পরিমাপ করে।
GP-UCB Srinivas et al. 2010 : βt = 0.2d log(2t) (হিউরিস্টিক)RGP-UCB Berk et al. 2020 : ζt ~ Gamma(κt, θ=1), κt = 0.2d log(2t)Thompson Sampling (TS) Russo & Van Roy 2014 PIMS Takeno et al. 2024 : নমুনা পথ সর্বাধিক মূল্যের উপর ভিত্তি করে সম্ভাব্য উন্নতিExpected Improvement (EI) Mockus et al. 1978 Max-value Entropy Search (MES) Wang & Jegelka 2017 Joint Entropy Search (JES) Hvarfner et al. 2022 পশ্চাদপদ নমুনা : TS, PIMS, MES, JES র্যান্ডম ফুরিয়ার বৈশিষ্ট্য ব্যবহার করেমন্টে কার্লো : MES এবং JES 10টি নমুনা ব্যবহার করেহাইপারপ্যারামিটার অপটিমাইজেশন :
সিন্থেটিক ফাংশন: প্রকৃত পরামিতিতে স্থির বেঞ্চমার্ক ফাংশন: প্রতি 5 পুনরাবৃত্তিতে সীমান্ত সম্ভাবনা সর্বাধিক করুন প্রকৃত ডেটা: প্রতিটি পুনরাবৃত্তিতে অপটিমাইজ করুন (অস্থিরতা এড়াতে) IRGP-UCB পরামিতি :
সিন্থেটিক ফাংশন: st = 2log(|X|/2), λ=1/2 (তাত্ত্বিক মূল্য) ক্রমাগত ডোমেন: s = d/2, λ=1/2 (হিউরিস্টিক) পর্যবেক্ষণ (|X|=1000, T=150):
GP-UCB : βt ~10 থেকে ~60 বৃদ্ধি (লগারিদমিক বৃদ্ধি)RGP-UCB : Eζt একইভাবে ~10 থেকে ~60 বৃদ্ধি, 95% আস্থা ব্যবধান প্রশস্তIRGP-UCB : Eζt ≈4 ধ্রুবক, 95% আস্থা ব্যবধান 2,8 সিদ্ধান্ত : IRGP-UCB উল্লেখযোগ্যভাবে অত্যধিক অন্বেষণ হ্রাস করে।
কর্মক্ষমতা র্যাঙ্কিং (T=200 সময়):
IRGP-UCB : অনুশোচনা ~10⁻⁴ (সেরা)EI, MES: ~10⁻³ PIMS: ~5×10⁻³ GP-UCB, RGP-UCB, TS, JES: ~10⁻² (ধীর সংমিশ্রণ) পরিসংখ্যানগত তাৎপর্য : IRGP-UCB বেশিরভাগ পুনরাবৃত্তিতে ত্রুটি বার অ-ওভারল্যাপিং।
Holder টেবিল (d=2) :
JES প্রথম 40 বার দ্রুততম, কিন্তু 10⁻¹ এ থেমে যায় IRGP-UCB 60 বার সময়ে 10⁻³ এ পৌঁছায়, চূড়ান্ত সেরা ট্রে তে ক্রস (d=2) :
IRGP-UCB 50 বার সময়ে 10⁻⁴ এ দ্রুত সংমিশ্রণ করে অন্যান্য পদ্ধতি >80 বার প্রয়োজন Ackley (d=4) :
IRGP-UCB ক্রমাগত নেতৃত্ব, 125 বার পরে ন্যূনতম TS এবং JES মাত্রা অভিশাপ কারণে খারাপ কর্মক্ষমতা Perovskite (d=3) :
IRGP-UCB 20 বার পরে সেরা (অনুশোচনা ~2×10⁴) GP-UCB, TS এর চেয়ে ~2 গুণ উন্নত P3HT/CNT (d=5) :
EI 60 বার পরে সেরা কিন্তু IRGP-UCB প্রথম 20 বার সংমিশ্রণ দ্রুততম AgNP (d=5) :
মূল আবিষ্কার : IRGP-UCB 42 বারে সব পরীক্ষায় সর্বোত্তম পয়েন্ট খুঁজে পায়হিউরিস্টিক পদ্ধতি (EI/MES/JES) ≥60 বার প্রয়োজন অন্তর্নিহিত বিলোপন (তুলনার মাধ্যমে):
র্যান্ডমাইজেশন প্রয়োজনীয়তা : GP-UCB বনাম IRGP-UCBএকই UCB কাঠামো, শুধুমাত্র আস্থা পরামিতি ভিন্ন IRGP-UCB ক্রমাগত GP-UCB এর চেয়ে উন্নত বিতরণ নির্বাচন : RGP-UCB (গামা) বনাম IRGP-UCB (স্থানান্তরিত সূচক)উভয় র্যান্ডমাইজড, কিন্তু IRGP-UCB আরও ভাল স্থানান্তরিত সূচক বিতরণের শ্রেষ্ঠত্ব যাচাই করে তাত্ত্বিক বনাম হিউরিস্টিক :সিন্থেটিক ফাংশন (তাত্ত্বিক পরামিতি): IRGP-UCB সেরা কর্মক্ষমতা ক্রমাগত ডোমেন (হিউরিস্টিক s=d/2): এখনও কার্যকর তাত্ত্বিক নির্দেশনার ব্যবহারিক মূল্য নির্দেশ করে উপকরণ আবিষ্কার ত্বরণ (AgNP ডেটাসেট):
ঐতিহ্যবাহী পদ্ধতি (EI): সর্বোত্তম ন্যানোকণা সংশ্লেষণ পরামিতি খুঁজে পেতে 60 বার প্রয়োজন IRGP-UCB: মাত্র 42 বার, 30% পরীক্ষা সাশ্রয় পরীক্ষা খরচ বেশি উপকরণ বিজ্ঞানে গুরুত্বপূর্ণ মূল্য অত্যধিক অন্বেষণের খরচ : GP-UCB, RGP-UCB, TS পরবর্তী পর্যায়ে খারাপ কর্মক্ষমতা, βt অত্যধিক বড়ের নেতিবাচক প্রভাব নিশ্চিত করেমাত্রা সংবেদনশীলতা : উচ্চ মাত্রা (d=4,5) এ, নমুনা পথ সর্বাধিক মূল্যের উপর ভিত্তি করে পদ্ধতি (TS/JES) কর্মক্ষমতা হ্রাসতাত্ত্বিক-ব্যবহারিক সামঞ্জস্য : তাত্ত্বিক সর্বোত্তম IRGP-UCB ব্যবহারিকভাবেও সর্বোত্তম, বিরল তাত্ত্বিক-ব্যবহারিক একীকরণদৃঢ়তা : IRGP-UCB বিভিন্ন ফাংশন ধরনে (মসৃণ সিন্থেটিক, বহু-শিখর বেঞ্চমার্ক, শব্দযুক্ত প্রকৃত ডেটা) ভাল কর্মক্ষমতাদুটি প্রধান স্কুল :
বেইজিয়ান সেটিং (এই নিবন্ধ): f ~ GP
সুবিধা: সরাসরি আস্থা ব্যবধান নির্মাণ করুন প্রতিনিধি: Srinivas et al. 2010, Russo & Van Roy 2014 ফ্রিকোয়েন্টিস্ট সেটিং : f ∈ RKHS
সুবিধা: f বিতরণ অনুমান করবেন না প্রতিনিধি: Chowdhury & Gopalan 2017, Janz et al. 2020 নোট : দুটি পারস্পরিক অন্তর্ভুক্ত নয় (GP নমুনা পথ সীমিত নর্ম RKHS এ নেই)ক্লাসিক্যাল GP-UCB (Srinivas et al. 2010):
উচ্চ সম্ভাবনা সীমানা: O(√(TγT log(T|X|/δ))) সমস্যা: βt ∝ log t উন্নতির চেষ্টা :
TRUVAR (Bogunovic et al. 2016): পার্থক্য হ্রাস, কিন্তু এখনও বর্ধনশীল পরামিতি প্রয়োজনGP-EST (Wang et al. 2016): Emax f(x) অনুমান ব্যবহার করুন, কিন্তু পর্যাপ্ত শর্ত সাধারণত সন্তুষ্ট নয়Scarlett 2018 : আরও কঠোর সীমানা, কিন্তু অ্যালগরিদম বর্ধনশীল পরামিতি উপর নির্ভর করেএই নিবন্ধের সুবিধা : সীমিত ডোমেনে বর্ধনশীল পরামিতি এড়ানোর প্রথম GP-UCB পদ্ধতি।
RGP-UCB (Berk et al. 2020):
গামা বিতরণ ব্যবহার করুন: ζt ~ Gamma(κt, θ) সমস্যা: মূল বিশ্লেষণে প্রযুক্তিগত ত্রুটি, সংশোধনের পরেও Eζt বৃদ্ধি প্রয়োজন Thompson Sampling :
Russo & Van Roy 2014: BCR সীমানা O(√(TγT)) কোন হাইপারপ্যারামিটার নেই, কিন্তু অত্যধিক অন্বেষণ সমস্যা এই নিবন্ধের অবদান :
স্থানান্তরিত সূচক বিতরণের তাত্ত্বিক শ্রেষ্ঠত্ব প্রমাণ করুন র্যান্ডমাইজেশন প্রয়োজনীয়তার তাত্ত্বিক প্রমাণ প্রদান করুন (উপপাদ্য 4.6) EI : শব্দ পরিস্থিতিতে সীমিত তাত্ত্বিক বিশ্লেষণ (শুধুমাত্র ফ্রিকোয়েন্টিস্ট)ES/PES : ব্যবহারিকভাবে কার্যকর, কিন্তু অনুশোচনা বিশ্লেষণ খোলা সমস্যাMES : Wang & Jegelka 2017 এর প্রমাণে প্রযুক্তিগত সমস্যাPIMS (Takeno et al. 2024): এই নিবন্ধের পূর্ববর্তী সম্মেলন সংস্করণের প্রযুক্তি ব্যবহার করেLSE (Gotovos et al. 2013): ব্যয়বহুল ব্ল্যাক-বক্স ফাংশন শ্রেণীবিভাগ।
র্যান্ডমাইজড LSE (Inatsu et al. 2024b): এই নিবন্ধ দ্বারা অনুপ্রাণিত, একইভাবে বর্ধনশীল পরামিতি এড়ায়।
তাত্ত্বিক অগ্রগতি :সীমিত ডোমেন: প্রথমবার বর্ধনশীল আস্থা পরামিতি ছাড়াই সাব-লিনিয়ার অনুশোচনা সীমানা অর্জন করুন শর্তসাপেক্ষ প্রত্যাশিত অনুশোচনা: উচ্চ সম্ভাবনা একই গতি বজায় রাখে নিম্ন সীমানা: ধ্রুবক পরামিতি অপর্যাপ্ত, র্যান্ডমাইজেশন প্রয়োজন প্রমাণ করুন পদ্ধতি অবদান :স্থানান্তরিত সূচক বিতরণের স্বাভাবিক উদ্ভব (লেম্মা 4.2) মার্টিনগেল পার্থক্য ক্রম প্রযুক্তি (শর্তসাপেক্ষ প্রত্যাশিত বিশ্লেষণ) প্রতিউদাহরণ নির্মাণ (উপপাদ্য 4.6) ব্যবহারিক যাচাইকরণ :সিন্থেটিক, বেঞ্চমার্ক, প্রকৃত ডেটায় বেসলাইনের চেয়ে উন্নত তাত্ত্বিক-ব্যবহারিক ব্যবধান সেতু 1. ক্রমাগত ডোমেন সীমাবদ্ধতা
উপপাদ্য 4.2/4.4: sT = O(d log T), এখনও বৃদ্ধি প্রয়োজন কারণ: বিচ্ছিন্নকরণ |Xt| = O(t^(2d)), log|Xt| t এর উপর নির্ভর করে খোলা সমস্যা : এড়ানো যায় কি?2. উচ্চ সম্ভাবনা সীমানার পরামিতি বৃদ্ধি
উপপাদ্য 4.5/অনুসিদ্ধান্ত 4.1: Eζt = O(log(t|X|/δ)) যদিও GP-UCB এর সাথে একই গতি বজায় রাখে, তবুও ধ্রুবক পরামিতি অর্জন করে না ভবিষ্যত দিকনির্দেশনা : উচ্চ সম্ভাবনা + ধ্রুবক পরামিতি3. log|X| নির্ভরতা
উপপাদ্য 4.1: O(√(TγT log|X|)) যদিও O(√(TγT log(T|X|))) এর চেয়ে সামান্য ভাল, কিন্তু পার্থক্য শুধুমাত্র ধ্রুবক T < |X| এর সাধারণ BO দৃশ্যে উন্নতি সীমিত 4. পরীক্ষা হিউরিস্টিক
ক্রমাগত ডোমেন পরীক্ষা: s = d/2 (তাত্ত্বিক মূল্য নয়) যদিও কার্যকর, তবুও তাত্ত্বিক-ব্যবহারিক ছোট ব্যবধান 5. অনুমান সীমাবদ্ধতা
অনুমান 2.1: চার বার পার্থক্যযোগ্য কার্নেল (RBF, Matérn-ν) সঠিক মডেল অনুমান (f সত্যিই GP থেকে আসে) পরিচিত কার্নেল ফাংশন এবং শব্দ বৈচিত্র্য 1. তাত্ত্বিক সম্প্রসারণ
ক্রমাগত ডোমেনের ধ্রুবক পরামিতি সীমানা উচ্চ সম্ভাবনা + ধ্রুবক পরামিতির একীকরণ সঠিক মডেল অনুমান শিথিল করুন 2. অ্যালগরিদম সম্প্রসারণ (অধ্যায় 6 উল্লেখ করা)
বহু-উদ্দেশ্য BO (Paria et al. 2020)বহু-বিশ্বস্ততা BO (Kandasamy et al. 2016, Takeno et al. 2020)সমান্তরাল BO (Contal et al. 2013)উচ্চ-মাত্রা BO (Kandasamy et al. 2015)শক্তিশালী BO (Bogunovic et al. 2018)ক্যাসকেড BO (Kusakawa et al. 2022)3. অন্যান্য অধিগ্রহণ ফাংশন
র্যান্ডমাইজড EI/MES/JES LSE এর সাফল্যের মতো (Inatsu et al. 2024b) 4. ব্যবহারিক উন্নতি
স্ব-অভিযোজিত পরামিতি নির্বাচন হাইপারপ্যারামিটার অনিশ্চয়তা পরিচালনা ব্যাচ মূল্যায়ন কৌশল 1. তাত্ত্বিক উদ্ভাবনী (★★★★★)
লেম্মা 4.2 এর কমনীয়তা : বিপরীত রূপান্তর নমুনার মাধ্যমে স্থানান্তরিত সূচক বিতরণ স্বাভাবিকভাবে উদ্ভূত, ঐতিহ্যবাহী পদ্ধতির জটিল যৌথ সীমানা এড়ায়বহু-স্তর বিশ্লেষণ : প্রত্যাশিত অনুশোচনা → শর্তসাপেক্ষ প্রত্যাশিত অনুশোচনা → উচ্চ সম্ভাবনা সীমানা, সম্পূর্ণ কভারেজনিম্ন সীমানা প্রমাণ : উপপাদ্য 4.6 প্রয়োজনীয়তা প্রমাণ শূন্যতা পূরণ করে, যুক্তি সম্পূর্ণ2. প্রযুক্তিগত গভীরতা (★★★★★)
মার্টিনগেল তত্ত্ব প্রয়োগ : শর্তসাপেক্ষ প্রত্যাশিত বিশ্লেষণ Azuma অসমতা ব্যবহার করে, প্রযুক্তিগত কঠিনতা উচ্চLipschitz ফাংশন ঘনীভবন : প্রস্তাব B.3 শর্তসাপেক্ষ সাব-গাউসিয়ান প্রমাণ করে, বিবরণ কঠোরপ্রতিউদাহরণ নির্মাণ : উপপাদ্য 4.6 এর দুই-বিন্দু ডোমেন ডিজাইন সহজ এবং শক্তিশালী3. পরীক্ষা পর্যাপ্ততা (★★★★☆)
সিন্থেটিক, বেঞ্চমার্ক, প্রকৃত ডেটা তিন শ্রেণী কভার করে 7 প্রধান পদ্ধতির সাথে তুলনা করুন পরিসংখ্যানগত তাৎপর্য রিপোর্ট (ত্রুটি বার) অপর্যাপ্ততা : উচ্চ-মাত্রা বড় আকারের পরীক্ষা অনুপস্থিত (d>5)4. লেখার স্পষ্টতা (★★★★★)
কাঠামো স্পষ্ট: পটভূমি → পদ্ধতি → তত্ত্ব → পরীক্ষা প্রেরণা স্পষ্ট: প্রতিটি উপপাদ্যের আগে উদ্দেশ্য বলুন প্রমাণ পাঠযোগ্য: প্রধান উপপাদ্য পাঠ্য চিন্তা দেয়, বিবরণ সংযোজনী প্রতীক সামঞ্জস্যপূর্ণ: Dt-1, μt-1 ইত্যাদি একীভূত 5. পুনরুৎপাদনযোগ্যতা (★★★★☆)
অ্যালগরিদম সিউডোকোড সম্পূর্ণ (অ্যালগরিদম 1) পরামিতি সেটিং স্পষ্ট ডেটাসেট জনসাধারণ (Liang et al. 2021) অপর্যাপ্ততা : কোড লিঙ্ক প্রদান করা হয়নি1. তাত্ত্বিক সীমাবদ্ধতা
ক্রমাগত ডোমেন অনুশোচনা : উপপাদ্য 4.2 এর O(√(TγT log T)) এখনও বৃদ্ধি আছেউচ্চ সম্ভাবনা সীমানা : অনুসিদ্ধান্ত 4.1 এর Eζt বৃদ্ধি, সমস্যা সম্পূর্ণভাবে সমাধান করে নাlog|X| পদ : উন্নতি শুধুমাত্র ধ্রুবক স্তর, প্রকৃত প্রভাব ছোট2. পরীক্ষা ডিজাইন
মাত্রা সীমাবদ্ধতা : সর্বোচ্চ d=5, উচ্চ-মাত্রা কর্মক্ষমতা পরীক্ষা করা হয়নিশব্দ স্তর : শুধুমাত্র σ²=10⁻⁴, উচ্চ শব্দ দৃঢ়তা অন্বেষণ করা হয়নিগণনা খরচ : চালানোর সময় রিপোর্ট করা হয়নিবিলোপন অপর্যাপ্ত : λ এবং st এর প্রভাব আলাদাভাবে পরীক্ষা করা হয়নি3. অনুমান সীমাবদ্ধতা
মডেল সঠিকতা : f সত্যিই GP থেকে আসে অনুমান (ব্যবহারিকভাবে সম্ভবত সন্তুষ্ট নয়)পরিচিত হাইপারপ্যারামিটার : k এবং σ² পরিচিত অনুমান (ব্যবহারিকভাবে অনুমান প্রয়োজন)সীমিত ডোমেন অনুমান : প্রধান ফলাফল (উপপাদ্য 4.1/4.3) শুধুমাত্র সীমিত ডোমেনে প্রযোজ্য4. সম্পর্কিত কাজের সাথে তুলনা
TRUVAR এর সাথে তুলনা অনুপস্থিত : একই UCB ভেরিয়েন্টগণনা জটিলতা আলোচনা অনুপস্থিত : TS/EI এর গণনা খরচ তুলনাRGP-UCB তুলনা অপর্যাপ্ত : শুধুমাত্র পরীক্ষা তুলনা, তাত্ত্বিক তুলনা অনুপস্থিত5. ব্যবহারিক নির্দেশনা
পরামিতি নির্বাচন : ক্রমাগত ডোমেনের s=d/2 তাত্ত্বিক সমর্থন অনুপস্থিতহাইপারপ্যারামিটার অপটিমাইজেশন : প্রতিটি পুনরাবৃত্তি অপটিমাইজেশন খরচ বেশি, বিকল্প আলোচনা অনুপস্থিতসংমিশ্রণ নির্ণয় : থামার মানদণ্ড প্রদান করা হয়নি1. একাডেমিক অবদান (প্রত্যাশিত উচ্চ)
তাত্ত্বিক তাৎপর্য : বেইজিয়ান BO তত্ত্ব শূন্যতা পূরণ করুনপদ্ধতিগত : লেম্মা 4.2 এর বিপরীত রূপান্তর প্রযুক্তি অন্যান্য কাজ অনুপ্রাণিত করতে পারেসম্পূর্ণতা : প্রত্যাশিত + শর্তসাপেক্ষ প্রত্যাশিত + উচ্চ সম্ভাবনা + নিম্ন সীমানা, বিশ্লেষণ ব্যাপক2. ব্যবহারিক মূল্য (মধ্যম)
উপকরণ বিজ্ঞান : AgNP পরীক্ষা 30% খরচ সাশ্রয়স্বয়ংক্রিয় ML : হাইপারপ্যারামিটার টিউনিং পুনরাবৃত্তি হ্রাস করুনসীমাবদ্ধতা : উচ্চ-মাত্রা, উচ্চ শব্দ দৃশ্যে আরও যাচাইকরণ প্রয়োজন3. পরবর্তী কাজ (ইতিমধ্যে আছে)
Inatsu et al. 2024b: র্যান্ডমাইজড LSE সম্ভবত বহু-উদ্দেশ্য, বহু-বিশ্বস্ততা BO প্রভাবিত করুন 4. সম্প্রদায় গ্রহণযোগ্যতা (প্রত্যাশিত)
সুবিধা : শীর্ষ সম্মেলন (ICML 2023 সম্মেলন সংস্করণ)চ্যালেঞ্জ : কোড ওপেন সোর্স করা উচ্চ গ্রহণযোগ্যতা প্রয়োজনআদর্শ দৃশ্য :
সীমিত বিচ্ছিন্ন ডোমেন : সমন্বয় অপটিমাইজেশন, উপকরণ উপাদান ডিজাইনব্যয়বহুল মূল্যায়ন : শারীরিক পরীক্ষা, বড় আকারের অনুকরণনিম্ন-মাত্রা সমস্যা : d ≤ 10নিম্ন শব্দ : σ² ছোটGP প্রযোজ্য : লক্ষ্য ফাংশন মসৃণঅপ্রযোজ্য দৃশ্য :
উচ্চ-মাত্রা ক্রমাগত ডোমেন : d > 20 (তাত্ত্বিক গ্যারান্টি দুর্বল)উচ্চ শব্দ : σ² খুব বড় (আস্থা ব্যবধান প্রশস্ত)অ-মসৃণ ফাংশন : অনুমান 2.1 সন্তুষ্ট নয়বড় আকারের ডোমেন : |X| > 10⁶ (log|X| পদ প্রভাব)রিয়েল-টাইম প্রয়োগ : GP অনুমান O(t³) খরচপ্রতিযোগী পদ্ধতি নির্বাচন :
সহজ সমস্যা : EI (কোন হাইপারপ্যারামিটার নেই)উচ্চ-মাত্রা : গ্রেডিয়েন্ট-ভিত্তিক পদ্ধতিবড় আকারের সমান্তরাল : ব্যাচ BOমডেল অনিশ্চয়তা : সমষ্টি পদ্ধতিSrinivas et al. (2010) : "গ্যাঙ্গলিয়ন সেটিংয়ে গাউসিয়ান প্রক্রিয়া অপটিমাইজেশন: কোন অনুশোচনা এবং পরীক্ষামূলক ডিজাইন নেই" - GP-UCB মূল পেপারRusso & Van Roy (2014) : "পশ্চাদপদ নমুনার মাধ্যমে অপটিমাইজ করতে শিখুন" - TS এর বেইজিয়ান বিশ্লেষণBerk et al. (2020) : "বেইজিয়ান অপটিমাইজেশনের জন্য র্যান্ডমাইজড গাউসিয়ান প্রক্রিয়া আপার কনফিডেন্স বাউন্ড" - RGP-UCBKandasamy et al. (2018) : "থম্পসন নমুনার মাধ্যমে সমান্তরাল বেইজিয়ান অপটিমাইজেশন" - TS এর MIG সীমানাTakeno et al. (2023) : এই নিবন্ধের সম্মেলন সংস্করণ (ICML 2023)Liang et al. (2021) : "বহু পরীক্ষামূলক উপকরণ বিজ্ঞান ডোমেন জুড়ে বেইজিয়ান অপটিমাইজেশনের কর্মক্ষমতা বেঞ্চমার্কিং" - উপকরণ ডেটাসেটএই নিবন্ধটি বেইজিয়ান অপটিমাইজেশন তত্ত্বে গুরুত্বপূর্ণ অগ্রগতি অর্জন করে, বিপরীত রূপান্তর নমুনা প্রযুক্তির মাধ্যমে (লেম্মা 4.2) স্থানান্তরিত সূচক বিতরণ স্বাভাবিকভাবে উদ্ভূত করে, সীমিত ডোমেনে প্রথম সাব-লিনিয়ার অনুশোচনা সীমানা অর্জন করে যা বর্ধনশীল আস্থা পরামিতির প্রয়োজন নেই। বহু-স্তর তাত্ত্বিক বিশ্লেষণ (প্রত্যাশিত, শর্তসাপেক্ষ প্রত্যাশিত, উচ্চ সম্ভাবনা) এবং প্রয়োজনীয়তা প্রমাণ (উপপাদ্য 4.6) একটি সম্পূর্ণ তাত্ত্বিক সিস্টেম গঠন করে। পরীক্ষা তাত্ত্বিক-ব্যবহারিক সামঞ্জস্য যাচাই করে, বিশেষত উপকরণ বিজ্ঞান প্রয়োগে ব্যবহারিক মূল্য প্রদর্শন করে।
প্রধান সীমাবদ্ধতা ক্রমাগত ডোমেনে এখনও পরামিতি বৃদ্ধি প্রয়োজন, উচ্চ সম্ভাবনা সীমানা সমস্যা সম্পূর্ণভাবে সমাধান করে না, এবং পরীক্ষা মাত্রা কম। তবুও, এই নিবন্ধটি GP-UCB গবেষণায় নতুন দিকনির্দেশনা খোলে, এর প্রযুক্তি (বিপরীত রূপান্তর নমুনা, মার্টিনগেল বিশ্লেষণ) পদ্ধতিগত মূল্য রাখে, BO এবং সম্পর্কিত ক্ষেত্রে (যেমন LSE) পরবর্তী গবেষণা প্রভাবিত করার প্রত্যাশা করা হয়। সীমিত ডোমেন, নিম্ন-মাত্রা, ব্যয়বহুল মূল্যায়নের জন্য, IRGP-UCB সবচেয়ে শক্তিশালী তাত্ত্বিক গ্যারান্টি সহ পছন্দগুলির মধ্যে একটি।