Distributed Thompson sampling under constrained communication
Zerefa, Ren, Ma et al.
In Bayesian optimization, a black-box function is maximized via the use of a surrogate model. We apply distributed Thompson sampling, using a Gaussian process as a surrogate model, to approach the multi-agent Bayesian optimization problem. In our distributed Thompson sampling implementation, each agent receives sampled points from neighbors, where the communication network is encoded in a graph; each agent utilizes their own Gaussian process to model the objective function. We demonstrate theoretical bounds on Bayesian average regret and Bayesian simple regret, where the bound depends on the structure of the communication graph. Unlike in batch Bayesian optimization, this bound is applicable in cases where the communication graph amongst agents is constrained. When compared to sequential single-agent Thompson sampling, our bound guarantees faster convergence with respect to time as long as the communication graph is connected. We confirm the efficacy of our algorithm with numerical simulations on traditional optimization test functions, demonstrating the significance of graph connectivity on improving regret convergence.
تبحث هذه الورقة في مشكلة التحسين البايزي متعدد الوكلاء تحت قيود الاتصالات. يقترح المؤلفون خوارزمية أخذ عينات تومبسون موزعة باستخدام العمليات الغاوسية كنموذج بديل. في هذا التطبيق، يتلقى كل وكيل نقاط العينات من الجيران، ويتم ترميز شبكة الاتصالات بهيكل رسم بياني؛ يستخدم كل وكيل عملية غاوسية خاصة به لنمذجة دالة الهدف. تثبت الورقة حدود الندم البايزي المتوسط وحدود الندم البايزي البسيط، والتي تعتمد على بنية الرسم البياني للاتصالات. بخلاف التحسين البايزي الدفعي، ينطبق هذا الحد على حالة الرسم البياني للاتصالات المحدود بين الوكلاء. مقارنة بأخذ عينات تومبسون المتسلسل لوكيل واحد، تضمن الخوارزمية تقاربًا زمنيًا أسرع طالما أن الرسم البياني للاتصالات متصل.
تتمحور المشكلة الأساسية التي تعالجها هذه الورقة حول تحسين الدالة ذات الصندوق الأسود في الأنظمة متعددة الوكلاء ذات الاتصالات المحدودة. بشكل محدد:
تحديات التحسين العشوائي ذو الصندوق الأسود: في الحالات التي لا تكون فيها دالة الهدف معروفة بشكل صريح ويمكن الوصول إليها فقط من خلال تقييمات مزعجة، يجب إيجاد الحد الأقصى للدالة
متطلبات التعاون متعدد الوكلاء: يمكن لعدة وكلاء أخذ عينات من دالة الهدف بالتوازي، لكن قد تكون الاتصالات بينهم محدودة
واقعية قيود الاتصالات: في التطبيقات العملية (مثل البحث عن المصدر بروبوتات متعددة وشبكات المستشعرات)، قد لا يتمكن الوكلاء من الوصول إلى معلومات جميع الوكلاء الآخرين
عدم قابلية الطرق المركزية للتطبيق: تتطلب مدير مركزي لإدارة بيانات جميع الوكلاء، وهو غير واقعي في السيناريوهات الموزعة
افتراضات التحسين البايزي الدفعي قوية جدًا: تفترض أن جميع الوكلاء لديهم إمكانية الوصول إلى نفس المعلومات، وهو لا ينطبق على الحالات الفعلية ذات الاتصالات المحدودة
الضمانات النظرية الموجودة تتطلب شروطًا صارمة: الأدبيات السابقة التي توفر ضمانات نظرية للتحسين البايزي الموزع تتطلب رسم بياني للاتصالات متصل بالكامل
بالنسبة لمجموعة مضغوطة X⊂Rd، ننظر في دالة مستمرة غير معروفة f:X→R، والهدف هو إيجاد قيمتها العظمى. لنفترض وجود M وكيل، يمكن لكل منهم الاستعلام عن f واستقبال ملاحظة مزعجة y=f(x)+ϵ، حيث ϵ∼N(0,σϵ2).
يتم وصف شبكة الاتصالات برسم بياني G=(V,E)، حيث ∣V∣=M، والحافة (i,j)∈E تشير إلى أن الوكيل i والوكيل j يمكنهما التواصل. البيانات التي يمكن للوكيل i الوصول إليها في الوقت t هي Dt,i={(xτ,j,yτ,j)}j∈N(i)∪{i},τ<t.
1. تعيين أولوية GP لـ f
2. التهيئة: بالنسبة لـ i=1,...,M، تعيين البيانات الأولية D_{1,i} و GP_{0,i}
3. بالنسبة لـ t=1,...,T:
بالنسبة لـ i=1,...,M:
أ) تحديث البعدي GP_{t,i} بناءً على D_{t,i}
ب) أخذ عينة من تحقيق الدالة: f̂_{t,i} ~ GP_{t,i}
ج) اختيار نقطة الاستعلام: x_{t,i} = argmax_x f̂_{t,i}(x)
د) ملاحظة y_{t,i}
هـ) بث (x_{t,i}, y_{t,i}) إلى الجيران
و) جمع التقييمات من الجيران C_{t,i}
ز) تحديث سجل البيانات: D_{t+1,i} = D_{t,i} ∪ C_{t,i} ∪ {(x_{t,i}, y_{t,i})}
تصميم بدون منسق مركزي: يحتفظ كل وكيل بشكل مستقل بنموذج GP خاص به، مما يتجنب اختناقات الطرق المركزية
الاستفادة من بنية الرسم البياني للاتصالات: يقوم التحليل النظري بتحليل الرسم البياني للاتصالات بذكاء إلى رسوم بيانية فرعية كاملة منفصلة، وتحليل أداء كل رسم بياني فرعي على حدة
إطار التحليل النظري للمعلومات: استخدام مفاهيم نظرية المعلومات مثل أقصى مكسب معلومات (MIG) لتحديد أداء الخوارزمية
النظرية 3.1 (حد الندم البايزي المتوسط):
دع {Gk}k∈{1,...,n} تكون مجموعة من n رسوم بيانية فرعية كاملة منفصلة للرسم البياني للاتصالات G، ثم ندم البايزي المتوسط بعد t خطوة يرضي:
RAB(t)≤M1∑k=1n∣Vk∣(t∣Vk∣C1+t∣Vk∣C2ξ∣Vk∣βtΨt∣Vk∣)
النتيجة 3.2: اختيار n كعدد غطاء الكليك للرسم البياني θ(G)، نحصل على:
RAB(t)=O~(Mtθ(G))
النظرية 3.3 (حد الندم البايزي البسيط):
دع Gs=(Vs,Es) يكون رسم بياني فرعي كامل من G، ثم:
RSB(t)≤t∣Vs∣C1+t∣Vs∣C2ξ∣Vs∣βtΨt∣Vs∣
النتيجة 3.4: اختيار Gmax كأكبر رسم بياني فرعي كامل، نحصل على:
RSB(t)=O~(t∣Vmax∣1)
توفر هذه الورقة للمرة الأولى ضمانات نظرية للتحسين البايزي الموزع تحت قيود الاتصالات (الرسوم البيانية غير المتصلة بالكامل)، مما يملأ فجوة مهمة في هذا المجال.
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة ذات مساهمات نظرية مهمة في مجال التحسين البايزي الموزع. يجمع المؤلفون بذكاء بين نظرية الرسوم البيانية ونظرية المعلومات والتحسين البايزي، مما يوفر ضمانات نظرية لسيناريوهات قيود الاتصالات الشائعة في الواقع. على الرغم من وجود مجال للتحسين من حيث الجدوى العملية، فإن قيمتها النظرية وأهميتها التوجيهية للبحث المستقبلي كبيرة جدًا.