2025-11-25T01:19:18.327955

Distributed Thompson sampling under constrained communication

Zerefa, Ren, Ma et al.

In Bayesian optimization, a black-box function is maximized via the use of a surrogate model. We apply distributed Thompson sampling, using a Gaussian process as a surrogate model, to approach the multi-agent Bayesian optimization problem. In our distributed Thompson sampling implementation, each agent receives sampled points from neighbors, where the communication network is encoded in a graph; each agent utilizes their own Gaussian process to model the objective function. We demonstrate theoretical bounds on Bayesian average regret and Bayesian simple regret, where the bound depends on the structure of the communication graph. Unlike in batch Bayesian optimization, this bound is applicable in cases where the communication graph amongst agents is constrained. When compared to sequential single-agent Thompson sampling, our bound guarantees faster convergence with respect to time as long as the communication graph is connected. We confirm the efficacy of our algorithm with numerical simulations on traditional optimization test functions, demonstrating the significance of graph connectivity on improving regret convergence.

academic

أخذ العينات الموزع لتومبسون تحت قيود الاتصالات

المعلومات الأساسية

معرّف الورقة: 2410.15543
العنوان: أخذ العينات الموزع لتومبسون تحت قيود الاتصالات
المؤلفون: سابا زريفة، تشاولين رين، هايتونج ما، نا لي (كلية الهندسة والعلوم التطبيقية بجامعة هارفارد)
التصنيف: cs.LG cs.SY eess.SY math.OC stat.ML
تاريخ النشر: 1 يناير 2025 (arXiv v3)
رابط الورقة: https://arxiv.org/abs/2410.15543

الملخص

تبحث هذه الورقة في مشكلة التحسين البايزي متعدد الوكلاء تحت قيود الاتصالات. يقترح المؤلفون خوارزمية أخذ عينات تومبسون موزعة باستخدام العمليات الغاوسية كنموذج بديل. في هذا التطبيق، يتلقى كل وكيل نقاط العينات من الجيران، ويتم ترميز شبكة الاتصالات بهيكل رسم بياني؛ يستخدم كل وكيل عملية غاوسية خاصة به لنمذجة دالة الهدف. تثبت الورقة حدود الندم البايزي المتوسط وحدود الندم البايزي البسيط، والتي تعتمد على بنية الرسم البياني للاتصالات. بخلاف التحسين البايزي الدفعي، ينطبق هذا الحد على حالة الرسم البياني للاتصالات المحدود بين الوكلاء. مقارنة بأخذ عينات تومبسون المتسلسل لوكيل واحد، تضمن الخوارزمية تقاربًا زمنيًا أسرع طالما أن الرسم البياني للاتصالات متصل.

الخلفية البحثية والدافع

تعريف المشكلة

تتمحور المشكلة الأساسية التي تعالجها هذه الورقة حول تحسين الدالة ذات الصندوق الأسود في الأنظمة متعددة الوكلاء ذات الاتصالات المحدودة. بشكل محدد:

تحديات التحسين العشوائي ذو الصندوق الأسود: في الحالات التي لا تكون فيها دالة الهدف معروفة بشكل صريح ويمكن الوصول إليها فقط من خلال تقييمات مزعجة، يجب إيجاد الحد الأقصى للدالة
متطلبات التعاون متعدد الوكلاء: يمكن لعدة وكلاء أخذ عينات من دالة الهدف بالتوازي، لكن قد تكون الاتصالات بينهم محدودة
واقعية قيود الاتصالات: في التطبيقات العملية (مثل البحث عن المصدر بروبوتات متعددة وشبكات المستشعرات)، قد لا يتمكن الوكلاء من الوصول إلى معلومات جميع الوكلاء الآخرين

أهمية البحث

لهذه المشكلة تطبيقات واسعة في عدة مجالات مهمة:

ضبط المعاملات الفائقة في التعلم الآلي
التحسين القائم على المحاكاة
تصميم التجارب
أنظمة الروبوتات متعددة الوكلاء
تحسين شبكات المستشعرات

قيود الطرق الموجودة

عدم قابلية الطرق المركزية للتطبيق: تتطلب مدير مركزي لإدارة بيانات جميع الوكلاء، وهو غير واقعي في السيناريوهات الموزعة
افتراضات التحسين البايزي الدفعي قوية جدًا: تفترض أن جميع الوكلاء لديهم إمكانية الوصول إلى نفس المعلومات، وهو لا ينطبق على الحالات الفعلية ذات الاتصالات المحدودة
الضمانات النظرية الموجودة تتطلب شروطًا صارمة: الأدبيات السابقة التي توفر ضمانات نظرية للتحسين البايزي الموزع تتطلب رسم بياني للاتصالات متصل بالكامل

الدافع البحثي

نقطة انطلاق المؤلفين هي تطوير خوارزمية تحسين بايزي موزعة يمكنها العمل تحت أي بنية رسم بياني للاتصالات وتوفير الضمانات النظرية المقابلة.

المساهمات الأساسية

اقتراح خوارزمية أخذ عينات تومبسون الموزعة: تصميم خوارزمية جديدة لمشكلة التحسين البايزي متعدد الوكلاء تحت قيود الاتصالات
إنشاء حدود نظرية:
- حد الندم البايزي المتوسط: $\tilde{O}\left(\sqrt{\frac{\theta(G)}{\sqrt{Mt}}}\right)$
- حد الندم البايزي البسيط: $\tilde{O}\left(\sqrt{\frac{1}{t|V_{max}|}}\right)$
تحليل الاعتماد على بنية الرسم البياني: تعتمد الحدود على عدد غطاء الكليك للرسم البياني $\theta(G)$ وحجم أكبر رسم بياني فرعي كامل $|V_{max}|$
ضمانات التقارب: إثبات أن التقارب أسرع من طريقة أخذ عينات تومبسون المتسلسل لوكيل واحد تحت الرسم البياني للاتصالات المتصل
التحقق العددي: التحقق من فعالية الخوارزمية على دوال اختبار التحسين القياسية

شرح الطريقة

تعريف المهمة

بالنسبة لمجموعة مضغوطة $X \subset \mathbb{R}^d$ ، ننظر في دالة مستمرة غير معروفة $f: X \rightarrow \mathbb{R}$ ، والهدف هو إيجاد قيمتها العظمى. لنفترض وجود $M$ وكيل، يمكن لكل منهم الاستعلام عن $f$ واستقبال ملاحظة مزعجة $y = f(x) + \epsilon$ ، حيث $\epsilon \sim \mathcal{N}(0, \sigma_\epsilon^2)$ .

يتم وصف شبكة الاتصالات برسم بياني $G = (V,E)$ ، حيث $|V| = M$ ، والحافة $(i,j) \in E$ تشير إلى أن الوكيل $i$ والوكيل $j$ يمكنهما التواصل. البيانات التي يمكن للوكيل $i$ الوصول إليها في الوقت $t$ هي $D_{t,i} = \{(x_{\tau,j}, y_{\tau,j})\}_{j \in \mathcal{N}(i) \cup \{i\}, \tau < t}$ .

بنية النموذج

نمذجة العملية الغاوسية

يستخدم كل وكيل $i$ عملية غاوسية مستقلة $GP_{t,i}$ لنمذجة دالة الهدف: $f | \mathcal{F}_{D_{t,i}} \sim GP_{t,i}(\mu_{D_{t,i}}(x), k_{D_{t,i}}(x,x'))$

حيث:

$\mu_{D_t}(x) = k_t(x)^T(K_{D_t} + \sigma_n^2 I)^{-1}y_{D_t}$
$k_{D_t}(x,x') = k(x,x') - k_{D_t}(x)^T(K_{D_t} + \sigma_n^2 I)^{-1}k_{D_t}(x')$

خوارزمية أخذ عينات تومبسون الموزعة

الخوارزمية 1: أخذ عينات تومبسون الموزع

1. تعيين أولوية GP لـ f
2. التهيئة: بالنسبة لـ i=1,...,M، تعيين البيانات الأولية D_{1,i} و GP_{0,i}
3. بالنسبة لـ t=1,...,T:
   بالنسبة لـ i=1,...,M:
   أ) تحديث البعدي GP_{t,i} بناءً على D_{t,i}
   ب) أخذ عينة من تحقيق الدالة: f̂_{t,i} ~ GP_{t,i}
   ج) اختيار نقطة الاستعلام: x_{t,i} = argmax_x f̂_{t,i}(x)
   د) ملاحظة y_{t,i}
   هـ) بث (x_{t,i}, y_{t,i}) إلى الجيران
   و) جمع التقييمات من الجيران C_{t,i}
   ز) تحديث سجل البيانات: D_{t+1,i} = D_{t,i} ∪ C_{t,i} ∪ {(x_{t,i}, y_{t,i})}

نقاط الابتكار التقني

تصميم بدون منسق مركزي: يحتفظ كل وكيل بشكل مستقل بنموذج GP خاص به، مما يتجنب اختناقات الطرق المركزية
الاستفادة من بنية الرسم البياني للاتصالات: يقوم التحليل النظري بتحليل الرسم البياني للاتصالات بذكاء إلى رسوم بيانية فرعية كاملة منفصلة، وتحليل أداء كل رسم بياني فرعي على حدة
إطار التحليل النظري للمعلومات: استخدام مفاهيم نظرية المعلومات مثل أقصى مكسب معلومات (MIG) لتحديد أداء الخوارزمية

إعداد التجارب

دوال الاختبار

استخدام دالتي اختبار تحسين قياسيتين:

دالة Rosenbrock: $f(x,y) = (1-x)^2 + 100(y-x^2)^2$ $f (x, y) = (1 - x)^{2} + 100 (y - x^{2})^{2}$
- الخصائص: تحتوي على وادي كبير، والحد الأدنى العام يقع داخله
دالة Ackley: $f(x,y) = -20\exp(-0.2\sqrt{\frac{x^2+y^2}{2}}) - \exp(\frac{1}{2}(\cos(2\pi x) + \cos(2\pi y))) + 20 + e$ $f (x, y) = - 20 exp (- 0.2 \frac{x ^{2} + y ^{2}}{2}) - exp (\frac{1}{2} (cos (2 π x) + cos (2 π y))) + 20 + e$
- الخصائص: تحتوي على العديد من الحدود القصوى المحلية وحد أقصى عام واحد

شبكات الاتصالات

استخدام رسوم بيانية عشوائية من نوع Erdős-Rényi، تحتوي على 20 وكيل، مع احتمالات اتصال تبلغ 0.2 و 0.4 و 0.6 على التوالي.

مؤشرات التقييم

الندم المتوسط اللحظي: $R^A(t) = \frac{1}{M}\sum_{i=1}^M (f^* - f(x_{t,i}))$
الندم البسيط اللحظي: $R^S(t) = f^* - \max_{i,\tau} f(x_{t,i})$
الندم التراكمي: التراكم الزمني للمؤشرات المذكورة أعلاه

تفاصيل التنفيذ

استخدام حزمة BOTorch للتنفيذ
العملية الغاوسية تستخدم نواة Matérn ( $\nu = 5/2$ )
تشغيل 50 خطوة زمنية
حساب argmax من خلال البحث الشبكي

نتائج التجارب

النتائج الرئيسية

تدعم نتائج التجارب بقوة التنبؤات النظرية:

تأثير الاتصالية: على دوال Rosenbrock و Ackley، الرسوم البيانية ذات احتمالية الاتصال الأعلى (0.6 > 0.4 > 0.2) حققت أداء تقارب ندم أفضل
الأداء المتسقة: يتم التحقق من هذا الاتجاه على مؤشرات الندم البسيط اللحظي والندم المتوسط
فعالية الخوارزمية: نجح أخذ عينات تومبسون الموزع في إيجاد القيم القصوى لدالتي الاختبار

التحقق النظري

تتحقق النتائج العددية من التنبؤات الأساسية للتحليل النظري:

الرسوم البيانية للاتصالات ذات الاتصالية العالية تحقق أداء أفضل
لبنية الرسم البياني تأثير كبير على سرعة تقارب الخوارزمية

التحليل النظري

النظريات الرئيسية

النظرية 3.1 (حد الندم البايزي المتوسط): دع $\{G_k\}_{k \in \{1,...,n\}}$ تكون مجموعة من $n$ رسوم بيانية فرعية كاملة منفصلة للرسم البياني للاتصالات $G$ ، ثم ندم البايزي المتوسط بعد $t$ خطوة يرضي: $R_{AB}(t) \leq \frac{1}{M}\sum_{k=1}^n |V_k|\left(\frac{C_1}{t|V_k|} + \sqrt{\frac{C_2\xi_{|V_k|}\beta_t\Psi_{t|V_k|}}{t|V_k|}}\right)$

النتيجة 3.2: اختيار $n$ كعدد غطاء الكليك للرسم البياني $\theta(G)$ ، نحصل على: $R_{AB}(t) = \tilde{O}\left(\sqrt{\frac{\theta(G)}{\sqrt{Mt}}}\right)$

النظرية 3.3 (حد الندم البايزي البسيط): دع $G_s = (V_s, E_s)$ يكون رسم بياني فرعي كامل من $G$ ، ثم: $R_{SB}(t) \leq \frac{C_1}{t|V_s|} + \sqrt{\frac{C_2\xi_{|V_s|}\beta_t\Psi_{t|V_s|}}{t|V_s|}}$

النتيجة 3.4: اختيار $G_{max}$ كأكبر رسم بياني فرعي كامل، نحصل على: $R_{SB}(t) = \tilde{O}\left(\sqrt{\frac{1}{t|V_{max}|}}\right)$

تحليل التقارب

مقارنة بندم أخذ عينات تومبسون المتسلسل لوكيل واحد $\tilde{O}(\sqrt{1/t})$ :

عامل تحسين الندم المتوسط: $\sqrt{\theta(G)/M}$
عامل تحسين الندم البسيط: $\sqrt{1/|V_{max}|}$

الأعمال ذات الصلة

مجال التحسين البايزي

الطرق أحادية الوكيل: GP-UCB و Expected Improvement و Thompson Sampling
الطرق الدفعية: Parallel Knowledge Gradient و Batch Thompson Sampling
الطرق متعددة الوكلاء: تركز بشكل أساسي على الطرق المركزية أو الدفعية تحت افتراض الاتصال الكامل

موضع مساهمة هذه الورقة

توفر هذه الورقة للمرة الأولى ضمانات نظرية للتحسين البايزي الموزع تحت قيود الاتصالات (الرسوم البيانية غير المتصلة بالكامل)، مما يملأ فجوة مهمة في هذا المجال.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

فعالية الخوارزمية: خوارزمية أخذ عينات تومبسون الموزعة المقترحة يمكنها حل مشكلة التحسين البايزي متعدد الوكلاء بشكل فعال تحت قيود الاتصالات
الضمانات النظرية: إنشاء حدود ندم تعتمد على بنية الرسم البياني للاتصالات، مما يثبت مزايا التقارب تحت الرسم البياني المتصل
أهمية بنية الرسم البياني: لاتصالية الرسم البياني للاتصالات تأثير كبير على أداء الخوارزمية

القيود

افتراض التزامن: تفترض الخوارزمية ساعة عامة متزامنة، وقد لا تكون واقعية في التطبيقات العملية
التعقيد الحسابي: لم يتم حل مشكلة كفاءة حساب argmax في الفضاءات عالية الأبعاد بالكامل
اختيار دالة النواة: يعتمد التحليل النظري على افتراضات نواة محددة

الاتجاهات المستقبلية

الإصدارات غير المتزامنة: تطوير متغيرات خوارزمية لا تتطلب تزامنًا عامًا
التحسين الفعال: البحث عن طرق حسابية فعالة لـ argmax في أخذ عينات تومبسون عالي الأبعاد
حدود أكثر إحكامًا: البحث عن حدود ندم أكثر إحكامًا
التطبيقات العملية: التحقق من الخوارزمية في أنظمة روبوتات متعددة أو شبكات مستشعرات حقيقية

التقييم المتعمق

المميزات

مساهمة نظرية كبيرة: توفير ضمانات نظرية للمرة الأولى للتحسين البايزي الموزع تحت قيود الاتصالات
تعريف المشكلة عملي: النظر في مشكلة مهمة لقيود الاتصالات في الواقع
تحليل صارم: إثبات نظري بهيكل واضح، باستخدام أدوات نظرية المعلومات للتحليل المتعمق
دعم تجريبي كافٍ: تتحقق التجارب العددية بشكل جيد من التنبؤات النظرية

أوجه القصور

نطاق التجارب محدود: تم التحقق فقط على دوال اختبار ثنائية الأبعاد وشبكات بحجم صغير نسبيًا
اعتبارات الجدوى غير كافية: افتراض التزامن ومشاكل كفاءة حساب argmax تحد من التطبيق العملي
نقص التجارب المقارنة: عدم وجود مقارنات مباشرة مع طرق التحسين الموزع الأخرى

التأثير

قيمة نظرية عالية: مساهمة مهمة في نظرية التحسين البايزي الموزع
آفاق تطبيقية واسعة: قيمة تطبيقية محتملة في مجالات الروبوتات متعددة الوكلاء وإنترنت الأشياء
قابلية التوسع القوية: توفير أساس نظري صلب للبحث اللاحق

السيناريوهات المناسبة

مهام التحسين التعاوني للروبوتات متعددة الوكلاء
ضبط معاملات شبكات المستشعرات الموزعة
التعلم التعاوني في بيئات الحوسبة الطرفية
مشاكل التحسين المتوازي ذات نطاق الاتصالات المحدود

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة ذات مساهمات نظرية مهمة في مجال التحسين البايزي الموزع. يجمع المؤلفون بذكاء بين نظرية الرسوم البيانية ونظرية المعلومات والتحسين البايزي، مما يوفر ضمانات نظرية لسيناريوهات قيود الاتصالات الشائعة في الواقع. على الرغم من وجود مجال للتحسين من حيث الجدوى العملية، فإن قيمتها النظرية وأهميتها التوجيهية للبحث المستقبلي كبيرة جدًا.