2025-11-25T01:19:18.327955

Distributed Thompson sampling under constrained communication

Zerefa, Ren, Ma et al.
In Bayesian optimization, a black-box function is maximized via the use of a surrogate model. We apply distributed Thompson sampling, using a Gaussian process as a surrogate model, to approach the multi-agent Bayesian optimization problem. In our distributed Thompson sampling implementation, each agent receives sampled points from neighbors, where the communication network is encoded in a graph; each agent utilizes their own Gaussian process to model the objective function. We demonstrate theoretical bounds on Bayesian average regret and Bayesian simple regret, where the bound depends on the structure of the communication graph. Unlike in batch Bayesian optimization, this bound is applicable in cases where the communication graph amongst agents is constrained. When compared to sequential single-agent Thompson sampling, our bound guarantees faster convergence with respect to time as long as the communication graph is connected. We confirm the efficacy of our algorithm with numerical simulations on traditional optimization test functions, demonstrating the significance of graph connectivity on improving regret convergence.
academic

Distributed Thompson sampling under constrained communication

基本信息

  • 论文ID: 2410.15543
  • 标题: Distributed Thompson sampling under constrained communication
  • 作者: Saba Zerefa, Zhaolin Ren, Haitong Ma, Na Li (Harvard School of Engineering and Applied Sciences)
  • 分类: cs.LG cs.SY eess.SY math.OC stat.ML
  • 发表时间: 2025年1月1日 (arXiv v3)
  • 论文链接: https://arxiv.org/abs/2410.15543

摘要

本文研究在通信受限条件下的多智能体贝叶斯优化问题。作者提出了一种分布式Thompson采样算法,使用高斯过程作为代理模型。在该实现中,每个智能体从邻居接收采样点,通信网络用图结构编码;每个智能体利用自己的高斯过程来建模目标函数。论文证明了贝叶斯平均后悔和贝叶斯简单后悔的理论界限,该界限依赖于通信图的结构。与批量贝叶斯优化不同,该界限适用于智能体间通信图受限的情况。与顺序单智能体Thompson采样相比,只要通信图连通,该算法保证了更快的时间收敛性。

研究背景与动机

问题定义

本文要解决的核心问题是在通信受限的多智能体系统中进行黑盒函数优化。具体来说:

  1. 黑盒随机优化挑战:在目标函数不显式已知且只能通过噪声评估访问的情况下,需要找到函数的最大值
  2. 多智能体协作需求:多个智能体可以并行采样目标函数,但彼此间的通信可能受到限制
  3. 通信约束现实性:在实际应用中(如多机器人源搜索、传感器网络),智能体可能无法访问所有其他智能体的信息

研究重要性

该问题在多个重要领域有广泛应用:

  • 机器学习中的超参数调优
  • 基于仿真的优化
  • 实验设计
  • 多机器人系统
  • 传感器网络优化

现有方法局限性

  1. 集中式方法不适用:需要中央协调器管理所有智能体数据,在分布式场景中不现实
  2. 批量贝叶斯优化假设过强:假设所有智能体都能访问相同信息,不符合通信受限的实际情况
  3. 现有理论保证要求苛刻:先前提供理论保证的分布式贝叶斯优化文献要求完全连通的通信图

研究动机

作者的出发点是开发一种能够在任意通信图结构下工作的分布式贝叶斯优化算法,并提供相应的理论保证。

核心贡献

  1. 提出分布式Thompson采样算法:针对通信受限的多智能体贝叶斯优化问题设计了新算法
  2. 建立理论界限
    • 贝叶斯平均后悔界限:O~(θ(G)Mt)\tilde{O}\left(\sqrt{\frac{\theta(G)}{\sqrt{Mt}}}\right)
    • 贝叶斯简单后悔界限:O~(1tVmax)\tilde{O}\left(\sqrt{\frac{1}{t|V_{max}|}}\right)
  3. 图结构依赖分析:界限依赖于通信图的团覆盖数θ(G)\theta(G)和最大完全子图大小Vmax|V_{max}|
  4. 收敛性保证:证明了在连通通信图下比顺序单智能体方法收敛更快
  5. 数值验证:在标准优化测试函数上验证了算法有效性

方法详解

任务定义

对于紧集XRdX \subset \mathbb{R}^d,考虑未知连续函数f:XRf: X \rightarrow \mathbb{R},目标是找到其最大值。设有MM个智能体,每个都可以查询ff并接收噪声观测y=f(x)+ϵy = f(x) + \epsilon,其中ϵN(0,σϵ2)\epsilon \sim \mathcal{N}(0, \sigma_\epsilon^2)

通信网络用图G=(V,E)G = (V,E)描述,其中V=M|V| = M,边(i,j)E(i,j) \in E表示智能体iijj可以通信。智能体ii在时间tt可访问的数据为Dt,i={(xτ,j,yτ,j)}jN(i){i},τ<tD_{t,i} = \{(x_{\tau,j}, y_{\tau,j})\}_{j \in \mathcal{N}(i) \cup \{i\}, \tau < t}

模型架构

高斯过程建模

每个智能体ii使用独立的高斯过程GPt,iGP_{t,i}来建模目标函数: fFDt,iGPt,i(μDt,i(x),kDt,i(x,x))f | \mathcal{F}_{D_{t,i}} \sim GP_{t,i}(\mu_{D_{t,i}}(x), k_{D_{t,i}}(x,x'))

其中:

  • μDt(x)=kt(x)T(KDt+σn2I)1yDt\mu_{D_t}(x) = k_t(x)^T(K_{D_t} + \sigma_n^2 I)^{-1}y_{D_t}
  • kDt(x,x)=k(x,x)kDt(x)T(KDt+σn2I)1kDt(x)k_{D_t}(x,x') = k(x,x') - k_{D_t}(x)^T(K_{D_t} + \sigma_n^2 I)^{-1}k_{D_t}(x')

分布式Thompson采样算法

算法1:分布式Thompson采样

1. 对f设置GP先验
2. 初始化:对i=1,...,M,设置初始数据D_{1,i}和GP_{0,i}
3. 对t=1,...,T:
   对i=1,...,M:
   a) 基于D_{t,i}更新后验GP_{t,i}
   b) 从GP_{t,i}采样函数实现:f̂_{t,i} ~ GP_{t,i}
   c) 选择查询点:x_{t,i} = argmax_x f̂_{t,i}(x)
   d) 观测y_{t,i}
   e) 向邻居广播(x_{t,i}, y_{t,i})
   f) 从邻居收集评估C_{t,i}
   g) 更新数据历史:D_{t+1,i} = D_{t,i} ∪ C_{t,i} ∪ {(x_{t,i}, y_{t,i})}

技术创新点

  1. 无中央协调器设计:每个智能体独立维护自己的GP模型,避免了集中式方法的瓶颈
  2. 通信图结构利用:理论分析巧妙地将通信图分解为不相交的完全子图,并分别分析每个子图的性能
  3. 信息论分析框架:利用最大信息增益(MIG)等信息论概念来界定算法性能

实验设置

测试函数

使用两个标准优化测试函数:

  1. Rosenbrock函数f(x,y)=(1x)2+100(yx2)2f(x,y) = (1-x)^2 + 100(y-x^2)^2
    • 特点:包含一个大的山谷,全局最小值位于其中
  2. Ackley函数f(x,y)=20exp(0.2x2+y22)exp(12(cos(2πx)+cos(2πy)))+20+ef(x,y) = -20\exp(-0.2\sqrt{\frac{x^2+y^2}{2}}) - \exp(\frac{1}{2}(\cos(2\pi x) + \cos(2\pi y))) + 20 + e
    • 特点:有许多局部最大值和一个全局最小值

通信网络

使用Erdős-Rényi随机图,包含20个智能体,连接概率分别为0.2、0.4和0.6。

评价指标

  1. 瞬时平均后悔RA(t)=1Mi=1M(ff(xt,i))R^A(t) = \frac{1}{M}\sum_{i=1}^M (f^* - f(x_{t,i}))
  2. 瞬时简单后悔RS(t)=fmaxi,τf(xt,i)R^S(t) = f^* - \max_{i,\tau} f(x_{t,i})
  3. 累积后悔:上述指标的时间累积

实现细节

  • 使用BOTorch包实现
  • 高斯过程使用Matérn核(ν=5/2\nu = 5/2
  • 运行50个时间步
  • 通过网格搜索计算argmax

实验结果

主要结果

实验结果强烈支持理论预测:

  1. 连接性影响:在Rosenbrock和Ackley函数上,连接概率越高的图(0.6 > 0.4 > 0.2)获得更好的后悔收敛性能
  2. 一致性表现:该趋势在瞬时简单后悔和平均后悔指标上都得到验证
  3. 算法有效性:分布式Thompson采样成功找到了两个测试函数的极值

理论验证

数值结果验证了理论分析的核心预测:

  • 高连接性通信图带来更好的性能
  • 图结构对算法收敛速度有显著影响

理论分析

主要定理

定理3.1(贝叶斯平均后悔界限): 设{Gk}k{1,...,n}\{G_k\}_{k \in \{1,...,n\}}为通信图GGnn个不相交完全子图的集合,则tt步后的贝叶斯平均后悔满足: RAB(t)1Mk=1nVk(C1tVk+C2ξVkβtΨtVktVk)R_{AB}(t) \leq \frac{1}{M}\sum_{k=1}^n |V_k|\left(\frac{C_1}{t|V_k|} + \sqrt{\frac{C_2\xi_{|V_k|}\beta_t\Psi_{t|V_k|}}{t|V_k|}}\right)

推论3.2:选择nn为图GG的团覆盖数θ(G)\theta(G),得到: RAB(t)=O~(θ(G)Mt)R_{AB}(t) = \tilde{O}\left(\sqrt{\frac{\theta(G)}{\sqrt{Mt}}}\right)

定理3.3(贝叶斯简单后悔界限): 设Gs=(Vs,Es)G_s = (V_s, E_s)GG的完全子图,则: RSB(t)C1tVs+C2ξVsβtΨtVstVsR_{SB}(t) \leq \frac{C_1}{t|V_s|} + \sqrt{\frac{C_2\xi_{|V_s|}\beta_t\Psi_{t|V_s|}}{t|V_s|}}

推论3.4:选择GmaxG_{max}为最大完全子图,得到: RSB(t)=O~(1tVmax)R_{SB}(t) = \tilde{O}\left(\sqrt{\frac{1}{t|V_{max}|}}\right)

收敛性分析

与顺序单智能体Thompson采样的O~(1/t)\tilde{O}(\sqrt{1/t})后悔相比:

  • 平均后悔改进因子:θ(G)/M\sqrt{\theta(G)/M}
  • 简单后悔改进因子:1/Vmax\sqrt{1/|V_{max}|}

相关工作

贝叶斯优化领域

  1. 单智能体方法:GP-UCB、Expected Improvement、Thompson Sampling
  2. 批量方法:并行知识梯度、批量Thompson采样
  3. 多智能体方法:主要集中在完全连通假设下的集中式或批量方法

本文贡献定位

本文首次在通信受限(非完全连通图)条件下提供了分布式贝叶斯优化的理论保证,填补了该领域的重要空白。

结论与讨论

主要结论

  1. 算法有效性:提出的分布式Thompson采样算法能够有效解决通信受限下的多智能体贝叶斯优化问题
  2. 理论保证:建立了依赖于通信图结构的后悔界限,证明了连通图下的收敛优势
  3. 图结构重要性:通信图的连接性对算法性能有显著影响

局限性

  1. 同步假设:算法假设全局同步时钟,在实际应用中可能不现实
  2. 计算复杂度:高维空间中argmax计算的效率问题未完全解决
  3. 核函数选择:理论分析依赖于特定的核函数假设

未来方向

  1. 异步版本:开发不需要全局同步的算法变体
  2. 高效优化:研究高维Thompson采样中argmax的高效计算方法
  3. 更紧界限:寻找更紧的后悔界限
  4. 实际应用:在真实的多机器人或传感器网络系统中验证算法

深度评价

优点

  1. 理论贡献显著:首次为通信受限的分布式贝叶斯优化提供理论保证
  2. 问题设定实际:考虑了现实中通信约束的重要问题
  3. 分析严谨:理论证明结构清晰,利用信息论工具进行深入分析
  4. 实验支持充分:数值实验很好地验证了理论预测

不足

  1. 实验规模有限:只在2D测试函数和较小规模网络上进行了验证
  2. 实用性考虑不足:同步假设和argmax计算效率问题限制了实际应用
  3. 对比实验缺乏:缺少与其他分布式优化方法的直接比较

影响力

  1. 理论价值高:为分布式贝叶斯优化理论做出重要贡献
  2. 应用前景广阔:在多机器人、物联网等领域有潜在应用价值
  3. 可扩展性强:为后续研究提供了坚实的理论基础

适用场景

  • 多机器人协作优化任务
  • 分布式传感器网络参数调优
  • 边缘计算环境下的协作学习
  • 通信带宽受限的并行优化问题

总体评价:这是一篇在分布式贝叶斯优化领域具有重要理论贡献的高质量论文。作者巧妙地将图论、信息论和贝叶斯优化相结合,为实际中常见的通信受限场景提供了理论保证。虽然在实用性方面还有改进空间,但其理论价值和对未来研究的指导意义显著。