Distributed Thompson sampling under constrained communication
Zerefa, Ren, Ma et al.
In Bayesian optimization, a black-box function is maximized via the use of a surrogate model. We apply distributed Thompson sampling, using a Gaussian process as a surrogate model, to approach the multi-agent Bayesian optimization problem. In our distributed Thompson sampling implementation, each agent receives sampled points from neighbors, where the communication network is encoded in a graph; each agent utilizes their own Gaussian process to model the objective function. We demonstrate theoretical bounds on Bayesian average regret and Bayesian simple regret, where the bound depends on the structure of the communication graph. Unlike in batch Bayesian optimization, this bound is applicable in cases where the communication graph amongst agents is constrained. When compared to sequential single-agent Thompson sampling, our bound guarantees faster convergence with respect to time as long as the communication graph is connected. We confirm the efficacy of our algorithm with numerical simulations on traditional optimization test functions, demonstrating the significance of graph connectivity on improving regret convergence.
본 논문은 통신 제약 조건 하에서의 다중 에이전트 베이지안 최적화 문제를 연구한다. 저자들은 가우스 과정을 대리 모델로 사용하는 분산 Thompson 샘플링 알고리즘을 제안한다. 이 구현에서 각 에이전트는 이웃으로부터 샘플 포인트를 수신하며, 통신 네트워크는 그래프 구조로 인코딩되고, 각 에이전트는 자신의 가우스 과정을 이용하여 목적 함수를 모델링한다. 논문은 베이지안 평균 후회(regret)와 베이지안 단순 후회의 이론적 경계를 증명하며, 이 경계는 통신 그래프의 구조에 의존한다. 배치 베이지안 최적화와 달리, 이 경계는 에이전트 간 통신 그래프가 제한된 경우에 적용된다. 순차적 단일 에이전트 Thompson 샘플링과 비교하면, 통신 그래프가 연결되어 있는 한 알고리즘은 더 빠른 시간 수렴성을 보장한다.
1. f에 대한 GP 사전분포 설정
2. 초기화: i=1,...,M에 대해, 초기 데이터 D_{1,i}와 GP_{0,i} 설정
3. t=1,...,T에 대해:
i=1,...,M에 대해:
a) D_{t,i}를 기반으로 사후 GP_{t,i} 업데이트
b) GP_{t,i}에서 함수 실현 샘플링: f̂_{t,i} ~ GP_{t,i}
c) 쿼리 포인트 선택: x_{t,i} = argmax_x f̂_{t,i}(x)
d) y_{t,i} 관측
e) 이웃에게 (x_{t,i}, y_{t,i}) 브로드캐스트
f) 이웃으로부터 평가 C_{t,i} 수집
g) 데이터 이력 업데이트: D_{t+1,i} = D_{t,i} ∪ C_{t,i} ∪ {(x_{t,i}, y_{t,i})}
정리 3.1 (베이지안 평균 후회 경계):
{Gk}k∈{1,...,n}을 통신 그래프 G의 n개의 서로소인 완전 부분그래프의 집합이라 하면, t 단계 후의 베이지안 평균 후회는 다음을 만족한다:
RAB(t)≤M1∑k=1n∣Vk∣(t∣Vk∣C1+t∣Vk∣C2ξ∣Vk∣βtΨt∣Vk∣)
종합 평가: 이는 분산 베이지안 최적화 분야에서 중요한 이론적 기여를 하는 고품질 논문이다. 저자들은 그래프 이론, 정보 이론, 베이지안 최적화를 교묘하게 결합하여 실제에서 흔히 마주치는 통신 제약 시나리오에 대한 이론적 보장을 제공한다. 실용성 측면에서는 개선의 여지가 있지만, 이론적 가치와 향후 연구에 대한 지도적 의미는 상당하다.