Distributed Thompson sampling under constrained communication
Zerefa, Ren, Ma et al.
In Bayesian optimization, a black-box function is maximized via the use of a surrogate model. We apply distributed Thompson sampling, using a Gaussian process as a surrogate model, to approach the multi-agent Bayesian optimization problem. In our distributed Thompson sampling implementation, each agent receives sampled points from neighbors, where the communication network is encoded in a graph; each agent utilizes their own Gaussian process to model the objective function. We demonstrate theoretical bounds on Bayesian average regret and Bayesian simple regret, where the bound depends on the structure of the communication graph. Unlike in batch Bayesian optimization, this bound is applicable in cases where the communication graph amongst agents is constrained. When compared to sequential single-agent Thompson sampling, our bound guarantees faster convergence with respect to time as long as the communication graph is connected. We confirm the efficacy of our algorithm with numerical simulations on traditional optimization test functions, demonstrating the significance of graph connectivity on improving regret convergence.
academic
Campionamento distribuito di Thompson sotto comunicazione vincolata
Questo articolo affronta il problema dell'ottimizzazione bayesiana multi-agente sotto vincoli di comunicazione. Gli autori propongono un algoritmo di campionamento distribuito di Thompson utilizzando processi gaussiani come modello surrogato. Nell'implementazione, ogni agente riceve punti campionati dai vicini, la rete di comunicazione è codificata mediante una struttura grafica; ogni agente utilizza il proprio processo gaussiano per modellare la funzione obiettivo. L'articolo stabilisce limiti teorici per il rimpianto bayesiano medio e il rimpianto bayesiano semplice, i quali dipendono dalla struttura del grafo di comunicazione. A differenza dell'ottimizzazione bayesiana in batch, questo limite si applica al caso in cui il grafo di comunicazione tra agenti è vincolato. Rispetto al campionamento sequenziale di Thompson a singolo agente, l'algoritmo garantisce una convergenza temporale più rapida purché il grafo di comunicazione sia connesso.
Il problema centrale affrontato in questo articolo è l'ottimizzazione di funzioni black-box in sistemi multi-agente con comunicazione vincolata. Specificamente:
Sfida dell'ottimizzazione stocastica black-box: Trovare il massimo di una funzione quando la funzione obiettivo non è esplicitamente nota e accessibile solo attraverso valutazioni rumorose
Esigenza di cooperazione multi-agente: Più agenti possono campionare la funzione obiettivo in parallelo, ma la comunicazione tra loro potrebbe essere limitata
Realismo dei vincoli di comunicazione: In applicazioni pratiche (come la ricerca distribuita di sorgenti con robot multipli, reti di sensori), gli agenti potrebbero non avere accesso alle informazioni di tutti gli altri agenti
Inadeguatezza degli approcci centralizzati: Richiedono un coordinatore centrale per gestire i dati di tutti gli agenti, impraticabile in scenari distribuiti
Ipotesi troppo forti nell'ottimizzazione bayesiana in batch: Presuppongono che tutti gli agenti abbiano accesso alle stesse informazioni, non conforme a situazioni reali con comunicazione vincolata
Garanzie teoriche precedenti troppo esigenti: La letteratura precedente sulla ottimizzazione bayesiana distribuita che fornisce garanzie teoriche richiede grafi di comunicazione completamente connessi
Il punto di partenza degli autori è sviluppare un algoritmo di ottimizzazione bayesiana distribuita che funzioni con strutture di grafo di comunicazione arbitrarie e fornisca garanzie teoriche corrispondenti.
Proposta di algoritmo di campionamento distribuito di Thompson: Nuovo algoritmo progettato per il problema di ottimizzazione bayesiana multi-agente con comunicazione vincolata
Stabilimento di limiti teorici:
Limite di rimpianto bayesiano medio: O~(Mtθ(G))
Limite di rimpianto bayesiano semplice: O~(t∣Vmax∣1)
Analisi della dipendenza dalla struttura grafica: I limiti dipendono dal numero di copertura di clique θ(G) del grafo di comunicazione e dalla dimensione della massima sottoclique ∣Vmax∣
Garanzie di convergenza: Prova che con grafo di comunicazione connesso l'algoritmo converge più velocemente del metodo sequenziale a singolo agente
Verifica numerica: Validazione dell'algoritmo su funzioni di test di ottimizzazione standard
Per un insieme compatto X⊂Rd, si consideri una funzione continua sconosciuta f:X→R, con l'obiettivo di trovare il suo massimo. Siano presenti M agenti, ciascuno in grado di interrogare f e ricevere osservazioni rumorose y=f(x)+ϵ, dove ϵ∼N(0,σϵ2).
La rete di comunicazione è descritta da un grafo G=(V,E), dove ∣V∣=M, e un arco (i,j)∈E indica che gli agenti i e j possono comunicare. I dati accessibili all'agente i al tempo t sono Dt,i={(xτ,j,yτ,j)}j∈N(i)∪{i},τ<t.
Algoritmo 1: Campionamento distribuito di Thompson
1. Impostare prior GP per f
2. Inizializzazione: per i=1,...,M, impostare dati iniziali D_{1,i} e GP_{0,i}
3. Per t=1,...,T:
Per i=1,...,M:
a) Aggiornare la posteriore GP_{t,i} basata su D_{t,i}
b) Campionare realizzazione di funzione: f̂_{t,i} ~ GP_{t,i}
c) Selezionare punto di interrogazione: x_{t,i} = argmax_x f̂_{t,i}(x)
d) Osservare y_{t,i}
e) Trasmettere (x_{t,i}, y_{t,i}) ai vicini
f) Raccogliere valutazioni C_{t,i} dai vicini
g) Aggiornare storico dati: D_{t+1,i} = D_{t,i} ∪ C_{t,i} ∪ {(x_{t,i}, y_{t,i})}
Progettazione senza coordinatore centrale: Ogni agente mantiene indipendentemente il proprio modello GP, evitando i colli di bottiglia dei metodi centralizzati
Utilizzo della struttura del grafo di comunicazione: L'analisi teorica decompone abilmente il grafo di comunicazione in sottoclique disgiunte e analizza separatamente le prestazioni di ciascuna
Quadro di analisi teorica dell'informazione: Utilizza concetti di teoria dell'informazione come il guadagno di informazione massimo (MIG) per delimitare le prestazioni dell'algoritmo
I risultati sperimentali supportano fortemente le previsioni teoriche:
Effetto della connettività: Sulle funzioni di Rosenbrock e Ackley, i grafi con probabilità di connessione più elevata (0,6 > 0,4 > 0,2) ottengono migliori prestazioni di convergenza del rimpianto
Prestazioni coerenti: Questo trend è verificato sia sulle metriche di rimpianto semplice istantaneo che su quelle di rimpianto medio
Efficacia dell'algoritmo: Il campionamento distribuito di Thompson ha trovato con successo gli estremi delle due funzioni di test
Teorema 3.1 (Limite di rimpianto bayesiano medio):
Sia {Gk}k∈{1,...,n} l'insieme di n sottoclique disgiunte del grafo di comunicazione G, allora il rimpianto bayesiano medio dopo t passi soddisfa:
RAB(t)≤M1∑k=1n∣Vk∣(t∣Vk∣C1+t∣Vk∣C2ξ∣Vk∣βtΨt∣Vk∣)
Corollario 3.2: Scegliendo n come il numero di copertura di clique θ(G) del grafo G, si ottiene:
RAB(t)=O~(Mtθ(G))
Teorema 3.3 (Limite di rimpianto bayesiano semplice):
Sia Gs=(Vs,Es) una sottoclique di G, allora:
RSB(t)≤t∣Vs∣C1+t∣Vs∣C2ξ∣Vs∣βtΨt∣Vs∣
Corollario 3.4: Scegliendo Gmax come la massima sottoclique, si ottiene:
RSB(t)=O~(t∣Vmax∣1)
Questo articolo fornisce per la prima volta garanzie teoriche per l'ottimizzazione bayesiana distribuita sotto comunicazione vincolata (grafo non completamente connesso), colmando un importante vuoto in questo campo.
Efficacia dell'algoritmo: L'algoritmo di campionamento distribuito di Thompson proposto può risolvere efficacemente il problema di ottimizzazione bayesiana multi-agente con comunicazione vincolata
Garanzie teoriche: Stabilisce limiti di rimpianto dipendenti dalla struttura del grafo di comunicazione, provando i vantaggi di convergenza con grafi connessi
Importanza della struttura del grafo: La connettività del grafo di comunicazione ha un impatto significativo sulle prestazioni dell'algoritmo
Compiti di ottimizzazione cooperativa con robot multipli
Ottimizzazione dei parametri di reti di sensori distribuiti
Apprendimento cooperativo in ambienti di edge computing
Problemi di ottimizzazione parallela con larghezza di banda di comunicazione limitata
Valutazione complessiva: Questo è un articolo di alta qualità con importanti contributi teorici nel campo dell'ottimizzazione bayesiana distribuita. Gli autori combinano abilmente la teoria dei grafi, la teoria dell'informazione e l'ottimizzazione bayesiana, fornendo garanzie teoriche per scenari comuni nella pratica con comunicazione vincolata. Sebbene vi sia spazio per miglioramenti in termini di praticità, il suo valore teorico e il significato orientativo per la ricerca futura sono notevoli.