2025-11-25T01:19:18.327955

Distributed Thompson sampling under constrained communication

Zerefa, Ren, Ma et al.

In Bayesian optimization, a black-box function is maximized via the use of a surrogate model. We apply distributed Thompson sampling, using a Gaussian process as a surrogate model, to approach the multi-agent Bayesian optimization problem. In our distributed Thompson sampling implementation, each agent receives sampled points from neighbors, where the communication network is encoded in a graph; each agent utilizes their own Gaussian process to model the objective function. We demonstrate theoretical bounds on Bayesian average regret and Bayesian simple regret, where the bound depends on the structure of the communication graph. Unlike in batch Bayesian optimization, this bound is applicable in cases where the communication graph amongst agents is constrained. When compared to sequential single-agent Thompson sampling, our bound guarantees faster convergence with respect to time as long as the communication graph is connected. We confirm the efficacy of our algorithm with numerical simulations on traditional optimization test functions, demonstrating the significance of graph connectivity on improving regret convergence.

academic

Campionamento distribuito di Thompson sotto comunicazione vincolata

Informazioni di base

ID articolo: 2410.15543
Titolo: Distributed Thompson sampling under constrained communication
Autori: Saba Zerefa, Zhaolin Ren, Haitong Ma, Na Li (Harvard School of Engineering and Applied Sciences)
Classificazione: cs.LG cs.SY eess.SY math.OC stat.ML
Data di pubblicazione: 1 gennaio 2025 (arXiv v3)
Link articolo: https://arxiv.org/abs/2410.15543

Riassunto

Questo articolo affronta il problema dell'ottimizzazione bayesiana multi-agente sotto vincoli di comunicazione. Gli autori propongono un algoritmo di campionamento distribuito di Thompson utilizzando processi gaussiani come modello surrogato. Nell'implementazione, ogni agente riceve punti campionati dai vicini, la rete di comunicazione è codificata mediante una struttura grafica; ogni agente utilizza il proprio processo gaussiano per modellare la funzione obiettivo. L'articolo stabilisce limiti teorici per il rimpianto bayesiano medio e il rimpianto bayesiano semplice, i quali dipendono dalla struttura del grafo di comunicazione. A differenza dell'ottimizzazione bayesiana in batch, questo limite si applica al caso in cui il grafo di comunicazione tra agenti è vincolato. Rispetto al campionamento sequenziale di Thompson a singolo agente, l'algoritmo garantisce una convergenza temporale più rapida purché il grafo di comunicazione sia connesso.

Contesto di ricerca e motivazione

Definizione del problema

Il problema centrale affrontato in questo articolo è l'ottimizzazione di funzioni black-box in sistemi multi-agente con comunicazione vincolata. Specificamente:

Sfida dell'ottimizzazione stocastica black-box: Trovare il massimo di una funzione quando la funzione obiettivo non è esplicitamente nota e accessibile solo attraverso valutazioni rumorose
Esigenza di cooperazione multi-agente: Più agenti possono campionare la funzione obiettivo in parallelo, ma la comunicazione tra loro potrebbe essere limitata
Realismo dei vincoli di comunicazione: In applicazioni pratiche (come la ricerca distribuita di sorgenti con robot multipli, reti di sensori), gli agenti potrebbero non avere accesso alle informazioni di tutti gli altri agenti

Importanza della ricerca

Questo problema ha ampie applicazioni in diversi campi importanti:

Ottimizzazione degli iperparametri nell'apprendimento automatico
Ottimizzazione basata su simulazione
Progettazione sperimentale
Sistemi multi-robot
Ottimizzazione di reti di sensori

Limitazioni dei metodi esistenti

Inadeguatezza degli approcci centralizzati: Richiedono un coordinatore centrale per gestire i dati di tutti gli agenti, impraticabile in scenari distribuiti
Ipotesi troppo forti nell'ottimizzazione bayesiana in batch: Presuppongono che tutti gli agenti abbiano accesso alle stesse informazioni, non conforme a situazioni reali con comunicazione vincolata
Garanzie teoriche precedenti troppo esigenti: La letteratura precedente sulla ottimizzazione bayesiana distribuita che fornisce garanzie teoriche richiede grafi di comunicazione completamente connessi

Motivazione della ricerca

Il punto di partenza degli autori è sviluppare un algoritmo di ottimizzazione bayesiana distribuita che funzioni con strutture di grafo di comunicazione arbitrarie e fornisca garanzie teoriche corrispondenti.

Contributi principali

Proposta di algoritmo di campionamento distribuito di Thompson: Nuovo algoritmo progettato per il problema di ottimizzazione bayesiana multi-agente con comunicazione vincolata
Stabilimento di limiti teorici:
- Limite di rimpianto bayesiano medio: $\tilde{O}\left(\sqrt{\frac{\theta(G)}{\sqrt{Mt}}}\right)$
- Limite di rimpianto bayesiano semplice: $\tilde{O}\left(\sqrt{\frac{1}{t|V_{max}|}}\right)$
Analisi della dipendenza dalla struttura grafica: I limiti dipendono dal numero di copertura di clique $\theta(G)$ del grafo di comunicazione e dalla dimensione della massima sottoclique $|V_{max}|$
Garanzie di convergenza: Prova che con grafo di comunicazione connesso l'algoritmo converge più velocemente del metodo sequenziale a singolo agente
Verifica numerica: Validazione dell'algoritmo su funzioni di test di ottimizzazione standard

Dettagli del metodo

Definizione del compito

Per un insieme compatto $X \subset \mathbb{R}^d$ , si consideri una funzione continua sconosciuta $f: X \rightarrow \mathbb{R}$ , con l'obiettivo di trovare il suo massimo. Siano presenti $M$ agenti, ciascuno in grado di interrogare $f$ e ricevere osservazioni rumorose $y = f(x) + \epsilon$ , dove $\epsilon \sim \mathcal{N}(0, \sigma_\epsilon^2)$ .

La rete di comunicazione è descritta da un grafo $G = (V,E)$ , dove $|V| = M$ , e un arco $(i,j) \in E$ indica che gli agenti $i$ e $j$ possono comunicare. I dati accessibili all'agente $i$ al tempo $t$ sono $D_{t,i} = \{(x_{\tau,j}, y_{\tau,j})\}_{j \in \mathcal{N}(i) \cup \{i\}, \tau < t}$ .

Architettura del modello

Modellazione con processo gaussiano

Ogni agente $i$ utilizza un processo gaussiano indipendente $GP_{t,i}$ per modellare la funzione obiettivo: $f | \mathcal{F}_{D_{t,i}} \sim GP_{t,i}(\mu_{D_{t,i}}(x), k_{D_{t,i}}(x,x'))$

dove:

$\mu_{D_t}(x) = k_t(x)^T(K_{D_t} + \sigma_n^2 I)^{-1}y_{D_t}$
$k_{D_t}(x,x') = k(x,x') - k_{D_t}(x)^T(K_{D_t} + \sigma_n^2 I)^{-1}k_{D_t}(x')$

Algoritmo di campionamento distribuito di Thompson

Algoritmo 1: Campionamento distribuito di Thompson

1. Impostare prior GP per f
2. Inizializzazione: per i=1,...,M, impostare dati iniziali D_{1,i} e GP_{0,i}
3. Per t=1,...,T:
   Per i=1,...,M:
   a) Aggiornare la posteriore GP_{t,i} basata su D_{t,i}
   b) Campionare realizzazione di funzione: f̂_{t,i} ~ GP_{t,i}
   c) Selezionare punto di interrogazione: x_{t,i} = argmax_x f̂_{t,i}(x)
   d) Osservare y_{t,i}
   e) Trasmettere (x_{t,i}, y_{t,i}) ai vicini
   f) Raccogliere valutazioni C_{t,i} dai vicini
   g) Aggiornare storico dati: D_{t+1,i} = D_{t,i} ∪ C_{t,i} ∪ {(x_{t,i}, y_{t,i})}

Innovazioni tecniche

Progettazione senza coordinatore centrale: Ogni agente mantiene indipendentemente il proprio modello GP, evitando i colli di bottiglia dei metodi centralizzati
Utilizzo della struttura del grafo di comunicazione: L'analisi teorica decompone abilmente il grafo di comunicazione in sottoclique disgiunte e analizza separatamente le prestazioni di ciascuna
Quadro di analisi teorica dell'informazione: Utilizza concetti di teoria dell'informazione come il guadagno di informazione massimo (MIG) per delimitare le prestazioni dell'algoritmo

Configurazione sperimentale

Funzioni di test

Utilizzo di due funzioni di test di ottimizzazione standard:

Funzione di Rosenbrock: $f(x,y) = (1-x)^2 + 100(y-x^2)^2$ $f (x, y) = (1 - x)^{2} + 100 (y - x^{2})^{2}$
- Caratteristica: contiene una grande valle, con il minimo globale situato al suo interno
Funzione di Ackley: $f(x,y) = -20\exp(-0.2\sqrt{\frac{x^2+y^2}{2}}) - \exp(\frac{1}{2}(\cos(2\pi x) + \cos(2\pi y))) + 20 + e$ $f (x, y) = - 20 exp (- 0.2 \frac{x ^{2} + y ^{2}}{2}) - exp (\frac{1}{2} (cos (2 π x) + cos (2 π y))) + 20 + e$
- Caratteristica: possiede molti massimi locali e un massimo globale

Reti di comunicazione

Utilizzo di grafi casuali di Erdős-Rényi, contenenti 20 agenti, con probabilità di connessione rispettivamente di 0,2, 0,4 e 0,6.

Metriche di valutazione

Rimpianto medio istantaneo: $R^A(t) = \frac{1}{M}\sum_{i=1}^M (f^* - f(x_{t,i}))$
Rimpianto semplice istantaneo: $R^S(t) = f^* - \max_{i,\tau} f(x_{t,i})$
Rimpianto cumulativo: Accumulo temporale delle metriche precedenti

Dettagli di implementazione

Utilizzo del pacchetto BOTorch per l'implementazione
Processo gaussiano con kernel di Matérn ( $\nu = 5/2$ )
Esecuzione per 50 passi temporali
Calcolo di argmax mediante ricerca su griglia

Risultati sperimentali

Risultati principali

I risultati sperimentali supportano fortemente le previsioni teoriche:

Effetto della connettività: Sulle funzioni di Rosenbrock e Ackley, i grafi con probabilità di connessione più elevata (0,6 > 0,4 > 0,2) ottengono migliori prestazioni di convergenza del rimpianto
Prestazioni coerenti: Questo trend è verificato sia sulle metriche di rimpianto semplice istantaneo che su quelle di rimpianto medio
Efficacia dell'algoritmo: Il campionamento distribuito di Thompson ha trovato con successo gli estremi delle due funzioni di test

Verifica teorica

I risultati numerici verificano le previsioni centrali dell'analisi teorica:

Grafi di comunicazione con connettività più elevata portano a prestazioni migliori
La struttura del grafo ha un impatto significativo sulla velocità di convergenza dell'algoritmo

Analisi teorica

Teoremi principali

Teorema 3.1 (Limite di rimpianto bayesiano medio): Sia $\{G_k\}_{k \in \{1,...,n\}}$ l'insieme di $n$ sottoclique disgiunte del grafo di comunicazione $G$ , allora il rimpianto bayesiano medio dopo $t$ passi soddisfa: $R_{AB}(t) \leq \frac{1}{M}\sum_{k=1}^n |V_k|\left(\frac{C_1}{t|V_k|} + \sqrt{\frac{C_2\xi_{|V_k|}\beta_t\Psi_{t|V_k|}}{t|V_k|}}\right)$

Corollario 3.2: Scegliendo $n$ come il numero di copertura di clique $\theta(G)$ del grafo $G$ , si ottiene: $R_{AB}(t) = \tilde{O}\left(\sqrt{\frac{\theta(G)}{\sqrt{Mt}}}\right)$

Teorema 3.3 (Limite di rimpianto bayesiano semplice): Sia $G_s = (V_s, E_s)$ una sottoclique di $G$ , allora: $R_{SB}(t) \leq \frac{C_1}{t|V_s|} + \sqrt{\frac{C_2\xi_{|V_s|}\beta_t\Psi_{t|V_s|}}{t|V_s|}}$

Corollario 3.4: Scegliendo $G_{max}$ come la massima sottoclique, si ottiene: $R_{SB}(t) = \tilde{O}\left(\sqrt{\frac{1}{t|V_{max}|}}\right)$

Analisi di convergenza

Rispetto al rimpianto $\tilde{O}(\sqrt{1/t})$ del campionamento sequenziale di Thompson a singolo agente:

Fattore di miglioramento del rimpianto medio: $\sqrt{\theta(G)/M}$
Fattore di miglioramento del rimpianto semplice: $\sqrt{1/|V_{max}|}$

Lavori correlati

Campo dell'ottimizzazione bayesiana

Metodi a singolo agente: GP-UCB, Expected Improvement, Thompson Sampling
Metodi in batch: Parallel Knowledge Gradient, Batch Thompson Sampling
Metodi multi-agente: Principalmente concentrati su metodi centralizzati o in batch sotto ipotesi di connettività completa

Posizionamento del contributo di questo articolo

Questo articolo fornisce per la prima volta garanzie teoriche per l'ottimizzazione bayesiana distribuita sotto comunicazione vincolata (grafo non completamente connesso), colmando un importante vuoto in questo campo.

Conclusioni e discussione

Conclusioni principali

Efficacia dell'algoritmo: L'algoritmo di campionamento distribuito di Thompson proposto può risolvere efficacemente il problema di ottimizzazione bayesiana multi-agente con comunicazione vincolata
Garanzie teoriche: Stabilisce limiti di rimpianto dipendenti dalla struttura del grafo di comunicazione, provando i vantaggi di convergenza con grafi connessi
Importanza della struttura del grafo: La connettività del grafo di comunicazione ha un impatto significativo sulle prestazioni dell'algoritmo

Limitazioni

Ipotesi di sincronizzazione: L'algoritmo presuppone un orologio globale sincronizzato, che potrebbe non essere realistico in applicazioni pratiche
Complessità computazionale: Il problema dell'efficienza del calcolo di argmax in spazi ad alta dimensione non è completamente risolto
Scelta della funzione kernel: L'analisi teorica dipende da ipotesi specifiche sulla funzione kernel

Direzioni future

Versione asincrona: Sviluppo di varianti dell'algoritmo che non richiedono sincronizzazione globale
Ottimizzazione efficiente: Ricerca di metodi efficienti per il calcolo di argmax nel campionamento di Thompson ad alta dimensione
Limiti più stretti: Ricerca di limiti di rimpianto più stretti
Applicazioni pratiche: Validazione dell'algoritmo in sistemi reali di robot multipli o reti di sensori

Valutazione approfondita

Punti di forza

Contributo teorico significativo: Fornisce per la prima volta garanzie teoriche per l'ottimizzazione bayesiana distribuita con comunicazione vincolata
Formulazione del problema realistica: Affronta il problema importante dei vincoli di comunicazione nel mondo reale
Analisi rigorosa: La prova teorica ha una struttura chiara e utilizza strumenti di teoria dell'informazione per un'analisi approfondita
Supporto sperimentale adeguato: Gli esperimenti numerici verificano bene le previsioni teoriche

Insufficienze

Scala sperimentale limitata: Validazione solo su funzioni di test 2D e reti di piccola scala
Considerazioni pratiche insufficienti: Le ipotesi di sincronizzazione e i problemi di efficienza del calcolo di argmax limitano l'applicazione pratica
Mancanza di esperimenti comparativi: Assenza di confronti diretti con altri metodi di ottimizzazione distribuita

Impatto

Valore teorico elevato: Contributo importante alla teoria dell'ottimizzazione bayesiana distribuita
Prospettive di applicazione ampie: Potenziale valore di applicazione in robot multipli, IoT e altri campi
Forte estensibilità: Fornisce una base teorica solida per ricerche successive

Scenari applicabili

Compiti di ottimizzazione cooperativa con robot multipli
Ottimizzazione dei parametri di reti di sensori distribuiti
Apprendimento cooperativo in ambienti di edge computing
Problemi di ottimizzazione parallela con larghezza di banda di comunicazione limitata

Valutazione complessiva: Questo è un articolo di alta qualità con importanti contributi teorici nel campo dell'ottimizzazione bayesiana distribuita. Gli autori combinano abilmente la teoria dei grafi, la teoria dell'informazione e l'ottimizzazione bayesiana, fornendo garanzie teoriche per scenari comuni nella pratica con comunicazione vincolata. Sebbene vi sia spazio per miglioramenti in termini di praticità, il suo valore teorico e il significato orientativo per la ricerca futura sono notevoli.