2025-11-25T01:19:18.327955

Distributed Thompson sampling under constrained communication

Zerefa, Ren, Ma et al.
In Bayesian optimization, a black-box function is maximized via the use of a surrogate model. We apply distributed Thompson sampling, using a Gaussian process as a surrogate model, to approach the multi-agent Bayesian optimization problem. In our distributed Thompson sampling implementation, each agent receives sampled points from neighbors, where the communication network is encoded in a graph; each agent utilizes their own Gaussian process to model the objective function. We demonstrate theoretical bounds on Bayesian average regret and Bayesian simple regret, where the bound depends on the structure of the communication graph. Unlike in batch Bayesian optimization, this bound is applicable in cases where the communication graph amongst agents is constrained. When compared to sequential single-agent Thompson sampling, our bound guarantees faster convergence with respect to time as long as the communication graph is connected. We confirm the efficacy of our algorithm with numerical simulations on traditional optimization test functions, demonstrating the significance of graph connectivity on improving regret convergence.
academic

Campionamento distribuito di Thompson sotto comunicazione vincolata

Informazioni di base

  • ID articolo: 2410.15543
  • Titolo: Distributed Thompson sampling under constrained communication
  • Autori: Saba Zerefa, Zhaolin Ren, Haitong Ma, Na Li (Harvard School of Engineering and Applied Sciences)
  • Classificazione: cs.LG cs.SY eess.SY math.OC stat.ML
  • Data di pubblicazione: 1 gennaio 2025 (arXiv v3)
  • Link articolo: https://arxiv.org/abs/2410.15543

Riassunto

Questo articolo affronta il problema dell'ottimizzazione bayesiana multi-agente sotto vincoli di comunicazione. Gli autori propongono un algoritmo di campionamento distribuito di Thompson utilizzando processi gaussiani come modello surrogato. Nell'implementazione, ogni agente riceve punti campionati dai vicini, la rete di comunicazione è codificata mediante una struttura grafica; ogni agente utilizza il proprio processo gaussiano per modellare la funzione obiettivo. L'articolo stabilisce limiti teorici per il rimpianto bayesiano medio e il rimpianto bayesiano semplice, i quali dipendono dalla struttura del grafo di comunicazione. A differenza dell'ottimizzazione bayesiana in batch, questo limite si applica al caso in cui il grafo di comunicazione tra agenti è vincolato. Rispetto al campionamento sequenziale di Thompson a singolo agente, l'algoritmo garantisce una convergenza temporale più rapida purché il grafo di comunicazione sia connesso.

Contesto di ricerca e motivazione

Definizione del problema

Il problema centrale affrontato in questo articolo è l'ottimizzazione di funzioni black-box in sistemi multi-agente con comunicazione vincolata. Specificamente:

  1. Sfida dell'ottimizzazione stocastica black-box: Trovare il massimo di una funzione quando la funzione obiettivo non è esplicitamente nota e accessibile solo attraverso valutazioni rumorose
  2. Esigenza di cooperazione multi-agente: Più agenti possono campionare la funzione obiettivo in parallelo, ma la comunicazione tra loro potrebbe essere limitata
  3. Realismo dei vincoli di comunicazione: In applicazioni pratiche (come la ricerca distribuita di sorgenti con robot multipli, reti di sensori), gli agenti potrebbero non avere accesso alle informazioni di tutti gli altri agenti

Importanza della ricerca

Questo problema ha ampie applicazioni in diversi campi importanti:

  • Ottimizzazione degli iperparametri nell'apprendimento automatico
  • Ottimizzazione basata su simulazione
  • Progettazione sperimentale
  • Sistemi multi-robot
  • Ottimizzazione di reti di sensori

Limitazioni dei metodi esistenti

  1. Inadeguatezza degli approcci centralizzati: Richiedono un coordinatore centrale per gestire i dati di tutti gli agenti, impraticabile in scenari distribuiti
  2. Ipotesi troppo forti nell'ottimizzazione bayesiana in batch: Presuppongono che tutti gli agenti abbiano accesso alle stesse informazioni, non conforme a situazioni reali con comunicazione vincolata
  3. Garanzie teoriche precedenti troppo esigenti: La letteratura precedente sulla ottimizzazione bayesiana distribuita che fornisce garanzie teoriche richiede grafi di comunicazione completamente connessi

Motivazione della ricerca

Il punto di partenza degli autori è sviluppare un algoritmo di ottimizzazione bayesiana distribuita che funzioni con strutture di grafo di comunicazione arbitrarie e fornisca garanzie teoriche corrispondenti.

Contributi principali

  1. Proposta di algoritmo di campionamento distribuito di Thompson: Nuovo algoritmo progettato per il problema di ottimizzazione bayesiana multi-agente con comunicazione vincolata
  2. Stabilimento di limiti teorici:
    • Limite di rimpianto bayesiano medio: O~(θ(G)Mt)\tilde{O}\left(\sqrt{\frac{\theta(G)}{\sqrt{Mt}}}\right)
    • Limite di rimpianto bayesiano semplice: O~(1tVmax)\tilde{O}\left(\sqrt{\frac{1}{t|V_{max}|}}\right)
  3. Analisi della dipendenza dalla struttura grafica: I limiti dipendono dal numero di copertura di clique θ(G)\theta(G) del grafo di comunicazione e dalla dimensione della massima sottoclique Vmax|V_{max}|
  4. Garanzie di convergenza: Prova che con grafo di comunicazione connesso l'algoritmo converge più velocemente del metodo sequenziale a singolo agente
  5. Verifica numerica: Validazione dell'algoritmo su funzioni di test di ottimizzazione standard

Dettagli del metodo

Definizione del compito

Per un insieme compatto XRdX \subset \mathbb{R}^d, si consideri una funzione continua sconosciuta f:XRf: X \rightarrow \mathbb{R}, con l'obiettivo di trovare il suo massimo. Siano presenti MM agenti, ciascuno in grado di interrogare ff e ricevere osservazioni rumorose y=f(x)+ϵy = f(x) + \epsilon, dove ϵN(0,σϵ2)\epsilon \sim \mathcal{N}(0, \sigma_\epsilon^2).

La rete di comunicazione è descritta da un grafo G=(V,E)G = (V,E), dove V=M|V| = M, e un arco (i,j)E(i,j) \in E indica che gli agenti ii e jj possono comunicare. I dati accessibili all'agente ii al tempo tt sono Dt,i={(xτ,j,yτ,j)}jN(i){i},τ<tD_{t,i} = \{(x_{\tau,j}, y_{\tau,j})\}_{j \in \mathcal{N}(i) \cup \{i\}, \tau < t}.

Architettura del modello

Modellazione con processo gaussiano

Ogni agente ii utilizza un processo gaussiano indipendente GPt,iGP_{t,i} per modellare la funzione obiettivo: fFDt,iGPt,i(μDt,i(x),kDt,i(x,x))f | \mathcal{F}_{D_{t,i}} \sim GP_{t,i}(\mu_{D_{t,i}}(x), k_{D_{t,i}}(x,x'))

dove:

  • μDt(x)=kt(x)T(KDt+σn2I)1yDt\mu_{D_t}(x) = k_t(x)^T(K_{D_t} + \sigma_n^2 I)^{-1}y_{D_t}
  • kDt(x,x)=k(x,x)kDt(x)T(KDt+σn2I)1kDt(x)k_{D_t}(x,x') = k(x,x') - k_{D_t}(x)^T(K_{D_t} + \sigma_n^2 I)^{-1}k_{D_t}(x')

Algoritmo di campionamento distribuito di Thompson

Algoritmo 1: Campionamento distribuito di Thompson

1. Impostare prior GP per f
2. Inizializzazione: per i=1,...,M, impostare dati iniziali D_{1,i} e GP_{0,i}
3. Per t=1,...,T:
   Per i=1,...,M:
   a) Aggiornare la posteriore GP_{t,i} basata su D_{t,i}
   b) Campionare realizzazione di funzione: f̂_{t,i} ~ GP_{t,i}
   c) Selezionare punto di interrogazione: x_{t,i} = argmax_x f̂_{t,i}(x)
   d) Osservare y_{t,i}
   e) Trasmettere (x_{t,i}, y_{t,i}) ai vicini
   f) Raccogliere valutazioni C_{t,i} dai vicini
   g) Aggiornare storico dati: D_{t+1,i} = D_{t,i} ∪ C_{t,i} ∪ {(x_{t,i}, y_{t,i})}

Innovazioni tecniche

  1. Progettazione senza coordinatore centrale: Ogni agente mantiene indipendentemente il proprio modello GP, evitando i colli di bottiglia dei metodi centralizzati
  2. Utilizzo della struttura del grafo di comunicazione: L'analisi teorica decompone abilmente il grafo di comunicazione in sottoclique disgiunte e analizza separatamente le prestazioni di ciascuna
  3. Quadro di analisi teorica dell'informazione: Utilizza concetti di teoria dell'informazione come il guadagno di informazione massimo (MIG) per delimitare le prestazioni dell'algoritmo

Configurazione sperimentale

Funzioni di test

Utilizzo di due funzioni di test di ottimizzazione standard:

  1. Funzione di Rosenbrock: f(x,y)=(1x)2+100(yx2)2f(x,y) = (1-x)^2 + 100(y-x^2)^2
    • Caratteristica: contiene una grande valle, con il minimo globale situato al suo interno
  2. Funzione di Ackley: f(x,y)=20exp(0.2x2+y22)exp(12(cos(2πx)+cos(2πy)))+20+ef(x,y) = -20\exp(-0.2\sqrt{\frac{x^2+y^2}{2}}) - \exp(\frac{1}{2}(\cos(2\pi x) + \cos(2\pi y))) + 20 + e
    • Caratteristica: possiede molti massimi locali e un massimo globale

Reti di comunicazione

Utilizzo di grafi casuali di Erdős-Rényi, contenenti 20 agenti, con probabilità di connessione rispettivamente di 0,2, 0,4 e 0,6.

Metriche di valutazione

  1. Rimpianto medio istantaneo: RA(t)=1Mi=1M(ff(xt,i))R^A(t) = \frac{1}{M}\sum_{i=1}^M (f^* - f(x_{t,i}))
  2. Rimpianto semplice istantaneo: RS(t)=fmaxi,τf(xt,i)R^S(t) = f^* - \max_{i,\tau} f(x_{t,i})
  3. Rimpianto cumulativo: Accumulo temporale delle metriche precedenti

Dettagli di implementazione

  • Utilizzo del pacchetto BOTorch per l'implementazione
  • Processo gaussiano con kernel di Matérn (ν=5/2\nu = 5/2)
  • Esecuzione per 50 passi temporali
  • Calcolo di argmax mediante ricerca su griglia

Risultati sperimentali

Risultati principali

I risultati sperimentali supportano fortemente le previsioni teoriche:

  1. Effetto della connettività: Sulle funzioni di Rosenbrock e Ackley, i grafi con probabilità di connessione più elevata (0,6 > 0,4 > 0,2) ottengono migliori prestazioni di convergenza del rimpianto
  2. Prestazioni coerenti: Questo trend è verificato sia sulle metriche di rimpianto semplice istantaneo che su quelle di rimpianto medio
  3. Efficacia dell'algoritmo: Il campionamento distribuito di Thompson ha trovato con successo gli estremi delle due funzioni di test

Verifica teorica

I risultati numerici verificano le previsioni centrali dell'analisi teorica:

  • Grafi di comunicazione con connettività più elevata portano a prestazioni migliori
  • La struttura del grafo ha un impatto significativo sulla velocità di convergenza dell'algoritmo

Analisi teorica

Teoremi principali

Teorema 3.1 (Limite di rimpianto bayesiano medio): Sia {Gk}k{1,...,n}\{G_k\}_{k \in \{1,...,n\}} l'insieme di nn sottoclique disgiunte del grafo di comunicazione GG, allora il rimpianto bayesiano medio dopo tt passi soddisfa: RAB(t)1Mk=1nVk(C1tVk+C2ξVkβtΨtVktVk)R_{AB}(t) \leq \frac{1}{M}\sum_{k=1}^n |V_k|\left(\frac{C_1}{t|V_k|} + \sqrt{\frac{C_2\xi_{|V_k|}\beta_t\Psi_{t|V_k|}}{t|V_k|}}\right)

Corollario 3.2: Scegliendo nn come il numero di copertura di clique θ(G)\theta(G) del grafo GG, si ottiene: RAB(t)=O~(θ(G)Mt)R_{AB}(t) = \tilde{O}\left(\sqrt{\frac{\theta(G)}{\sqrt{Mt}}}\right)

Teorema 3.3 (Limite di rimpianto bayesiano semplice): Sia Gs=(Vs,Es)G_s = (V_s, E_s) una sottoclique di GG, allora: RSB(t)C1tVs+C2ξVsβtΨtVstVsR_{SB}(t) \leq \frac{C_1}{t|V_s|} + \sqrt{\frac{C_2\xi_{|V_s|}\beta_t\Psi_{t|V_s|}}{t|V_s|}}

Corollario 3.4: Scegliendo GmaxG_{max} come la massima sottoclique, si ottiene: RSB(t)=O~(1tVmax)R_{SB}(t) = \tilde{O}\left(\sqrt{\frac{1}{t|V_{max}|}}\right)

Analisi di convergenza

Rispetto al rimpianto O~(1/t)\tilde{O}(\sqrt{1/t}) del campionamento sequenziale di Thompson a singolo agente:

  • Fattore di miglioramento del rimpianto medio: θ(G)/M\sqrt{\theta(G)/M}
  • Fattore di miglioramento del rimpianto semplice: 1/Vmax\sqrt{1/|V_{max}|}

Lavori correlati

Campo dell'ottimizzazione bayesiana

  1. Metodi a singolo agente: GP-UCB, Expected Improvement, Thompson Sampling
  2. Metodi in batch: Parallel Knowledge Gradient, Batch Thompson Sampling
  3. Metodi multi-agente: Principalmente concentrati su metodi centralizzati o in batch sotto ipotesi di connettività completa

Posizionamento del contributo di questo articolo

Questo articolo fornisce per la prima volta garanzie teoriche per l'ottimizzazione bayesiana distribuita sotto comunicazione vincolata (grafo non completamente connesso), colmando un importante vuoto in questo campo.

Conclusioni e discussione

Conclusioni principali

  1. Efficacia dell'algoritmo: L'algoritmo di campionamento distribuito di Thompson proposto può risolvere efficacemente il problema di ottimizzazione bayesiana multi-agente con comunicazione vincolata
  2. Garanzie teoriche: Stabilisce limiti di rimpianto dipendenti dalla struttura del grafo di comunicazione, provando i vantaggi di convergenza con grafi connessi
  3. Importanza della struttura del grafo: La connettività del grafo di comunicazione ha un impatto significativo sulle prestazioni dell'algoritmo

Limitazioni

  1. Ipotesi di sincronizzazione: L'algoritmo presuppone un orologio globale sincronizzato, che potrebbe non essere realistico in applicazioni pratiche
  2. Complessità computazionale: Il problema dell'efficienza del calcolo di argmax in spazi ad alta dimensione non è completamente risolto
  3. Scelta della funzione kernel: L'analisi teorica dipende da ipotesi specifiche sulla funzione kernel

Direzioni future

  1. Versione asincrona: Sviluppo di varianti dell'algoritmo che non richiedono sincronizzazione globale
  2. Ottimizzazione efficiente: Ricerca di metodi efficienti per il calcolo di argmax nel campionamento di Thompson ad alta dimensione
  3. Limiti più stretti: Ricerca di limiti di rimpianto più stretti
  4. Applicazioni pratiche: Validazione dell'algoritmo in sistemi reali di robot multipli o reti di sensori

Valutazione approfondita

Punti di forza

  1. Contributo teorico significativo: Fornisce per la prima volta garanzie teoriche per l'ottimizzazione bayesiana distribuita con comunicazione vincolata
  2. Formulazione del problema realistica: Affronta il problema importante dei vincoli di comunicazione nel mondo reale
  3. Analisi rigorosa: La prova teorica ha una struttura chiara e utilizza strumenti di teoria dell'informazione per un'analisi approfondita
  4. Supporto sperimentale adeguato: Gli esperimenti numerici verificano bene le previsioni teoriche

Insufficienze

  1. Scala sperimentale limitata: Validazione solo su funzioni di test 2D e reti di piccola scala
  2. Considerazioni pratiche insufficienti: Le ipotesi di sincronizzazione e i problemi di efficienza del calcolo di argmax limitano l'applicazione pratica
  3. Mancanza di esperimenti comparativi: Assenza di confronti diretti con altri metodi di ottimizzazione distribuita

Impatto

  1. Valore teorico elevato: Contributo importante alla teoria dell'ottimizzazione bayesiana distribuita
  2. Prospettive di applicazione ampie: Potenziale valore di applicazione in robot multipli, IoT e altri campi
  3. Forte estensibilità: Fornisce una base teorica solida per ricerche successive

Scenari applicabili

  • Compiti di ottimizzazione cooperativa con robot multipli
  • Ottimizzazione dei parametri di reti di sensori distribuiti
  • Apprendimento cooperativo in ambienti di edge computing
  • Problemi di ottimizzazione parallela con larghezza di banda di comunicazione limitata

Valutazione complessiva: Questo è un articolo di alta qualità con importanti contributi teorici nel campo dell'ottimizzazione bayesiana distribuita. Gli autori combinano abilmente la teoria dei grafi, la teoria dell'informazione e l'ottimizzazione bayesiana, fornendo garanzie teoriche per scenari comuni nella pratica con comunicazione vincolata. Sebbene vi sia spazio per miglioramenti in termini di praticità, il suo valore teorico e il significato orientativo per la ricerca futura sono notevoli.