Distributed Thompson sampling under constrained communication
Zerefa, Ren, Ma et al.
In Bayesian optimization, a black-box function is maximized via the use of a surrogate model. We apply distributed Thompson sampling, using a Gaussian process as a surrogate model, to approach the multi-agent Bayesian optimization problem. In our distributed Thompson sampling implementation, each agent receives sampled points from neighbors, where the communication network is encoded in a graph; each agent utilizes their own Gaussian process to model the objective function. We demonstrate theoretical bounds on Bayesian average regret and Bayesian simple regret, where the bound depends on the structure of the communication graph. Unlike in batch Bayesian optimization, this bound is applicable in cases where the communication graph amongst agents is constrained. When compared to sequential single-agent Thompson sampling, our bound guarantees faster convergence with respect to time as long as the communication graph is connected. We confirm the efficacy of our algorithm with numerical simulations on traditional optimization test functions, demonstrating the significance of graph connectivity on improving regret convergence.
academic
Échantillonnage Thompson distribué sous communication contrainte
Cet article étudie le problème d'optimisation bayésienne multi-agents sous contraintes de communication. Les auteurs proposent un algorithme d'échantillonnage Thompson distribué utilisant des processus gaussiens comme modèle de substitution. Dans cette implémentation, chaque agent reçoit des points d'échantillonnage de ses voisins, le réseau de communication étant codé par une structure de graphe; chaque agent utilise son propre processus gaussien pour modéliser la fonction objectif. L'article établit des bornes théoriques pour le regret bayésien moyen et le regret bayésien simple, ces bornes dépendant de la structure du graphe de communication. Contrairement à l'optimisation bayésienne par lots, cette borne s'applique aux cas où le graphe de communication entre agents est limité. Par rapport à l'échantillonnage Thompson séquentiel mono-agent, l'algorithme garantit une convergence temporelle plus rapide tant que le graphe de communication est connexe.
Le problème fondamental abordé dans cet article est l'optimisation de boîte noire de fonctions dans les systèmes multi-agents avec communication limitée. Plus précisément:
Défis de l'optimisation stochastique en boîte noire: Trouver le maximum d'une fonction lorsque la fonction objectif n'est pas explicitement connue et ne peut être accédée que par des évaluations bruitées
Besoins de collaboration multi-agents: Plusieurs agents peuvent échantillonner la fonction objectif en parallèle, mais leur communication mutuelle peut être limitée
Réalisme des contraintes de communication: Dans les applications pratiques (comme la recherche de source multi-robots, les réseaux de capteurs), les agents peuvent ne pas avoir accès aux informations de tous les autres agents
Les approches centralisées ne conviennent pas: Nécessitent un coordinateur central pour gérer les données de tous les agents, ce qui n'est pas réaliste dans les scénarios distribués
Les hypothèses de l'optimisation bayésienne par lots sont trop fortes: Supposent que tous les agents ont accès aux mêmes informations, ce qui ne correspond pas à la situation réelle avec communication limitée
Les garanties théoriques existantes sont exigeantes: Les travaux antérieurs fournissant des garanties théoriques pour l'optimisation bayésienne distribuée exigent un graphe de communication complètement connexe
Le point de départ des auteurs est de développer un algorithme d'optimisation bayésienne distribué capable de fonctionner sous une structure de graphe de communication arbitraire, avec des garanties théoriques correspondantes.
Proposition d'un algorithme d'échantillonnage Thompson distribué: Conception d'un nouvel algorithme pour le problème d'optimisation bayésienne multi-agents avec communication limitée
Établissement de bornes théoriques:
Borne de regret bayésien moyen: O~(Mtθ(G))
Borne de regret bayésien simple: O~(t∣Vmax∣1)
Analyse de la dépendance à la structure du graphe: Les bornes dépendent du nombre de couverture de cliques θ(G) et de la taille du plus grand sous-graphe complet ∣Vmax∣
Garanties de convergence: Preuve que sous un graphe de communication connexe, la convergence est plus rapide que la méthode séquentielle mono-agent
Vérification numérique: Validation de l'efficacité de l'algorithme sur des fonctions de test d'optimisation standard
Pour un ensemble compact X⊂Rd, considérons une fonction continue inconnue f:X→R, l'objectif étant de trouver son maximum. Supposons qu'il y ait M agents, chacun pouvant interroger f et recevoir une observation bruitée y=f(x)+ϵ, où ϵ∼N(0,σϵ2).
Le réseau de communication est décrit par un graphe G=(V,E), où ∣V∣=M, et une arête (i,j)∈E indique que les agents i et j peuvent communiquer. Les données accessibles à l'agent i au temps t sont Dt,i={(xτ,j,yτ,j)}j∈N(i)∪{i},τ<t.
1. Initialiser une a priori GP pour f
2. Initialisation: Pour i=1,...,M, initialiser les données D_{1,i} et GP_{0,i}
3. Pour t=1,...,T:
Pour i=1,...,M:
a) Mettre à jour la GP postérieure GP_{t,i} basée sur D_{t,i}
b) Échantillonner une réalisation de fonction: f̂_{t,i} ~ GP_{t,i}
c) Sélectionner le point de requête: x_{t,i} = argmax_x f̂_{t,i}(x)
d) Observer y_{t,i}
e) Diffuser (x_{t,i}, y_{t,i}) aux voisins
f) Collecter les évaluations C_{t,i} des voisins
g) Mettre à jour l'historique des données: D_{t+1,i} = D_{t,i} ∪ C_{t,i} ∪ {(x_{t,i}, y_{t,i})}
Conception sans coordinateur central: Chaque agent maintient indépendamment son propre modèle GP, évitant les goulots d'étranglement des approches centralisées
Exploitation de la structure du graphe de communication: L'analyse théorique décompose astucieusement le graphe de communication en sous-graphes complets disjoints et analyse séparément les performances de chaque sous-graphe
Cadre d'analyse en théorie de l'information: Utilise des concepts de théorie de l'information tels que le gain d'information maximal (MIG) pour borner les performances de l'algorithme
Les résultats expérimentaux soutiennent fortement les prédictions théoriques:
Impact de la connectivité: Sur les fonctions de Rosenbrock et d'Ackley, les graphes avec une probabilité de connexion plus élevée (0,6 > 0,4 > 0,2) obtiennent de meilleures performances de convergence du regret
Performance cohérente: Cette tendance est vérifiée sur les métriques de regret simple instantané et de regret moyen
Efficacité de l'algorithme: L'échantillonnage Thompson distribué trouve avec succès les extrêmes des deux fonctions de test
Théorème 3.1 (Borne de regret bayésien moyen):
Soit {Gk}k∈{1,...,n} l'ensemble de n sous-graphes complets disjoints du graphe de communication G, alors le regret bayésien moyen après t étapes satisfait:
RAB(t)≤M1∑k=1n∣Vk∣(t∣Vk∣C1+t∣Vk∣C2ξ∣Vk∣βtΨt∣Vk∣)
Corollaire 3.2: En choisissant n comme le nombre de couverture de cliques θ(G) du graphe G, on obtient:
RAB(t)=O~(Mtθ(G))
Théorème 3.3 (Borne de regret bayésien simple):
Soit Gs=(Vs,Es) un sous-graphe complet de G, alors:
RSB(t)≤t∣Vs∣C1+t∣Vs∣C2ξ∣Vs∣βtΨt∣Vs∣
Corollaire 3.4: En choisissant Gmax comme le plus grand sous-graphe complet, on obtient:
RSB(t)=O~(t∣Vmax∣1)
Cet article fournit pour la première fois des garanties théoriques pour l'optimisation bayésienne distribuée sous communication limitée (graphe non complètement connexe), comblant un vide important dans ce domaine.
Efficacité de l'algorithme: L'algorithme d'échantillonnage Thompson distribué proposé peut efficacement résoudre le problème d'optimisation bayésienne multi-agents sous communication limitée
Garanties théoriques: Établissement de bornes de regret dépendant de la structure du graphe de communication, prouvant les avantages de convergence sous graphe connexe
Importance de la structure du graphe: La connectivité du graphe de communication a un impact significatif sur les performances de l'algorithme
Échelle expérimentale limitée: Vérification uniquement sur des fonctions de test 2D et des réseaux de petite taille
Considérations pratiques insuffisantes: L'hypothèse de synchronisation et les problèmes d'efficacité du calcul d'argmax limitent les applications pratiques
Manque d'expériences comparatives: Absence de comparaisons directes avec d'autres méthodes d'optimisation distribuée
Optimisation des paramètres de réseaux de capteurs distribués
Apprentissage collaboratif dans les environnements d'informatique en périphérie
Problèmes d'optimisation parallèle avec bande passante de communication limitée
Évaluation globale: Cet article est un travail de haute qualité avec des contributions théoriques importantes dans le domaine de l'optimisation bayésienne distribuée. Les auteurs combinent astucieusement la théorie des graphes, la théorie de l'information et l'optimisation bayésienne, fournissant des garanties théoriques pour les scénarios de communication limitée couramment rencontrés dans la pratique. Bien qu'il y ait encore de la place pour l'amélioration en termes de praticité, sa valeur théorique et son importance directrice pour les recherches futures sont significatifs.