2025-11-25T01:19:18.327955

Distributed Thompson sampling under constrained communication

Zerefa, Ren, Ma et al.
In Bayesian optimization, a black-box function is maximized via the use of a surrogate model. We apply distributed Thompson sampling, using a Gaussian process as a surrogate model, to approach the multi-agent Bayesian optimization problem. In our distributed Thompson sampling implementation, each agent receives sampled points from neighbors, where the communication network is encoded in a graph; each agent utilizes their own Gaussian process to model the objective function. We demonstrate theoretical bounds on Bayesian average regret and Bayesian simple regret, where the bound depends on the structure of the communication graph. Unlike in batch Bayesian optimization, this bound is applicable in cases where the communication graph amongst agents is constrained. When compared to sequential single-agent Thompson sampling, our bound guarantees faster convergence with respect to time as long as the communication graph is connected. We confirm the efficacy of our algorithm with numerical simulations on traditional optimization test functions, demonstrating the significance of graph connectivity on improving regret convergence.
academic

Échantillonnage Thompson distribué sous communication contrainte

Informations de base

  • ID de l'article: 2410.15543
  • Titre: Distributed Thompson sampling under constrained communication
  • Auteurs: Saba Zerefa, Zhaolin Ren, Haitong Ma, Na Li (Harvard School of Engineering and Applied Sciences)
  • Classification: cs.LG cs.SY eess.SY math.OC stat.ML
  • Date de publication: 1er janvier 2025 (arXiv v3)
  • Lien de l'article: https://arxiv.org/abs/2410.15543

Résumé

Cet article étudie le problème d'optimisation bayésienne multi-agents sous contraintes de communication. Les auteurs proposent un algorithme d'échantillonnage Thompson distribué utilisant des processus gaussiens comme modèle de substitution. Dans cette implémentation, chaque agent reçoit des points d'échantillonnage de ses voisins, le réseau de communication étant codé par une structure de graphe; chaque agent utilise son propre processus gaussien pour modéliser la fonction objectif. L'article établit des bornes théoriques pour le regret bayésien moyen et le regret bayésien simple, ces bornes dépendant de la structure du graphe de communication. Contrairement à l'optimisation bayésienne par lots, cette borne s'applique aux cas où le graphe de communication entre agents est limité. Par rapport à l'échantillonnage Thompson séquentiel mono-agent, l'algorithme garantit une convergence temporelle plus rapide tant que le graphe de communication est connexe.

Contexte et motivation de la recherche

Définition du problème

Le problème fondamental abordé dans cet article est l'optimisation de boîte noire de fonctions dans les systèmes multi-agents avec communication limitée. Plus précisément:

  1. Défis de l'optimisation stochastique en boîte noire: Trouver le maximum d'une fonction lorsque la fonction objectif n'est pas explicitement connue et ne peut être accédée que par des évaluations bruitées
  2. Besoins de collaboration multi-agents: Plusieurs agents peuvent échantillonner la fonction objectif en parallèle, mais leur communication mutuelle peut être limitée
  3. Réalisme des contraintes de communication: Dans les applications pratiques (comme la recherche de source multi-robots, les réseaux de capteurs), les agents peuvent ne pas avoir accès aux informations de tous les autres agents

Importance de la recherche

Ce problème a des applications largement répandues dans plusieurs domaines importants:

  • Optimisation des hyperparamètres en apprentissage automatique
  • Optimisation basée sur la simulation
  • Conception expérimentale
  • Systèmes multi-robots
  • Optimisation des réseaux de capteurs

Limitations des méthodes existantes

  1. Les approches centralisées ne conviennent pas: Nécessitent un coordinateur central pour gérer les données de tous les agents, ce qui n'est pas réaliste dans les scénarios distribués
  2. Les hypothèses de l'optimisation bayésienne par lots sont trop fortes: Supposent que tous les agents ont accès aux mêmes informations, ce qui ne correspond pas à la situation réelle avec communication limitée
  3. Les garanties théoriques existantes sont exigeantes: Les travaux antérieurs fournissant des garanties théoriques pour l'optimisation bayésienne distribuée exigent un graphe de communication complètement connexe

Motivation de la recherche

Le point de départ des auteurs est de développer un algorithme d'optimisation bayésienne distribué capable de fonctionner sous une structure de graphe de communication arbitraire, avec des garanties théoriques correspondantes.

Contributions principales

  1. Proposition d'un algorithme d'échantillonnage Thompson distribué: Conception d'un nouvel algorithme pour le problème d'optimisation bayésienne multi-agents avec communication limitée
  2. Établissement de bornes théoriques:
    • Borne de regret bayésien moyen: O~(θ(G)Mt)\tilde{O}\left(\sqrt{\frac{\theta(G)}{\sqrt{Mt}}}\right)
    • Borne de regret bayésien simple: O~(1tVmax)\tilde{O}\left(\sqrt{\frac{1}{t|V_{max}|}}\right)
  3. Analyse de la dépendance à la structure du graphe: Les bornes dépendent du nombre de couverture de cliques θ(G)\theta(G) et de la taille du plus grand sous-graphe complet Vmax|V_{max}|
  4. Garanties de convergence: Preuve que sous un graphe de communication connexe, la convergence est plus rapide que la méthode séquentielle mono-agent
  5. Vérification numérique: Validation de l'efficacité de l'algorithme sur des fonctions de test d'optimisation standard

Détails de la méthode

Définition de la tâche

Pour un ensemble compact XRdX \subset \mathbb{R}^d, considérons une fonction continue inconnue f:XRf: X \rightarrow \mathbb{R}, l'objectif étant de trouver son maximum. Supposons qu'il y ait MM agents, chacun pouvant interroger ff et recevoir une observation bruitée y=f(x)+ϵy = f(x) + \epsilon, où ϵN(0,σϵ2)\epsilon \sim \mathcal{N}(0, \sigma_\epsilon^2).

Le réseau de communication est décrit par un graphe G=(V,E)G = (V,E), où V=M|V| = M, et une arête (i,j)E(i,j) \in E indique que les agents ii et jj peuvent communiquer. Les données accessibles à l'agent ii au temps tt sont Dt,i={(xτ,j,yτ,j)}jN(i){i},τ<tD_{t,i} = \{(x_{\tau,j}, y_{\tau,j})\}_{j \in \mathcal{N}(i) \cup \{i\}, \tau < t}.

Architecture du modèle

Modélisation par processus gaussien

Chaque agent ii utilise un processus gaussien indépendant GPt,iGP_{t,i} pour modéliser la fonction objectif: fFDt,iGPt,i(μDt,i(x),kDt,i(x,x))f | \mathcal{F}_{D_{t,i}} \sim GP_{t,i}(\mu_{D_{t,i}}(x), k_{D_{t,i}}(x,x'))

Où:

  • μDt(x)=kt(x)T(KDt+σn2I)1yDt\mu_{D_t}(x) = k_t(x)^T(K_{D_t} + \sigma_n^2 I)^{-1}y_{D_t}
  • kDt(x,x)=k(x,x)kDt(x)T(KDt+σn2I)1kDt(x)k_{D_t}(x,x') = k(x,x') - k_{D_t}(x)^T(K_{D_t} + \sigma_n^2 I)^{-1}k_{D_t}(x')

Algorithme d'échantillonnage Thompson distribué

Algorithme 1: Échantillonnage Thompson distribué

1. Initialiser une a priori GP pour f
2. Initialisation: Pour i=1,...,M, initialiser les données D_{1,i} et GP_{0,i}
3. Pour t=1,...,T:
   Pour i=1,...,M:
   a) Mettre à jour la GP postérieure GP_{t,i} basée sur D_{t,i}
   b) Échantillonner une réalisation de fonction: f̂_{t,i} ~ GP_{t,i}
   c) Sélectionner le point de requête: x_{t,i} = argmax_x f̂_{t,i}(x)
   d) Observer y_{t,i}
   e) Diffuser (x_{t,i}, y_{t,i}) aux voisins
   f) Collecter les évaluations C_{t,i} des voisins
   g) Mettre à jour l'historique des données: D_{t+1,i} = D_{t,i} ∪ C_{t,i} ∪ {(x_{t,i}, y_{t,i})}

Points d'innovation technique

  1. Conception sans coordinateur central: Chaque agent maintient indépendamment son propre modèle GP, évitant les goulots d'étranglement des approches centralisées
  2. Exploitation de la structure du graphe de communication: L'analyse théorique décompose astucieusement le graphe de communication en sous-graphes complets disjoints et analyse séparément les performances de chaque sous-graphe
  3. Cadre d'analyse en théorie de l'information: Utilise des concepts de théorie de l'information tels que le gain d'information maximal (MIG) pour borner les performances de l'algorithme

Configuration expérimentale

Fonctions de test

Deux fonctions de test d'optimisation standard sont utilisées:

  1. Fonction de Rosenbrock: f(x,y)=(1x)2+100(yx2)2f(x,y) = (1-x)^2 + 100(y-x^2)^2
    • Caractéristique: Contient une grande vallée, le minimum global se trouve en son sein
  2. Fonction d'Ackley: f(x,y)=20exp(0.2x2+y22)exp(12(cos(2πx)+cos(2πy)))+20+ef(x,y) = -20\exp(-0.2\sqrt{\frac{x^2+y^2}{2}}) - \exp(\frac{1}{2}(\cos(2\pi x) + \cos(2\pi y))) + 20 + e
    • Caractéristique: Possède de nombreux maxima locaux et un maximum global

Réseaux de communication

Graphes aléatoires d'Erdős-Rényi utilisés, contenant 20 agents, avec des probabilités de connexion respectivement de 0,2, 0,4 et 0,6.

Métriques d'évaluation

  1. Regret moyen instantané: RA(t)=1Mi=1M(ff(xt,i))R^A(t) = \frac{1}{M}\sum_{i=1}^M (f^* - f(x_{t,i}))
  2. Regret simple instantané: RS(t)=fmaxi,τf(xt,i)R^S(t) = f^* - \max_{i,\tau} f(x_{t,i})
  3. Regret cumulatif: Accumulation temporelle des métriques ci-dessus

Détails d'implémentation

  • Implémentation utilisant le package BOTorch
  • Processus gaussien utilisant le noyau de Matérn (ν=5/2\nu = 5/2)
  • Exécution sur 50 étapes temporelles
  • Calcul de l'argmax par recherche en grille

Résultats expérimentaux

Résultats principaux

Les résultats expérimentaux soutiennent fortement les prédictions théoriques:

  1. Impact de la connectivité: Sur les fonctions de Rosenbrock et d'Ackley, les graphes avec une probabilité de connexion plus élevée (0,6 > 0,4 > 0,2) obtiennent de meilleures performances de convergence du regret
  2. Performance cohérente: Cette tendance est vérifiée sur les métriques de regret simple instantané et de regret moyen
  3. Efficacité de l'algorithme: L'échantillonnage Thompson distribué trouve avec succès les extrêmes des deux fonctions de test

Vérification théorique

Les résultats numériques vérifient les prédictions principales de l'analyse théorique:

  • Les graphes de communication hautement connexes offrent de meilleures performances
  • La structure du graphe a un impact significatif sur la vitesse de convergence de l'algorithme

Analyse théorique

Théorèmes principaux

Théorème 3.1 (Borne de regret bayésien moyen): Soit {Gk}k{1,...,n}\{G_k\}_{k \in \{1,...,n\}} l'ensemble de nn sous-graphes complets disjoints du graphe de communication GG, alors le regret bayésien moyen après tt étapes satisfait: RAB(t)1Mk=1nVk(C1tVk+C2ξVkβtΨtVktVk)R_{AB}(t) \leq \frac{1}{M}\sum_{k=1}^n |V_k|\left(\frac{C_1}{t|V_k|} + \sqrt{\frac{C_2\xi_{|V_k|}\beta_t\Psi_{t|V_k|}}{t|V_k|}}\right)

Corollaire 3.2: En choisissant nn comme le nombre de couverture de cliques θ(G)\theta(G) du graphe GG, on obtient: RAB(t)=O~(θ(G)Mt)R_{AB}(t) = \tilde{O}\left(\sqrt{\frac{\theta(G)}{\sqrt{Mt}}}\right)

Théorème 3.3 (Borne de regret bayésien simple): Soit Gs=(Vs,Es)G_s = (V_s, E_s) un sous-graphe complet de GG, alors: RSB(t)C1tVs+C2ξVsβtΨtVstVsR_{SB}(t) \leq \frac{C_1}{t|V_s|} + \sqrt{\frac{C_2\xi_{|V_s|}\beta_t\Psi_{t|V_s|}}{t|V_s|}}

Corollaire 3.4: En choisissant GmaxG_{max} comme le plus grand sous-graphe complet, on obtient: RSB(t)=O~(1tVmax)R_{SB}(t) = \tilde{O}\left(\sqrt{\frac{1}{t|V_{max}|}}\right)

Analyse de convergence

Par rapport au regret O~(1/t)\tilde{O}(\sqrt{1/t}) de l'échantillonnage Thompson séquentiel mono-agent:

  • Facteur d'amélioration du regret moyen: θ(G)/M\sqrt{\theta(G)/M}
  • Facteur d'amélioration du regret simple: 1/Vmax\sqrt{1/|V_{max}|}

Travaux connexes

Domaine de l'optimisation bayésienne

  1. Méthodes mono-agents: GP-UCB, Expected Improvement, Thompson Sampling
  2. Méthodes par lots: Gradient de connaissance parallèle, échantillonnage Thompson par lots
  3. Méthodes multi-agents: Principalement concentrées sur les approches centralisées ou par lots sous hypothèse de connectivité complète

Positionnement de la contribution de cet article

Cet article fournit pour la première fois des garanties théoriques pour l'optimisation bayésienne distribuée sous communication limitée (graphe non complètement connexe), comblant un vide important dans ce domaine.

Conclusion et discussion

Conclusions principales

  1. Efficacité de l'algorithme: L'algorithme d'échantillonnage Thompson distribué proposé peut efficacement résoudre le problème d'optimisation bayésienne multi-agents sous communication limitée
  2. Garanties théoriques: Établissement de bornes de regret dépendant de la structure du graphe de communication, prouvant les avantages de convergence sous graphe connexe
  3. Importance de la structure du graphe: La connectivité du graphe de communication a un impact significatif sur les performances de l'algorithme

Limitations

  1. Hypothèse de synchronisation: L'algorithme suppose une horloge globale synchronisée, ce qui peut ne pas être réaliste dans les applications pratiques
  2. Complexité de calcul: Le problème d'efficacité du calcul d'argmax dans les espaces de haute dimension n'est pas complètement résolu
  3. Choix de la fonction noyau: L'analyse théorique dépend d'hypothèses spécifiques sur la fonction noyau

Directions futures

  1. Versions asynchrones: Développement de variantes d'algorithmes ne nécessitant pas de synchronisation globale
  2. Optimisation efficace: Étude de méthodes de calcul efficaces pour l'argmax dans l'échantillonnage Thompson de haute dimension
  3. Bornes plus serrées: Recherche de bornes de regret plus serrées
  4. Applications pratiques: Vérification de l'algorithme dans des systèmes réels de multi-robots ou de réseaux de capteurs

Évaluation approfondie

Points forts

  1. Contribution théorique significative: Première fourniture de garanties théoriques pour l'optimisation bayésienne distribuée avec communication limitée
  2. Formulation du problème pratique: Considère le problème important des contraintes de communication dans la réalité
  3. Analyse rigoureuse: Preuve théorique bien structurée, analyse approfondie utilisant des outils de théorie de l'information
  4. Support expérimental suffisant: Les expériences numériques vérifient bien les prédictions théoriques

Insuffisances

  1. Échelle expérimentale limitée: Vérification uniquement sur des fonctions de test 2D et des réseaux de petite taille
  2. Considérations pratiques insuffisantes: L'hypothèse de synchronisation et les problèmes d'efficacité du calcul d'argmax limitent les applications pratiques
  3. Manque d'expériences comparatives: Absence de comparaisons directes avec d'autres méthodes d'optimisation distribuée

Valeur d'impact

  1. Valeur théorique élevée: Contribution importante à la théorie de l'optimisation bayésienne distribuée
  2. Perspectives d'application larges: Valeur d'application potentielle dans les domaines des multi-robots, de l'Internet des objets, etc.
  3. Forte extensibilité: Fournit une base théorique solide pour les recherches ultérieures

Scénarios applicables

  • Tâches d'optimisation collaborative multi-robots
  • Optimisation des paramètres de réseaux de capteurs distribués
  • Apprentissage collaboratif dans les environnements d'informatique en périphérie
  • Problèmes d'optimisation parallèle avec bande passante de communication limitée

Évaluation globale: Cet article est un travail de haute qualité avec des contributions théoriques importantes dans le domaine de l'optimisation bayésienne distribuée. Les auteurs combinent astucieusement la théorie des graphes, la théorie de l'information et l'optimisation bayésienne, fournissant des garanties théoriques pour les scénarios de communication limitée couramment rencontrés dans la pratique. Bien qu'il y ait encore de la place pour l'amélioration en termes de praticité, sa valeur théorique et son importance directrice pour les recherches futures sont significatifs.