2025-11-25T01:19:18.327955

Distributed Thompson sampling under constrained communication

Zerefa, Ren, Ma et al.

In Bayesian optimization, a black-box function is maximized via the use of a surrogate model. We apply distributed Thompson sampling, using a Gaussian process as a surrogate model, to approach the multi-agent Bayesian optimization problem. In our distributed Thompson sampling implementation, each agent receives sampled points from neighbors, where the communication network is encoded in a graph; each agent utilizes their own Gaussian process to model the objective function. We demonstrate theoretical bounds on Bayesian average regret and Bayesian simple regret, where the bound depends on the structure of the communication graph. Unlike in batch Bayesian optimization, this bound is applicable in cases where the communication graph amongst agents is constrained. When compared to sequential single-agent Thompson sampling, our bound guarantees faster convergence with respect to time as long as the communication graph is connected. We confirm the efficacy of our algorithm with numerical simulations on traditional optimization test functions, demonstrating the significance of graph connectivity on improving regret convergence.

academic

Échantillonnage Thompson distribué sous communication contrainte

Informations de base

ID de l'article: 2410.15543
Titre: Distributed Thompson sampling under constrained communication
Auteurs: Saba Zerefa, Zhaolin Ren, Haitong Ma, Na Li (Harvard School of Engineering and Applied Sciences)
Classification: cs.LG cs.SY eess.SY math.OC stat.ML
Date de publication: 1er janvier 2025 (arXiv v3)
Lien de l'article: https://arxiv.org/abs/2410.15543

Résumé

Cet article étudie le problème d'optimisation bayésienne multi-agents sous contraintes de communication. Les auteurs proposent un algorithme d'échantillonnage Thompson distribué utilisant des processus gaussiens comme modèle de substitution. Dans cette implémentation, chaque agent reçoit des points d'échantillonnage de ses voisins, le réseau de communication étant codé par une structure de graphe; chaque agent utilise son propre processus gaussien pour modéliser la fonction objectif. L'article établit des bornes théoriques pour le regret bayésien moyen et le regret bayésien simple, ces bornes dépendant de la structure du graphe de communication. Contrairement à l'optimisation bayésienne par lots, cette borne s'applique aux cas où le graphe de communication entre agents est limité. Par rapport à l'échantillonnage Thompson séquentiel mono-agent, l'algorithme garantit une convergence temporelle plus rapide tant que le graphe de communication est connexe.

Contexte et motivation de la recherche

Définition du problème

Le problème fondamental abordé dans cet article est l'optimisation de boîte noire de fonctions dans les systèmes multi-agents avec communication limitée. Plus précisément:

Défis de l'optimisation stochastique en boîte noire: Trouver le maximum d'une fonction lorsque la fonction objectif n'est pas explicitement connue et ne peut être accédée que par des évaluations bruitées
Besoins de collaboration multi-agents: Plusieurs agents peuvent échantillonner la fonction objectif en parallèle, mais leur communication mutuelle peut être limitée
Réalisme des contraintes de communication: Dans les applications pratiques (comme la recherche de source multi-robots, les réseaux de capteurs), les agents peuvent ne pas avoir accès aux informations de tous les autres agents

Importance de la recherche

Ce problème a des applications largement répandues dans plusieurs domaines importants:

Optimisation des hyperparamètres en apprentissage automatique
Optimisation basée sur la simulation
Conception expérimentale
Systèmes multi-robots
Optimisation des réseaux de capteurs

Limitations des méthodes existantes

Les approches centralisées ne conviennent pas: Nécessitent un coordinateur central pour gérer les données de tous les agents, ce qui n'est pas réaliste dans les scénarios distribués
Les hypothèses de l'optimisation bayésienne par lots sont trop fortes: Supposent que tous les agents ont accès aux mêmes informations, ce qui ne correspond pas à la situation réelle avec communication limitée
Les garanties théoriques existantes sont exigeantes: Les travaux antérieurs fournissant des garanties théoriques pour l'optimisation bayésienne distribuée exigent un graphe de communication complètement connexe

Motivation de la recherche

Le point de départ des auteurs est de développer un algorithme d'optimisation bayésienne distribué capable de fonctionner sous une structure de graphe de communication arbitraire, avec des garanties théoriques correspondantes.

Contributions principales

Proposition d'un algorithme d'échantillonnage Thompson distribué: Conception d'un nouvel algorithme pour le problème d'optimisation bayésienne multi-agents avec communication limitée
Établissement de bornes théoriques:
- Borne de regret bayésien moyen: $\tilde{O}\left(\sqrt{\frac{\theta(G)}{\sqrt{Mt}}}\right)$
- Borne de regret bayésien simple: $\tilde{O}\left(\sqrt{\frac{1}{t|V_{max}|}}\right)$
Analyse de la dépendance à la structure du graphe: Les bornes dépendent du nombre de couverture de cliques $\theta(G)$ et de la taille du plus grand sous-graphe complet $|V_{max}|$
Garanties de convergence: Preuve que sous un graphe de communication connexe, la convergence est plus rapide que la méthode séquentielle mono-agent
Vérification numérique: Validation de l'efficacité de l'algorithme sur des fonctions de test d'optimisation standard

Détails de la méthode

Définition de la tâche

Pour un ensemble compact $X \subset \mathbb{R}^d$ , considérons une fonction continue inconnue $f: X \rightarrow \mathbb{R}$ , l'objectif étant de trouver son maximum. Supposons qu'il y ait $M$ agents, chacun pouvant interroger $f$ et recevoir une observation bruitée $y = f(x) + \epsilon$ , où $\epsilon \sim \mathcal{N}(0, \sigma_\epsilon^2)$ .

Le réseau de communication est décrit par un graphe $G = (V,E)$ , où $|V| = M$ , et une arête $(i,j) \in E$ indique que les agents $i$ et $j$ peuvent communiquer. Les données accessibles à l'agent $i$ au temps $t$ sont $D_{t,i} = \{(x_{\tau,j}, y_{\tau,j})\}_{j \in \mathcal{N}(i) \cup \{i\}, \tau < t}$ .

Architecture du modèle

Modélisation par processus gaussien

Chaque agent $i$ utilise un processus gaussien indépendant $GP_{t,i}$ pour modéliser la fonction objectif: $f | \mathcal{F}_{D_{t,i}} \sim GP_{t,i}(\mu_{D_{t,i}}(x), k_{D_{t,i}}(x,x'))$

Où:

$\mu_{D_t}(x) = k_t(x)^T(K_{D_t} + \sigma_n^2 I)^{-1}y_{D_t}$
$k_{D_t}(x,x') = k(x,x') - k_{D_t}(x)^T(K_{D_t} + \sigma_n^2 I)^{-1}k_{D_t}(x')$

Algorithme d'échantillonnage Thompson distribué

Algorithme 1: Échantillonnage Thompson distribué

1. Initialiser une a priori GP pour f
2. Initialisation: Pour i=1,...,M, initialiser les données D_{1,i} et GP_{0,i}
3. Pour t=1,...,T:
   Pour i=1,...,M:
   a) Mettre à jour la GP postérieure GP_{t,i} basée sur D_{t,i}
   b) Échantillonner une réalisation de fonction: f̂_{t,i} ~ GP_{t,i}
   c) Sélectionner le point de requête: x_{t,i} = argmax_x f̂_{t,i}(x)
   d) Observer y_{t,i}
   e) Diffuser (x_{t,i}, y_{t,i}) aux voisins
   f) Collecter les évaluations C_{t,i} des voisins
   g) Mettre à jour l'historique des données: D_{t+1,i} = D_{t,i} ∪ C_{t,i} ∪ {(x_{t,i}, y_{t,i})}

Points d'innovation technique

Conception sans coordinateur central: Chaque agent maintient indépendamment son propre modèle GP, évitant les goulots d'étranglement des approches centralisées
Exploitation de la structure du graphe de communication: L'analyse théorique décompose astucieusement le graphe de communication en sous-graphes complets disjoints et analyse séparément les performances de chaque sous-graphe
Cadre d'analyse en théorie de l'information: Utilise des concepts de théorie de l'information tels que le gain d'information maximal (MIG) pour borner les performances de l'algorithme

Configuration expérimentale

Fonctions de test

Deux fonctions de test d'optimisation standard sont utilisées:

Fonction de Rosenbrock: $f(x,y) = (1-x)^2 + 100(y-x^2)^2$ $f (x, y) = (1 - x)^{2} + 100 (y - x^{2})^{2}$
- Caractéristique: Contient une grande vallée, le minimum global se trouve en son sein
Fonction d'Ackley: $f(x,y) = -20\exp(-0.2\sqrt{\frac{x^2+y^2}{2}}) - \exp(\frac{1}{2}(\cos(2\pi x) + \cos(2\pi y))) + 20 + e$ $f (x, y) = - 20 exp (- 0.2 \frac{x ^{2} + y ^{2}}{2}) - exp (\frac{1}{2} (cos (2 π x) + cos (2 π y))) + 20 + e$
- Caractéristique: Possède de nombreux maxima locaux et un maximum global

Réseaux de communication

Graphes aléatoires d'Erdős-Rényi utilisés, contenant 20 agents, avec des probabilités de connexion respectivement de 0,2, 0,4 et 0,6.

Métriques d'évaluation

Regret moyen instantané: $R^A(t) = \frac{1}{M}\sum_{i=1}^M (f^* - f(x_{t,i}))$
Regret simple instantané: $R^S(t) = f^* - \max_{i,\tau} f(x_{t,i})$
Regret cumulatif: Accumulation temporelle des métriques ci-dessus

Détails d'implémentation

Implémentation utilisant le package BOTorch
Processus gaussien utilisant le noyau de Matérn ( $\nu = 5/2$ )
Exécution sur 50 étapes temporelles
Calcul de l'argmax par recherche en grille

Résultats expérimentaux

Résultats principaux

Les résultats expérimentaux soutiennent fortement les prédictions théoriques:

Impact de la connectivité: Sur les fonctions de Rosenbrock et d'Ackley, les graphes avec une probabilité de connexion plus élevée (0,6 > 0,4 > 0,2) obtiennent de meilleures performances de convergence du regret
Performance cohérente: Cette tendance est vérifiée sur les métriques de regret simple instantané et de regret moyen
Efficacité de l'algorithme: L'échantillonnage Thompson distribué trouve avec succès les extrêmes des deux fonctions de test

Vérification théorique

Les résultats numériques vérifient les prédictions principales de l'analyse théorique:

Les graphes de communication hautement connexes offrent de meilleures performances
La structure du graphe a un impact significatif sur la vitesse de convergence de l'algorithme

Analyse théorique

Théorèmes principaux

Théorème 3.1 (Borne de regret bayésien moyen): Soit $\{G_k\}_{k \in \{1,...,n\}}$ l'ensemble de $n$ sous-graphes complets disjoints du graphe de communication $G$ , alors le regret bayésien moyen après $t$ étapes satisfait: $R_{AB}(t) \leq \frac{1}{M}\sum_{k=1}^n |V_k|\left(\frac{C_1}{t|V_k|} + \sqrt{\frac{C_2\xi_{|V_k|}\beta_t\Psi_{t|V_k|}}{t|V_k|}}\right)$

Corollaire 3.2: En choisissant $n$ comme le nombre de couverture de cliques $\theta(G)$ du graphe $G$ , on obtient: $R_{AB}(t) = \tilde{O}\left(\sqrt{\frac{\theta(G)}{\sqrt{Mt}}}\right)$

Théorème 3.3 (Borne de regret bayésien simple): Soit $G_s = (V_s, E_s)$ un sous-graphe complet de $G$ , alors: $R_{SB}(t) \leq \frac{C_1}{t|V_s|} + \sqrt{\frac{C_2\xi_{|V_s|}\beta_t\Psi_{t|V_s|}}{t|V_s|}}$

Corollaire 3.4: En choisissant $G_{max}$ comme le plus grand sous-graphe complet, on obtient: $R_{SB}(t) = \tilde{O}\left(\sqrt{\frac{1}{t|V_{max}|}}\right)$

Analyse de convergence

Par rapport au regret $\tilde{O}(\sqrt{1/t})$ de l'échantillonnage Thompson séquentiel mono-agent:

Facteur d'amélioration du regret moyen: $\sqrt{\theta(G)/M}$
Facteur d'amélioration du regret simple: $\sqrt{1/|V_{max}|}$

Travaux connexes

Domaine de l'optimisation bayésienne

Méthodes mono-agents: GP-UCB, Expected Improvement, Thompson Sampling
Méthodes par lots: Gradient de connaissance parallèle, échantillonnage Thompson par lots
Méthodes multi-agents: Principalement concentrées sur les approches centralisées ou par lots sous hypothèse de connectivité complète

Positionnement de la contribution de cet article

Cet article fournit pour la première fois des garanties théoriques pour l'optimisation bayésienne distribuée sous communication limitée (graphe non complètement connexe), comblant un vide important dans ce domaine.

Conclusion et discussion

Conclusions principales

Efficacité de l'algorithme: L'algorithme d'échantillonnage Thompson distribué proposé peut efficacement résoudre le problème d'optimisation bayésienne multi-agents sous communication limitée
Garanties théoriques: Établissement de bornes de regret dépendant de la structure du graphe de communication, prouvant les avantages de convergence sous graphe connexe
Importance de la structure du graphe: La connectivité du graphe de communication a un impact significatif sur les performances de l'algorithme

Limitations

Hypothèse de synchronisation: L'algorithme suppose une horloge globale synchronisée, ce qui peut ne pas être réaliste dans les applications pratiques
Complexité de calcul: Le problème d'efficacité du calcul d'argmax dans les espaces de haute dimension n'est pas complètement résolu
Choix de la fonction noyau: L'analyse théorique dépend d'hypothèses spécifiques sur la fonction noyau

Directions futures

Versions asynchrones: Développement de variantes d'algorithmes ne nécessitant pas de synchronisation globale
Optimisation efficace: Étude de méthodes de calcul efficaces pour l'argmax dans l'échantillonnage Thompson de haute dimension
Bornes plus serrées: Recherche de bornes de regret plus serrées
Applications pratiques: Vérification de l'algorithme dans des systèmes réels de multi-robots ou de réseaux de capteurs

Évaluation approfondie

Points forts

Contribution théorique significative: Première fourniture de garanties théoriques pour l'optimisation bayésienne distribuée avec communication limitée
Formulation du problème pratique: Considère le problème important des contraintes de communication dans la réalité
Analyse rigoureuse: Preuve théorique bien structurée, analyse approfondie utilisant des outils de théorie de l'information
Support expérimental suffisant: Les expériences numériques vérifient bien les prédictions théoriques

Insuffisances

Échelle expérimentale limitée: Vérification uniquement sur des fonctions de test 2D et des réseaux de petite taille
Considérations pratiques insuffisantes: L'hypothèse de synchronisation et les problèmes d'efficacité du calcul d'argmax limitent les applications pratiques
Manque d'expériences comparatives: Absence de comparaisons directes avec d'autres méthodes d'optimisation distribuée

Valeur d'impact

Valeur théorique élevée: Contribution importante à la théorie de l'optimisation bayésienne distribuée
Perspectives d'application larges: Valeur d'application potentielle dans les domaines des multi-robots, de l'Internet des objets, etc.
Forte extensibilité: Fournit une base théorique solide pour les recherches ultérieures

Scénarios applicables

Tâches d'optimisation collaborative multi-robots
Optimisation des paramètres de réseaux de capteurs distribués
Apprentissage collaboratif dans les environnements d'informatique en périphérie
Problèmes d'optimisation parallèle avec bande passante de communication limitée

Évaluation globale: Cet article est un travail de haute qualité avec des contributions théoriques importantes dans le domaine de l'optimisation bayésienne distribuée. Les auteurs combinent astucieusement la théorie des graphes, la théorie de l'information et l'optimisation bayésienne, fournissant des garanties théoriques pour les scénarios de communication limitée couramment rencontrés dans la pratique. Bien qu'il y ait encore de la place pour l'amélioration en termes de praticité, sa valeur théorique et son importance directrice pour les recherches futures sont significatifs.