2025-11-25T01:19:18.327955

Distributed Thompson sampling under constrained communication

Zerefa, Ren, Ma et al.

In Bayesian optimization, a black-box function is maximized via the use of a surrogate model. We apply distributed Thompson sampling, using a Gaussian process as a surrogate model, to approach the multi-agent Bayesian optimization problem. In our distributed Thompson sampling implementation, each agent receives sampled points from neighbors, where the communication network is encoded in a graph; each agent utilizes their own Gaussian process to model the objective function. We demonstrate theoretical bounds on Bayesian average regret and Bayesian simple regret, where the bound depends on the structure of the communication graph. Unlike in batch Bayesian optimization, this bound is applicable in cases where the communication graph amongst agents is constrained. When compared to sequential single-agent Thompson sampling, our bound guarantees faster convergence with respect to time as long as the communication graph is connected. We confirm the efficacy of our algorithm with numerical simulations on traditional optimization test functions, demonstrating the significance of graph connectivity on improving regret convergence.

academic

Verteiltes Thompson-Sampling unter eingeschränkter Kommunikation

Grundinformationen

Paper-ID: 2410.15543
Titel: Distributed Thompson sampling under constrained communication
Autoren: Saba Zerefa, Zhaolin Ren, Haitong Ma, Na Li (Harvard School of Engineering and Applied Sciences)
Klassifizierung: cs.LG cs.SY eess.SY math.OC stat.ML
Veröffentlichungsdatum: 1. Januar 2025 (arXiv v3)
Paper-Link: https://arxiv.org/abs/2410.15543

Zusammenfassung

Diese Arbeit untersucht das Problem der Multi-Agent-Bayesschen Optimierung unter Kommunikationsbeschränkungen. Die Autoren schlagen einen verteilten Thompson-Sampling-Algorithmus vor, der Gaußsche Prozesse als Surrogatmodell verwendet. Bei dieser Implementierung empfängt jeder Agent Stichprobenpunkte von Nachbarn, wobei das Kommunikationsnetzwerk durch eine Graphstruktur kodiert wird; jeder Agent nutzt seinen eigenen Gaußschen Prozess zur Modellierung der Zielfunktion. Das Papier beweist theoretische Schranken für die Bayessche durchschnittliche Reue und die Bayessche einfache Reue, wobei diese Schranken von der Struktur des Kommunikationsgraphen abhängen. Im Gegensatz zur Batch-Bayesschen Optimierung gelten diese Schranken für Fälle mit eingeschränktem Kommunikationsgraphen zwischen Agenten. Im Vergleich zum sequenziellen Single-Agent-Thompson-Sampling garantiert der Algorithmus schnellere zeitliche Konvergenz, solange der Kommunikationsgraph zusammenhängend ist.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Arbeit ist die Black-Box-Funktionsoptimierung in Multi-Agent-Systemen mit Kommunikationsbeschränkungen. Konkret:

Black-Box-Stochastische Optimierungsherausforderung: Wenn die Zielfunktion nicht explizit bekannt ist und nur durch verrauschte Bewertungen zugänglich ist, muss das Maximum der Funktion gefunden werden
Multi-Agent-Kooperationsbedarf: Mehrere Agenten können die Zielfunktion parallel abfragen, aber ihre gegenseitige Kommunikation kann eingeschränkt sein
Realismus von Kommunikationsbeschränkungen: In praktischen Anwendungen (wie Multi-Roboter-Quellensuche, Sensornetzwerke) können Agenten möglicherweise nicht auf Informationen aller anderen Agenten zugreifen

Forschungsbedeutung

Dieses Problem hat breite Anwendungen in mehreren wichtigen Bereichen:

Hyperparameter-Optimierung im maschinellen Lernen
Simulationsbasierte Optimierung
Experimentelles Design
Multi-Roboter-Systeme
Sensornetzwerk-Optimierung

Einschränkungen bestehender Methoden

Zentralisierte Ansätze nicht anwendbar: Erfordern einen zentralen Koordinator zur Verwaltung aller Agent-Daten, was in verteilten Szenarien unrealistisch ist
Zu starke Annahmen bei Batch-Bayesscher Optimierung: Annahme, dass alle Agenten auf dieselben Informationen zugreifen können, entspricht nicht der Realität mit Kommunikationsbeschränkungen
Bestehende theoretische Garantien erfordern strenge Bedingungen: Frühere Literatur zur verteilten Bayesschen Optimierung mit theoretischen Garantien erfordert vollständig verbundene Kommunikationsgraphen

Forschungsmotivation

Der Ausgangspunkt der Autoren ist die Entwicklung eines verteilten Bayesschen Optimierungsalgorithmus, der unter beliebigen Kommunikationsgraphstrukturen funktioniert und entsprechende theoretische Garantien bietet.

Kernbeiträge

Verteilter Thompson-Sampling-Algorithmus: Ein neuer Algorithmus für das Problem der verteilten Bayesschen Optimierung unter Kommunikationsbeschränkungen
Etablierung theoretischer Schranken:
- Bayessche durchschnittliche Reue-Schranke: $\tilde{O}\left(\sqrt{\frac{\theta(G)}{\sqrt{Mt}}}\right)$
- Bayessche einfache Reue-Schranke: $\tilde{O}\left(\sqrt{\frac{1}{t|V_{max}|}}\right)$
Analyse der Graphstruktur-Abhängigkeit: Schranken hängen von der Clique-Cover-Zahl $\theta(G)$ des Kommunikationsgraphen und der maximalen Clique-Größe $|V_{max}|$ ab
Konvergenzgarantie: Beweis schnellerer Konvergenz im Vergleich zu sequenziellem Single-Agent-Verfahren bei zusammenhängendem Kommunikationsgraph
Numerische Validierung: Validierung des Algorithmus auf Standard-Optimierungstestfunktionen

Methodische Details

Aufgabendefinition

Für eine kompakte Menge $X \subset \mathbb{R}^d$ betrachten wir eine unbekannte stetige Funktion $f: X \rightarrow \mathbb{R}$ , mit dem Ziel, ihr Maximum zu finden. Es gibt $M$ Agenten, von denen jeder $f$ abfragen kann und verrauschte Beobachtungen $y = f(x) + \epsilon$ erhält, wobei $\epsilon \sim \mathcal{N}(0, \sigma_\epsilon^2)$ .

Das Kommunikationsnetzwerk wird durch einen Graphen $G = (V,E)$ beschrieben, wobei $|V| = M$ und eine Kante $(i,j) \in E$ bedeutet, dass Agent $i$ und $j$ kommunizieren können. Die Daten, auf die Agent $i$ zur Zeit $t$ zugreifen kann, sind $D_{t,i} = \{(x_{\tau,j}, y_{\tau,j})\}_{j \in \mathcal{N}(i) \cup \{i\}, \tau < t}$ .

Modellarchitektur

Gaußsche Prozess-Modellierung

Jeder Agent $i$ verwendet einen unabhängigen Gaußschen Prozess $GP_{t,i}$ zur Modellierung der Zielfunktion: $f | \mathcal{F}_{D_{t,i}} \sim GP_{t,i}(\mu_{D_{t,i}}(x), k_{D_{t,i}}(x,x'))$

Wobei:

$\mu_{D_t}(x) = k_t(x)^T(K_{D_t} + \sigma_n^2 I)^{-1}y_{D_t}$
$k_{D_t}(x,x') = k(x,x') - k_{D_t}(x)^T(K_{D_t} + \sigma_n^2 I)^{-1}k_{D_t}(x')$

Verteilter Thompson-Sampling-Algorithmus

Algorithmus 1: Verteiltes Thompson-Sampling

1. Setze GP-Prior für f
2. Initialisierung: Für i=1,...,M, setze initiale Daten D_{1,i} und GP_{0,i}
3. Für t=1,...,T:
   Für i=1,...,M:
   a) Aktualisiere posterioren GP_{t,i} basierend auf D_{t,i}
   b) Stichprobe Funktionsrealisierung: f̂_{t,i} ~ GP_{t,i}
   c) Wähle Abfragepunkt: x_{t,i} = argmax_x f̂_{t,i}(x)
   d) Beobachte y_{t,i}
   e) Übertrage (x_{t,i}, y_{t,i}) an Nachbarn
   f) Sammle Bewertungen von Nachbarn C_{t,i}
   g) Aktualisiere Datenverlauf: D_{t+1,i} = D_{t,i} ∪ C_{t,i} ∪ {(x_{t,i}, y_{t,i})}

Technische Innovationen

Design ohne zentralen Koordinator: Jeder Agent verwaltet unabhängig sein eigenes GP-Modell und vermeidet Engpässe zentralisierter Methoden
Nutzung der Kommunikationsgraphstruktur: Die theoretische Analyse zerlegt den Kommunikationsgraphen geschickt in disjunkte Cliquen und analysiert die Leistung jeder Clique separat
Informationstheoretischer Analyserahmen: Nutzt informationstheoretische Konzepte wie maximale Informationsverstärkung (MIG) zur Begrenzung der Algorithmusleistung

Experimentelle Einrichtung

Testfunktionen

Zwei Standard-Optimierungstestfunktionen werden verwendet:

Rosenbrock-Funktion: $f(x,y) = (1-x)^2 + 100(y-x^2)^2$ $f (x, y) = (1 - x)^{2} + 100 (y - x^{2})^{2}$
- Charakteristika: Enthält ein großes Tal, globales Minimum liegt darin
Ackley-Funktion: $f(x,y) = -20\exp(-0.2\sqrt{\frac{x^2+y^2}{2}}) - \exp(\frac{1}{2}(\cos(2\pi x) + \cos(2\pi y))) + 20 + e$ $f (x, y) = - 20 exp (- 0.2 \frac{x ^{2} + y ^{2}}{2}) - exp (\frac{1}{2} (cos (2 π x) + cos (2 π y))) + 20 + e$
- Charakteristika: Viele lokale Maxima und ein globales Minimum

Kommunikationsnetzwerk

Verwendung von Erdős-Rényi-Zufallsgraphen mit 20 Agenten und Verbindungswahrscheinlichkeiten von 0,2, 0,4 und 0,6.

Bewertungsmetriken

Momentane durchschnittliche Reue: $R^A(t) = \frac{1}{M}\sum_{i=1}^M (f^* - f(x_{t,i}))$
Momentane einfache Reue: $R^S(t) = f^* - \max_{i,\tau} f(x_{t,i})$
Kumulative Reue: Zeitliche Akkumulation der obigen Metriken

Implementierungsdetails

Verwendung des BOTorch-Pakets
Gaußsche Prozesse mit Matérn-Kernel ( $\nu = 5/2$ )
50 Zeitschritte
Argmax-Berechnung durch Gittersuche

Experimentelle Ergebnisse

Hauptergebnisse

Die experimentellen Ergebnisse unterstützen stark die theoretischen Vorhersagen:

Konnektivitätseffekt: Bei Rosenbrock- und Ackley-Funktionen zeigen Graphen mit höherer Verbindungswahrscheinlichkeit (0,6 > 0,4 > 0,2) bessere Reue-Konvergenzleistung
Konsistente Leistung: Dieser Trend wird bei momentaner einfacher Reue und durchschnittlichen Reue-Metriken verifiziert
Algorithmuseffektivität: Verteiltes Thompson-Sampling findet erfolgreich die Extremwerte beider Testfunktionen

Theoretische Validierung

Numerische Ergebnisse validieren die Kernvorhersagen der theoretischen Analyse:

Höhere Konnektivität des Kommunikationsgraphen führt zu besserer Leistung
Graphstruktur hat signifikanten Einfluss auf Algorithmuskonvergenzgeschwindigkeit

Theoretische Analyse

Hauptsätze

Satz 3.1 (Bayessche durchschnittliche Reue-Schranke): Sei $\{G_k\}_{k \in \{1,...,n\}}$ eine Menge von $n$ disjunkten Cliquen des Kommunikationsgraphen $G$ , dann erfüllt die Bayessche durchschnittliche Reue nach $t$ Schritten: $R_{AB}(t) \leq \frac{1}{M}\sum_{k=1}^n |V_k|\left(\frac{C_1}{t|V_k|} + \sqrt{\frac{C_2\xi_{|V_k|}\beta_t\Psi_{t|V_k|}}{t|V_k|}}\right)$

Korollar 3.2: Wähle $n$ als Clique-Cover-Zahl $\theta(G)$ von Graph $G$ , dann: $R_{AB}(t) = \tilde{O}\left(\sqrt{\frac{\theta(G)}{\sqrt{Mt}}}\right)$

Satz 3.3 (Bayessche einfache Reue-Schranke): Sei $G_s = (V_s, E_s)$ eine maximale Clique von $G$ , dann: $R_{SB}(t) \leq \frac{C_1}{t|V_s|} + \sqrt{\frac{C_2\xi_{|V_s|}\beta_t\Psi_{t|V_s|}}{t|V_s|}}$

Korollar 3.4: Wähle $G_{max}$ als maximale Clique, dann: $R_{SB}(t) = \tilde{O}\left(\sqrt{\frac{1}{t|V_{max}|}}\right)$

Konvergenzanalyse

Im Vergleich zum sequenziellen Single-Agent-Thompson-Sampling mit $\tilde{O}(\sqrt{1/t})$ Reue:

Verbesserungsfaktor durchschnittliche Reue: $\sqrt{\theta(G)/M}$
Verbesserungsfaktor einfache Reue: $\sqrt{1/|V_{max}|}$

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Algorithmuseffektivität: Der vorgeschlagene verteilte Thompson-Sampling-Algorithmus kann das Problem der Multi-Agent-Bayesschen Optimierung unter Kommunikationsbeschränkungen effektiv lösen
Theoretische Garantien: Etabliert Reue-Schranken, die von der Kommunikationsgraphstruktur abhängen, und beweist Konvergenzvorteil bei zusammenhängendem Graph
Bedeutung der Graphstruktur: Die Konnektivität des Kommunikationsgraphen hat signifikanten Einfluss auf die Algorithmusleistung

Einschränkungen

Synchronisationsannahme: Der Algorithmus setzt eine globale synchrone Uhr voraus, was in praktischen Anwendungen möglicherweise unrealistisch ist
Rechenkomplexität: Die Effizienzfrage der Argmax-Berechnung im hochdimensionalen Raum ist nicht vollständig gelöst
Kernfunktionswahl: Die theoretische Analyse hängt von spezifischen Kernfunktionsannahmen ab

Zukünftige Richtungen

Asynchrone Version: Entwicklung von Algorithmusvarianten, die keine globale Synchronisierung benötigen
Effiziente Optimierung: Untersuchung effizienter Berechnungsmethoden für Argmax beim hochdimensionalen Thompson-Sampling
Engere Schranken: Suche nach engeren Reue-Schranken
Praktische Anwendungen: Validierung des Algorithmus in echten Multi-Roboter- oder Sensornetzwerksystemen

Tiefgreifende Bewertung

Stärken

Signifikanter theoretischer Beitrag: Erstmalige theoretische Garantien für verteilte Bayessche Optimierung unter Kommunikationsbeschränkungen
Realistische Problemformulierung: Berücksichtigung des wichtigen praktischen Problems von Kommunikationsbeschränkungen
Rigorose Analyse: Klare Struktur theoretischer Beweise mit tiefgehender Analyse unter Verwendung informationstheoretischer Werkzeuge
Ausreichende experimentelle Unterstützung: Numerische Experimente validieren theoretische Vorhersagen gut

Mängel

Begrenzte Experimentskala: Validierung nur auf 2D-Testfunktionen und kleineren Netzwerken
Unzureichende praktische Überlegungen: Synchronisationsannahme und Effizienzprobleme bei Argmax-Berechnung begrenzen praktische Anwendbarkeit
Fehlende Vergleichsexperimente: Mangel an direktem Vergleich mit anderen verteilten Optimierungsmethoden

Einflussfähigkeit

Hoher theoretischer Wert: Wichtiger Beitrag zur Theorie der verteilten Bayesschen Optimierung
Breite Anwendungsperspektiven: Potenzielle Anwendungswerte in Multi-Robotik, IoT und anderen Bereichen
Starke Erweiterbarkeit: Bietet solide theoretische Grundlage für nachfolgende Forschung

Anwendungsszenarien

Kooperative Multi-Roboter-Optimierungsaufgaben
Parameteroptimierung in verteilten Sensornetzwerken
Kooperatives Lernen in Edge-Computing-Umgebungen
Parallele Optimierungsprobleme mit begrenzter Kommunikationsbandbreite

Gesamtbewertung: Dies ist ein hochqualitatives Papier mit wichtigen theoretischen Beiträgen im Bereich der verteilten Bayesschen Optimierung. Die Autoren kombinieren geschickt Graphentheorie, Informationstheorie und Bayessche Optimierung, um theoretische Garantien für praktisch häufig auftretende Szenarien mit Kommunikationsbeschränkungen bereitzustellen. Obwohl es noch Verbesserungspotenzial in der praktischen Anwendbarkeit gibt, sind sein theoretischer Wert und seine Orientierungsbedeutung für zukünftige Forschung erheblich.