2025-11-25T01:19:18.327955

Distributed Thompson sampling under constrained communication

Zerefa, Ren, Ma et al.

In Bayesian optimization, a black-box function is maximized via the use of a surrogate model. We apply distributed Thompson sampling, using a Gaussian process as a surrogate model, to approach the multi-agent Bayesian optimization problem. In our distributed Thompson sampling implementation, each agent receives sampled points from neighbors, where the communication network is encoded in a graph; each agent utilizes their own Gaussian process to model the objective function. We demonstrate theoretical bounds on Bayesian average regret and Bayesian simple regret, where the bound depends on the structure of the communication graph. Unlike in batch Bayesian optimization, this bound is applicable in cases where the communication graph amongst agents is constrained. When compared to sequential single-agent Thompson sampling, our bound guarantees faster convergence with respect to time as long as the communication graph is connected. We confirm the efficacy of our algorithm with numerical simulations on traditional optimization test functions, demonstrating the significance of graph connectivity on improving regret convergence.

academic

Muestreo distribuido de Thompson bajo comunicación restringida

Información Básica

ID del Artículo: 2410.15543
Título: Distributed Thompson sampling under constrained communication
Autores: Saba Zerefa, Zhaolin Ren, Haitong Ma, Na Li (Harvard School of Engineering and Applied Sciences)
Clasificación: cs.LG cs.SY eess.SY math.OC stat.ML
Fecha de Publicación: 1 de enero de 2025 (arXiv v3)
Enlace del Artículo: https://arxiv.org/abs/2410.15543

Resumen

Este artículo investiga el problema de optimización bayesiana multiagente bajo condiciones de comunicación restringida. Los autores proponen un algoritmo de muestreo distribuido de Thompson utilizando procesos gaussianos como modelo sustituto. En esta implementación, cada agente recibe puntos de muestreo de sus vecinos, la red de comunicación se codifica mediante una estructura de grafo; cada agente utiliza su propio proceso gaussiano para modelar la función objetivo. El artículo demuestra límites teóricos para el arrepentimiento bayesiano promedio y el arrepentimiento bayesiano simple, cuyos límites dependen de la estructura del grafo de comunicación. A diferencia de la optimización bayesiana por lotes, este límite se aplica cuando el grafo de comunicación entre agentes está restringido. En comparación con el muestreo secuencial de Thompson de un único agente, el algoritmo garantiza una convergencia temporal más rápida siempre que el grafo de comunicación sea conexo.

Antecedentes y Motivación de la Investigación

Definición del Problema

El problema central que este artículo aborda es la optimización de funciones de caja negra en sistemas multiagente con comunicación restringida. Específicamente:

Desafíos de Optimización Estocástica de Caja Negra: Encontrar el máximo de una función cuando la función objetivo no se conoce explícitamente y solo se puede acceder a través de evaluaciones ruidosas
Necesidad de Colaboración Multiagente: Múltiples agentes pueden muestrear la función objetivo en paralelo, pero su comunicación mutua puede estar limitada
Realismo de las Restricciones de Comunicación: En aplicaciones prácticas (como búsqueda de fuentes con múltiples robots, redes de sensores), los agentes pueden no tener acceso a la información de todos los demás agentes

Importancia de la Investigación

Este problema tiene aplicaciones amplias en varios campos importantes:

Ajuste de hiperparámetros en aprendizaje automático
Optimización basada en simulación
Diseño experimental
Sistemas multirobóticos
Optimización de redes de sensores

Limitaciones de Métodos Existentes

Métodos Centralizados No Aplicables: Requieren un coordinador central que gestione los datos de todos los agentes, lo cual es impracticable en escenarios distribuidos
Suposiciones Demasiado Fuertes en Optimización Bayesiana por Lotes: Asumen que todos los agentes tienen acceso a la misma información, lo que no se ajusta a situaciones reales con comunicación restringida
Garantías Teóricas Existentes Exigentes: La literatura anterior de optimización bayesiana distribuida que proporciona garantías teóricas requiere grafos de comunicación completamente conectados

Motivación de la Investigación

El punto de partida de los autores es desarrollar un algoritmo de optimización bayesiana distribuida que funcione bajo estructuras de grafo de comunicación arbitrarias y proporcione garantías teóricas correspondientes.

Contribuciones Principales

Propuesta de Algoritmo de Muestreo Distribuido de Thompson: Diseño de un nuevo algoritmo para el problema de optimización bayesiana multiagente bajo comunicación restringida
Establecimiento de Límites Teóricos:
- Límite de arrepentimiento bayesiano promedio: $\tilde{O}\left(\sqrt{\frac{\theta(G)}{\sqrt{Mt}}}\right)$
- Límite de arrepentimiento bayesiano simple: $\tilde{O}\left(\sqrt{\frac{1}{t|V_{max}|}}\right)$
Análisis de Dependencia de Estructura de Grafo: Los límites dependen del número de cobertura de cliques $\theta(G)$ del grafo de comunicación y del tamaño del subgrafo completo máximo $|V_{max}|$
Garantías de Convergencia: Prueba de convergencia más rápida que el método secuencial de Thompson de un único agente bajo grafos de comunicación conexos
Verificación Numérica: Validación del algoritmo en funciones de prueba de optimización estándar

Explicación Detallada del Método

Definición de la Tarea

Para un conjunto compacto $X \subset \mathbb{R}^d$ , considere una función continua desconocida $f: X \rightarrow \mathbb{R}$ , cuyo objetivo es encontrar su máximo. Suponga que hay $M$ agentes, cada uno puede consultar $f$ y recibir observaciones ruidosas $y = f(x) + \epsilon$ , donde $\epsilon \sim \mathcal{N}(0, \sigma_\epsilon^2)$ .

La red de comunicación se describe mediante un grafo $G = (V,E)$ , donde $|V| = M$ , y una arista $(i,j) \in E$ indica que los agentes $i$ y $j$ pueden comunicarse. Los datos accesibles para el agente $i$ en el tiempo $t$ son $D_{t,i} = \{(x_{\tau,j}, y_{\tau,j})\}_{j \in \mathcal{N}(i) \cup \{i\}, \tau < t}$ .

Arquitectura del Modelo

Modelado con Procesos Gaussianos

Cada agente $i$ utiliza un proceso gaussiano independiente $GP_{t,i}$ para modelar la función objetivo: $f | \mathcal{F}_{D_{t,i}} \sim GP_{t,i}(\mu_{D_{t,i}}(x), k_{D_{t,i}}(x,x'))$

Donde:

$\mu_{D_t}(x) = k_t(x)^T(K_{D_t} + \sigma_n^2 I)^{-1}y_{D_t}$
$k_{D_t}(x,x') = k(x,x') - k_{D_t}(x)^T(K_{D_t} + \sigma_n^2 I)^{-1}k_{D_t}(x')$

Algoritmo de Muestreo Distribuido de Thompson

Algoritmo 1: Muestreo Distribuido de Thompson

1. Establecer prior GP para f
2. Inicialización: para i=1,...,M, establecer datos iniciales D_{1,i} y GP_{0,i}
3. Para t=1,...,T:
   Para i=1,...,M:
   a) Actualizar posterior GP_{t,i} basado en D_{t,i}
   b) Muestrear realización de función: f̂_{t,i} ~ GP_{t,i}
   c) Seleccionar punto de consulta: x_{t,i} = argmax_x f̂_{t,i}(x)
   d) Observar y_{t,i}
   e) Transmitir (x_{t,i}, y_{t,i}) a vecinos
   f) Recopilar evaluaciones C_{t,i} de vecinos
   g) Actualizar historial de datos: D_{t+1,i} = D_{t,i} ∪ C_{t,i} ∪ {(x_{t,i}, y_{t,i})}

Puntos de Innovación Técnica

Diseño sin Coordinador Central: Cada agente mantiene independientemente su propio modelo GP, evitando los cuellos de botella de los métodos centralizados
Utilización de Estructura de Grafo de Comunicación: El análisis teórico descompone ingeniosamente el grafo de comunicación en subgrafos completos disjuntos y analiza el rendimiento de cada subgrafo por separado
Marco de Análisis de Teoría de la Información: Utiliza conceptos de teoría de la información como la ganancia de información máxima (MIG) para delimitar el rendimiento del algoritmo

Configuración Experimental

Funciones de Prueba

Se utilizan dos funciones de prueba de optimización estándar:

Función de Rosenbrock: $f(x,y) = (1-x)^2 + 100(y-x^2)^2$ $f (x, y) = (1 - x)^{2} + 100 (y - x^{2})^{2}$
- Características: Contiene un valle grande, con el mínimo global ubicado en su interior
Función de Ackley: $f(x,y) = -20\exp(-0.2\sqrt{\frac{x^2+y^2}{2}}) - \exp(\frac{1}{2}(\cos(2\pi x) + \cos(2\pi y))) + 20 + e$ $f (x, y) = - 20 exp (- 0.2 \frac{x ^{2} + y ^{2}}{2}) - exp (\frac{1}{2} (cos (2 π x) + cos (2 π y))) + 20 + e$
- Características: Tiene muchos máximos locales y un máximo global

Redes de Comunicación

Se utilizan grafos aleatorios de Erdős-Rényi con 20 agentes y probabilidades de conexión de 0.2, 0.4 y 0.6 respectivamente.

Métricas de Evaluación

Arrepentimiento Promedio Instantáneo: $R^A(t) = \frac{1}{M}\sum_{i=1}^M (f^* - f(x_{t,i}))$
Arrepentimiento Simple Instantáneo: $R^S(t) = f^* - \max_{i,\tau} f(x_{t,i})$
Arrepentimiento Acumulativo: Acumulación temporal de las métricas anteriores

Detalles de Implementación

Implementación utilizando el paquete BOTorch
Procesos gaussianos utilizan kernel de Matérn ( $\nu = 5/2$ )
Ejecución de 50 pasos de tiempo
Cálculo de argmax mediante búsqueda en rejilla

Resultados Experimentales

Resultados Principales

Los resultados experimentales apoyan fuertemente las predicciones teóricas:

Impacto de la Conectividad: En las funciones de Rosenbrock y Ackley, los grafos con mayor probabilidad de conexión (0.6 > 0.4 > 0.2) logran mejor rendimiento de convergencia de arrepentimiento
Desempeño Consistente: Esta tendencia se verifica tanto en métricas de arrepentimiento simple instantáneo como de arrepentimiento promedio
Efectividad del Algoritmo: El muestreo distribuido de Thompson encuentra exitosamente los extremos de ambas funciones de prueba

Verificación Teórica

Los resultados numéricos verifican las predicciones centrales del análisis teórico:

Los grafos de comunicación con mayor conectividad producen mejor rendimiento
La estructura del grafo tiene un impacto significativo en la velocidad de convergencia del algoritmo

Análisis Teórico

Teoremas Principales

Teorema 3.1 (Límite de Arrepentimiento Bayesiano Promedio): Sea $\{G_k\}_{k \in \{1,...,n\}}$ un conjunto de $n$ subgrafos completos disjuntos del grafo de comunicación $G$ , entonces el arrepentimiento bayesiano promedio después de $t$ pasos satisface: $R_{AB}(t) \leq \frac{1}{M}\sum_{k=1}^n |V_k|\left(\frac{C_1}{t|V_k|} + \sqrt{\frac{C_2\xi_{|V_k|}\beta_t\Psi_{t|V_k|}}{t|V_k|}}\right)$

Corolario 3.2: Eligiendo $n$ como el número de cobertura de cliques $\theta(G)$ del grafo $G$ , se obtiene: $R_{AB}(t) = \tilde{O}\left(\sqrt{\frac{\theta(G)}{\sqrt{Mt}}}\right)$

Teorema 3.3 (Límite de Arrepentimiento Bayesiano Simple): Sea $G_s = (V_s, E_s)$ un subgrafo completo de $G$ , entonces: $R_{SB}(t) \leq \frac{C_1}{t|V_s|} + \sqrt{\frac{C_2\xi_{|V_s|}\beta_t\Psi_{t|V_s|}}{t|V_s|}}$

Corolario 3.4: Eligiendo $G_{max}$ como el subgrafo completo máximo, se obtiene: $R_{SB}(t) = \tilde{O}\left(\sqrt{\frac{1}{t|V_{max}|}}\right)$

Análisis de Convergencia

En comparación con el arrepentimiento $\tilde{O}(\sqrt{1/t})$ del muestreo secuencial de Thompson de un único agente:

Factor de mejora de arrepentimiento promedio: $\sqrt{\theta(G)/M}$
Factor de mejora de arrepentimiento simple: $\sqrt{1/|V_{max}|}$

Trabajo Relacionado

Campo de Optimización Bayesiana

Métodos de Agente Único: GP-UCB, Expected Improvement, Thompson Sampling
Métodos por Lotes: Gradiente de Conocimiento Paralelo, Muestreo de Thompson por Lotes
Métodos Multiagente: Principalmente concentrados en métodos centralizados o por lotes bajo suposiciones de conectividad completa

Posicionamiento de la Contribución de este Artículo

Este artículo proporciona por primera vez garantías teóricas para optimización bayesiana distribuida bajo comunicación restringida (grafos no completamente conectados), llenando un vacío importante en el campo.

Conclusiones y Discusión

Conclusiones Principales

Efectividad del Algoritmo: El algoritmo de muestreo distribuido de Thompson propuesto puede resolver efectivamente el problema de optimización bayesiana multiagente bajo comunicación restringida
Garantías Teóricas: Se establecen límites de arrepentimiento que dependen de la estructura del grafo de comunicación, probando las ventajas de convergencia bajo grafos conexos
Importancia de la Estructura del Grafo: La conectividad del grafo de comunicación tiene un impacto significativo en el rendimiento del algoritmo

Limitaciones

Suposición de Sincronización: El algoritmo asume un reloj global sincronizado, lo cual puede no ser realista en aplicaciones prácticas
Complejidad Computacional: El problema de eficiencia del cálculo de argmax en espacios de alta dimensión no se ha resuelto completamente
Selección de Función Kernel: El análisis teórico depende de suposiciones específicas sobre la función kernel

Direcciones Futuras

Versión Asincrónica: Desarrollo de variantes del algoritmo que no requieran sincronización global
Optimización Eficiente: Investigación de métodos eficientes para calcular argmax en muestreo de Thompson de alta dimensión
Límites Más Ajustados: Búsqueda de límites de arrepentimiento más ajustados
Aplicaciones Prácticas: Validación del algoritmo en sistemas reales de múltiples robots o redes de sensores

Evaluación Profunda

Fortalezas

Contribución Teórica Significativa: Primera vez que se proporcionan garantías teóricas para optimización bayesiana distribuida bajo comunicación restringida
Formulación del Problema Práctica: Considera el importante problema de restricciones de comunicación en la realidad
Análisis Riguroso: La prueba teórica tiene estructura clara, utilizando herramientas de teoría de la información para análisis profundo
Apoyo Experimental Suficiente: Los experimentos numéricos verifican bien las predicciones teóricas

Deficiencias

Escala Experimental Limitada: Validación solo en funciones de prueba 2D y redes de escala relativamente pequeña
Consideraciones Prácticas Insuficientes: Las suposiciones de sincronización y los problemas de eficiencia del cálculo de argmax limitan la aplicación práctica
Falta de Experimentos Comparativos: Carencia de comparaciones directas con otros métodos de optimización distribuida

Impacto

Valor Teórico Alto: Contribución importante a la teoría de optimización bayesiana distribuida
Perspectivas de Aplicación Amplias: Valor potencial de aplicación en robótica multiagente, IoT y otros campos
Extensibilidad Fuerte: Proporciona una base teórica sólida para investigaciones posteriores

Escenarios Aplicables

Tareas de optimización colaborativa con múltiples robots
Ajuste de parámetros de redes de sensores distribuidas
Aprendizaje colaborativo en entornos de computación perimetral
Problemas de optimización paralela con ancho de banda de comunicación limitado

Evaluación General: Este es un artículo de alta calidad con contribuciones teóricas importantes en el campo de la optimización bayesiana distribuida. Los autores combinan ingeniosamente la teoría de grafos, teoría de la información y optimización bayesiana, proporcionando garantías teóricas para escenarios de comunicación restringida que son comunes en la práctica. Aunque hay espacio para mejora en aspectos de practicidad, su valor teórico y significado orientador para investigaciones futuras son notables.