Distributed Thompson sampling under constrained communication
Zerefa, Ren, Ma et al.
In Bayesian optimization, a black-box function is maximized via the use of a surrogate model. We apply distributed Thompson sampling, using a Gaussian process as a surrogate model, to approach the multi-agent Bayesian optimization problem. In our distributed Thompson sampling implementation, each agent receives sampled points from neighbors, where the communication network is encoded in a graph; each agent utilizes their own Gaussian process to model the objective function. We demonstrate theoretical bounds on Bayesian average regret and Bayesian simple regret, where the bound depends on the structure of the communication graph. Unlike in batch Bayesian optimization, this bound is applicable in cases where the communication graph amongst agents is constrained. When compared to sequential single-agent Thompson sampling, our bound guarantees faster convergence with respect to time as long as the communication graph is connected. We confirm the efficacy of our algorithm with numerical simulations on traditional optimization test functions, demonstrating the significance of graph connectivity on improving regret convergence.
academic
Muestreo distribuido de Thompson bajo comunicación restringida
Este artículo investiga el problema de optimización bayesiana multiagente bajo condiciones de comunicación restringida. Los autores proponen un algoritmo de muestreo distribuido de Thompson utilizando procesos gaussianos como modelo sustituto. En esta implementación, cada agente recibe puntos de muestreo de sus vecinos, la red de comunicación se codifica mediante una estructura de grafo; cada agente utiliza su propio proceso gaussiano para modelar la función objetivo. El artículo demuestra límites teóricos para el arrepentimiento bayesiano promedio y el arrepentimiento bayesiano simple, cuyos límites dependen de la estructura del grafo de comunicación. A diferencia de la optimización bayesiana por lotes, este límite se aplica cuando el grafo de comunicación entre agentes está restringido. En comparación con el muestreo secuencial de Thompson de un único agente, el algoritmo garantiza una convergencia temporal más rápida siempre que el grafo de comunicación sea conexo.
El problema central que este artículo aborda es la optimización de funciones de caja negra en sistemas multiagente con comunicación restringida. Específicamente:
Desafíos de Optimización Estocástica de Caja Negra: Encontrar el máximo de una función cuando la función objetivo no se conoce explícitamente y solo se puede acceder a través de evaluaciones ruidosas
Necesidad de Colaboración Multiagente: Múltiples agentes pueden muestrear la función objetivo en paralelo, pero su comunicación mutua puede estar limitada
Realismo de las Restricciones de Comunicación: En aplicaciones prácticas (como búsqueda de fuentes con múltiples robots, redes de sensores), los agentes pueden no tener acceso a la información de todos los demás agentes
Métodos Centralizados No Aplicables: Requieren un coordinador central que gestione los datos de todos los agentes, lo cual es impracticable en escenarios distribuidos
Suposiciones Demasiado Fuertes en Optimización Bayesiana por Lotes: Asumen que todos los agentes tienen acceso a la misma información, lo que no se ajusta a situaciones reales con comunicación restringida
Garantías Teóricas Existentes Exigentes: La literatura anterior de optimización bayesiana distribuida que proporciona garantías teóricas requiere grafos de comunicación completamente conectados
El punto de partida de los autores es desarrollar un algoritmo de optimización bayesiana distribuida que funcione bajo estructuras de grafo de comunicación arbitrarias y proporcione garantías teóricas correspondientes.
Propuesta de Algoritmo de Muestreo Distribuido de Thompson: Diseño de un nuevo algoritmo para el problema de optimización bayesiana multiagente bajo comunicación restringida
Establecimiento de Límites Teóricos:
Límite de arrepentimiento bayesiano promedio: O~(Mtθ(G))
Límite de arrepentimiento bayesiano simple: O~(t∣Vmax∣1)
Análisis de Dependencia de Estructura de Grafo: Los límites dependen del número de cobertura de cliques θ(G) del grafo de comunicación y del tamaño del subgrafo completo máximo ∣Vmax∣
Garantías de Convergencia: Prueba de convergencia más rápida que el método secuencial de Thompson de un único agente bajo grafos de comunicación conexos
Verificación Numérica: Validación del algoritmo en funciones de prueba de optimización estándar
Para un conjunto compacto X⊂Rd, considere una función continua desconocida f:X→R, cuyo objetivo es encontrar su máximo. Suponga que hay M agentes, cada uno puede consultar f y recibir observaciones ruidosas y=f(x)+ϵ, donde ϵ∼N(0,σϵ2).
La red de comunicación se describe mediante un grafo G=(V,E), donde ∣V∣=M, y una arista (i,j)∈E indica que los agentes i y j pueden comunicarse. Los datos accesibles para el agente i en el tiempo t son Dt,i={(xτ,j,yτ,j)}j∈N(i)∪{i},τ<t.
1. Establecer prior GP para f
2. Inicialización: para i=1,...,M, establecer datos iniciales D_{1,i} y GP_{0,i}
3. Para t=1,...,T:
Para i=1,...,M:
a) Actualizar posterior GP_{t,i} basado en D_{t,i}
b) Muestrear realización de función: f̂_{t,i} ~ GP_{t,i}
c) Seleccionar punto de consulta: x_{t,i} = argmax_x f̂_{t,i}(x)
d) Observar y_{t,i}
e) Transmitir (x_{t,i}, y_{t,i}) a vecinos
f) Recopilar evaluaciones C_{t,i} de vecinos
g) Actualizar historial de datos: D_{t+1,i} = D_{t,i} ∪ C_{t,i} ∪ {(x_{t,i}, y_{t,i})}
Diseño sin Coordinador Central: Cada agente mantiene independientemente su propio modelo GP, evitando los cuellos de botella de los métodos centralizados
Utilización de Estructura de Grafo de Comunicación: El análisis teórico descompone ingeniosamente el grafo de comunicación en subgrafos completos disjuntos y analiza el rendimiento de cada subgrafo por separado
Marco de Análisis de Teoría de la Información: Utiliza conceptos de teoría de la información como la ganancia de información máxima (MIG) para delimitar el rendimiento del algoritmo
Los resultados experimentales apoyan fuertemente las predicciones teóricas:
Impacto de la Conectividad: En las funciones de Rosenbrock y Ackley, los grafos con mayor probabilidad de conexión (0.6 > 0.4 > 0.2) logran mejor rendimiento de convergencia de arrepentimiento
Desempeño Consistente: Esta tendencia se verifica tanto en métricas de arrepentimiento simple instantáneo como de arrepentimiento promedio
Efectividad del Algoritmo: El muestreo distribuido de Thompson encuentra exitosamente los extremos de ambas funciones de prueba
Teorema 3.1 (Límite de Arrepentimiento Bayesiano Promedio):
Sea {Gk}k∈{1,...,n} un conjunto de n subgrafos completos disjuntos del grafo de comunicación G, entonces el arrepentimiento bayesiano promedio después de t pasos satisface:
RAB(t)≤M1∑k=1n∣Vk∣(t∣Vk∣C1+t∣Vk∣C2ξ∣Vk∣βtΨt∣Vk∣)
Corolario 3.2: Eligiendo n como el número de cobertura de cliques θ(G) del grafo G, se obtiene:
RAB(t)=O~(Mtθ(G))
Teorema 3.3 (Límite de Arrepentimiento Bayesiano Simple):
Sea Gs=(Vs,Es) un subgrafo completo de G, entonces:
RSB(t)≤t∣Vs∣C1+t∣Vs∣C2ξ∣Vs∣βtΨt∣Vs∣
Corolario 3.4: Eligiendo Gmax como el subgrafo completo máximo, se obtiene:
RSB(t)=O~(t∣Vmax∣1)
Este artículo proporciona por primera vez garantías teóricas para optimización bayesiana distribuida bajo comunicación restringida (grafos no completamente conectados), llenando un vacío importante en el campo.
Efectividad del Algoritmo: El algoritmo de muestreo distribuido de Thompson propuesto puede resolver efectivamente el problema de optimización bayesiana multiagente bajo comunicación restringida
Garantías Teóricas: Se establecen límites de arrepentimiento que dependen de la estructura del grafo de comunicación, probando las ventajas de convergencia bajo grafos conexos
Importancia de la Estructura del Grafo: La conectividad del grafo de comunicación tiene un impacto significativo en el rendimiento del algoritmo
Contribución Teórica Significativa: Primera vez que se proporcionan garantías teóricas para optimización bayesiana distribuida bajo comunicación restringida
Formulación del Problema Práctica: Considera el importante problema de restricciones de comunicación en la realidad
Análisis Riguroso: La prueba teórica tiene estructura clara, utilizando herramientas de teoría de la información para análisis profundo
Apoyo Experimental Suficiente: Los experimentos numéricos verifican bien las predicciones teóricas
Escala Experimental Limitada: Validación solo en funciones de prueba 2D y redes de escala relativamente pequeña
Consideraciones Prácticas Insuficientes: Las suposiciones de sincronización y los problemas de eficiencia del cálculo de argmax limitan la aplicación práctica
Falta de Experimentos Comparativos: Carencia de comparaciones directas con otros métodos de optimización distribuida
Tareas de optimización colaborativa con múltiples robots
Ajuste de parámetros de redes de sensores distribuidas
Aprendizaje colaborativo en entornos de computación perimetral
Problemas de optimización paralela con ancho de banda de comunicación limitado
Evaluación General: Este es un artículo de alta calidad con contribuciones teóricas importantes en el campo de la optimización bayesiana distribuida. Los autores combinan ingeniosamente la teoría de grafos, teoría de la información y optimización bayesiana, proporcionando garantías teóricas para escenarios de comunicación restringida que son comunes en la práctica. Aunque hay espacio para mejora en aspectos de practicidad, su valor teórico y significado orientador para investigaciones futuras son notables.